2026/2/4 12:39:34
网站建设
项目流程
企业网站开发所需要的模块,网站运营与管理试卷,广西南宁网站建设哪家好,枣阳网站建设_枣阳山水数码近日#xff0c;西门子与腾讯优图联合研究团队提出AdaptCLIP#xff0c;一种通用视觉异常检测框架。
视觉模型用于工业“缺陷检测”等领域已经相对成熟#xff0c;但当前普遍使用的传统模型在训练时对数据要求较高#xff0c;需要大量的经过精细标注的数据才能训练出理想效…近日西门子与腾讯优图联合研究团队提出AdaptCLIP一种通用视觉异常检测框架。视觉模型用于工业“缺陷检测”等领域已经相对成熟但当前普遍使用的传统模型在训练时对数据要求较高需要大量的经过精细标注的数据才能训练出理想效果。而大模型有望在“零样本/少样本识别”条件下达到与传统模型相当的性能。CLIP是一个全球比较有名的开源视觉-语言基础模型由OpenAI在2021年发布。本研究则在此基础上优化模型性能使其在工业质检与医学影像等复杂真实场景中得以快速上手胜任工作。在工业质检与医学影像等真实场景中异常检测始终面临一个核心矛盾模型既要跨领域泛化又要在几乎没有目标域数据的情况下精确定位细微异常。现实生产中产线频繁换型新产品刚投产缺陷样本极少而异常往往表现为局部、稀疏、小尺度的像素级变化。这使得大量依赖监督学习或目标域微调的方法难以真正落地。近日西门子与腾讯优图联合研究团队提出AdaptCLIP一种通用视觉异常检测框架具有以下亮点单一模型无需目标域微调同时支持图像级异常分类像素级异常分割兼容零样本/少样本推理一、为什么“通用异常检测”一直做不好通用异常检测要求模型在训练域与测试域分布显著不同的前提下仍能稳定检测异常。这一设定暴露了现有方法的结构性瓶颈传统无监督AD方法如PaDiM、PatchCore、重建式模型依赖大量正常样本一旦面对未见类别或新领域性能迅速退化。CLIP驱动的方法虽借助跨模态先验实现零样本检测但代价并不小WinCLIP依赖密集窗口扫描计算与显存开销巨大AnomalyCLIP、AdaCLIP通过修改中间层或引入复杂token削弱了CLIP的原始表征能力InCtrl、PromptAD要么只支持图像级判断要么仍需目标域重新训练。问题归结为一句话如何在不破坏CLIP原有泛化能力的前提下让它真正学会“找异常”二、AdaptCLIP的答案少即是多AdaptCLIP将CLIP视为一种“基础服务模型”不改动其主干结构仅在输入与输出端引入三个轻量适配器视觉适配器Visual Adapter文本适配器Text Adapter提示-查询适配器Prompt-Query Adapter并由两个关键洞见驱动1. 视觉与文本表征不应联合学习而应交替学习2. 少样本对比学习不能只看残差还必须结合上下文信息。△ 图1 AdaptCLIP架构图三、交替学习零样本异常检测的核心机制3.1从CLIP的异常判别说起给定查询图像CLIP视觉编码器输出局部patch token与全局图像token并与“正常/异常”文本嵌入进行相似度比对即可得到图像级异常分数与像素级异常图。但在工业场景中原生CLIP的像素级定位能力明显不足。3.2视觉适配器只做“微调”不做“重塑”视觉适配器分别作用于局部patch token与全局token均采用残差MLP结构对CLIP表征进行轻量自适应调整其中Fiq和fq分别表示CLIP输出的局部patch token和全局图像tokenθvl和θvg为适配器可学习参数。其目标是在固定文本语义空间的前提下使视觉特征更贴合异常检测任务从而显著提升像素级定位能力。3.3文本适配器抛弃prompt工程文本适配器不再依赖人工设计的模板而是直接学习“正常/异常”两类可优化提示嵌入并输入冻结的CLIP文本编码器生成语义表示其中T(·)表示CLIP文本编码器w’α和w’n为最终用于特征比对的异常与正常文本嵌入。这一设计在保留CLIP原有语义结构的同时降低了对prompt经验的依赖。为什么交替学习优于联合学习论文通过消融实验发现在小规模训练数据下联合学习易过拟合。因此AdaptCLIP采用交替优化策略固定文本→优化视觉固定视觉→优化文本循环迭代。该策略在多个工业与医学数据集上显著优于联合学习方案成为零样本异常检测性能提升的关键。四、对比学习少样本场景下的关键补强当可获得少量正常样本时AdaptCLIP启用提示-查询适配器。4.1空间对齐先对齐再比较针对查询图像的每个patch模型在正常样本中搜索欧氏距离最近的patch作为对齐目标从而消除旋转、平移带来的干扰并计算对齐残差特征。4.2残差上下文避免“只见树木不见森林”论文发现仅依赖残差特征虽然能突出差异但容易引入噪声、丢失上下文信息。因此AdaptCLIP将原始查询特征与对齐残差逐元素相加形成联合特征在1-shot设置下引入上下文后在MVTec数据集上的像素级AUPR提升约40%成为少样本性能跃迁的关键因素。4.3从联合特征到异常预测极简分割与分类头在得到融合了上下文与对齐残差的联合特征后AdaptCLIP采用一套轻量输出头完成异常预测。像素级分割联合特征经1×1卷积与若干转置卷积模块上采样至原分辨率生成异常图。图像级分类对联合特征进行平均池化与最大池化融合后输入MLP输出异常分数。推理阶段根据可用信息进行结果融合零样本融合视觉适配器与文本适配器预测少样本在此基础上进一步融合提示-查询适配器结果。五、实验结果跨工业与医疗的一致验证AdaptCLIP在12个公开基准数据集8个工业4个医疗上进行了系统评估覆盖不同成像模态与异常类型。在零样本异常检测场景下AdaptCLIP在MVTec、VisA、BTAD、Real-IAD等工业数据集上图像级AUROC平均达到86.2%SOTA在多类未见产品与跨类别测试中依然保持稳定优势。在医学影像任务中AdaptCLIP在内窥镜数据集Kvasir与Endo的零样本像素级异常分割AUPR平均达到48.7%并在Br35HMRI、COVID-19X-ray等数据集的零样本图像级异常检测中取得平均90.7%的AUROC均显著高于其他现有方法。在少样本设置下随着正常样本数量从1-shot增加至4-shot异常区域的定位逐步细化。提示-查询适配器显著降低了误报区域使异常边界更加清晰。从模型规模与效率来看AdaptCLIP在零样本条件下仅引入约0.6M额外可训练参数对比方法可高达10.7M。在518×518分辨率下零样本条件单张图像推理时间约162 ms兼顾检测精度与实际部署需求。△ 图2 AdaptCLIP在工业与医疗数据上检测结果可视化△ 图3 AdaptCLIP在工业与医疗数据上图像级AUROC分类结果与其他方法对比△ 图4 AdaptCLIP在工业与医疗数据上像素级AUPR分割结果与其他方法对比△ 图5 AdaptCLIP与其他方法对比模型规模与效率可迁移的异常检测AdaptCLIP并未试图“重造一个更大的模型”而是通过交替学习轻量适配上下文感知对比在不破坏CLIP原始能力的前提下实现了真正可迁移的异常检测。它为工业与医疗等开放场景提供了一条清晰路径用最少的结构改动换取最大的泛化收益。