北京白癜风到底能治好吗 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/sfxbdf/以下内容由马拉AI整理,今天为大家带来1月8日arXiv计算机视觉和模式识别相关论文
1、视觉变压器降噪DenoisingVisionTransformers摘要:我们深入研究了视觉转换器(ViT)固有的一个微妙但重大的挑战:这些模型的特征图显示出类似网格的伪影,这对ViT在下游任务中的性能产生了不利影响。我们的研究将这一基本问题追溯到输入阶段的位置嵌入。为了解决这个问题,我们提出了一种新的噪声模型,该模型普遍适用于所有ViT。具体而言,噪声模型将ViT输出分为三个部分:一个没有噪声伪影的语义项和两个以像素位置为条件的伪影相关项。这种分解是通过在每张图像的基础上强制执行与神经场的交叉视图特征一致性来实现的。这种每张图像的优化过程从原始ViT输出中提取无伪影特征,为离线应用程序提供干净的特征。为了扩大我们的解决方案范围以支持在线功能,我们引入了一个可学习的降噪器,可以直接从未处理的ViT输出中预测无伪影特征,从而显示出对新数据的卓越泛化能力,而无需对每张图像进行优化。我们的两阶段方法称为去噪视觉转换器(DVT),不需要重新训练现有的预训练ViT,并且可以立即适用于任何基于Transformer的架构。我们在各种具有代表性的ViT(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估了我们的方法。广泛的评估表明,我们的DVT在跨多个数据集(例如,+3.84mIoU)的语义和几何任务中始终如一地显着改进了现有最先进的通用模型。我们希望我们的研究能够鼓励对ViT设计的重新评估,特别是关于位置嵌入的幼稚使用。链接: