2026/2/12 3:42:30
网站建设
项目流程
可以做游戏可以视频约会的网站,树莓派运行wordpress,制作网站需要的软件,apache 重启 wordpress在计算机视觉领域#xff0c;如何让计算机像人类一样#xff0c;仅凭看一眼或几眼照片就能理解三维空间结构#xff0c;是一个核心难题。过去#xff0c;研究人员通常把“单张图片估算深度”、“多张图片重建3D模型”或“视频中的相机定位”看作完全不同的任务#xff0c;…在计算机视觉领域如何让计算机像人类一样仅凭看一眼或几眼照片就能理解三维空间结构是一个核心难题。过去研究人员通常把“单张图片估算深度”、“多张图片重建3D模型”或“视频中的相机定位”看作完全不同的任务分别为它们设计复杂的专用模型。这种做法不仅繁琐而且模型之间很难通用导致现有的统一模型往往结构极其复杂训练难度大效果也不够理想。为了解决这个问题本论文提出了Depth Anything 3 (DA3)模型框架。简单来说它利用一个简单的通用Transformer模型就能从任意数量的图片中同时预测出深度和相机光线信息。这一简洁的设计不仅大大降低了模型复杂度还在相机姿态估计、3D几何重建以及单目深度估计等多个任务上都超越了之前的最先进技术实现了“通吃”且“高精”的效果。一、论文基本信息论文标题Depth Anything 3: Recovering the Visual Space from Any Views作者姓名与单位Haotong Lin, Sili Chen, Bingyi Kang 等ByteDance Seed即字节跳动种子团队论文链接https://arxiv.org/abs/2511.10647uuu二、主要贡献与创新极简的统一架构证明了无需复杂的专用模块仅使用单个标准的普通Transformer如DINOv2即可处理单目、多视图及视频输入。深度-光线最小化表示提出“深度光线Ray”作为核心预测目标替代了复杂的位姿矩阵回归实现了高效且一致的几何恢复。大规模教师-学生训练构建了基于合成数据训练的“教师模型”通过伪标签技术解决了真实世界数据缺乏高质量几何标注的问题。全能的SOTA性能在相机姿态估计、多视图几何重建及视觉渲染等基准测试中均刷新了最新记录甚至反哺提升了单目深度估计能力。三、研究方法与原理该论文提出的Depth Anything 3 (DA3)的核心思路是放弃复杂的任务特定设计利用单个预训练的ViT模型通过输入自适应的注意力机制直接预测每个像素的深度和对应的相机光线Ray从而恢复3D空间。【模型结构图】1. 单一 Transformer 骨干网络 (Single Transformer Backbone)DA3 没有采用复杂的多阶段网络而是直接使用了一个标准的Vision Transformer (ViT)例如预训练好的 DINOv2作为骨干。为了让模型既能处理单张图片也能处理多张图片作者引入了输入自适应跨视图自注意力机制Input-adaptive cross-view self-attention。具体来说对于输入的N NN张图像模型会将它们切分成 Patch Token。在 Transformer 的前L s L_sLs层模型只在每张图像内部进行自注意力计算而在随后的L g L_gLg层模型会交替进行“图像内”和“跨图像”的注意力计算。这种设计使得当输入只有一张图时它自然退化为单目深度估计模型当输入多张图时它能自动进行跨视图的信息交互无需修改网络结构。2. 深度-光线表示法 (Depth-Ray Representation)这是本文最核心的理论创新。传统的相机姿态通常用旋转矩阵R RR和平移向量t tt表示直接回归矩阵很难保证正交性。DA3 提出预测像素级的光线图 (Ray Map)M ∈ R H × W × 6 M \in \mathbb{R}^{H \times W \times 6}M∈RH×W×6。对于每个像素p pp其对应的光线r ( t , d ) r (t, d)r(t,d)包含光心原点t ∈ R 3 t \in \mathbb{R}^3t∈R3和方向d ∈ R 3 d \in \mathbb{R}^3d∈R3。有了深度D ( u , v ) D(u,v)D(u,v)和光线r ( t , d ) r(t,d)r(t,d)世界坐标系下的 3D 点P PP可以通过简单的公式直接得出P t D ( u , v ) ⋅ d P t D(u,v) \cdot dPtD(u,v)⋅d这种表示方法将相机参数隐含在像素级的预测中使得 3D 点云的生成仅需简单的元素级运算保证了多视图几何的一致性。3. 双 DPT 预测头 (Dual-DPT Head)为了从特征中解码出预测结果模型设计了一个Dual-DPT Head。它包含两个分支分别用于预测深度图和光线图。这两个分支共享底层的特征重组Reassemble模块但在融合阶段分开。这确保了深度和光线这两个任务既能共享上下文信息又能保持各自的特征独立性。如果需要显式的相机参数如K , R , t K, R, tK,R,t模型可以通过求解单应性矩阵HomographyH K R HKRHKR来从光线图中恢复。通过最小化转换误差来求解最优单应性H ∗ H^*H∗H ∗ arg min ∣ ∣ H ∣ ∣ 1 ∑ h , w ∣ ∣ H p h , w × M ( h , w , 3 : ) ∣ ∣ H^* \arg \min_{||H||1} \sum_{h,w} ||H p_{h,w} \times M(h,w, 3:)||H∗arg∣∣H∣∣1minh,w∑∣∣Hph,w×M(h,w,3:)∣∣随后通过 RQ 分解即可得到内参和旋转矩阵。4. 教师-学生训练策略 (Teacher-Student Learning)为了让模型成为“通才”需要海量数据。但真实世界的 3D 数据如 LiDAR 扫描往往充满噪声或稀疏。DA3 训练了一个仅在高质量合成数据上训练的单目深度教师模型 (Depth Anything 3 Teacher)。教师模型生成高质量的“相对深度”伪标签。然后利用RANSAC 算法求解缩放因子s ss和偏移量t tt将教师预测的相对深度D ~ \tilde{D}D~对齐到真实世界稀疏的度量深度D DD上( s ^ , t ^ ) arg min s , t ∑ p ∈ Ω m p ∥ s D ~ p t − D p ∥ 2 (\hat{s}, \hat{t}) \arg \min_{s,t} \sum_{p \in \Omega} m_p \| s \tilde{D}_p t - D_p \|^2(s^,t^)args,tminp∈Ω∑mp∥sD~pt−Dp∥2对齐后的深度D T → M D_{T \to M}DT→M既保留了教师模型的几何细节又具备真实数据的物理尺度被用作训练 DA3 的监督信号。四、实验设计与结果分析1. 实验设置数据集为了全面评估作者构建了一个新的Visual Geometry Benchmark包含 5 个数据集HiRoom合成室内、ETH3D高精度激光扫描、DTU物体级、7Scenes室内视频和ScanNet大规模室内。评测指标姿态估计使用AUC曲线下面积基于相对旋转和位移误差。几何重建使用F1-Score和Chamfer Distance (CD)评估点云的准确性和完整性。视觉渲染PSNR, SSIM, LPIPS。2. 姿态估计对比实验作者将 DA3 与当前最强的基线模型如 VGGT, DUSt3R, Pi3, MapAnything进行了对比。结果如下表所示分析DA3-Giant 在几乎所有数据集上都取得了压倒性的优势。特别是在 ScanNet 上相对第二名提升了约 33%。即使是参数量仅为 0.36B 的 DA3-Large 版本其性能也普遍优于参数量更大的 VGGT。3. 几何重建对比实验在不给定相机姿态的情况下w/o pose评估模型直接恢复 3D 几何的能力分析DA3 在几何重建精度上刷新了 SOTA。从原文Figure 6的可视化结果可以看出DA3 生成的点云噪声极少平面结构非常平整相比其他方法具有更少的伪影。4. 消融实验为了验证“深度光线”表示的有效性作者对比了不同的预测头组合分析结果表明仅使用“深度光线”的组合即 Minimal Prediction Targets效果最好。增加额外的点云预测或显式的相机头反而没有带来提升这证明了这种极简表示的充分性和优越性。5. 应用Feed-Forward 3DGS作者还将 DA3 作为骨干网络微调用于前馈式 3D 高斯泼溅3DGS生成。实验表明基于 DA3 的模型在DL3DV和Tanks and Temples数据集上的新视图合成质量PSNR/SSIM均优于 pixelSplat 和 MVSplat 等专用模型证明了其强大的几何理解能力能直接转化为高质量的 3D 渲染效果。五、论文结论与评价总结本文提出了Depth Anything 3这是一个极具野心的通用几何基础模型。通过采用极简的“单一 Transformer 深度光线表示”架构并配合大规模合成数据预训练的教师模型进行监督DA3 成功打破了单目、多目与视频任务的壁垒。它不仅在相机姿态估计和 3D 重建精度上大幅超越了现有的 SOTA 方法如 VGGT 和 DUSt3R还证明了强大的几何骨干网络可以显著提升新视图合成NVS的效果。影响与启示统一范式的胜利证明了 3D 视觉任务不需要针对不同输入模态单图/多图/视频设计特定的复杂架构通用的 ViT 配合正确的数据和表示足以解决问题。3D 生成的基础DA3 展示了作为 Feed-forward 3DGS 骨干的潜力这意味着未来的 3D 生成模型可以建立在这样强大的几何理解模型之上而非从零学习几何。合成数据的价值再次强调了高质量合成数据在训练“教师模型”中的关键作用利用合成数据细节好 真实数据多样性的组合是提升模型泛化能力的有效路径。优点设计优雅没有复杂的成本体Cost Volume或多阶段级联模型结构非常干净。性能强悍在多个维度的基准测试上都不仅是“略优”而是显著领先。扩展性强输入自适应机制使其应用场景非常灵活。缺点/局限计算开销虽然架构简单但为了达到 SOTA 效果使用了 1.1B 参数的 Giant 模型且推理时处理高分辨率多视图图像对显存和计算资源要求依然较高。依赖预训练模型的效果很大程度上继承自强大的 DINOv2 预训练特征如果脱离了这个强力的视觉底座单纯的架构优势可能需要重新评估。未来的研究可以关注如何将这种强大的几何能力蒸馏到更轻量级的端侧设备上。 可以进一步探索将动态场景Dynamic Scenes的运动估计更显式地融入该框架目前虽然能处理视频但对复杂动态物体的建模仍有提升空间。