2026/2/11 23:06:29
网站建设
项目流程
海洋网站建设性价比高,工商年报网上申报系统官网,wordpress单点登录,百度排行榜小说北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申…北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大学计算机学院研究员、助理教授仉尚航。我们希望具身机器人真正走进真实世界尤其走进每个人的家里帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控物体种类多、摆放杂、随时会变化这让机器人在三维物理世界中「看懂并做好」变得更难。想象一下你下班回到家对家用服务机器人说 「按从左到右的顺序给每盆花浇水喷壶要在每朵花上方 1–5 厘米处停住再浇这样更均匀。」如下图对人来说这很自然但对机器人来说难点不在「浇水」本身而在指令里隐含了大量空间约束既有定性的从左到右、在上方也有定量的1–5 厘米。在杂乱的开放世界场景中让机器人稳定遵循这些约束哪怕对目前最先进的视觉 - 语言 - 动作模型VLA也依然是挑战。一个直接的突破口是让视觉 - 语言模型VLM生成一条满足这些空间约束的 3D 位置序列 —— 空间轨迹Spatial Trace。它相当于一座桥梁既能把「指令在 3D 空间中如何被理解与执行」的过程表达清楚也能进一步用来指导机器人生成可执行的动作轨迹。但空间轨迹生成本质上非常困难因为它需要在 3D 场景里进行多步、带真实尺度约束的推理并且每一步都要同时具备两种关键能力3D 空间指代理解指令中的各种空间关系并在 3D 场景中准确指代定位相关物体例如按「从左到右」依次找到每盆花。3D 空间度量理解现实世界的绝对尺度并做计算例如估计花的物理高度确定其上方 1–5 厘米对应的具体 3D 位置。遗憾的是现有很多 VLM 工作主要集中在 2D 空间推理或 2D 视觉轨迹生成一方面往往弱化了轨迹生成最关键的「多步推理」过程尤其缺少对中间关键对象的显式建模容易导致结果次优另一方面输出多停留在 2D 像素坐标缺乏 3D 指代定位与绝对尺度理解。这也造成了 2D 视觉轨迹与 3D 空间轨迹之间的根本鸿沟。为了解决这一问题北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。RoboTracer 通过全参数微调SFT强化空间信息的精准理解空间感知 / 度量 / 指代并进一步用强化学习微调RFT提升推理与泛化能力最终在开放世界场景中实现可用的 3D 空间轨迹生成。论文链接https://arxiv.org/pdf/2512.13660论文标题RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics项目主页https://zhoues.github.io/RoboTracer/代码仓库https://github.com/Zhoues/RoboTracer评测链接https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench下面是真机实拍的机器人浇花过程包含多步、带真实尺度约束的推理SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了 79.1% 的平均成功率刷新了当前最先进水平。而在研究者提出的高难度空间轨迹生成任务评测基准 TraceSpatial-Bench 上RFT 训练后的 RoboTracer 更是领先所有其他模型比 Gemini-2.5-Pro 高出 36% 的平均准确率优势显著。更关键的是RoboTracer 直接做到「开箱即用」可以灵活集成到不同类型的机器人上比如 UR5 机械臂、G1 仿人机器人等在真实环境中完成复杂、动态、多步骤任务让机器人真正做到「听得懂、看得清、动得准」。RoboTracer 是什么RoboTracer 是一个三维空间理解与推理能力的多模态大模型其拥有单独的图片编码器和支持任意多几何输入绝对深度图相机内参的空间编码器。该模型具备较完备的空间感知推理能力不仅仅可以回答各种空间感知类问答无论是「哪个物体在左边」这样的定性问题还是「这个物体高度是多少」这样的定量问题并且还预测当前场景的尺度缩放因子更厉害的是它还可以基于 3D 空间指代和 3D 空间度量进行复杂的组合式推理最终准确生成精确的空间轨迹如上图逐一从左到右确定每一盆花的 3D 位置及其高度。RoboTracer 的核心是什么为什么相较于以往的方法RoboTracer 不仅可以精确的感知空间而且又可以根据多个空间关系组合泛化进行带真实尺度约束的推理呢其关键因素在于以下几点解耦 (u, v, d) 表达增强多任务学习传统方法直接回归 (x, y, z) 坐标往往要求模型强行根据单目图片预测复杂的相机几何信息比如相机内参导致训练难、精度低。RoboTracer 提出了一种符合具身场景的解法利用 (u, v, d) 进行解耦表达。这种表示法利用图像像素 (u, v) 和深度 d结合已知的相机内参轻松换算真实 3D 坐标。其核心优势在于1. 降低学习门槛不用让 VLM「硬学」复杂的相机几何信息训练更简单精度也更高。2. 数据复用能力更强(u, v, d) 很容易投影到更低维的任务上 —— 去掉 d 就变成 2D 轨迹只保留起点 / 终点又能构造成 2D/3D 的空间指代数据。通用空间编码器与尺度解码器提升绝对尺度感知想要精准定位物体、测量距离模型必须理解「真实世界的尺寸」。但很多只用 RGB 训练的 VLM 缺少绝对尺度概念因此距离 / 尺寸容易估不准。为了解决这一点研究者加入两个关键模块1. 尺度解码器将 SCALE token 直接回归成一个数值尺度因子把「尺度不变的特征」与「真实世界的绝对长度」对应起来。相比分类损失用回归损失监督更能提升对三维真实尺度的感知。2. 通用空间编码器借助前馈式三维度量几何模型提供的强几何先验显著增强模型的空间与尺度理解。它还能按需融合不同几何信息如相机内参、位姿、深度几何信息越多空间表示越精细。该设计带来两点好处1训练更灵活通过灵活输入增强把不同数据集中带尺度标注的信息用起来提升空间学习效果2推理更自适应无需重新训练或改结构就能融合当前可用的几何信息。SFT 增强感知RFT 搭配过程奖励提升推理RoboTracer 采用两阶段训练策略其中 SFT 阶段针对性地提升模型的单步 3D 空间理解 / 空间度量 / 空间指代能力RFT 阶段不仅关注最终轨迹结果的奖励还创新性地设计度量敏感过程奖励这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤如 3D 指代、3D 度量和尺度预测的质量。最终模型增强了多步、带真实尺度约束的推理实现了对复杂空间约束任务的空间轨迹规划。提出 TraceSpatial 数据集教一个多模态大模型从0到1学会生成空间轨迹为了支持前述的 SFT 和 RFT 训练研究团队构建了一个大规模、高质量、带真实尺度的数据集 ——TraceSpatial具有以下几个核心特点场景多样覆盖室内外和桌面环境包含物体和末端执行器两种分别为中心的空间轨迹后者包含 3 种不同的单臂 / 双臂机器人构型。维度丰富包含大量尺度相关数据占 48.2%还附带详细的多步推理过程最高有 9 步为复杂空间轨迹生成提供支持。规模庞大共包含 450 万个样本、3000 万个问答对目前最大 3D 空间数据集。精细标注每个物体都配有层级式描述从「花」这类种类类别到像「左数第一个盆花」这样的精确空间指代确保在复杂场景中也能清晰用文字表述。同时包含大量绝对尺度的几何信息标注比如相机内参、深度图以支持灵活的输入增强。高质量筛选数据经过严格筛选确保标注准确、语义清晰。易于扩展支持从多种来源生成空间轨迹数据包括 2D 图像、3D 扫描数据和机器人操纵视频具备高度扩展性。RoboTracer 到底有多厉害空间理解 / 空间度量 / 空间指代SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了 79.1% 的平均成功率取得了当前最先进水平比 Gemini-2.5-Pro 高出 11% 的平均准确率。空间轨迹评测RFT 训练后的 RoboTracer 在研究者们提出的高难度空间轨迹生成任务评测基准 TraceSpatial-Bench 上更是领先所有其他模型比 Gemini-2.5-Pro 高出 36% 的平均准确率。下面展示一些 RoboTracer 与其它模型输出结果的可视化样例不难发现目前的 VLM 都理解空间关系并且生成 2D 轨迹但是由于绝对深度预测不精确导致生成的空间轨迹往往浮空或者碰撞而 RoboTracer 可以较为精确地预测而且更多的几何输入预测结果更精确。仿真与真机实验在空间操控的机械臂仿真评测中RoboTracer 的表现远超现有的视觉 - 语言 - 动作VLA系统。不仅在模拟环境中成功率遥遥领先面对开放世界中需要多步、带真实尺度约束的推理的复杂任务唯有 RoboTracer 能够完成。更多的实验结果可视化展示包括更多的杂乱场景下的真机 Demo 视频的空间轨迹生成结果详见论文和主页。如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量