蚂蚁灵波开源LingBot-Map：仅需一个 RGB 摄像头，就能让机器人“理解”真实世界

Post author:思为交互
Post published:2026年 4月 17日
Post category:热点新闻

引言：4月16日，蚂蚁灵波科技开源LingBot-Map，仅需一个RGB摄像头即可实时重建三维场景并估计相机位姿，为机器人、自动驾驶等提供连续稳定的空间感知。该模型在多项国际评测中精度和稳定性全面领先，推理速度约20FPS，支持超万帧长视频连续处理且精度几乎不变，采用纯自回归建模突破流式重建难点，显著提升场景还原能力与实用价值。

4月16日，蚂蚁灵波科技开源流式三维重建模型LingBot-Map，仅需一个RGB摄像头即可实时估计相机位姿和重建场景三维结构，为机器人、自动驾驶和AR眼镜等应用提供连续稳定的空间感知能力。项目已在HuggingFace和ModelScope平台开放，多项国际评测显示其精度和稳定性全面领先现有方法。在OxfordSpires数据集上，LingBot-Map的绝对轨迹误差仅6.42米，较最优流式方法提升2.8倍，也优于离线方法DA3和VIPE。在ETH3D基准上，其重建F1分数达98.98%，较第二名提升21个百分点，场景还原能力突出。

LingBot-Map兼顾实时性与长时稳定性，推理速度约20FPS，支持超10,000帧长视频序列连续推理且精度几乎不变。这一特性使其在机器人导航、避障等强调连续在线处理的场景中具备实用价值。流式三维重建的核心难点在于平衡几何精度、时序一致性和运行效率，传统方法需完整图像后处理，而流式方法需边看边理解并控制开销。LingBot-Map采用纯自回归建模方式，基于几何上下文Transformer逐帧处理历史画面，持续输出位姿和深度信息，实时恢复三维结构。

其核心创新是几何上下文注意力（GCA）机制，能高效组织跨帧几何信息，保留关键历史信息并减少冗余计算。该设计借鉴SLAM系统分层管理思路，但将手工设计和复杂优化交由模型统一学习，更好兼顾长序列重建质量、效率与稳定性。今年1月，蚂蚁灵波已开源LingBot-Depth、LingBot-VLA等多个模型，此次LingBot-Map进一步补齐实时空间理解与在线三维建图能力。随着更多开发者参与，该技术将推动机器人更高效地适应真实物理世界。