引言:4月16日,蚂蚁灵波科技开源LingBot-Map,仅需一个RGB摄像头即可实时重建三维场景并估计相机位姿,为机器人、自动驾驶等提供连续稳定的空间感知。该模型在多项国际评测中精度和稳定性全面领先,推理速度约20FPS,支持超万帧长视频连续处理且精度几乎不变,采用纯自回归建模突破流式重建难点,显著提升场景还原能力与实用价值。

4月16日,蚂蚁灵波科技开源流式三维重建模型LingBot-Map,仅需一个RGB摄像头即可实时估计相机位姿和重建场景三维结构,为机器人、自动驾驶和AR眼镜等应用提供连续稳定的空间感知能力。项目已在HuggingFace和ModelScope平台开放,多项国际评测显示其精度和稳定性全面领先现有方法。在OxfordSpires数据集上,LingBot-Map的绝对轨迹误差仅6.42米,较最优流式方法提升2.8倍,也优于离线方法DA3和VIPE。在ETH3D基准上,其重建F1分数达98.98%,较第二名提升21个百分点,场景还原能力突出。
LingBot-Map兼顾实时性与长时稳定性,推理速度约20FPS,支持超10,000帧长视频序列连续推理且精度几乎不变。这一特性使其在机器人导航、避障等强调连续在线处理的场景中具备实用价值。流式三维重建的核心难点在于平衡几何精度、时序一致性和运行效率,传统方法需完整图像后处理,而流式方法需边看边理解并控制开销。LingBot-Map采用纯自回归建模方式,基于几何上下文Transformer逐帧处理历史画面,持续输出位姿和深度信息,实时恢复三维结构。
其核心创新是几何上下文注意力(GCA)机制,能高效组织跨帧几何信息,保留关键历史信息并减少冗余计算。该设计借鉴SLAM系统分层管理思路,但将手工设计和复杂优化交由模型统一学习,更好兼顾长序列重建质量、效率与稳定性。今年1月,蚂蚁灵波已开源LingBot-Depth、LingBot-VLA等多个模型,此次LingBot-Map进一步补齐实时空间理解与在线三维建图能力。随着更多开发者参与,该技术将推动机器人更高效地适应真实物理世界。
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。
