在具身智能领域,机器人要完成任务,目标导向导航能力至关重要。想象一下,服务机器人能在复杂室内环境中,精准找到指定物品并送达,这背后靠的就是目标导向导航。但传统方法大多针对特定类型目标设计,换个目标,机器人可能就 “懵” 了,缺乏通用性。今天要给大家介绍的研究成果 ——UniGoal,成功攻克这一难题,开辟了通用零样本目标导向导航的新路径。
一、核心挑战与创新
现有零样本导航方法常常 “各司其职”,针对特定任务打造,难以在不同目标间通用。而通用方法又往往依赖大量训练数据,泛化能力依旧受限。UniGoal 创新性地采用统一的图表示法,把 3D 场景以及物体类别、实例图像、文本描述这些不同类型的目标,统统转化为图结构。如此一来,场景和目标的表示达成一致,结构信息损失减少,为基于大语言模型(LLM)的推理打下坚实基础。通过图匹配和多阶段探索策略,UniGoal 无需训练就能在多种目标类型间高效导航,堪称具身智能导航领域的一大创举。
二、技术框架
(一)图构建与匹配
机器人在行动过程中,会依据自身观察逐步构建场景图,这个场景图就像它的 “实时环境地图”,动态更新环境信息。针对不同目标类型,又会构建相应的目标图,比如物体类别图、图像目标图、文本描述图。之后,通过节点匹配、边匹配和拓扑匹配三种指标计算匹配分数,以此判断目标的观察情况,为后续探索策略提供依据。简单来说,就是通过对比场景图和目标图的各个部分,看看目标在场景中 “匹配” 得怎么样,决定下一步行动方向。
(二)多阶段场景探索
零匹配阶段:当场景图和目标图毫无匹配之处时,UniGoal 会把目标图分解为子图,接着以语义关系为引导,探索未知区域。就像在陌生房间找一本书,先根据书的类别、特征等线索,确定可能的区域再去寻找。
部分匹配阶段:一旦场景图和目标图有部分重叠,也就是部分匹配时,利用坐标投影和锚点对对齐策略,根据图的重叠部分推断目标位置。好比在房间里看到了和目标物品相似的局部特征,通过这些信息进一步确定物品具体位置。
完美匹配阶段:在这个阶段,对场景图进行校正并验证目标,确保匹配的准确性。只有经过这一步,才能确定真的找到了目标,避免误判。
(三)黑名单机制
在探索过程中,难免会遇到匹配失败的情况。UniGoal 有个 “黑名单机制”,专门记录这些失败的节点和边,避免机器人重复探索,大大提高导航效率和准确性。阶段切换时,如果匹配失败,相关节点和边就会被加入黑名单;要是场景图校正时发现某些节点或边被修正,就把它们从黑名单中移除,就像把之前走过的 “死胡同” 标记起来,不再浪费时间,而当 “死胡同” 变通畅了,就可以重新考虑通过。
三、实验验证
研究团队在多个权威基准数据集,如 MatterPort3D、HM3D 和 RoboTHOR 上,对不同导航任务展开实验。结果令人惊喜,UniGoal 在零样本物体目标导航和实例图像目标导航方面超越了现有方法,在通用目标导向导航方法中也表现最佳,甚至优于部分有监督方法。以 HM3D 数据集为例,UniGoal 的物体目标导航成功率(SR)达到 54.5%,比基线方法 SG-Nav 高出 0.5%。
研究人员还做了消融实验,专门测试 UniGoal 各个组件的作用。结果发现,简化或去除任何组件,如图匹配、多阶段策略,都会导致性能下降。比如,移除阶段 2 的锚点对对齐策略后,实例图像目标导航的成功率从 60.2% 降至 58.9%。这充分证明了 UniGoal 各个组件紧密配合,共同为导航性能提升发力。
四、应用前景
UniGoal 为通用零样本目标导向导航提供了切实有效的解决方案,在室内场景导航、服务机器人等领域潜力巨大。借助统一图表示和 LLM 推理,它能灵活应对复杂环境中的各种任务。未来,研究人员还打算进一步探索其在更复杂真实场景中的应用,以及与其他感知和决策技术融合,全方位提升机器人综合能力。说不定以后家里的服务机器人能更智能,不仅能听懂指令找东西,还能处理各种复杂情况。
UniGoal 作为具身智能导航领域的创新成果,为机器人在复杂环境中的自主导航带来了新希望。期待未来它能不断优化升级,在更多场景 “大显身手”。如果想深入了解 UniGoal 的技术细节,可以点击下方链接查看论文原文和代码仓库:
论文链接:https://arxiv.org/pdf/2503.10630
代码仓库:https://github.com/bagh2178/UniGoal
项目主页:https://bagh2178.github.io/UniGoal/