|EN
首页世界机器人博览会 北京银河通用机器人有限公司

产品级导航跟随大模型TrackVLA

案例详情

TrackVLA是一款具备纯视觉环境感知、自然语言指令驱动、可自主推理、端到端输出语言和机器人动作、具备零样本(Zero-Shot)泛化能力,且由仿真合成动作数据训练的具身大模型。它让机器人拥有“听→看→懂→走”的闭环运动能力:一双眼睛看世界、一个智能“大脑”做推理,无需提前建图、不依赖遥操控制,真正实现语言驱动、泛化感知、自主推理、智能交互与运动。用户通过自然语言即可发出指令,例如“跟着穿黑衣服灰裤子的人”,系统能够自动识别目标并跟随前行;面对更复杂的场景,机器人也能理解如“跟着前面带黄色头盔的人”或“跟着拿粉色袋子的人”等多属性描述,展现出高度泛化的语言理解与环境感知能力。如果目标走出视野,它也不会原地“发呆”,而是通过实时的空间智能和大模型推理能力根据目标运动轨迹“分析出”目标的大致位置,并规划轨迹重新找回目标。

传统机器人通常以“指令理解→环境感知→目标识别→路径规划”模块化的形式单独处理分解的子任务,有的甚至还要对工作环境提前构建地图。而银河通用通过跨本体应用的策略,把这些能力通过一个统一的模型TrackVLA完成,并赋能到宇树的机器狗上,展现出以下几大能力:

1、善运动、会思考、易交互:TrackVLA用一个大模型集成了感知能力、推理能力、运动能力和交互能力。可在复杂工作环境中清晰辨明跟随对象,提供智能专属服务,从而实现产品级的交互体验。

2、无需建图,轻松部署:TrackVLA让机器人不再需要提前建图,而是像人一样可以在不同环境中自主导航。哪怕是没见过的商场、电梯、游乐区,它都能像人类一样依靠模型内嵌的环境理解知识“现学现走”。

3、无惧未知场景:即便是在未训练过的场景中,它也能精确导航、自主推理、稳定跟随、智能交互,也就是具备真正的 “Zero-Shot Navigation”。在儿童游乐区、狭窄通道等复杂场景中,它能实时识别障碍物(包括儿童、玩具、地面水渍等),分析可通行区域,并可正确认知自身本体能力,自主推理出自身构型支持的合理路线。

4、无惧环境光线变化:从室外阳光到室内昏暗、从电梯镜面反射到超市货架夹缝,TrackVLA 展现出极强鲁棒性,无需专门调参或切换模式。

5、远程可视守护:通过 App,用户可以实时看到机器人眼中的第一视角,掌握跟随目标动态。系统还能主动提醒风险行为(如小朋友奔跑、老人跌倒),提供“移动守护”。

此外,TrackVLA 不仅能稳定跟随人类,还可以泛化至任意移动目标。比如让机器狗跟随一只路上偶遇的动物狗狗,其目标形态、运动方式、遮挡情况都非常不确定。TrackVLA 也能表现出同样稳定的跟随能力。