产品级导航跟随大模型TrackVLA-展商案例-2026世界机器人大会-2026世界机器人大会

案例详情

TrackVLA是一款具备纯视觉环境感知、自然语言指令驱动、可自主推理、端到端输出语言和机器人动作、具备零样本（Zero-Shot）泛化能力，且由仿真合成动作数据训练的具身大模型。它让机器人拥有“听→看→懂→走”的闭环运动能力：一双眼睛看世界、一个智能“大脑”做推理，无需提前建图、不依赖遥操控制，真正实现语言驱动、泛化感知、自主推理、智能交互与运动。用户通过自然语言即可发出指令，例如“跟着穿黑衣服灰裤子的人”，系统能够自动识别目标并跟随前行；面对更复杂的场景，机器人也能理解如“跟着前面带黄色头盔的人”或“跟着拿粉色袋子的人”等多属性描述，展现出高度泛化的语言理解与环境感知能力。如果目标走出视野，它也不会原地“发呆”，而是通过实时的空间智能和大模型推理能力根据目标运动轨迹“分析出”目标的大致位置，并规划轨迹重新找回目标。

传统机器人通常以“指令理解→环境感知→目标识别→路径规划”模块化的形式单独处理分解的子任务，有的甚至还要对工作环境提前构建地图。而银河通用通过跨本体应用的策略，把这些能力通过一个统一的模型TrackVLA完成，并赋能到宇树的机器狗上,展现出以下几大能力：

1、善运动、会思考、易交互：TrackVLA用一个大模型集成了感知能力、推理能力、运动能力和交互能力。可在复杂工作环境中清晰辨明跟随对象，提供智能专属服务，从而实现产品级的交互体验。

2、无需建图，轻松部署：TrackVLA让机器人不再需要提前建图，而是像人一样可以在不同环境中自主导航。哪怕是没见过的商场、电梯、游乐区，它都能像人类一样依靠模型内嵌的环境理解知识“现学现走”。

3、无惧未知场景：即便是在未训练过的场景中，它也能精确导航、自主推理、稳定跟随、智能交互，也就是具备真正的 “Zero-Shot Navigation”。在儿童游乐区、狭窄通道等复杂场景中，它能实时识别障碍物（包括儿童、玩具、地面水渍等），分析可通行区域，并可正确认知自身本体能力，自主推理出自身构型支持的合理路线。

4、无惧环境光线变化：从室外阳光到室内昏暗、从电梯镜面反射到超市货架夹缝，TrackVLA 展现出极强鲁棒性，无需专门调参或切换模式。

5、远程可视守护：通过 App，用户可以实时看到机器人眼中的第一视角，掌握跟随目标动态。系统还能主动提醒风险行为（如小朋友奔跑、老人跌倒），提供“移动守护”。

此外，TrackVLA 不仅能稳定跟随人类，还可以泛化至任意移动目标。比如让机器狗跟随一只路上偶遇的动物狗狗，其目标形态、运动方式、遮挡情况都非常不确定。TrackVLA 也能表现出同样稳定的跟随能力。