银河通用联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员,研发出首个全面泛化的端到端具身抓取基础大模型 GraspVLA。其预训练完全基于合成大数据,训练数据达到了有史以来最大的数据体量——十亿帧「视觉-语言-动作」对,掌握泛化闭环抓取能力、达成基础模型;预训练后,模型可直接 Sim2Real在未见过的、千变万化的真实场景和物体上零样本测试,全球首次全面展现了七大卓越的泛化能力,满足大多数产品的需求;而针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。
针对零售商超场景,银河通用自行研发的GroceryVLA采用端到端模型架构,突破传统“视觉+轨迹规划”方案,自主识别并完成商品抓取。模型无需路径规划,即可在紧密排布、涵盖数十种 SKU的真实货架上稳定作业,无需针对每种商品包装单独调参,支持软包装(如袋装面包、卤蛋)、硬盒、塑料瓶、透明果冻杯等多样形态商品的精准抓取,实现了跨品类的统一抓取策略。无论是刚性包装还是柔性物体,都能精准取放,满足全品类零售场景需求,可以直接泛化至全新环境。并在抓取过程中,具备实时闭环策略调整能力,能够快速处理现场人为干扰(如货物被移走/推挤),任务连续性达99%以上,远超行业平均水平。