时间:2025-09-25
2025世界机器人大会8月8日至12日在北京经济技术开发区北人亦创国际会展中心举行。本届大会设置3天主论坛和31场系列活动,邀请416位国内外专家学者、企业家、国际机构代表,分享新技术、新产品、新应用。
国际机器人联合会技术委员会主席亚历山大·维尔以《工业机器人拥抱数字孪生与人工智能(AI)技术》为主题发表了演讲。
大家好!今天我主要讲讲工业机器人如何拥抱数字孪生和AI。这个话题可能有些误导性,因为人们往往对“人形机器人”和“AI”感到非常兴奋,但工业机器人领域的视角与AI研究者或公众的期望可能有所不同。我的分享将从生产工程学的角度出发,首先介绍整体议程,然后深入探讨未来有应用前景的AI技术、培训成本、数字孪生的实际应用场景等。
什么在驱动着机器人的发展呢?是一个实体的生成型AI,各种各样的AI对于单一目的的人形机器人都很重要,为什么会这样?我给大家说一下人形机器人的优势和劣势。
在销售宣传中,人们常说人形机器人可以自动化许多工作,无需复杂的工程,AI能够处理这些复杂性。然而,现实并非如此简单。目前我们使用的六关节双臂机器人(共14个关节)已经非常复杂,而人形机器人通常多达40个关节,其控制难度更大。虽然人们希望AI能够解决这些复杂性,但目前的技术尚未达到预期。
有人认为人形机器人会因为大众市场的普及而变得更便宜。这在长期来看是可能的,但短期内价格并不会大幅下降。此外,人形机器人具备快速人机互换的能力,为制造业提供了更高的灵活性,尤其是在劳动力短缺的背景下,人形机器人有望成为重要的补充力量。
据称,制造业中近50%的人工劳动力可以被人形机器人取代。目前,一些制造商已经推出双臂机器人,但人形机器人在实现双臂移动方面仍面临挑战。例如,富士康等公司更倾向于使用单臂机器人来替代生产线工人,这在灵活性和编程难度之间取得了较好的平衡。
当前的人形机器人仍不具备协作能力,这是其在工业应用中的一大限制。此外,真正多功能的人形机器人仍处于早期研发阶段,尚需大量投入,尤其是在视觉、语言和动作模型(VLA)方面。
目前行业对人形机器人的期望过于乐观,投资者、客户和政界人士对技术进展的信任面临风险。我们不应忘记宏大的愿景,但愿景不能建立在虚假承诺之上。技术发展不应追求短期记录的突破,而应注重交付可持续、可靠的结果。
有哪些需要进一步发展呢?如安全认证、视觉与触觉技术、灵巧手抓取的技术升级,协作场景下的降速运行会降低生产效率的问题。还有一点就是工业机器人必须具备长期技术可用性,不能在24小时连续工作后出现故障,这也是人形机器人亟需改进的方向之一。
最后,模仿人是否真的有意义呢?许多机器人设计模仿人类,试图突破人体极限,如减少弯腰或高空作业。然而,这种模仿也带来了双重系统的局限性,导致整体性能受限。从生产工程学角度来看,具备轮子的机器人可能更可靠,能够完成99%的任务。
AI在机器人领域的难点主要集中在视觉、语言和动作模型(VLA)的融合上。这类模型基于大型语言模型,能够处理文本和图像,并将语言与图像结合,生成相应的动作指令。要研究语言,仅仅进行词源嵌入是远远不够的,还需要引入定位嵌入和位置嵌入。也就是说,我们需要能够区分“狗咬人”和“人咬狗”之间的差异。由于传统的词源分析往往是独立处理每个词语,因此必须进一步处理词语之间的关系,尤其是语序和位置所带来的语义变化。此外,还需要引入多头注意力机制,以更好地理解整个句子的意义。通过这一机制,我们可以识别出句子中各个词语之间的对应关系,明确某个词语具体指向句子的哪一部分,从而更准确地把握整体语义。
因此,像 ChatGPT 这样的系统拥有数十亿个参数,通过嵌入和分析机制,能够生成一个完整的句子,并相应地预测下一个可能出现的词语。在处理视觉影像时,原理也是类似的:系统通过一个视觉编码器来“看”图像,并将图像划分为多个区块,这些区块的作用类似于句子中的词语。基于 RGB 值对图像进行分割后,系统会对每个图像块进行嵌入处理。图像块位于图片的上端还是下端并不重要,关键在于判断图像中是一个物体还是多个物体。这一过程涉及多头注意力机制,同时也需要额外数十亿的参数来对视觉信息进行解码。
我们目前已经拥有了视觉语言模型,一些机器人也已经集成了这类技术。例如,你可以问ChatGPT“计算机在哪里?”它能够指出计算机的位置。有一个案例展示了AI 对图像的理解能力:如果问一个孩子“这个展厅里有多少把椅子”,由于展厅中椅子种类繁多、摆放密集,这个问题对孩子来说并不容易回答。
如果我们把同样的问题问给 ChatGPT,它会识别出 13 把椅子。然而,它无法识别出其中一把是椅子的模型,或者某些椅子的阴影被误认为是实际的椅子。此外,还有一把椅子的镜像反射也被计入了总数,导致了误判。如果你继续询问:“有没有未组装的椅子?”它也能识别出一把尚未组装完成的椅子。通过这些例子我们可以看到,要让系统真正理解语言和图像之间的关系,需要一个能够将这些信息整合起来的模型,并最终输出相应的操作指令。例如,它需要告诉我们应该将机器人的工具中心点(TCP)调整多少才能做出正确响应。在我们的实验中,通过 ER7 机器人控制抓取器将其打开至 50% 的程度,来模拟具体操作。为了训练这样的系统,我们需要数百万张带有标签的图像,比如苹果的图片,以便模型能够在数据库中进行有效比对和计算。例如,如果一张图像中的椅子外观类似苹果,系统必须能够识别出它在语义上属于“椅子”而非“苹果”。为了使系统能够从这些信息中生成实际的操作行为,我们必须向它展示正确的操作方式,即通过演示告诉它在特定情境下应该如何行动。
为了让机器人掌握特定任务,需要有成千上万人投入数千小时来演示这些工作,以此向系统展示应有的操作方式。随后,系统可以对比机器人所学到的动作与人类示范之间的差异,并据此计算差距,进而培训和训练系统以执行正确的操作。这个理念虽然很好,但也伴随着高昂的成本。如果以美元来衡量,仅进行视觉语言模型的训练就可能花费数百万美元。例如,使用H100 GPU进行算力支持,仅训练过程就可能高达2180万美元,而即便是较为基础的视觉语言训练,也可能需要约200万美元,涉及170万小时的计算资源。这只是训练阶段的成本。接下来的动作微调同样不容忽视。为了让系统掌握准确、合适的行为,还需要向其展示大量具体的动作示例。这一过程可能又要耗费几千甚至上万小时的工作量,以及数万美元的投入,系统才能真正理解并执行相应的操作,并识别不同行为之间的差异。推理和部署阶段的成本也不容小觑。对于常见的应用场景而言,整体的总成本往往可能超过几千万美元。
VLA模型需要高达97万组数据,而RT2模型也需要约35万组数据。从这些数字可以看出,训练这类模型所需的演示数据量是非常庞大的。我们使用这些模型时,往往需要几万小时的演示数据,而这仅仅是面向日常任务的目标。如果考虑到工业应用的复杂性,所需的数据量和训练成本将更加惊人。尽管如此,我们也在探索具备更强泛化能力和物理智能的模型,这类系统无需大量训练,仅通过一个示例就能学习并完成不同机器人类型的任务。例如,RT2 就是一种视觉-语言-动作(VLA)模型,它结合了Transfer(迁移)网络,能够指导机器人完成任务,并在多种任务中找到解决方案。已有案例表明,该模型可以适配20多种不同的机器人类型,并完成各自不同的任务。值得一提的是,如果我们观察其任务执行的成功率,RT2 或 OpenVLA 的成功率大约只有50%。从工程角度来看,这样的成功率是难以接受的。因此,在现阶段,我们仍然需要人类与AI协同工作,对机器人最终执行的结果进行确认和干预,以确保任务完成的质量。这也是当前视觉-语言-动作模型在实际应用中面临的一个关键问题。
对于系统开发者而言,当前面临的主要挑战之一是模型的上下文理解能力仍然非常有限,同时存在明显的感知缺陷,使得执行多步骤任务变得十分困难。目前系统对感知信息的处理尚不完善,特别是在支持额外传感器数据方面存在不足,例如一些特殊的视觉和语言信息。如果要引入阻尼感知等新型传感器,可能需要重新进行数百万次的测试,以确保系统的稳定性和准确性。
此外,在动作执行过程中也常常会出现失败的情况,尤其是在面对未知或未曾见过的物体时,视觉系统容易产生混淆,从而影响任务的完成效果。因此,必须进一步提升系统的成功率,才能真正满足工业应用的需求。同时,语言理解能力仍存在明显缺陷。如果机器人无法准确理解人类下达的指令,就无法有效执行相应的任务。还有一个关键难点在于反馈机制的缺失,即系统缺乏对自身操作结果的评估与修正能力,这对实际应用来说是一个较大的挑战。
我们来看大语言模型(LLM),它可以从多达23.8亿个网页中学习,这些数据包括公共爬虫抓取的内容、网络存档以及人工生成的演示数据。而对于视觉-语言-动作模型(VLA)来说,也有大约一万小时的多模态资料可供训练使用。在实际应用中,我们需要思考的是:人们如何教会系统在特定情境下执行特定行为?一个著名的例子来自英伟达研究部门的副总裁,他提出应通过覆盖多样化的数据来实现行为克隆。例如,如果我们希望机器人从正确的位置拿起一个红色方块,在经过几千次训练后,它确实可以学会完成这个任务。但如果目标变成了从蓝色方块上拿取,它就无法完成,这说明它还没有掌握泛化能力。为了使机器人既能从红色方块上拿取,也能从蓝色方块上完成相同动作,就需要分别对这两种情况进行训练,每种情况可能都需要几千次的重复训练,才能最终形成一个通用的策略。更进一步,如果我们将目标平面稍微抬高几厘米,机器人又会失败,因为它的训练数据中没有包含这种高度变化的情况。同样地,如果训练时的背景通常是白色,而在实际应用中换成了木质背景,系统就可能出现识别错误,导致任务失败。因此,我们必须根据不同场景类型重新配置。
我们必须使用大量的数据,并且这些数据中要包含各种类型的错误,这样才能持续不断地训练和优化系统。马斯克也提出了一个新的理念:机器人应该通过视频来学习。因此,在 YouTube 上存在大量可用于训练的视频资源。据我了解,相关团队在这方面已经投入了超过一千万美元的成本。如果你认同这种方式,那就可以按照这个思路去实施。而我认为,另一个可行的解决方案是利用数字孪生技术来应对这一挑战。
昨天英伟达的同事讲得非常好。他提到,我们可以利用一些人类的示范操作,生成系统化的演示数据。基于少数几个基础示例,就能够通过计算机自动生成多达一千小时甚至几千万小时的训练数据。我认为这是一个非常有价值的方向。此外,我们学院也在为工业应用开发数字孪生技术。它不仅可以用于机器人的编程,还能验证这些程序的正确性,并支持多模态操作。同时,它也为系统模拟和控制器设计提供了有力支持。不过,在实际应用中我发现最具挑战性的部分是“硬件在环”环节。因为我们在真实系统中通常能获得几毫秒级别的实时反馈,而数字孪生系统的反馈速度也必须达到类似的水平。这就带来了一个安全方面的关键问题:数字孪生是否能够及时、准确地做出反馈。
从真实的工程实践到虚拟工程再到实际控制的过程中,很多人并没有意识到这三者之间存在显著差异。而虚拟指令使非常有帮助的,现场工作时间最多可以减少约75%。由于现场工作时间的缩短,相应的停机时间也随之减少。
虚拟指令和调试技术可以用于VC的数字孪生,可以保护机器,不会产生成本的损失,可以安全测试设备,行为零风险,可以虚拟调试,显著缩短开发周期。还支持跨地域、低风险的培训方式,突破空间限制,便于远程维护与协作。此外,数字孪生还可用于人工智能的训练。我们研究所已有多个实际案例,例如如何学习单元控制软件的操作、如何生成无碰撞的运动路径、以及如何抓取可能发生形变的物体等。这些任务都可以通过仿真环境来训练人工智能系统。
另一种方式是利用AI来优化数字孪生模型,使其运行速度超过原始模型,无论采用的是现实模型还是其他类型的建模方法。
最后一个应用案例来自饮料行业。从我们研究院的实践来看,我们专门开发了基于大语言模型和视觉模型的系统,其目标非常明确:让机器人能够从箱子中抓取多个小包装产品,并将其放入用于快递的小型包裹中。在整个操作过程中,无需对机器人进行传统意义上的编程,只需要通过点云数据进行引导,就可以训练各种类型的机器人完成实际操作,从而胜任物流相关的工作任务。
此外,我们还可以通过大型语言模型与该系统进行交互。例如,可以发出指令“把泡泡膜取掉”,系统便会做出相应的回应。也可以询问“箱子里有什么”之类的指令,系统中的AI助手能够反复核查箱内物品的内容、标签信息以及实际放置的物品,确保信息一致。这其实是一套非常精细、高度智能化的系统,专为物流场景设计。虽然它并不涉及人形机器人,只是基于一台普通的工业机器人,但其功能强大,具备高达90%的可靠性。
在总结机器人发展的整体趋势时,我想重点强调几个值得关注的方向:一是人形机器人与工业机器人的演进路径与技术特点;二是视觉-语言-动作模型(VLA)的基本原理及其当前存在的局限性;三是数字孪生技术如何应用于虚拟仿真与实际系统训练。以上就是我今天的分享内容。