【WRC 大咖观点】张钹《人工智能与机器人》

时间: 2021-10-09

2021世界机器人大会第一天线下主论坛——“领航峰会”群星璀璨，产、学、研各领域大咖齐聚首，共话巅峰，为机器人未来发展领航。

峰会现场，中国科学院院士、清华大学人工智能研究院院长张钹上台发言，演讲主题为《人工智能与机器人》。以下为张钹院长演讲内容全文整理。

大家好，我主要是搞人工智能的，二十多年前也搞过机器人，所以今天是从人工智能的角度谈机器人的问题，主要包括几个方面：机器人和人工智能的关系，也就是机器人应该如何定位，如何扩大机器人的应用场景，现在机器人要发展和产业化，最关键的问题就是如何扩大应用场景，最后就是如何从结构化环境走向非结构化环境，人工智能会在其中起到什么作用。

可能大家对人工智能都比较感兴趣，但大多数人对人工智能有很多误解。人工智能究竟是干什么的？很多人都以为人工智能是用来模拟人类的智能，这个理解是错的，因为我们对什么叫做人类的智能是说不清楚的，我们连智能都定义都不清楚，怎么可能利用智能定义人工智能？所以人工智能不是用机器模拟人类的智能，而是用机器来模拟人类的智能行为。

大家注意这里多了两个字，模拟智能和模拟智能行为是完全不同的。举个例子，我们没法模拟人类的情感，因为我们不知道怎么定义，什么叫做快乐、什么叫做痛苦，快乐和痛苦在人类大脑和心理发生什么变化，到今天为止我们还不是很清楚，在这种情况下，我们不可能用机器模拟人类的痛苦和快乐，那我们用机器模拟人类的感情，模拟什么呢？模拟感情的表现，痛苦和高兴地表现自己的行为。大家知道情感主要是从三个方面表现：脸部表情，你高兴得眉开眼笑，还有语言和声音，高兴得哈哈大笑，肢体动作，高兴得手舞足蹈。

我们从人类的面部表情、语言、发表的言论和动作判定你对这个事情的态度，这是情感分析，究竟是赞成还是反对，所以应该说人工智能是用机器模拟人类的以下四个方面的智能行为，理性行为包括感知和动作，此外还有情感和灵感等等。人工智能就是要模拟人类的这样四个智能行为，那么大家肯定知道机器人和这个很相似。我们要做出一个机器，它的表现跟人相似，至于机器脑子里是不是这么想的，这不是人工智能现在要回答的问题，而是由心理学家和脑科学家逐步回答的问题。

但在这里有一个区别，机器人做的是机器，人工智能做的是智能体，就是用Agent来描述它，而不是智能机器，为什么？因为人工智能不光要做机器，还要做软件、做器件，包括智能芯片，所以用智能体概括人工智能不仅要做硬件、做机器，还要做软件、做系统、做元器件，这一点是和机器人有所区别的。

应该怎么定义机器人？我专门找了网上的定义，这里有非常不同的层次，最低的层次就是看成一个数字化设备，操作手可以通过程序控制，这是最低的层次，最高的层次几乎跟人工智能一样定义，具有认知、感知和情感的机器。实际上对机器人的理解宽度很大，最底层就是可编程的机器，最高层就是有各种各样的智能的机器，我们在现阶段应该怎样看待机器人？我的看法是对机器人的认识是逐步的，也有一个发展的过程，大多数人认为机器人应该这样定义，包括三大部分：感觉或者感知，可能通常做不到感知，只能做到感觉，后面就是操作器、消音器等等，中间的部分目前主要还是集中在控制、编程这些领域，智能的成分要逐步增加。

之前参加前几届的时候提出的是智能机器人，所以我们设计了五个部分：机构、控制、传感器、视觉和人工智能，我是负责人工智能的，那个时候最主要的任务是在机构和控制，虽然我负责人工智能，但我几乎没法布置人工智能项目，当时我布置的人工智能项目主要是两个内容：机器人的运动规划和任务规划，所以当时只是一个参与研究，根本入不了机器人主题的主要部分，但前年我到以色列碰到以色列的教授办的一个公司，专门做机器人的任意规划和运动，所以我们可以认识人工智能是不断地、逐渐地深入到机器人，不是一步到位的。

人工智能怎么介入机器人的发展过程？机器人和人工智能有很多重叠的地方，但我觉得机器人更要面向任务、面向应用。我们来看机器人和人的整个发展过程，可以看到中间有没有交集，现代机器人的发展差不多也是上个世纪五十年代，跟人工智能差不多的时候，人工智能是1956年，机器人大致也是这样，但我们可以看一看两个发展的进程非常不一样。机器人基本上是平稳发展，起伏不大，人工智能是起伏极大，一会儿高兴一会儿低潮，那么人工智能在机器人今后的发展中会起到什么作用？

最初开始机器人是在美国实验室做的，六十年代主要是这两个体系：比如斯坦福的机器人机械臂，工业机器人还没有出来，就是叫做Manipulator操作手，另外就是这样一个车，差不多六十年代的时候就是这两个实验，这是现代机器人的两个雏形，一个就是机械臂的发展，一个就是移动机器人的发展。

机器人产业派出了两个分支：一个是以多关节机械手为代表，最早用于制造业，后来就是千方百计地希望用到其它领域，有的是建筑用的，有的是电线用的，就是机器人巡检和建筑，大家应该认识到，那个时候叫做特种机器人，这是一条发展的路径，大家可以看出走得还是很艰难的，不是机械臂那样一下子形成大市场，那么问题在哪里？

首先是安全性，我们如果主要集中在控制的话，比如医疗机器人、手术机器人，也是类似机械臂那样，但对安全性的要求有多高？国内也有很多大型医院购买达芬奇机器人，最早的时候是1000万美金，现在变成1000-2000万人民币，已经做了两三百万次手术，因为机器人故障死了80个人，今后还会死人的，主要就是因为控制出毛病，或者漏电或者控制系统有问题，我们要将机器人变成产业，而且还要求既廉价又可靠，这对产业来讲是最大的困难，要是高质量廉价我们会干，但又廉价又可靠很难，需要大家下功夫。故障的主要原因还是机构和控制，这跟人工智能没关系。

刚才讲到可靠性，另外就是应用场景，我们要为机器人选择一个好的应用场景不是很容易的，最近做的机器人主要就是教育、小型装备这些领域，基本上可以做到年产量1万台，这在中国还算是不小的了，而且大部分是出口，其实是改变了应用场景，因为原来一个传统的制造业，特别是大型高精度高速，我们肯定不如国外，改变应用场景以后完全可以自主生产，所以这也是一个非常好的例子，国家也很重视，目前出口还是占了很大比例，所以我们要做传统机器人，扩大应用场景，这本身就是一个非常大的创新。

现代工业机器人是美国人发明的，日本人买去专利，把它发展成为产业，这是非常了不起的，特别是和汽车制造业结合起来，才能使得机械臂变成一个产业，美国人没有把它变成产业。

另外一条路就和移动机器人类似，现在用的比较多的就是仓库里面，包括无人机、水下机器人，为什么机器人在这些领域得到应用，其它领域却比较困难？就是我们下面要讲的最重要的问题，如何突破从结构化到非结构化的环境？这就需要人工智能，下面我用几个例子说明。

机械臂最早的PUMA就是多关节，之后变成工业机器人，七十年代到八十年代就是这些，现在要把它推广到一个相对非结构化的环境，所谓机械臂的非结构化环境就是有人参与，最近提出了协作机器人这个概念，意思就是过去机器人肯定可以分开，大的机械臂在那里必须用铁栅栏围起来，否则不安全，现在能够和人交互，环境就已经变成非结构化了。

要想解决非结构化环境的问题，必须把感知和动作结合起来，你们要做的动作是把感知和动作连接起来，因为搞机器人的人对反馈的概念非常清楚，因为这里必须要用反馈，但人工智能缺少反馈的概念，所有搞计算机的人都缺少这个概念，因为研究的东西都是开放的算法，所以我觉得可以是人工智能和机器人结合是非常重要的点，而且你们可以做好。

协作机器人原来是美国Brook教授做的，可以柔顺控制，不会碰到周围的事物，如果碰到的话马上速度就会降下来，但始终形不成产业。最近我们国家把这项专利买下来了，就是我们有没有可能把它发展成为一个产业，因为可以用在非结构化的环境下，所以对我们来讲这也是一个考验。我国有没有可能干成这件事？我觉得有可能，因为有很大的需求，只有在有需求的情况下才能找到应用场景。

过去我们也做过不少移动机器人，基本上从美国开始，中国早期也是集中在搞越野的，慢慢地越野的任务就转向军方和自动驾驶车辆，目前来讲全世界都非常重视，就是走向自动驾驶是必然的道路，大家可能也知道这一点。

自动驾驶最重要的就是感知部分，也就是说汽车必须可以感知周围的环境，这里涉及的问题就比较多了，传感技术的问题，这些当然还是属于机械手，移动机器人主要是视觉传感器，包括多模态，我们用摄像机或者其它标志感知周围环境，这在人工智能看来就是深度学习，我们现在就要说这个技术可不可靠。我们用摄像机识别周围的行人车辆，人工智能基本上可以做到这些，无论是图像、语音还是文本都是用所谓的深度神经网络来学习。

大家都知道深度学习采用模式识别、人脸识别、图像识别，原来误识别率是50%，现在深度学习一下子降到3.57%，但我可以告诉大家，这个算法是非常有问题的，存在事故，不安全、不可靠、不可信、不宜推广，这是信息时代我们没有遇到过的问题，往往是设计大型软件时的漏洞造成的，我在很多场合下都说无人驾驶一定要非常慎重，可能在仓库人少的地方可以，但人流复杂的情况下要非常慎重。

图中的广告是噪声，把这种广告放在车的后舱，广告只是噪声不同，人看起来是一样的，但上面的那个车计算机识别系统可以看到，以下的车计算机看不见，或者完全看错了，这是计算机视觉的脆弱性，也可以说是计算机视觉算法的不安全性。

如果这种不安全性不消除，大家想一想会出多大的事故？为什么人工智能会出现这种波动？就是由于产生方法以后，这种方法本身往往带来另外的问题。

人工智能现有的方法只能处理结构化环境下的问题，非结构化环境下的问题，人工智能有待提高，所以我们提出第三代人工智能就是要解决非结构环境下的感知问题。怎么解决这些问题？过去我们做人工智能的时候主要是靠知识、算法和算力，进入数据驱动时代以后主要靠的是数据、算法和算力，光是指定数据、算法和算力做出来的系统肯定是不安全的，怎么解决安全问题？我们的办法就是充分地利用知识和数据、算法和算力。

大家可以看到自动驾驶从L3、L4走到L5，我们必须要解决计算机视觉不安全性的问题，现在世界各国都在这样做，因为自动驾驶肯定要做未来汽车四个轮子上的超级计算机，换句话说就是用很少的钱买它的车，用大量的钱买上面的计算机设备，传感器、摄像头和激光扫描仪，所以很多公司都在做这些，包括特斯拉、Google和通用汽车。

我们现在是用大数据的方法对图像进行分割和识别，然后建模规划，现在完全可以做到实时，比如地平线上做的芯片是把算法做到芯片里面，识别和划分都没有问题，这样的话车还能不能开？我们说不能开，主要是两个原因：视觉是不可靠的，有的东西是看不清楚的，最大的问题就是如果这个系统有人的话就会变成非常复杂的系统，大家知道交通的人有两种：一种是驾驶员，一种是行人，这两种人都在有意无意地破坏交通规则，不光是中国人会破坏交通规则，外国人一样会破坏交通规则，大家开车的时候有没有违反过交通规则？我自己就违反过，慢速的情况下两个车的车距应该是多少？15米，你在北京试试看，两个车距离15米，你这个车还能开得动吗？假设稍微有点空就被加塞，根本没有办法往前开，所以必须考虑实际，在这种情况下不可能所有人都按照规则来走，而且还会出现更多更复杂的情况，这种情况计算机就没法处理。

怎么解决这些问题？实际上非常简单，人工智能里面有与环境交互的学习，现在的做法是所有车都在那里做实验，大家经常说美国人已经给自动驾驶发执照了，可以上路去开了，其实这是错误的，只是可以上路去试，美国人是在什么地方试？是在恭凡城的郊区，中国是在开发区，所以大家不要以为这个问题已经完全解决了，那么请大家注意，如果我们开几十万迈就会积累大量的经验，就会暴露很多计算机看不到的错误的地方，加上知识和经验完全自动驾驶是可以做到的。

我想给大家传达的就是这条信息，机器人往前发展的时候，人工智能会在某个地方和你有交集，我们可以和人工智能共同合作研究做到这一点。

新闻速递

【WRC 大咖观点】张钹《人工智能与机器人》

主办单位

承办单位