【WRC 大咖观点】John Hennessy《运用机器学习和机器人技术改善我们的生活》

时间: 2021-09-23

2021世界机器人大会第一天线下主论坛——“领航峰会”群星璀璨，产、学、研各领域大咖齐聚首，共话巅峰，为机器人未来发展领航。

峰会现场，2017年图灵奖获得者、现任谷歌Alphabet公司董事会主席John Hennessy通过视频形式进行演讲，演讲主题为《智能机器人感知与控制技术应用及发展趋势》。以下为John Hennessy演讲内容全文整理。

大家好,我是John Hennessy。是斯坦福大学电气工程和计算机科学系教授，是斯坦福大学电气工程和计算机科学系教授，也是2017年图灵奖得主。今天,我很高兴能够通过视频连线方式和各位一起参加世界机器人大会。今天，我想讲的是利用机器学习与机器人技术改善人类生活，提高人类生活质量，帮助人类，让人类过上更加美好的生活。

大家想一想我们在世界各地面临的一些挑战，中美两国都面临着人口迅速老龄化的问题。我们怎样才能造出智能机器人，来为老年人排忧解难，帮助他们完成一些力不从心的事情，支持他们、鼓励他们。以感同身受的方式与他们进行情感交流？或者我们说说自动驾驶问题，每年有100多万人死于车祸。我相信，如果有了自动驾驶汽车，我们可以把这个数字降低90%，挽救无数人的生命并减少费用开支或者想想医学诊断领域存在的挑战。尽管我们现在有很多非常尖端的诊断工具，但医学诊断仍是一个巨大的难题。很多时候，医生还是会误诊或者无法及时得到准确诊断结果。

如果我们能够利用机器学习和机器智能改进诊断质量，我们就可以挽救生命并降低医疗系统成本。或者想想《银河系漫游指南》里提到的巴别鱼，巴别鱼是个很小的设备，把它放在耳朵里就能听懂全宇宙所有语言，巴别鱼就像巴别塔一样。当然，有了巴别鱼我们就可以和世界各地的人互动，不需要翻译就能对话。或者可以观看世界各地的视频、电影、网页内容，我们可以通过技术解决很多问题从而改善人类生活质量。

当然，大部分技术都是由机器学习驱动的。事实上，是大数据使机器学习成为可能机器学习基于我们所说的人工神经网络，人工神经网络不是人脑的准确表现形式也不是人类神经元如何工作和连接的准确表现形式，而是这些东西的人工数字化表现形式。关键结构设置在输入层，输入的信号可能是语音或者文本，也可能是我们想要看的图像。中间有一层代表着不同神经元，然后是输出层。输出层会对我们看到的内容进行分类，输出我们想要的结果。

神经元由一系列带有权重的弧线连接起来，权重告诉我们在进入下一层时，应当把多大比例的上一层输入量计算在内各层结果相加，然后将结果传给下一层，关键在于如何设置权重。

设置权重需要使用大量准确数据进行训练，这就是我们所说的监督学习，也是最常见的机器学习形式。

但是，训练神经网络用于图像识别等任务需要大量计算。例如，我们用了许多猫的图片，先把图片放到输入层，然后把输出层标记为猫。现在我们使用一种叫做反向传播的技术，确定如何设置权重。所以当我们把猫的图片放在输入神经元上，我们看到输出结果是猫不是狗、鱼或者大象，而是猫。我们必须使用很多很多猫的图片，才能恰当地设置权重，使这个神经网络具有灵活性及通用性。

上述计算过程量非常庞大，而且由于需要许多图片才能完成，完成计算过程也需要较长时间。一旦我们训练好了神经网络，并设置好了权重就可以开展推理。推理是一种反演问题，我们采用一张从未见过的图片。这张图片不在训练集范围内，我们把它放在输入层确保识别出来的结果是猫。如果恰当地训练我们的网络，我们得到的结果就是猫而不是狗、大象或者长颈鹿。

但是请记住，下面这一点非常重要，结果好坏只取决于训练集质量。假如我们漏掉了某些具有独特特征的猫品种，然后我们把其中一只猫的图片展示给这个神经网络，那么得到正确答案的几率就会很低。我们也许可以得到正确答案，也许得不到。

所以，关键在于要用大量数据集进行训练，这些神经网络的规模非常庞大。想想看，高达几十万、几百万个节点以及几百万个权重，真的是规模庞大。

最新的GPT-3以及类似神经网络系统拥有数十亿个权重，具体是什么情况，是什么推动了人工智能？特别是深度学习技术的兴起，深度学习技术确实是多年努力之后，人工智能领域出现的突破性技术，这一突破性技术为什么会出现在当下？

神经网络并非新概念，深度学习技术也不是什么新技术。这些概念实际上几十年前就已经出现了，不过发生了两件绝对非常重要的事情。

第一件事是可用于训练的，优质数据大量增加。例如，由我的斯坦福大学同事李飞飞研究的ImageNet，里面有8万余个对象。每个对象有500多张图片，而且数字还在不断增加。我们有很多狗、猫、卡车、鱼、汽车、飞机的图片，你想要的都在里面，互联网使数据得以整合这非常重要，其中大部分数据也是通过众包方式获取的。

第二，我们投入用于解决相关问题的计算资源数量大幅增加，这也得益于新的计算技术，包括GPU和TPU以及位于云端的大型数据中心。我们可以采用这些技术大幅增加计算资源数量，训练需要很长时间，经常要用到成千上万个专用处理器。因此，获得计算资源是关键所在。

在这两件事中我们可以看到，可用数据量或可用计算资源量都在增加，可能是我们以前所用数据量或计算资源量的一千倍。不过，训练涉及极为密集的计算理解这一点至关重要。如果大家想想各种事情所需的培训，你就会发现培训需求增长得非常快，实际上它比摩尔定律增长得还要快。因此，要满足这些培训需求，就需要在GPU、TPU和其他加速器的制造方式上进行大量创新，以便训练自然语言系统。我们还得扩大规模、采用新技术。我们无法通过使用通用处理器提供所需的巨大计算能力，大家可以看一下。

从六、七年前的早期推理问题到训练Alpha Zero之间计算量的增加情况，Alpha Zero是DeepMind研发的学习下棋的程序，它只知道围棋规则。Alpha Zero起初并未植入任何策略，它学习了与围棋相关的一切知识，它通过与自己对弈100多万盘围棋来学习。我们稍后会介绍这种名为强化学习的技术，这一点很重要。

AlphaGo通过与自己对弈100多万次学习下棋，为了做到这一点，我们需要的计算能力大约是早期用于推理，识别一张图像计算能力的1亿倍，甚至与七八年前的早期训练例子相比，我们现在使用的计算能力已经是当时的一百万倍。所以大量计算能力至关重要，训练才是真正的关键问题。显然，训练通常是在云端进行，而推理则通常在手机端、摄像头端、或者是在其他设备端完成，也就是在网络边缘完成推理。推理、训练、推理可以在网络边缘完成。

但在可预见的未来，训练必须在大型数据中心完成。我觉得真正令人惊讶的是在过去五到七年里，我们确实实现了人工智能系统的突破。对于特定任务，人工智能系统表现与人类表现不分上下。以图像识别问题为例。

这是自动驾驶汽车涉及的一个关键问题，这些图像识别系统使用卷积神经网络可以像人类一样，又好又快地识别图像。如果经过良好训练，这些系统可以处理实时事务。比如驾驶汽车或以某种方式在城市中移动，这是图像识别领域的重大突破。

这些系统识别图像的准确性，已经完全超越了早期方法。或者以我谷歌和斯坦福同事合作的一个案例为例，他们通过分析皮肤病变图像，确定病变是恶性还是良性。起初他们用教科书上的图像训练这些系统，皮肤科医生在准备做这种诊断工作时也会用相同图像开展训练。经过这样的训练之后，人工智能系统就能够分析它从未见过的图像，并能准确预测与之匹配的图像，准确度媲美皮肤协会认证的皮肤专科医生。

所以我们在这方面就达到了人类的水平，我们再以巴别鱼为例，在两种不同语言之间进行翻译。这是计算机科学领域中一个长期存在的问题。在这张图中，大家可以看到最近几年发生了什么，我们最初使用所谓基于短语的方法达到了一定的翻译水平。如果应用人工智能和深度学习技术，我们就能达到绿色部分。这说明翻译准确度非常接近人类水平。最新系统比如谷歌GPT-3和Bert的翻译准确度，基本上能够媲美人类双语译员翻译准确度。有些语言翻译起来比较困难，比如从中文翻译为英文要比从拉丁语系语言翻译为英文更难。不过我们已经非常接近能够实现准确的中英互译了，这对人类来说是一个难题。

机器人汽车是很有意思的例子，因为这个问题融合了我们对机器人技术的了解。因为，毕竟自动驾驶汽车实际上就是机器人，与我们对机器学习应用的融合。说到这里，我想给大家看看斯坦福大学研发的Stanley，它赢得了DARPA挑战赛。在沙漠、泥路等极为复杂的地形上行驶了202公里赢得了挑战赛。此前，从来没有车辆能在这项挑战赛中行驶超过10英里。Stanley以足够快的速度完成挑战，赢得了这项比赛。

机器学习是整合这个系统的关键因素。我的同事塞巴斯蒂安·特龙在领导斯坦福大学赛车队做这个项目的时候，意识到一个非常关键的问题，那就是如何在存在不确定性的情况下设定安全速度。Stanley使用雷达与摄像头组合导航，关键问题是如果你不确定自己看到的是什么，应该如何设定速度？特别是在看摄像头拍摄的图像时，你可能无法准确判断你看到的是什么，雷达可以给你提供更准确的信息。比如说三维图像，但是在行驶路程和视野方面还有其他挑战。

塞巴斯蒂安做了一件非常聪明的事，他利用基于人类观察的机器学习判断，在穿越沙漠时，如果前方情况不明应该如何设定安全速度，机器学习已经成为影响自动驾驶汽车的绝对关键因素。

Waymo公司和世界其他公司正在进行的所有相关新工作，都是由机器学习领域的这种突破推动的。首先，我们通过卷积神经网络进行图像识别，识别我们看到的东西。我们看到一辆自行车、看到另一辆车、一辆巴士，看到它停下来。我们看到一个信号传感器融合，如何才能将从各种传感器获得的信息整合到一起？

比方说，短距离传感器，例如雷达与长距离传感器。比如摄像头，如果把这些信息整合在一起就可以准确传达看到的事物。如何应对不确定情况呢？

例如，你不知道在路上看到的是什么，或者有些司机出乎意料的举动，如何应对不良的驾驶条件呢？在雪天或雨天如何设置自动驾驶车辆速度？

我们试图通过算法、编程方法来解决这些问题，机器学习能以更灵活的方式解决这些问题。当然在其他情况下，机器学习对机器人技术而言也是至关重要的。机器人技术的一个真正难题是，机器人编程极其困难，制造机器人已经够难了。但是机器人编程更难，即使是微小的调整也很难处理，想想在带有螺纹的瓶子上拧盖子的问题，你可能会拧错方向，螺纹可能会错位，我们是如何学会拧瓶盖的？

我们通过实践学习，通过强化学习，我们知道最终目标是什么。当我们弄清楚的时候，我们知道需要微调瓶盖，或者假如我们感觉到螺纹没有对齐重新拧即可。我们需要教机器人更多才多艺，当机器人执行装配任务时，如果螺栓没有对准螺孔，如何移动螺栓使之与螺孔对准？如何将螺纹排成一排？

这些依靠强化学习的方法，其有趣之处在于它们与儿童学习方式相仿，这真的非常了不起。他们用了一种类似于儿童学习的方法，这就是为什么在使用机器学习这一技术的过程中强化学习绝对是至关重要的。想想我们可以做些什么，我们可以教机器人帮助老年人，帮他们做一些力不从心的事情。而且还可以给予人们情感支持，帮助人们走出困境，用更加人性化的方式与他们互动，这一定会很棒。

当然，人工智能的远大梦想就是，我们所说的人工通用智能。人工通用智能不仅仅局限于很好地解决一个问题，大家注意到我之前谈了很多关于识别的问题。关于理解你看到的或者听到的、读到的东西，人工通用智能的任务是建立一个人工智能系统，这个系统非常灵活，可以像人类一样完成很多任务，做到这一点的一个关键是能够归纳并从事物中学习。人工智能系统尚未具备这种能力。

想想我们对猫的图像识别，这个系统其实不明白，为什么猫狗看起来不一样。但是5岁的孩子都能理解猫狗之间的差别，猫耳朵尖尖的，猫尾巴往往比狗尾巴更卷曲，猫的毛比狗多，我们的系统只能识别很多事情之间的统计关系。一旦它被告知什么是猫，然后就能判断其他事物是不是猫。我们真正需要的是学习如何归纳，需要可解释性，可解释性问题至关重要。当我们处理诸如医疗诊断之类的事情时，可解释性问题将变得至关重要。我需要这个系统不仅要告诉我，为什么它认为我得了重病，还要告诉我应该怎么办，我们需要更加人性化的互动。

这些深度学习系统，以简单粗糙的方式模拟了人类的真实思考方式。人工智能系统什么时候才能与人类竞争？

我同事最乐观的估计是最快需要十年，其他人认为需要二十年、三十年，甚至四十年。事实上，有一小部分人认为，人工智能系统永远无法与人类竞争。确实，为了与人类竞争，我们需要采用更加自然的学习机制。想想婴儿，婴儿刚出生的时候什么都不知道，他们不认识自己的父母，他们什么都得学，他们什么都看不见，他们不识字也不会走路。他们学会的第一件事就是哭泣可以引起他人注意，从而让别人喂他们食物或给他们换尿布。

他们通过我们所说的强化学习进行学习，他们通过尝试进行学习，然后他们会得到正强化或负强化。他们会朝着另一个方向前进，这就是关键所在。

事实，DeepMind负责人最近发表了一篇论文，声称他们可以通过将强化学习用作关键工具，以实现人工通用智能。但在这个领域还有其他挑战，在能源效率方面就存在着巨大差距。人类大脑非同寻常，人类大脑只需消耗大约20瓦能量，就可以很好地完成所有推理和艰巨任务。而我们用于训练的一个大型数据中心，一个大型神经网络，一个大型深度学习系统，消耗的能量是人类大脑消耗能量的1000倍，不过两者在学习速度上也有差别。

例如，一位顶尖的人类围棋棋手，需要多年训练才能成为围棋大师。而AlphaZero的100万局对弈训练，只需短短几天时间即可完成，我们还有很多东西需要学习：人脑如何工作、人类如何运转。在弄明白这些问题之后，我们就可以改善我们构建机器学习系统，以及机器人的方式，这些技术将有助于提高人类生活质量。感谢大家观看，预祝本次大会圆满成功。

新闻速递

【WRC 大咖观点】John Hennessy《运用机器学习和机器人技术改善我们的生活》

主办单位

承办单位