【WRC 大咖观点】Melanie Mitchell《AI3.0——人工智能的能与不能》

时间: 2021-10-27

2021世界机器人大会第二天线下主论坛——“未来峰会”群星璀璨，产、学、研各领域大咖齐聚首，共话巅峰，为机器人未来发展领航。

峰会现场，畅销书《复杂》作者，波特兰州立大学计算机科学教授、复杂系统前沿科学家Melanie Mitchell通过视频形式进行演讲，演讲主题为《AI3.0——人工智能的能与不能》。以下为Melanie Mitchell演讲内容全文整理。

大家好！我是Melanie Mitchell，是美国圣菲研究所的一名教授。今天我要和大家谈一谈，要怎样才能让人工智能达到第三层次变得稳健，具有适应性和可解释性，也就是我们所说的人工智能3.0。

你们很多人可能都知道，人工智能的起源可以追溯至1956年，在达特茅斯学院举行的一个研讨会，该研讨会由麦卡锡、明斯基、罗切斯特和香农等先驱者主办。这是当时研讨会提案的第一页，他们认为在一个夏天之内，他们将能够研究出如何让机器使用语言形成抽象理解和概念，解决现在留给人类的各种问题，完成自我改进。但是现在快过去70年了，所有这些关于如何让机器完成这些事情的问题仍然没有完全得到解决。

人工智能的第一阶段，我们称之为“人工智能1.0”。是利用人机工程学知识，来让机器拥有智能行为，例如一个专家系统可能会有一系列的规则来对不同种类的鸟儿进行分类。大家可以看到，这样的做法在很多情况下都是可行的，但是这些系统又是很不稳定的。因为在遇到一些罕见情况时，比如一只翅膀受伤的鸟，系统可能就无法对其正确分类。这些专家系统得到了应用广泛，但是它们并不能真的像人类一样处理所有事情。

人工智能2.0，下一阶段是机器学习阶段，也就是从数据中学习，以及我们现在所说的深度学习革命。从数据中学习包括聚类或分类，使用的是称为支持向量机的统计学习技术，或者近期使用的受人脑结构启发的神经网络。利用像大脑中视觉系统一样的结构，通过多层信息处理各种分类和语言问题，深度神经网络彻底改变了人工智能的许多领域。

例如著名的ImageNet图像识别大赛，我们可以在这张图中看到历年比赛选出的最佳程序的误差率。大家可以看到，一旦开始使用深度神经网络，误差率就大幅下降了。到今天，它们的误差率甚至低于人类在识别该数据集时的预计误差率，这使得很多人工智能应用成为可能。比如面部识别，能够识别道路上物体的自动驾驶汽车，能够击败世界上最厉害的围棋手的Alpha Go，以及像ALEXA这样能够和用户对话、回答简单问题的智能助手、机器翻译。现在使用深度神经网络能够在一瞬间将英语翻译成中文，还有最近的一些成就，比如OpenAI的GPT-3系统能生成类似人类的语言，以及DeepMind的AlphaFold系统能够仅从蛋白质的基因序列预测其结构。尽管这些系统已经取得了许多成就，却也有其局限性。其中一个局限就是机器太复杂了，深层神经网络可能有超过10亿个参数，这是模拟神经元之间的权重，所以很难准确地理解它们到底学到了什么。

而且事实证明，有时这些系统学会的东西并不是我们想要教给它们的。举个简单的例子，

在我实验室工作的一个学生训练了一个深层神经网络，他尝试用这个系统来区分照片中是否有动物。在左边大家可以看到，有一个动物是一只鸟，而在右边没有动物。这名学生用了一组自然照片来训练该系统，并且完成得很好。但是当他详细观察机器所学到的内容时，他发现系统是利用背景的模糊度来判断照片中是否有动物，因为在这些有动物的照片中，摄影师会聚焦在前景的动物上，而背景是模糊的，然而没有动物的图片则背景清晰。所以尽管这并不是我们希望机器学习的内容，但是它利用统计上的相关性很好地完成了任务，我们可以在许多机器学习项目中看到这种情况。

另一组研究表明，当一个深度神经网络经过了ImageNet图像训练，以99%的置信度识别像消防车这样的物体。如果这些物体经过图像处理呈现出不同的位姿，像这样，现在神经网络会以高置信度将其归类为校车、消防船或雪橇，而人类是不会做出这样的分类的。这确实表明该网络所依赖的特征并不是人类所使用的对图像进行分类的特征，而是其他我们根本不清楚的特征。很多例子都能说明这种情况，我们称之为捷径学习，这就是深度神经网络如何学习统计关联。在特定的数据集上表现不错，但是却不能进行很好地概括。而在语言处理中，机器有时可能是对的，但却是误打误撞，对手可以利用深度神经网络的这些弱点，以非人类的方式来愚弄它们。

卡内基梅隆大学的一组研究人员设计出了一种眼镜框，上面有五颜六色的图案专门用来欺骗一个面部识别系统。他们用他们展示了不同类型的眼镜框来骗系统，比如系统认为该论文的其中一个作者是女演员米拉·乔沃维奇，人不会犯这样的错误。但不知何故，神经网络根据某些神秘特征来进行分类，使得系统变得脆弱，从而受骗。

另一个例子来自加利福尼亚大学的一个小组，他们把白色和黑色的贴纸贴在这样的一个停车标志上欺骗深度学习视觉系统。即使在不同距离和多角度拍摄下，使其认为这是一个限速80的标志，所以这就关系到自动驾驶汽车的配置问题。自动驾驶汽车在很大程度上依赖于这类深度神经网络视觉系统，所以下一步我们想要实现的就是人工智能3.0，我们需要克服许多还未解决的重大的挑战。

第一个就是小样本学习，现在深度神经网络需要从人类标记的成百万上千万个例子中学习，但在人类学习时不需要那么多例子。我们看几个关于桥的例子就能认出不在我们训练集中的新桥，这就是小样本学习。我们也可以归纳出与我们学习内容大不相同的新概念，例如前一张幻灯片中的图片没有一座像这样的桥，这座桥看起来大不相同，但是我们很快就能认出这是一种桥。同样的我们也能确定，这张有意思的照片是一座水桥，而不是别的。汽车在高速路上过河，我们可以看出来是船在河上路过高速，高速公路就在这条河下方，这是对桥的概念的一种颠覆。但我们很容易理解并且认出来，我们必须要让计算机能够识别出来，不仅仅是概括，还要能抽象和类比。

接着讲桥的例子，我们可以认出这是一种桥，和我们之前看到的不太一样，这群蚂蚁在用身体搭桥来越过这个缝隙。还有更抽象的，我们会说双手搭在一起或者鼻梁，我们把鼻子这个部分叫做鼻梁，因为它确实是连接脸部两侧的桥梁。在说到歌曲的时候，我们也会说歌的桥段。一首歌可以有一段主歌、一段副歌，一段主歌、一段副歌，所谓的桥段就是将歌曲引入一个新的部分，所以桥这个词某种程度上是有很大隐喻意义的。我们可以对这个基本概念进行拓展，并且在各种各样更加抽象的语境中使用。还有很多英语短语，比如缩小男女之间的性别差异，又比如拜登在竞选总统期间，称自己是通往新一代领袖的桥梁。我们可以非常清楚地理解这些隐喻，甚至没有注意到它们是隐喻含义。所以这种抽象和类比的能力是让机器能够理解人类语言，像人类一样进行概括的关键。

霍夫斯塔特在他的文章《类比是认知的核心》中指出，事实上概念是一系列的类比，从桥的例子中大家就可以看出这一点。我们还需要机器稳健且具备常识，我之前举的一些例子确实提出这样的疑问，我们用数百万个的例子训练出来的系统到底有多稳健？举个例子，这是一张高速公路的照片，这条公路在暴风雪来临前已经提前铺好了融雪盐，这些融雪盐在经常下雪的地方很常见，融雪盐会防止车辆在雪地或冰上打滑。但特斯拉的自动驾驶系统会对此感到很困惑，因为它没有暴风雪或者盐线的概念，它之前从来没有见过这样的东西，所以它无法根据自己的认识判断将要发生什么，也不知道这些是不是车道。我们还看到，特斯拉撞上了停下来的车辆。比如这辆特斯拉在自动驾驶的过程中，撞上了这辆停下来的消防车，原因是特斯拉公司发现，它们的车没有常识，不知道在哪些静止物体，如广告牌前面应该停下来，所以他们设置成在许多静止物体前不需要停下来，因此它就撞上了这辆消防车。

类似的自动驾驶汽车往往会在人们预想不到的情况下刹车，这样一来，人们会撞上去追尾。也就是说，他们撞上了停着的车的车尾，是因为这些自动驾驶汽车很难弄清楚遇到什么样的障碍物需要停下来。例如，他们可能不知道在遇到一个漂浮的塑料袋或者是风滚草，或是一群可能会飞走的鸟的时候是否需要停下来，而我们人类知道。如果前面的路上有很多碎玻璃应该停下来，根据常识，我们知道这个雪人不是要过马路的行人，这些都是我们人类所说的常识。这也正是今天的机器缺少的东西，所以有很多人在研究让机器掌握常识。比如微软联合创始人保罗·艾伦，他投入了大量资金，在一所机构研究机器常识以及美国国防部正在试图投入资金，研究如何让机器拥有常识。但对于人工智能来说，这是一个巨大的挑战。

最后一个例子，大家看一下这张照片想象一下，假如你是一辆自动驾驶汽车，遇到这种情况你需要知道什么？我们常识的核心部分是我们的物理直觉，我们知道物体之间是如何相互作用的。比如说这位女士推着婴儿车，婴儿车有轮子，我们可以猜测它的速度。而且我们知道如果她拉着这条狗，而这条狗站着不动，那么她得使劲拉才能让狗动起来，这些都是我们的物理直觉。我们可以借此来预测接下来的场景，这一点对于安全驾驶来说是非常重要的。总的来说，要人还有动物在现实世界里互动，我们也有直觉心理学的知识。比如说我们知道这位女士分心了，她不会注意到周围的司机，我们知道很多这种因果关系的心理模型，我们知道是什么导致婴儿车移动。而如今的机器深层神经网络是利用统计关联来做出决策的，它们无法轻易地找出原因。我们有着广博的知识，比如我们知道这个人有腿，即使他的腿在婴儿车后面我们看不到，我们也知道他可能穿了鞋子。即使我们看不见他的鞋子，因为我们对人类的行为非常了解。最后，我们可以进行抽象和类比，这样我们就可以对这种情况进行抽象分类。也就是分心的行人或者是类似的事物，最后我们可以适当地对我们的决定给出详细的解释，机器目前是完全无法做到这一点的，让我们很难理解他们为什么会犯这样的错误。所以所有这些常识的核心组成部分将成为人工智能3.0系统打造的重点，这些都是为了实现我们想要的人工智能必须克服的挑战。如果你有兴趣想要了解更多内容，可以看我的书《AI 3.0》，我在书中详细地讨论了很多这方面的问题。

感谢各位的聆听！

新闻速递

【WRC 大咖观点】Melanie Mitchell《AI3.0——人工智能的能与不能》

主办单位

承办单位