中国工程院院士潘云鹤：发展视觉智能重在视觉知识和多重知识表达的研究_南方plus

4月25日—26日，2021人工智能与机器人国际研讨会在香港中文大学（深圳）举行，本次大会以“历史转折期的科技”为主题，汇集了20余位中外院士和60余位业界专家，重点围绕人工智能和机器人技术、5G、数字技术等议题分享研究成果、研讨技术难题和交换创新见解，意在为我国目前在人工智能与机器人领域面临的技术挑战和关键应用难题寻找解决方案。

26日上午，中国工程院院士潘云鹤出席会议并发表《视觉智能的五个重要问题》的主题演讲。潘云鹤在大会上讨论了视觉知识表达、视觉识别、视觉形象思维模拟、视觉知识的学习和多重知识表达等五个重要问题。进一步指出视觉知识的独特优点是具有形象的综合生成能力、时空演化能力和形象显示能力。这些正是字符知识和深度神经网络所缺乏的。因此，视觉知识和多重知识表达的研究是发展新的视觉智能的关键。

视觉智能的发展对人工智能至关重要

“第一次掀起人工智能浪潮的时候，视觉智能起到很重要的作用。”潘云鹤说，原因在于图象识别技术不仅对人脸、文字、指纹、医学图像的识别准确率高，而且可以应用广泛，例如智能汽车、安全监控、智能交通等都需要视觉智能的技术支撑。

中国科学技术发展战略研究院将2018年中美人工智能企业按照技术因素进行分类统计。共计分为九类，其中三类是基础性的技术，六类是专业性的技术，而其中有三分之二与视觉相关，三分之一与语言相关。

中国信息通讯研究院对工业人工智能也做了进一步分析，分析了20多个工业人工智能的模型，最后发现它们主要使用两类技术，一类是深度学习，一类是知识图谱。而且来自底层的都用深度学习，来自高层的都用知识图谱。原因很简单，知识图谱满足不了底层要处理的视觉信息；而高层大量处理的是语言信息、文字信息，能够使用知识图谱。所以从这些人工智能的应用和人工智能的产业来看，视觉都非常重要。

有心理学家做过一个实验，结果发现人的大脑虽然看不到图像，但依然存在很多形象。这些视觉记忆在认知心理学叫做“视觉心象”。“我过去曾牵头一个重点项目，发现视觉心象实际上是形象识别的一个重要支撑。”潘云鹤说。

大会现场

视觉智能的5个重要问题

在研究视觉智能时，有5个重要的问题。第一个问题是视觉知识表达。认知心理学实验证明了视觉知识不同于语言知识的特征，能够表达对象的空间形状、大小、色彩和纹理的关系，还能够表达对象的动作、速度和时间关系。

第二个问题是视觉识别。在人工智能诞生之初，模式识别就已经成为重要的研究领域。图像和视频识别是模式识别中最重要的一个部分。早期的图像识别是用数字图像处理技术进行从低到高、从局部到整体的识别。但是近几年深度神经网络崛起后有了其他的方式。深度神经网络有诸多优点，比如它能够识别图像，能够通过标识的数据进行学习。

第三个问题是视觉形象思维模拟。视觉形象怎么变化，变化怎么模拟，实际上都是人类在工程活动中十分重要的部分。因为人类进行一项工程活动之前要进行设计和规划，有的实际规划需要进行模拟，然后在实际规划过程中对其进行修改。

潘云鹤演讲现场

第四个问题是视觉知识的学习。目前，计算机视觉已经开始研究从图像到图形的转化方式，计算机视觉除了设备以外，很重要的内容就是重建，我们希望它更多的是进行知识和概念的重建。

第五个问题是多重知识表达。人工智能通过多种知识表达来解决问题，有知识图谱型、图像型、心象型等。所以“人工智能2.0”提出两个新的概念，分别是跨媒体智能和大数据智能，目的就是推动多种知识表达的同时表达、同时使用。“这可能将是人工智能未来5—10年中发展的一个重要的方向。”潘云鹤说。

“对于这5个问题，视觉知识的表达和多重知识的表达最重要，这两个问题解决好了，另外三个问题更容易得到解决。”潘云鹤说，视觉知识的独特性、形象的综合生成能力、时空比较能力和形象显示能力，这些正是人工智能所欠缺的。视觉知识和多重知识表达是一块荒芜、寒湿而肥沃的“北大荒”，也是一块充满希望值得勇探的“无人区”。

大会现场

【记者】金永胜

【摄影】朱洪波

【海报设计】栾艺婷