李德毅院士：迭代的智能——从薛定谔、图灵和维纳谈开去-技术圈

大数据文摘授权转载自智源社区

2022 年 11 月 24 日，李德毅院士在北京信息科学与技术国家研究中心的邀请下，发表了题为「迭代的智能——从薛定谔、图灵和维纳谈开去」的报告。报告从认知物理学的角度，讨论机器如何依靠负熵维持生命，像人一样认知。站在薛定谔、图灵、维纳等科学巨人的肩上，让智能机器接收指导学习和自主学习，解释解决在现实世界中遇到的新问题，可交互、会学习、自成长，将越来越多的未知变为已知。

李德毅，中国工程院院士、欧亚科学院院士。中国人工智能学会理事长，中国指挥与控制学会名誉理事长，中国云计算专家委员会主任，清华大学、国防大学兼职教授，博士生导师。长期从事计算机工程、不确定性人工智能、大数据和智能驾驶领域研究。

19 世纪末到 20 世纪中叶，人类的科学技术取得了许多重大突破，出现了许多伟大的科学家。其中，控制论之父维纳（1894年-1964年）、量子力学之父薛定谔（1887年-1961年）和人工智能之父图灵（1912年-1954年）为人工智能研究者留下了许多传世名作。如今，再读他们的五篇经典论文，可以为我们带来一些新的启发：

（1）在论文「On computable numbers with an application to the Entscheldungs problems」（1936）中，图灵提出了「图灵机」，奠定了其「计算机之父」的地位。在这篇论文中，图灵指出，图灵可计算和一般递归函数等价，通过暴力计算可以逼近无限。

（2）在论文「What is Life? The Physical Aspect of the Living Cell」（1943）中，薛定谔提出了其对活细胞的物理观。他指出，生命赖负熵为生，机器赖秩序为生，机器可作为认知的载体。

（3）论文「Cybernetics, or Control and communication in the animal and the machine」（1948）告诉我们，控制和交互可以实现具身智能。

（4）在论文「Computing Machinery and Intelligence」（1950）中，图灵仔细阐述了通过机器产生「思维」的方法，指出可以从教育「儿童程序」开始，用对话做图灵测试。奠定了其「人工智能之父」的地位。

（5）在论文「The Human Use of Human Beings: Cybernetics and Society」（1950）中，维纳指出，机器和人类分别有各自的智能，应该交互认知、迭代发展。

「迭代」的英文单词为「Iteration」，「交互」的英文单词为「Interaction」，他们具有意义相近的词根。我们不妨思考迭代与交互、交互与输入输出、迭代与进化的关系，从而帮助我们理解上述五篇论文。

如上图所示，如果我们将李白的《静夜思》翻译为英文，再翻译回中文，并将这一过程重复两次，最后得到的中文输出与原诗的意思出入很大，这种语义发散的现象体现了自然语言翻译系统逐渐积累的不确定性。这里的翻译过程是一个「输入-输出」过程，每一步之间存在延迟。而在交互过程中，交互双方应该同时工作。下一代人工智能研究需要更加注重交互和迭代关系。

在这里，我们需要明晰「迭代」和「递归」的关系。迭代是往前走，是形而上的。迭代是循环的活动，某次迭代的结果会作为下次迭代的初值，不断更新，累积发展。例如，人脑中知识的长期记忆，就是这样自我复用，迭代成长的，又例如人类社会中的科学和技术也是迭代发展的。

递归则是往回找，是形而下的。递归是指在函数的定义中使用函数自身，每一次回溯称为一次递归，需要用到前一次的值。例如，斐波那契数就是通过递归求得的，又例如智能机器中的程序常常是递归执行的，我们需要通过编译系统将高级语言编译为机器语言。

从薛定谔谈开去——机器用时序和交互维持负熵

机器通过时序和交互来维持负熵。达尔文的物种进化理论为我们探究生命本源和物种进化提供了基础的理论。薛定谔、克里克、坎德尔这三位诺贝尔奖获得者对进化论的进一步发展也做出了巨大贡献。就机器的生命观而言，我们需要从进化论（物种多样性）、遗传学（基因工程，机器的遗传信息传递）、细胞学（认知神经生物学，尤其是学习和记忆）等角度展开讨论。

李德毅院士指出，农耕时代和工业时代的机器并不能算是生命。农耕时代的工具通常由「实体物质」和「虚体结构」这两个要素组成，结构直接寄生在物质上，形成「硬构体」。例如：轮子、大刀、长矛。当我们将树干锯开成树墩，两个平面就变成了切菜板，此时它可以完成一定的功能，并不是单纯的物质。工业时代的机器则由「物质」、「结构」、「能量」这三个要素组成，结构寄生在物质和能量上，形成硬构体。

智能时代机器的生命观

在智能时代，机器（例如，自动驾驶汽车）具备四个要素：物质、能量、结构和时间。物质和能量是物理层面的真实存在，结构和时间是认知层面的抽象思维，用结构思考物质在空间的拓扑几何关系，用时间思考物质的运动变化，以及能量的流动转化。结构和时间寄生在物质和能量上称为硬构体（例如，车底盘、集成电路芯片），机器里的信息是大量的「软构体」（例如，驾驶脑程序、地图、交通规则），体现精神，它们寄生在硬构体或者已有的其它软构体之上，可以自我复用，机器的秩序显示出维持自身和产生有序事件的能力，体现在认知和行为两个方面。

如上图所示，结构和时间存在于认知空间中，而能量与物质存在于物理空间中。结构和时间构成软构体，软构体是信息的基础，他们寄生在物质和能量上构成硬构体。能量和物质的关系遵循质能方程。

概念、消息、信息和知识都是软构体，用软构体思维体现人的想象力和创造力，体现精神世界，是物理世界在人之空间的镜像，是虚拟的现实。而硬构体填补了物质能量和信息之间的鸿沟，使得信息和物质难舍难分。既不是单纯的物质能量也不是单纯的信息，好比「薛定谔的猫」。当前的集成电路芯片就是硬构体的「爆品」，称为人工智能「卡脖子」技术的代表。

智能究竟是物质还是精神

举例而言，作曲家创作的乐曲是软构体，表达的是信、情感、艺术技巧和人文风格。同一首乐谱可以在不同的硬构体（乐器）上表现出来，无论用哪种硬构体支撑，表现的都是同一首乐曲。乐谱是精神的、非物质的，人们听到的乐曲是客观存在的声音艺术，蕴含了物质、能量、结构和时间，体现美，也体现知行合一。智能在认知空间里是精神的，在物理空间里是物质的、具身的。

硬构体可以局部软化成软构体，例如：虚拟机器人；软构体也可以局部固化为硬构体，如可交互、会学习、自成长的轮式机器人。物质和精神不同，但不是软件定义一切。

“

机器为什么可以作为思维的载体

从活细胞的物理观来看，生命是「机器」；从机器的生命观来看，机器是「生命」。具体而言，「物理层-物质」、「生化层-能量和时钟」、「生理层-电子电路和机器指令」、「心理层-操作系统和中间件」、「认知层-高层软件和数据」相对应。时间是机器认知的奠基石。机器里有物质、能量、结构和时间，时钟依赖能量，时间依赖时钟，秩序依赖时间。软构体寄生在硬构体上，机器自举实现思维自动化，自我复用实现认知自成长，机器运行靠程序，程序靠时序，软件靠交互，时序和交互产生负熵，机器赖负熵为生。时钟不停，与外界交互不息，思维和认知不息。人的想象力和创造力提高了软构体的质量和数量，体现为语言和心理。

图灵谈开去——看图灵机局限和图灵对人工智能的贡献

要追踪图灵 24 岁之后的学术思想，了解他如何从「计算机之父」走向「人工智能之父」，尤其要读图灵全集的第三卷「机器智能」、第四卷「数学生物学」（第一卷为数学、第二卷为逻辑学）。

自然进化的人类借助简单的工具，计算圆周率 π 的小数位十分艰难。而 1950 年 ENIAC 诞生之后，就将计算出了 π 的 2037 个小数位，1954 年 NORC 用 13 分钟计算出了 π 的 3089 个小数位。到 2011 年，超级计算机已经计算出了 π 小数点后万亿位。

历史告诉我们，依靠人力计算 π 值，小数点精度提高 1 个位数需要用 1700 年，再提高 4 位需要 800 年；依靠图灵机计算，软构体复用，如果机器的时钟精度足够高，机器执行硬指令的时间周期足够小，π 的小数点精度提高到 10^12 位，仅用了 70 年。如果每个人一秒钟完成一次「乘加」的人力计算，那么全球 70 亿人需要花费 4 年时间才能完成超级计算机一秒钟的计算量。

人们讨论生物自然进化现象，常用的时间尺度是「万年」；讨论人类文明生态现象和体外智能，常用的时间尺度是「千年」；讨论人类思维和认知的进步，即科学技术的发展，常用的尺度是「百年」甚至「十年」。如果说，人类的生物进化出的本能是相对稳定的，科学技术和机器智能的发展却是天翻地覆的，这种迭代的智能导致的几何级数增长的认知进步和知识爆炸成就了人类，科学技术成为人类社会发展的第一生产力。

随着计算机时钟精度巨大提升，CPU 的工作频率同步提升，相当于幼儿机器语言指令（无论是复杂指令集还是精简指令集）的执行周期大大缩短，算力暴涨，当今机器围棋程序和蛋白质折叠结构预测超过人脑，不足为怪，更重要的是可以反过来促进人脑的智力发展。

图灵在他 38 岁发表的历史文献《计算机械与智能》中，开宗明义地要大家思考「机器能否思维」，他分析并驳斥了 9 种对思维机器的反对意见：

（1）上帝只赋予人类思维的灵魂；

（2）机器会思维会带来可怕的后果；

（3）机器思维能力一定是有限的；

（4）机器不仅能创作，还要能意识到自己是在创作；

（5）机器该不该出错？机器可以成为自己思维的主体吗？

（6）机器会思维，但不会令人吃惊；

（7）能够让机器回答 π 值是多少吗？

（8）机器能够处理意外之意外吗？

（9）机器有心灵感应吗？有超感官的知觉吗？

图灵主张教机器学习，只要机器在语言行为（对话）上和人没有明显差别，就是能思维或有智能了，这就是后人所称的「图灵测试」。他认为，可以编制一个「儿童程序」，它是一种寄生在硬构体「幼儿认知核」上的软构体。然后对其进行教育（指导学习、自主学习），从而达到成人的智力水平。

活细胞的物理观和机器的生命观

从幼儿认知核的角度来看，目前学术界关注的神经网络系统对应人脑的大脑皮层系统，包括前头叶、头顶叶、侧头叶、后头叶四大块。然而，人脑十分丰富，还包含脑干、脑髓、胸髓、中枢神经等部分。幼儿认知核将智能基因移植过来，体现大脑新皮质学习的本能，可自举，可自我复用，可成长。

进化论告诉我们，意识、情感、欲望和性格比新皮质早了几亿年，不在同一条起跑线上。人的智能体现在 300 万年来大脑皮层的进化上。目前，研究人工智能还不能一蹴而就地同时研究上述五个层面，可以先排除意识、情感、欲望和性格，单独将智能抽离出来。如上图所示，红色部分为 2 亿多年前爬行动物的烙印，黄色部分为 1 亿多年前哺乳动物的烙印。

学习是「感知-认知-行为」的循环过程。认知不可能独立于感知和行为，因此需要克服图灵机的两个局限：

（1）孤立了认知，忽视了机器具身与环境的交互；

（2）孤立了计算，忽视了记忆。

从生命科学的角度来讲，学习、记忆、教育十分重要。学习是一个交互的过程，包含指导学习和自主学习。此外，瞬时记忆、工作记忆、长期记忆的分工是人类进化的重要标志，才产生了历史和人类文明。同一主体的丰富软构体大致自洽，是弱统一体；靠记忆形成边界来约束思维。记忆先于计算、优于计算。各智其智、智人之智、智智与共、多元认知、兼容并包才是常态。

将智能等同于计算的观点相对狭隘。计算是智能的一部分，但智能不仅仅是计算。李德毅院士指出，智能是培养和传承解释解决预设问题的学习能力，以及解释解决现实问题的能力。

预设问题通常来自现实问题，并已经被证明有了行之有效的解决方案，学习是把未知变为可知，是解释解决新问题的基础，解释解决现实问题是学习的目的，两者相互促进，学习的结果是修饰、修剪或重塑记忆，所谓「学而不思则罔，思而不学则殆」。

爱因斯坦认为，智能是学习知识或使用知识的能力。李德毅院士认为，智能还应该包含创造知识的能力。人类的智能包含计算智能、记忆智能、行为智能、感知智能。其中，计算智能和记忆智能存在于认知空间，是认知思维能力，分别解决为什么、是什么的问题。感知智能（观察能力，例如：时空识别、目标识别、模式识别）和行为智能（运动能力）存在于物理空间，分别解决在哪里、怎么做的问题。其中，模式识别需要用到记忆，更需要用到人类在进化过程中发展出的对视觉知觉的判断。学习包含指导学习和自主学习。而教育作为人类最伟大的发明之一，将进化的进行时变成了学习的现在完成时。

从维纳谈开去——交互认知：具身行为的控制

维纳说，交互和控制非常重要，要对被控制对象进行负反馈。他认为，如果我们使用一台机器来实现我们的目标，但又不能有效干预其运作方式，那么我们最好能确定输入给机器的目标是我们真正所预期的。麦卡锡则认为：「人工智能本应该叫控制论，是智能的自动化」。

控制就是追求熵减，通过负反馈，确保机器具身行为智能的稳定性。自动控制是强化学习的发源地，任何奖罚函数，可以与偏差为零的反馈控制等价。

使命对齐和具身行为控制

机器的使命和行为是由人赋予的。机器能够通过与人的有效沟通来完成预设的任务，人要和机器交互，逐渐地教会机器理解人设定的任务目标。这个任务目标逐渐统一的过程可称为使命对齐。当今的深度学习等属于感知智能，缺乏对人赋予使命的认知理解。只有当机器通过人机交互，读懂了人赋予的使命，靠使命驱动，才算是实现自主智能，更好地服务于人类。

杨乐昆在其未来工作设想中，构建了一个由世界模型、感知、配置程序、成本函数、效应器等部分组成的系统。这一系统与李德毅院士提出的「驾驶脑」概念有很多不谋而合的地方。驾驶脑包含感知、认知、行为等部分，涉及瞬时记忆、工作记忆、长期记忆，需要学习车辆动力学控制车体行为。深度学习想要真正进一步发挥作用，应该在迭代和交互的过程中实现，而不仅仅是使用预训练。

机器有感知、有认知、有行为，可交互、会学习、自成长，教机器读书做题也好、开车也好，就是在交互的环境里，由软构体里的算法规定的一组带有奖励和惩罚函数在内的、周而复始的复杂动作，通过迭代和交互完成在瞬时记忆区、工作记忆区、长期记忆区状态的改变，通过自动控制体现具身智能。这种强化学习，是人赋予机器使命的重要方法。

机器学习和机器作业中的交互和协同

具体而言，交互智能是通过跨模态感知，实现行为的外循环，包含感知、认知、控制、反馈四个部分。感知要体现瞬时记忆的丰富性、复杂性、精确性。在短记忆中完成态势生成和标注，弥补人类的注意力对丰富数据理解的简化能力。

记忆智能是异构、并行的瞬时、短时和中长期记忆之间的协同。每一次学习都会激活中长期记忆的一部分用来指导当下的学习，每一次学习都会利用短时记忆对中长期记忆进行微重构。

记忆和计算应该协同，构成多元智能。瞬时记忆的完成由以数据驱动单元为主，短时记忆的完成由 TPU 和 GPU 为主，中长期记忆由搜索引擎、知识库机为主。计算工作以 CPU 为主，还需要 FPGA。新一代人工智能一定是异构、超异构的架构。

从薛定谔、图灵、维纳谈开去——迭代的智能：从学习到创造

机器思维离不开语言，孤立的机器自然语言处理，不与人实时交互是走不通的。自然语言的任意性，普遍反映在使用的不确定性，即多样性。不唯一性引发歧义、多义或含蓄，同样的一句话可以有不同的含义，不同人或不同语境下也都可以有不同的理解，这正是自然语言的魅力。

未来，机器的智能会在多样化和常态化的「图灵测试」中迭代成长。当前由人赋予机器特定的语境和语用，让机器写作，生成三字经、百家姓、千字文、开幕词闭幕词、新闻稿等文案已经屡见不鲜，机器写作的专业论文已经有被会议收录发表，机器作画、批改作业和试卷，在线评估和指导学生日常学习等活动已经常态化，图灵测试有可能区分不出来哪些行为是机器所为。

唐诗宋词对应于机器写作图灵测试；数学语言对应于定理证明图灵测试；物理学预言对应于无人驾驶图灵测试；法律语言对应于机器律师咨询图灵测试。实际上，自然语言是所有机器语言的元语言。语言能力是机器智能的杰出表现，机器用语言思维先要把语言形式化，只有形式化才可以机械化，而后自动化，一旦自动化，思维的深度就会超越人。

可交互、会学习、自成长，称为智能机器的硬核

可交互、会学习、自成长的机器人作业流程如图所示。在认知空间中，机器的通过感知情景形成瞬时记忆；将感知结果聚焦并通过计算记忆形成工作记忆，工作记忆可以从提取长期记忆，用过去的经验反馈当前态势下的应对策略，也可以修饰长期记忆；工作记忆可以被用于行为决策。在物理空间中，通过工作记忆得到的行为决策被用于控制，而被控制的对象为机器具身。该系统通过具身行为反馈、注意力选择、传感器感知环境反馈进行学习。

人与机器认知互补、如影随性、迭代提升

“

自然选择并没有「过分」地进化人类这个物种，人类变得智能不是进化的必然，知识给了人类出生后认知二次扩张的潜力，正如同机器可以终身学习。

人使用自热语言思维，机器使用形式化语言思维并被机械地执行；人思维有多样性和活跃性，机器思维有必然性和统一性；人类思维速度受限于生命的生化参数基线，而物理的机器则可暴力计算和暴力思维；人有丰富的想象力和创造力，机器有一以贯之的执着。总有一天出现机器工程师创造出新材料的配方，机器科学家提出新的假设，驱动产生新的科学发现。

人工智能成为人类文明生态，使得人与机器可多通道、跨模态交互认知，让人发挥人的智慧，机器发挥机器的智能，形成迭代的智能。

综合考虑图灵和薛定谔的理论，我们可以得出「机器是生命，生命是机器」的论断；图灵和维纳的理论则指出了「智能自动化，行为可控制」的研究目标。

人类本应抑恶扬善，如果人就是搅局者，当然机会也会帮忙造假，工具从来都是双刃剑。把机器人格化，责备机器人存在伦理问题，只是在逃避人的责任。

看见未来：迭代的智能

用生命的观点看机器，构造赖时序和交互为生、即赖负熵为生的智能机器；用物理学的观点看认知，以物质、能量、结构和时间为基础，用软构体表达思维和认知，自我复用产生有序事件，维持不确定性中的基本确定性，在人与机器之间，在物理空间和认知空间，形成交替认知的螺旋，会学习，自纠错、自组织、自成长，显示出解释、解决问题的认知能力，知行合一，形成迭代的智能。

点「在看」的人都变好看了哦！