机器学习：不能只靠数据-技术圈

↑↑↑点击上方蓝字，回复资料，10个G的惊喜

研究机器学习，既要数据拟合，也要能解释数据。

在当前的人工智能研究社区，以数据为中心的方法占据了绝对的主导地位，并且这类方法也确实成就非凡，为语音识别、计算机视觉和自然语言处理等重要任务都带来了突破性的进展。即便如此，也一直有研究者在思考这类方法的不足之处以及其它方法的重要价值。近日，图灵奖获得者、著名计算机科学家和哲学家 Judea Pearl 发布了一篇短论文，从便利性、透明度、可解释性三个角度谈了他对激进经验主义和机器学习研究的思考。

论文链接：https://ftp.cs.ucla.edu/pub/stat_ser/r502.pdf

在这篇论文中，Judea Pearl 将沿便利性、透明度和可解释性三个维度对比用于数据科学的「数据拟合（data fitting）」与「数据解释（data interpreting）」方法。「数据拟合」方法的信念源自研究者相信理性决策就隐藏在数据本身之中。相较而言，数据解释学派却并不将数据视为唯一的知识来源，而是一种用于解读现实的辅助手段——这里的「现实」是指生成数据的过程。文章将在因果逻辑的指引下，探讨拟合与解释在任务方面的共生关系，以此让数据科学恢复平衡。

模拟进化与数据科学

我最近参加了一个讲座，演讲者这样总结了机器学习的哲学思想：「所有知识均源自所观察到的数据，有些直接来自感官经验，有些则来自通过文化或基因方式传递给我们的非直接经验。」

观众会觉得这样的称述是不证自明的，其也为该演讲奠定了基调，即可以如何通过检查数据中条件概率的模式来分析「知识」的本质。很自然，它没有涉及到「外部世界」、「理论」、「数据生成过程」、「因果」、「能动性」和「心智构造」等概念，因为从表面上看，如有需要，这些概念也能在数据中找到。换句话说，不管人类在解释数据时会用到什么概念，比如有关来源的文化、科学或基因上的概念，都可以追溯到让这些概念有存在价值的初始感觉经验并且还能从这些感官经验重新推衍出来。

从人工智能的角度看，这种以数据为中心的哲学为机器学习研究提供了一种有吸引力的乃至极具诱惑力的研究前景：为了开发人类水平的智能机器，我们应该仅遵循我们祖先获得智能的方式，将我们可能收集到的所有数据用作输入，在数字机器上同时模拟基因进化和文化进化。在极端情况下，这样的前景可能激发出相当未来主义和雄心勃勃的情形：从一个类似原始生物（比如变形虫）的简单神经网络开始，让它与环境交互，变异并产生后代，给予其足够的时间，它最终就能获得爱因斯坦水平的智能。事实上，除了神圣的经文和神明的启示，如果没有自古以来一直冲击着人类种族的原始数据流（当然也包括人类之前那些更原始的生物获得的感官输入），爱因斯坦又能从其它什么地方获得他的知识、才能和智慧呢？

在问这样的前景有多现实之前，我们先在讨论之前看两个观察所知的情况：

模拟进化，不管是哪种具体形式，事实上都引领着当前大多数机器学习研究的主要范式，尤其是那些涉及到连接主义、深度学习和神经网络技术的范式。这些技术可以部署无模型的、基于统计学的学习策略。这些策略在计算机视觉、语音识别和自动驾驶汽车等应用中已经取得了亮眼的成功。这样的成功激发了对这些策略的充分性和无限潜力的希望，同时也削弱了人们对基于模型的方法的兴趣。
以数据为中心的发展方向的思想根基深深根植于西方哲学的经验主义分支。该哲学分支认为：感官体验是我们所有概念和知识的最终来源，而「先天观念」和「理性」在作为知识来源方面仅能发挥少许作用，乃至毫无作用。经验主义思想可以追溯到古代亚里士多德的著作，但将经验主义发扬光大的则是英国经验主义哲学家弗朗西斯 · 培根、约翰 · 洛克、乔治 · 贝克莱和大卫 · 休谟以及更近期的哲学家查尔斯 · 桑德斯 · 皮尔士（Charles Sanders Peirce）和威廉 · 詹姆斯（William James）。事实上，现代连接主义已被视为激进经验主义相对于理性主义的一大胜利。实际上，在数字机器上模拟知识习得过程的能力提供了非常灵活的测试平台，可让人通过在数字机器上执行实验来评估有关经验主义和天赋能力（innateness）之间平衡的理论。

尽管测试哲学理论有其好处，但对于为机器学习研究遵循激进经验主义议程的思想，我有三个主要的保留意见。我将通过三个论点来说明为什么经验主义应该与基于模型的科学的原理保持平衡。而对于基于模型的科学，学习过程受两大信息来源指引：(a) 数据，(b) 人工设计的有关数据生成方式的模型。

我将这三个论点标记为：(1) 便利性、（2）透明度、（3）可解释性。将在下文逐一讨论它们：

便利性

进化是一个过于缓慢的过程，因为大多数突变都是无用乃至有害的，并且等待自然选择区分并从无用突变中过滤出有用突变往往也具有难以承受的成本。大量机器学习任务都需要对稀疏的新数据进行快速解读并快速响应，而这些新数据又实在过于稀疏，以至于无法通过随机突变来过滤。新冠疫情的爆发就是这一情况的完美例证：来自不可靠和各式各样来源的稀疏数据需要快速解读和快速行动，它们主要基于之前的流行病传播和数据生成模型。总体而言，机器学习技术有望利用大量已经存在的科学知识，结合可以收集到的数据，从而解决健康、教育、生态和经济等领域的关键社会问题。

更重要的是，科学知识可通过主动引导数据和数据源的选择或过滤过程来加快进化速度。选择使用哪些数据或运行哪些实验前，需要从理论上假设性地考虑每种选择会得到怎样的结果以及它们在未来提升性能的可能性。举个例子，为了提供这样的预期，可使用因果模型，其既能预测假设性操作的结果，也能预测违反事实情况地撤销过去事件的后果。

透明度

为了最终能使用世界知识（即便是自原始数据自发演化而来的世界知识），我们必须以某种机器形式对其进行编译和表征。编译知识的目的是将发现过程分摊到许多推理任务上，从而无需重复这个过程。然后，编译后的表征有助于高效地得到许多选择性决策问题的答案，包括有关如何收集额外数据的方式的问题。某些表征允许这样的推理，另一些则不允许。《为什么：关于因果关系的新科学》一书中提出的因果关系层级（adder of Causation）形式化地定义了用于回答有关假设性干预和 / 或解释以及反事实的问题所需的知识内容的类型。

知识编译涉及到抽象和重新格式化。前者允许损失信息（正如图像模型归纳为数值方程的情况），而后者会保留信息内容，只是会将一些信息从隐式转变成显式的表征。举一个经典的例子：信号波形的频谱表示。从信息角度看，前者等价于后者，但频谱明确表示了信号的特定方面。

这些需要考虑之处要求我们研究所编译的表征的数学性质、它们的内在局限性、它们支持的推理类型以及它们在得到它们期望得到的答案上的效果。用更具体的术语说，机器学习研究者也应该参与现在被称为「因果建模（causal modelling）」的研究，并使用因果科学的工具和原则来指导数据探索和数据解释过程。

可解释性

不管积累、发现或存储因果知识的方式如何，由知识推动实现的推理都要交付给人类用户并让其获益。现如今，这些用途包括政策评估、个人决策、生成解释、分配功劳和责罚或广义地认知我们周围的世界。因此，所有推理都必须用一种与人们自身组织世界知识的方式相匹配的语言进行描述，也即因果的语言。因此，不管机器学习研究者为数据拟合采用了怎样的方法，他们都必须熟练掌握这种对用户友好的语言、其语法、其普遍规则以及人们解读或误读机器学习算法发现的功能的方式。

结论

将人类知识的内容与其感官数据来源等同起来是错误的。对于知识的特征描述而言，知识存储于心智（或计算机）中的格式及（尤其是）其隐式与显式组分的平衡是与其内容或来源一样重要的。

尽管激进经验主义可能是进化过程的一个有效模型，但它对机器学习研究而言却是一个糟糕的策略。它让以数据为中心的思潮大行其道，而这一思潮当前主导了统计学和机器学习文化。这一思潮认为：理性决策的秘诀仅在于数据。

「数据拟合」和「数据解释」平衡的混合策略能更好地让我们把握进化过程所需的知识编译的各个阶段。

推荐阅读

（点击标题可跳转阅读）

老铁，三连支持一下，好吗？↓↓↓