👆点击“博文视点Broadview”，获取更多书讯

--文末赠书--

来源：AI寒武纪

前两周加拿大阿尔伯塔大学（University of Alberta）机器智能研究所与强化学习传奇人物 Rich Sutton 录了期播客，也就是 AI Scaling Law 信仰之文《苦涩的教训》的作者！Sutton 教授十分低调，很少接受采访，但这一次他分享了非常有意义的对 AI 行业的看法：AI 研究需要重新关注 “持续学习” 能力，而不是仅仅追求在固定数据集上的性能。我们会在未来几十年内完全理解智能的本质，这将从根本上改变人类对自身的理解，并带来深远的技术和社会影响

Rich Sutton 是一位加拿大计算机科学家。他是阿尔伯塔大学计算科学教授和 Keen Technologies 的研究科学家。被认为是现代计算强化学习的创始人之一，对该领域做出了多项重大贡献，包括时间差异学习和策略梯度方法。Rich Sutton于2019年在其个人博客上发表了一篇著名文章《Bitter Lesson》（苦涩的教训）。这篇文章是人工智能领域的重要观点总结。文章的核心内容是探讨人工智能发展的历史和未来方向，强调一个重要的教训：简单、通用的方法（例如利用更多计算资源的学习算法）最终会比人类设计的复杂、领域特定的方法更成功

照例先给Rich Sutton教授采访内容划个重点（完整采访附在文后）

持续学习与深度学习

深度学习过于关注"瞬时学习"（transient learning），在厂里学成后就固定下来了；这种方法虽然在非线性映射方面取得了成功，但牺牲了持续学习的能力；现在 AI 领域过于关注"我们能做什么"，而不是"我们还不能做什么”

1986 年反向传播的发现带来了非线性学习能力，但反向传播只是梯度下降，而梯度下降中没有任何东西能驱使学习系统找到能很好泛化的特征，它只是找到能很好解决现有问题的特征；这个权衡在当时是可以接受的，但现在需要改变

Sutton 认为真正的突破应该来自于对学习目标的重新思考，而不是简单地改进现有的优化方法

目标与心智

Sutton 相信奖励假说，即所有的目标追求都可以被理解为最大化一个单一的、外部接收到的标量信号

为了实现这个“总体目标”，我们为自己设置许多子问题，比如我有个子问题是如何拿起茶杯并成功送到嘴边而不洒出来，所有这些都是对解决总体目标有用的子问题

复杂的高层次目标，如获得博士学位、建立家庭等都是为了优化这个基础的目标奖励

这种观点可能让人感到不适，但 Sutton 认为这恰恰表明我们正在接近真相 - 从微小的事物也可以产生非常抽象的东西，现在的 LLM 不就是很好的例子么？（《苦涩的教训》建议多读几遍😂）

如果你能规划，能通过试错学习，这就是 Sutton 认为的“心智”；

这一切都涉及到模型，我们通过试错学习，建立世界模型，并能够使用该模型进行规划，这并不是过分的要求，所以 Sutton 还是挺支持 LeCun 的研究的

对研究方法的建议

要保持日常写作习惯，记录并发展自己的想法；

要中立对待流行趋势，选择真正重要且有潜力的问题；

研究者专注于未解决的问题，而不是已经成功的领域；

完整采访中文文字版（英文采访视频请自行搜索Rich Sutton’s new path for AI）

人工智能新道路：与Rich Sutton的对话

主持人A: Rich，非常感谢你做客我们的播客“大约正确”。我们一直想邀请你，今天终于实现了，真是太好了！

Rich Sutton: 谢谢Scott，很荣幸来到这里。

主持人B: 我们之前在播客中讨论过几次强化学习，但我们很想知道强化学习的哪些方面吸引了你？你为什么开始研究这个领域？

Rich Sutton: 我一直对与世界互动并从中学习的系统很感兴趣，而强化学习正是如此。它需要一个目标，我们将其形式化为奖励。但令人惊讶的是，回溯人工智能的发展，从我70年代开始研究人工智能以来，很少有研究关注系统与世界互动、从中学习并实现目标。即使在早期控制论、模式识别和监督学习中，这些系统也没有目标，它们只是试图识别模式。模式识别是智能的重要组成部分，但它并不会为了目标而与世界互动。所以，这方面一直让我觉得有所缺失。当我开始研究时，并没有强化学习这个领域，是我们创造了它，因为当时没有人做这方面的研究。

主持人A: 你是否记得某个时刻，让你突然意识到“啊，我想研究这个以目标为导向的方向”？

Rich Sutton: 这是一个逐渐形成的想法。我们研究了人们研究过的所有不同领域，比如模式识别、控制理论等等，一直在寻找“在哪里可以找到一个系统，它试图做某事并从中学习”。那时有老虎机问题（Bandits），你可以反复执行某个动作直到获得最大奖励，但这已经是最接近的了，它们并没有类似“我记得在这种情况下我应该这样做，在那种情况下我应该那样做，以便实现我的目标”的机制。

主持人B: 老虎机问题本质上是无状态的，对吧？你只是反复做同一件事。

Rich Sutton: 是的，它是无状态的。

主持人A: 你认为为什么人工智能会从预测开始？

Rich Sutton: 根据我对历史的理解，它并不是真正从预测开始的。我认为早期研究者一开始就想让系统通过互动来实现目标。后来他们倒退回模式识别，因为模式识别更清晰、更简单。然后他们逐渐忘记了一些最早期的研究，比如1954年Farley和Clark的研究，他们讨论了试错学习。后来，试错学习逐渐变成了监督学习，成了一条更清晰的前进道路。

主持人B: 这是一种简化。

Rich Sutton: 是的，一直以来都是如此。很抱歉从这么早的历史开始。

持续学习与深度学习

主持人A: 没关系，这很有趣，打好基础很重要。而且邀请你的好处之一就是你还记得这些事情。让我们回到现在，你目前在强化学习领域思考哪些问题？哪些方面让你感兴趣？

Rich Sutton: 我只能通过谈论整个人工智能领域来描述它，谈谈人工智能中正在发生什么、没有发生什么以及需要发生什么。我仍然认为人工智能是与世界互动以实现目标。我想这意味着我们在谈论强化学习。但如果你只是为了实现目标而与世界互动，那么你就必须建立一个世界模型，你必须有一个目标，你必须在多个时间尺度上对世界进行建模，你必须学习理解世界的正确结构、特征和概念。我还没提到你必须尝试不同的事情，看看哪些有效，这就是强化学习的起点。我想说，多年来，我们已经开发出了很好的线性映射方法。如果你需要学习线性关系，那么我们做得很好，我们可以在线学习，可以持续学习。

主持人B: 你能举一个线性关系的例子吗？哪些情况下线性关系很有效？

Rich Sutton: 所有算法实际上都是为线性情况定义的，对于非线性情况，你会得到线性TD Lambda、非线性TD Lambda、Q学习，它们都有线性版本。线性版本学习速度很快，并且可以随着世界的变化而适应，但它们无法学习非线性映射，无法学习异或，无法学习新的特征。1986年我们发现了反向传播算法，我们开始能够学习非线性映射。但这就像一个恶魔的选择，当我们想学习非线性事物时，我们不得不放弃快速变化和持续学习的能力。

主持人A: 你必须放弃吗？我的意思是，我不认为你应该放弃。

Rich Sutton: 最初发现的方法无法持续学习。它们能够学习非线性事物，这太令人兴奋和强大了，以至于我们为了学习非线性映射而放弃持续学习的能力，这是一个很好的权衡。

主持人B: 这是一个很好的权衡，但我们坚持得太久了。

Rich Sutton: 而且，不知何故，我觉得这个领域的美学已经改变了，这个领域想要专注于他们能做什么，而不是注意到他们不能做什么。

主持人A: 你认为这是什么原因造成的？

Rich Sutton: 原因很简单，我们能做某些事情，所以我们就会去做这些事情。所有的深度学习都是关于“我们能用数据集做什么？我们从中学习，然后冻结我们学习到的系统，然后在世界上运行它”。ChatGPT根本不学习，但构建它需要大量的学习。我们在语言方面取得了惊人的成就，但我们不得不放弃持续学习的能力。在正常使用过程中，ChatGPT并不会学习。这是对研究人员的考验：他是想看看我们不能做什么并努力解决这个问题，还是想看看我们能做什么并继续深入研究？这就像在路灯下找钥匙的问题：我丢了钥匙，我会在路灯下找，因为那里是我能看到的地方，尽管那可能不是钥匙所在的地方。我认为做所有不同的事情都没问题，但我认为重要的观察是，这个领域绝大多数都朝着一个方向发展，朝着……

主持人A: 所以以至于如果你想说“我们有一些事情做不到”，你会受到强烈反对。他们会说：“是的，但我们可以做所有这些其他事情，所以不要批评我们。”

Rich Sutton: 是的，我认为这是一个很大的影响。在早期，机器学习更加开放，“这是一个有趣的问题，让我们试试”。然后，在某个时候，深度学习……这个领域进入了一个阶段，除非你做一些复杂的事情，比如Atari游戏，否则你无法发表论文。你有一些新想法？它在大问题上是如何工作的？我认为这种情况正在逐渐缓解，人们对我们不能做什么更感兴趣了，关于持续学习的整个事情正是现在更容易被接受的研究方向。

主持人B: 你能定义一下什么是持续学习吗？

Rich Sutton: 持续学习就是持续学习，而不是在工厂里学习，然后当你进入世界时就被冻结。有时我会尝试寻找,如果我们有持续学习，这几乎是正常的，那么什么应该是不正常的呢？不正常的，我试着称之为“短暂学习”（transient learning）。深度学习所做的就是短暂学习，你在一个特殊的阶段学习，然后学习就结束了，你再也不会学习了。这就是短暂学习，这是不寻常的

主持人A: 片段式学习（episodic learning）？

Rich Sutton: 我不能用这个词，因为强化学习以一种非常特殊的方式使用“片段”这个词。

主持人B: 这确实让我觉得很合理。我的意思是，想想我们是如何学习的，我不会每天回家后就忘记我所做的一切。每当我获得新信息时……

主持人A: 也许不好的日子会忘记。

主持人B: 所以我很想知道，为什么这没有成为默认的学习方式？

Rich Sutton: 它从一开始就是默认的，只是在最近几十年里，我们陷入了这种群体思维，我们都以一种特定的方式思考。我喜欢这样想：我们试图创造什么？我们试图创造一个固定且表现非常好的系统吗？我们的最终产品会是能够随着遇到新事物而继续学习的东西吗？当你每天来上班时，你会想“我真的很棒，我只需要做同样的事情”吗？还是你会想“他们付我钱是因为我可以适应发生的事情，我可以灵活地学习新事物”？

主持人A: 大多数时候，我不知道。两者都很重要。

Rich Sutton: 但适应性对我来说似乎总是很重要。硬性智能……智能是一种策略，还是一种适应任何情况的能力？

主持人B: 当我们试图构建这些可以持续学习的系统时，面临哪些挑战？

Rich Sutton: 这是你问我的第一个问题，你问我“现在最令人兴奋的事情是什么？”，然后我开始长篇大论……这个领域已经做出了这种权衡：他们可以做非线性的事情，但前提是他们放弃持续学习。这是该领域非常强烈的趋势，它取得了巨大的成功，我对此毫不介意。我介意的是，他们没有给研究其他方向留下空间。但我是一个成功的学者，而且我老了，我可以做我想做的任何事情。所以我要去做我真正认为最重要的事情，即使没有其他人认为它重要。我认为是时候……早就应该有人弄清楚如何进行持续的非线性学习了。在我看来，这些根本不应该相互对立。我正在以一种特定的方式进行研究，专注于在线学习和单一任务，就像世界在逐渐变化，你必须不断地跟随它，并在这种环境中学习。我只是想填补这个空白，我们应该能够进行非线性学习，并且仍然完全持续学习。

主持人B: 为什么我们不能？是什么阻碍了我们？

Rich Sutton: 我们创造了所有这些专门的东西来使短暂学习工作得很好，比如回放缓冲区，我们进行归一化的方式，以及像提前停止。我们已经开发了大量的技术和技巧来使短暂学习工作，所以这阻碍了对网络进行持续学习，因为……你不会在ImageNet上做得很好，因为ImageNet是标准基准测试，它是为短暂情况设计的。你不会马上在Atari游戏上做得很好，因为我们开发了所有这些定制方法，使Atari游戏在短暂学习方法下工作得很好。方法不同，问题也不同。你不能只是介入并在标准问题上做得更好，因为所有标准问题都是为短暂情况设计的。

主持人A: 所以听起来你好像在说，是时候退一步，看看更大的图景，而不是这些狭隘的解决方案了。

Rich Sutton: 绝对是这样。你也可以从另一个角度说，人们没有意识到这有多重要，这意味着当它被解决时，它将是一个更大、更重要的成果。如果你能负担得起，做一个反向者是件好事。就像我说的，我很幸运，我可以做我想做的工作。让我告诉你我对它的真实感受……我原以为我在说实话，我原以为其他人会做这件事。当我还是博士生时，我的同学Charles Anderson，也是Van Bardo的学生，他做了非线性部分，我要做强化学习的特定部分，然后我们会把它们放在一起，这会很好。然后我很失望，40年过去了，这些人还没有解决这个问题。相反，非线性学习转向了离线短暂学习，他们没有给我提供我可以用来学习策略、学习价值函数、学习世界模型、学习世界转移模型的方法。他们没有弄清楚表征学习，他们没有弄清楚“让我们弄清楚什么是世界的正确表征，那些能够很好地泛化的表征，让我现在就能快速学习”。这绝对是强化学习，我想说也是人工智能前进的瓶颈。我们没有能够持续学习的方法，除了线性情况。我们没有找到好的表征的方法……我们总是要与傲慢作斗争，因为傲慢会损害你看到真相的能力。但我所说的有点傲慢，我说“我给了这些人40年的时间来解决这个问题，他们没有做到，现在我不得不自己做”。这大致上就是我所说的，这非常傲慢，至少第二部分是这样，我就能在几年内做好。我的意思是，我已经思考了很长时间，我真的希望我不必做这件事，这太遗憾了。

主持人A: 我的意思是，他们已经奠定了一些基础，对吧？他们所做的工作并非完全无用，它会帮助你。

Rich Sutton: 也许你只是出于礼貌，但我感觉它不是基础，它实际上是偏离解决方案的。它使得做正确的事情变得更加困难，因为他们没有说“这是一个我们需要解决的问题”，他们说我们已经完成了关于学习表征的反向传播论文，他们认为这是如何学习表征的解决方案。但是，表征不应该是一般的，并且在许多情况下都有用吗？然后无论你需要做什么，你都在它上面学习一个线性映射。

主持人B: 我同意这一点。

Rich Sutton: 我认为他们认为反向传播可以学习到好的表征。

主持人B: 啊，好吧，我同意你，我不这么认为。

Rich Sutton: 啊，好吧，有趣。或者他们说这使得其他人更难说“这是一个未解决的问题，我要研究它”。他们说：“不，不，反向传播已经解决了这个问题，如果你要研究它，你最好在反向传播附近工作，并证明你比它更好。”

主持人B: 那么表征有什么问题呢？他们没有做什么？

Rich Sutton: 反向传播只是梯度下降，梯度下降中没有任何东西会驱动学习系统找到能够很好地泛化的特征。它只是找到解决现有问题的特征。

主持人B: 所以这不是反向传播的问题，而是反向传播试图解决的目标的问题，损失函数的问题。

Rich Sutton: 所以听起来只是在说服人们我们没有正确的解决方案。

Rich Sutton: 你可以这样做，这是一种失败的方法。你说：“没有人研究这个，我必须首先说服人们这是正确的事情，然后我再研究它。” 但是，你会把所有时间都花在说服别人上，你永远不会真正地研究它，所以你永远不会真正地成功。其他人会说：“看，他说我们需要做这件事，但他没有取得任何进展。” 浪费时间试图说服其他人去做你认为重要的事情是一个很好的失败方法。

主持人B: 那么有什么替代方案呢？

Rich Sutton: 你必须是一个反向者，并且真正去做。你可以花一些时间试图说服其他人，如果你希望发表论文，你必须这样做。

主持人A: 但在某种程度上，这就是我们在非线性环境中的朋友们所做的，对吧？他们忽略了所有人长达十年左右的时间，而所有人都告诉他们，他们所做的事情没有任何原则。每个人都热爱他们有原则的统计机器学习，而他们一直在埋头苦干。

Rich Sutton: 是的，但他们总是有好的结果，他们总有一些可以指出的进步。

主持人A: “总是”这个词说得太绝对了。我记得在我研究生早期，深度学习周围肯定有很多噪音

主持人B: 是的，而且人们仍然认为这很愚蠢。

主持人A: 所以，无论如何，也许应该赞扬他们坚持了下来。

Rich Sutton: 这是关于荒野的故事。神经网络在荒野中度过了它们的十年，所以没有人认为它好。所以我想我说的是，持续学习在荒野中度过了它的十年，现在它开始被接受了

主持人A: 这很好。

Rich Sutton: 一切都会回归，科学中的所有这些问题都是自我纠正的。

主持人A: 但它们真的是这样吗？这需要有人来决定，对吧？科学本身就是其中的人，所以只有当有人做出决定时，它才会自我纠正，而且这可能需要很长时间。

Rich Sutton: 好吧，我认为我们应该争取在2030年之前

主持人A: 知道我们可能不会成功，但你必须尝试。

Rich Sutton: 当我们说“成功”时，指的是什么？理解大脑如何工作？

主持人A: 理解一个系统如何通过试错，通过尝试不同的事情来学习，建立一个世界模型，以便我们能够理解世界，它可以找到决策的支点。我应该去参加这个演讲还是那个演讲？我应该去洗手间吗？我应该喝一口茶吗？所有这些……你知道，你必须找到这些选择，生活中存在着低级的选择，但你必须找到生活中 meaningful 的选择。所有这些都涉及到一个模型。所以要求我们通过试错来学习，并建立一个我们世界的模型，并能够使用该模型进行计划，这并不过分。这就是我认为构成心智的一系列事情。

主持人B: 我认为人类独有的特性是能够同时拥有多个目标。我有很多事情要做，我可以把你烦死，告诉你我现在正在做的所有事情。你知道，我们都有我们正在做的事情，我们有家庭，我们有事业，我们有朋友，我们有爱好，所有这些事情都相互叠加。每天我们都决定我们的目标是什么，我们今天要做什么。有时它会让我们朝着更大的目标前进，有时只是星期天，没关系。

主持人A: 是的。你必须找到平衡点才能保持……有时就像纸牌屋一样。

主持人B: 但我想到像动物，动物的目标是什么？也许它们目标的复杂性更低。

Rich Sutton: 它们也更少地与某种内部奖励有关，对吧？

主持人B: 我不反对你的观点。

目标与心智

Rich Sutton: 但我认为，只有一个目标和有很多目标都是正确的。我相信奖励假设，即所有目标寻求都可以被很好地理解为最大化单个标量外部接收信号

主持人B: 是的。

Rich Sutton: 这是实现目标的一部分……我们为自己提出了许多子问题，比如我有一个子问题：我如何拿起我的茶并成功地把它送到我的嘴里而不洒出来？所有这些都是对我们解决整体目标真正有用的子问题。所以我认为子任务、子问题是解决单个总体问题的解决方法。所以这让我两者兼得，我有一个目标，但我的大脑里充满了“这会让我做到吗？那会让我做到吗？我必须学习所有这些独立的事情，并学习每个问题的解决方案，然后……然后我的生活将充满‘我决定暂时致力于那个目标’，这将驱使我最终到达某个地方，然后我可以致力于另一个目标。”

主持人B: 所以你把目标看作是子问题，所有这些不同的目标，有点像创造这些子目标

Rich Sutton: 创造它们，绝对是提出它们。博士学位，我想获得博士学位，我想获得终身教职，我想xx

主持人B: 在这种情况下，什么是所有这些子目标的单一目标？

Rich Sutton: 单一目标将是奖励。我们并不真正知道人们的奖励是什么，但它就像快乐和痛苦，也许还有人们对你的态度，来自其他人的尊重。奖励假设的惊人之处在于，有一个微小的标量值，你正试图最大化它，它是一个低级的东西，它就像一个数字在每个时刻进入你的大脑，它在下丘脑中计算，然后从中产生了“我想组建家庭，我想拥有一个成功的研究科学家职业”等等。从一个不抽象的东西中产生了非常抽象的目标和非常抽象的概念。曾经有一段时间，这太不可思议了，以至于说出来会很尴尬。但现在这应该很直白了，我们已经多次看到这种情况发生。你知道，AlphaGo学会了下围棋，它拥有所有围棋中需要的抽象概念。学会了下国际象棋，它拥有国际象棋中所有需要的抽象概念。或者像语言模型，它让我大吃一惊，它从这个简单得多的问题中学到了什么。“哦，我的天哪，下一个词”。

主持人B: 是的，从微小的事物中可以产生非常抽象的东西。

Rich Sutton: 是的

主持人B: 好吧，这是一个令人信服的故事。我得承认，当你这样说的时候，我也觉得有点心理上不舒服。

主持人A: 我承认，这让你觉得自己没有你想象的那么复杂。

Rich Sutton: 是的。在这几十年里，我们将要学习，我们将要更好地理解心智，我认为这不会都是舒服的。我认为不舒服的事实实际上让我觉得我们正在取得进展，我们正在更好地理解事物。

主持人A: 我们不仅仅是在寻找我们想要相信的真相，而是在寻找真正的真相。

Rich Sutton: 你想想，要创造一个想要做某事的人，比如成为一名研究科学家，是不可能的。进化是如何让你拥有这个目标的？这是不可想象的，而且行不通。它必须给你一个它可以感知的目标，一个具体的目标

主持人A: 这让我们回到了心理上的不适。

Rich Sutton: 将会出现其他智能体，我们将理解它们是如何工作的，它们只是试图让这个数字更高，这很有趣

主持人B: 所以你说你认为我们会在未来六年内理解这一点？

Rich Sutton: 不，我有一个预测，到2030年有四分之一的可能性我们会理解，这将是模糊的，但基本上我们会理解智能。这并不意味着我们将理解人类的心智，这将需要更长的时间。我们将理解如何通过试错学习来实现目标，如何建立一个世界模型，使你能够在多个抽象层次上进行计划，并且做到这一点没有重大差距。你知道，它将学习好的表征，学习很好地泛化。它将是一个神经网络，只是某种不同的算法。

主持人A: 它将有一个奖励。世界是什么？

Rich Sutton: 世界是我们与之互动的东西。我们向它发送比特，它向我们的眼睛等发送比特。

主持人A: 但你指的是所有这一切，还是指某个构建的世界？

Rich Sutton: 我认为世界是被构建的，尽管……我们向世界发送比特，它向我们发送比特。我们从这个我们向其发送比特并从中接收比特的东西中理解世界

主持人A: 所以你说的是任何世界？

Rich Sutton: 任何世界，是的。

主持人A: 能够建立模型，转移模型，这样你就能计划

Rich Sutton: 如果你能计划，并且你也能通过试错学习，这就是我认为的心智。

主持人A: 如果你的预测是真的，就像你说的，我认为你说的是到2030年有四分之一的机会。

Rich Sutton: 到2040年有二分之一的机会。

主持人A: 那意味着什么？这将如何改变现状？

Rich Sutton: 我们将理解心智是如何工作的。这将帮助我们理解我们自己的心智。人工智能研究人员将在更详细的层面上理解它，它将逐渐渗透到社会，渗透到世界的意识中。我们会感到不舒服，然后会逐渐适应。这将带来技术变革，它将改变经济。我不确定哪一个更重要，社会学上的还是技术上的。无论如何都会有很多技术变革，即使没有理解心智也是如此。但我认为这将真正改变我们，因为它将……我们将更好地理解我们自己，这也许是重点。所以我认为这将是非常深刻的，完全独立于它对经济的影响，它对地缘政治的影响。

主持人A: 你认为如果我们更好地理解它，它会影响我们教学的方式，我们教育人们的方式吗？

Rich Sutton: 是的，完全会。一个很大的变化将是增强。如果我们理解我们的大脑是如何工作的，那么我们应该能够添加比如更好的记忆力。我想被增强，我想更好地思考，我想数字基质相对于生物基质有很多优势。所以我们可以变得更好，有很多事情因为我们不知道自己是如何工作的而被阻碍了。正如我所说，理解心智与理解人类心智不同，与理解人类大脑不同，那将需要更长的时间。

主持人A: 你是心理学家，你处于神经科学的边缘，你如何看待像Neuralink这样的脑机接口？

Rich Sutton:: 我的意思是，我看到了很多它们可以提供帮助的地方。我认为我们离大多数人觉得这是他们想要的东西还很远。我认为这可能不是2040年的事情。

研究建议

主持人A: 我想这是我们给你的最后一个问题：你对学生或其他崭露头角的研究人员有什么关于研究的建议吗？如何选择研究方向，如何取得良好的进展？

Rich Sutton: 是的，我想我有一些。准备一个研究笔记本，每天都写，写下你的想法，并思考你的想法，试着挑战它们，让它们变得更好。如果你想让其他人对你所想的感兴趣，那么你应该首先自己关心它，你应该至少关心到把它写下来，挑战它，发展它，推进它。这是最重要的。我偶然发现了这个策略，它改变了我的整个轨迹。这真的很难做到，因为它是一张白纸，你知道，你有什么要说的？也许你对你正在想的事情感到困惑。一个有帮助的想法是，通常情况下，写下你的想法的价值与它们的模糊和混乱程度成正比。

主持人A: 价值与写下它们的难度成正比。

Rich Sutton: 如果你说：“我甚至不知道如何……我同时在想六件事，我不可能把这些写下来。” 这就是当你写下一些东西时，它将超级有价值的时候。

主持人A: 这是你知道你真的想追求一个想法的方式吗？这是一个标志吗？

Rich Sutton: 不，这将是可怕的。你正试图向自己解释清楚你在想什么。如果你想不出其他要写的东西，就写下“我认为我脑子里盘旋着的六个有趣的想法是什么？” 然后把它们写下来，一到六。然后说：“好吧，这就是全部吗？还有第七个吗？” “这六个中，有两个真的是一样的吗？” 或者对这六件事中的每一件再写一段，解释你是什么意思，向自己解释你的想法是什么。仅仅通过这样做，你就会说：“现在，当我试图解释它时，这个想法就消失了。你知道，也许它什么都不是。” 或者，也许它在你写下它的时候成长和改变了。所有这些事情都会发生，所以重要的是坚持写下去。试着每天写一页，不要太 stressed，但要定期写下去。这是我的建议。

第二个建议是，你应该尽量对流行的东西保持中立。你知道，如果它流行或不流行，那不应该影响你，因为如果它流行，那么研究它会更容易，因为人们会理解它，但它的价值会更低，因为每个人都在做。所以你应该保持中立，选择你认为重要且可能富有成果的问题。

主持人A: 你有什么建议来决定我接下来应该做什么吗？

Rich Sutton: 是的，所以就像我写下这六件事，“我认为这六件事很有趣”，然后解释它们。然后我回过头来说：“好吧，现在让我们试着说，我现在可以研究哪一件？”

主持人A: 如果有三件呢？

Rich Sutton: 把它们写下来，继续下去，直到只剩下一件……

主持人A: 哦，不，不

Rich Sutton: 这是一个好问题。我并不是说你找到一件事就去做，你必须做一些事情，因为这是研究，大多数事情不会马上成功。

主持人A: 听起来你可能用过很多笔记本。

Rich Sutton: 我大概有25本，在我停止使用实体笔记本的时候。现在我只是在我的MacBook上写。

主持人A: 你有没有回去重温它们？

Rich Sutton: 不像你想的那么频繁。

主持人A: 是的

Rich Sutton: 但你确实会不时地这样做。现在它都在电脑上，我可以搜索并更容易地找到这些东西

主持人A: 我想我们就到这里了，除非你还有什么想谈的，而我们没有谈到的。

Rich Sutton: 非常感谢你给我这个机会。我学到了很多，并不都是舒服的，正如我们所指出的，但都很有趣。

主持人A: 非常感谢你，Rich。

Rich Sutton: 谢谢。

强化学习之父著作

强化学习圣经

▊《强化学习（第2版）》

[加] RichardS.Sutton，[美] AndrewG.Barto 著

俞凯等译

强化学习领域奠基性经典著作！

人工智能行业的强化学习圣经！

本书作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

本书适合所有对强化学习感兴趣的读者阅读、收藏。

其他强化学习著作

▊《深度强化学习：基础、研究与应用》

董豪、丁子涵、仉尚航等著

一本书轻松上手深度学习|强化学习|模仿学习|集成学习|并行计算|多智能体强化学习

中国人自己写的深度强化学习著作

该书是一线科研人员与开源社区人员为国内人工智能领域提供的一本详尽教材，主要围绕深度强化学习领域基础知识和算法实践。

本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。



      

       


         

          

           


          


         


         

          互动有奖


          


          按以下方式与博文菌互动，即有机会获赠图书！


          活动方式：在评论区留言参与“你如何看待Rich Sutton教授的观点”等话题互动，届时会在参与的小伙伴中抽取1名幸运鹅赠送图书盲盒一份！


          说明：留言区收到回复“恭喜中奖”者将免费获赠本图书，中奖者请在收到通知的24小时内将您的“姓名+电话+快递地址”留言至原评论下方处即可，隐私信息不会被放出，未在规定时间内回复视作自动放弃兑奖资格。


          活动时间：截至12月9日开奖。


          快快拉上你的小伙伴参与进来吧~~


          温馨提示：可以将“博文视点”设为星标，以免错过赠书活动哦！


          


          发布：王功瑾
审核：陈歆懿


             

              

               

                

                 

                   

                   

                    

                     

                      

                       


                      


                      

                       


                      


                     


                    


                   

                 


                 

                  如果喜欢本文

                 


                 

                  欢迎 在看丨留言丨分享至朋友圈 三连

                 


                 

                  

                   

                    

                     

                      <

                     


                     

                        PAST · 往期回顾 

                     


                     

                       >

                     


                    


                    

                     

                      

                       

                        

                        


                       


                      


                      

                       

                        

                         


                        


                       


                       

                        书单 | 10月新书速递！

强化学习之父Sutton最新万字采访：炮轰深度学习只是瞬时学习，持续学习才是智能突破的关键

持续学习与深度学习

目标与心智

对研究方法的建议

持续学习与深度学习

目标与心智

研究建议