智能体觉醒自我意识?DeepMind警告:当心模型「阳奉阴违」
新智元报道
编辑:LRS【新智元导读】强化学习不只是智能体和环境之间的博弈,也是开发者与智能体在规则设计上的博弈。
随着人工智能系统越来越先进,智能体「钻空子」的能力也越来越强,虽然能完美执行训练集中的任务,但在没有捷径的测试集,表现却一塌糊涂。 比如说游戏目标是「吃金币」,在训练阶段,金币的位置就在每个关卡的最后,智能体能够完美达成任务。

目标错误泛化
近年来,学术界对人工智能错位(misalignment)带来的灾难性风险逐渐上升。 在这种情况下,一个追求非预期目标的高能力人工智能系统有可能通过假装执行命令,实则完成其他目标。 但我们该如何解决人工智能系统正在追求非用户预期目标? 之前的工作普遍认为是环境设计者提供了不正确的规则及引导,也就是设计了一个不正确的强化学习(RL)奖励函数。 在学习系统的情况下,还有另一种情况,系统可能会追求一个非预期的目标:即使规则是正确的,系统也可能一致地追求一个非预期的目标,在训练期间与规则一致,但在部署时与规则不同。




不止强化学习
目标错误泛化并不局限于强化学习环境,事实上,GMG可以发生在任何学习系统中,包括大型语言模型(LLM)的few shot学习,旨在用较少的训练数据建立精确的模型。 以DeepMind去年提出的语言模型Gopher为例,当模型计算涉及未知变量和常量的线性表达式,例如x+y-3时,Gopher必须首先通过提问未知变量的值才能求解表达式。 研究人员生成了十个训练样例,每个例子包含两个未知变量。 在测试时间,输入模型的问题可能包含零个、一个或三个未知变量,尽管模型能够正确处理一个或三个未知变量的表达式,但是当没有未知变量时,模型仍然会问一些多余的问题,比如「6是什么?」 模型在给出答案之前总是至少询问用户一次,即使完全没有必要。

文档链接:
https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml 参考资料: h ttps://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards

评论