让机器像人一样思考！日本科学家开发可自主走迷宫的机器人-技术圈

大数据文摘授权转载自学术头条

作者：朱哼哼
编审：王新凯

提到人工智能机器人，大家会想到什么？

也许很多人会想到谷歌阿尔法狗，作为第一个击败人类职业围棋选手、第一个战胜人类围棋世界冠军的人工智能机器人，阿尔法狗当年可谓是火遍全球，“阿尔法围棋”也成功入选了当年的中国媒体十大新词。

相比于阿尔法狗，2008 年安德鲁·斯坦顿编导、皮克斯动画工作室制作的电影《机器总动员》中，可以像人类一样独立思考甚至自由恋爱的机器人瓦力和伊娃，或许更符合人们对人工智能的期待。

图 | 瓦力（来源：disney）

值得关注的是，近日，来自日本东京大学的研究人员利用活体神经元开发的物理储备池计算技术，就成功开发出了一款可以自主走迷宫的机器人。整个实验过程，研究人员不断通过电脉冲刺激机器人自主纠正方向，直至它成功走出迷宫。

与谷歌的阿尔法狗不同，这个机器人无法看到环境、无法感知环境也没有经过任何走迷宫的学习，而完全是依赖干扰信号就可以完成走迷宫的目标。

视频 | 一个机器人被放置在有障碍物的场地上，并奔向目标（来源：AIP）

对次，本研究通讯作者东京大学信息科学与技术研究院副教授 Hirokazu Takahashi表示，“这一研究结果表明，生命系统的智能或是一种自无序状态或混乱状态中提取的连续输出机制。而通过提取混乱的神经元信号找到解决方案并储存在储备池中就是所谓的物理储备池计算。一个小学生无法解决大学的数学问题，就是因为他们的’储备池’不够丰富。

相关研究以“Physical reservoir computing with FORCE learning in a living neuronal culture ”为题，发表在最新一起的 Applied Physics Letters 杂志上。

模拟人工智能并不简单

长期以来，人们一直认为智能并不是人类独有，像人类一样可以自主学习和推理的机器人是可以被制作出来的。然而，事情却并没有想象中的那么简单。

所谓人工智能，也就是可以智能工作的机器。例如，阿尔法狗可以自主下棋并轻易击败人类围棋冠军。那么，阿尔法狗算是人工智能吗？

显然还不能够，虽然它可以学习无数的棋谱，进行无数的训练，轻易战胜所有人类围棋选手。但是，人类想要战胜它也很简单，就如网友评价那样，直接拔掉它的电源就好了。毕竟它除了下围棋，其他啥也不会。不像人类，在面对生命危险时会做出反抗或逃跑。

而之所以目前的人工智能都无法像人类一样独立学习和思考，很大程度上与目前人们开发人工智能的模式有关。

（来源：Pixabay）

一般情况下，在给电脑编写程序之前，程序员知道他想让电脑做的任务是什么。可是，在人工智能领域，程序员要求电脑做正确的事情，可同时又不是很清楚事情到底是什么。比如我们让电脑去识别人脸，可是我们人类自己也不是完全清楚大脑是如何识别人脸的。

在现实世界中，人类不仅要面对还要处理种种不确定性事件。比如你在达到一个目标前，受到诸多困难，你需要排除万难；你在驾车时，前方冲出一辆车，你需要转动方向盘避免撞车；你在处理一项任务时，突然接到另一项重要任务，你需要随机应变。一个智能的电脑程序不仅能够按照既定计划完成任务，还能确保在不确定事件发生的情况下完成任务。

所以，真正的人工智能，必须能够不断感知周围环境的变化，并对此做出反应，适时改变和调整自己的行动，以期出色完成任务。

物理储备池计算帮助机器人“独立”思考

储备池计算（Reservoir Computing）是近年来人工智能领域的一个新型概念，也叫 Echo state network，被视为是神经网络（Neural Network）的一种拓展框架。

而所谓的物理储备池计算，就是将给定物理系统（例如光子系统、神经系统、机械系统等）中的内在非线性动力学用作计算资源储存。储备池计算的一个神奇之处在于，中间层的储备池矩阵是随机生成的且生成后就保持不变，真正需要训练的只有输出层，这也使它比传统的方法快很多。

图 | 物理储备池实验系统示意图（来源：AIP）

因此，简单来说，物理储备池计算就是给一个随机链接的脉冲神经网络（物理储备池）一些输入，然后用现有的机器学习的方法来学习这个网络对于特定的输入的模式，从而达到模式识别的目的。可以做一个类比，如果把脉冲神经网络等同于大脑的神经回路的话，那么储备池计算就是从大脑神经回路里接出几个输出，然后判断这些连接输出的神经元都以怎样的模式活动并归类，从而判别输入端接受到了怎样的信息。

为了在活的神经元中进行物理储备池计算，研究人员开发了一个闭环系统来从自发活跃的神经元培养物中产生相干信号，操作移动机器人。神经元培养物在微电极阵列上生长，以方便细胞外信号测量。尖峰事件与半高斯核进行卷积以平滑信号，并将信号加权用于 FORCE 学习的输出。

而反馈信号由光活性笼状谷氨酸和 Rubi- 谷氨酸产生，使用 473 nm 蓝光照射会打破笼装结构，激活神经元细胞。在 FORCE 学习中通过 RLS 算法调整权重，使输出信号变成目标常数信号。输出信号与目标之间的偏差用于机器人控制，如果误差为 0 则机器人向前移动，否则要么左转、要么右转。

此外，研究人员还开发了一套定制的程序，来处理尖峰数据以执行 FORCE 学习，并与机器人进行双向通信。该程序可以根据 FORCE 学习的输出调整蓝光照射的时间，对神经元施加电刺激。最终，研究人员证实，通过 FORCE 学习不断干扰神经元信号后，移动机器人成功走出了迷宫。

这一研究结果表明，通过向混沌的具体系统发送干扰信号，而无需任何额外的学习就可以生成目标导向行为，机器人无需感知环境，完全依赖电刺激也能出色的完成迷宫任务。

对于这一研究成果 Hirokazu Takahashi 教授表示，“物理储备池计算可以帮助我们更好地了解人类大脑的工作机制，有利于创造像人类一样思考的人工智能机器人。”

参考资料：
https://aip.scitation.org/doi/full/10.1063/5.0064771
https://www.eurekalert.org/news-releases/932479

点「在看」的人都变好看了哦！