【学术前沿】关键任务中自动化适应的认知建模-技术圈

声明：本文只是针对个人学习记录，侵权可删。本人自觉遵守《中华人民共和国著作权法》和《伯尔尼公约》等法律，其他个人或组织等转载请保留此声明，并自负法律责任。论文版权与著作权等全归原作者所有。

文章摘要

本文提出一种认知模型，模拟在时间紧迫的任务中对自动化的适应过程。本文使用一个简单的跟踪任务(代表车辆操作)来揭示当自动模式和手动模式的成功概率变化时，对自动化的依赖如何变化。该模型是通过使用认知架构ACT -R(自适应控制的思想理性)开发的。我们还介绍了两种强化学习方法:随着时间的推移奖励的总和和门控机制。这个模型通过控制感知和运动控制的产品来完成这个任务。这些产品的效用价值是基于每个感知-行动循环中的奖励而更新的。该模型的运行模拟了行为数据的总体趋势，如性能(跟踪精度)、汽车使用率和两种模式之间的切换次数，表明我们模型中所做的假设具有一定的有效性。这项工作展示了如何结合不同的认知建模范式，从而产生自动化的实际表现和解决方案，以及对自动化的信任。

引言

自动化技术近年来取得了显著进展，可以部分替代人类的认知功能。虽然这种技术的应用领域是多样的，但最近一个突出的领域是车辆的自动操作。在我们的社会中，船舶和飞机的操作一般都是自动化的。对于汽车，一些功能的自动化，如速度控制(即自适应巡航控制)和制动(防抱死)也已经使用了很长时间。近年来，随着传感技术和机器学习技术的飞速发展，转向自动控制得到了积极的发展。然而，自动驾驶(自动驾驶汽车)的全面应用仍然存在障碍。一段时间以来，人们一直认为，自动控制系统将与驾驶员的监控系统一起，在自动控制系统无法做出正确反应的情况下，随时进行干预。

当引进不限于车辆自动控制的新技术时，这些技术的误用(过度依赖)和废弃(不充分利用)往往成为一个问题。不使用新技术会导致创新减少，而滥用新技术则会导致严重事故。在人为因素领域，这类问题已被反复讨论。

但是，该领域的先前研究并未充分考虑时间因素涉及新技术的适应过程。与人因中研究的其他一些任务不同，车辆的操作是一个感知、判断、行动依次重复的动态连续过程。自动化车辆系统部分地替代了这种人工操作。在一个操作人员可以使用自动操作的情况下，他/她重复感知和判断的周期，同时观察到一个自动化系统执行整个周期。当操作人员注意到自动控制有问题时，需要立即关闭自动控制，恢复手动控制。

我们认为上述对自动化技术的适应机制可以部分解释为强化学习，它通过环境的奖励更新行为的选择概率。在更广泛的背景下，这种范式已经被用于建模人与自动化系统之间的交互。如第二节所述，提出了一种称为扩展决策场理论的计算模型，用来模拟操作员如何适应一个自动化工厂操作的系统。在他们的模型中，自动化系统的选择概率通过反复的环境反馈动态改变。

但是，将强化学习的范式应用于涉及时间关键型决策的任务并不简单。通常，强化学习已通过马尔可夫决策过程（MDP）应用于离散任务，例如强盗任务（Sutton and Barto，1998）。与强化学习的典型应用领域相反，车辆操作并不直接适合于MDPrepresentation，而是可以表示为SMDP（Semi-Markov Decision Process）。SMDP引入了在动作选择和状态转换之间存在时间延迟的概念，以及可以在不同时间点提供的奖励。

在本文中，我们提出了一个简单的任务，该任务具有带有自动化的车辆连续操作的一些特征，并构建了一个模型来揭示在像车辆自动操作这样的时间关键任务中，什么样的机制可以模拟人类对自动化的适应。我们特别尝试将传统的强化学习算法与认知架构相结合来回答这个问题。使用认知架构，我们将探索这个问题使用适当的时间限制的行为。

主要图表

主要结论

本研究在一个简单的跟踪任务中模拟了自动车辆操作的适应性。我们假设强化学习的一般范式可以应用于这个问题。基于此假设，我们使用了ACT-R体系结构来探索模拟人类参与者行为数据的机制。仿真结果显示与实验数据总体上相符，表明我们的假设的有效性或至少有用性