用AI「驯服」人类幼崽:这个奶爸找到了硬核带娃的乐趣
共 6759字,需浏览 14分钟
·
2021-01-18 10:46
为了能安心看几集 Netflix 剧,技术宅奶爸都做了些什么……
3D 游戏引擎:借助一个用 OpenGL 写成的飞行模拟器生成带有山脉、天空和 Griffin 的 3D 魔幻世界。
人体姿态估计:使用 OpenPose 姿态估计模型和 SSD 目标检测模型来持续检测玩家的身体姿态,作为系统的输入,以控制 Griffin。
动作映射和手势识别:将身体姿态转化为有意义的动作和手势,如抬起左 / 右翅膀、左右翻滚身体、起飞等。
通信系统:使用 socket 将姿态输入送进 3D 游戏引擎。
NVIDIA Jetson AGX Xavier:这是一个 GPU 驱动的小型嵌入式设备,用来运行以上所有模块。它可以通过一个简单的 HDMI 接口支持音视频输出。此外,他还有一个以太网接口,方便联网。你甚至可以插入鼠标和键盘在该设备上进行开发和调试,因为它有一个功能齐全的 Ubuntu 18.04 OS。
TV(带有 HDMI 输入和内置扬声器):作为游戏引擎的显示器。
摄像头:我用的是 Sony IMX327。其实这里只需要 224x224 的图像分辨率,因此也可以选低端一点的摄像头。
Blu-Tack:把所有硬件拼接在一起。
我用基于目标的系统替换了基于按键的飞行控制系统。这样我就可以不时地设置 Griffin 身体的目标旋转角度,之后这一旋转目标将通过手势识别模块自行设置,该模块可以映射 Dexie 胳膊的方向。
我增强了静态 3D 模型管理,以支持层级结构。原始的飞机模型是作为一个刚体移动的,它没有移动的身体部位。但是 Griffin 有两个翅膀,需要独立于身体单独运动。为此,我添加了两个翅膀,使之作为身体之上的单独 3D 模型。我可以单独旋转每个翅膀,也可以移动 Griffin 的身体,间接移动两个翅膀。实现该目标的一种恰当方式是构建骨骼动画系统,将身体部位组织为树结构的形式。但是,由于我要处理的身体部位只有三个(身体和两个翅膀),因此我可以选择一种简便的方式。为了编辑鹰和树 3D 模型,我使用了一个免费易用的 3D 编辑工具 Blender。
我添加了 Griffin 起飞状态的树模型,以及无需重启应用即可重启游戏的游戏状态。Griffin 有两种状态:站立(站在树枝上)和飞翔。
我利用 libSFML 添加音效播放:当 Griffin 起飞时,会出现鹰的尖啸和风声。
飞行时的身体转动:用于控制 Griffin 飞行时的方向。身体转动可以通过横轴和左右手肘向量之间的夹角进行计算(下图上)。在飞行时,两只翅膀基于这一转动角度同步移动。选择手肘而不是手腕是为了最大化可见度,因为手腕经常会掉出摄像头视角或被其他身体部位遮挡住。
站立时的翅膀旋转:这纯粹是出于美观,为了让游戏更具趣味性,给人一种站立的时候可以单独控制每个翅膀的印象。这通过横轴与肩膀 - 手肘向量之间的夹角进行计算(下图下)。最终的翅膀旋转角度会添加 15 度,以加大翅膀的动作,毕竟人长时间举高胳膊会很累。
蹲伏:这是另一个美观动作,可以让人感受到能够控制 Griffin 起飞前的蹲伏姿势。这通过脖子 - 鼻子向量和肩膀向量之间的长度比进行计算。蹲伏得越深,脖子和鼻子之间的距离越短,而左右肩膀之间的距离保持不变,因此长度比变小。
起飞姿势:当左右肩膀之间的中心点在一秒内上下移动的幅度超过阈值时,则该动作会被识别为起飞姿势。阈值是肩膀之间的长度。当这一动作被触发时,Griffin 会跳下树枝,开始飞翔。
游戏复位姿势:当左右肩膀的水平位置反转时则为游戏复位姿势,如玩家背对摄像头。游戏将复位,Griffin 回到站在树上的姿势,准备下一次飞行。
class Payload(Structure):
_fields_ = [(“roll_target”, c_int32),
(“lwing_target”, c_int32),
("rwing_target", c_int32),
("body_height", c_int32),
("game_state", c_int32)]
typedef struct payload_t
{
int32_t roll_target;
int32_t lwing_target;
int32_t rwing_target;
int32_t body_height;
int32_t game_state;
} payload;
Torch2trt 是一个很强大的工具,可以自动将 PyTorch 模型转化为 TensorRT 版,让 AI 模型在 Jetson AGX Xavier 上运行地更快。很多最先进的 AI 模型都是用 PyTorch 构建起来的,但手动将它们移植到 TensorFlow 上可不是好的体验。
英伟达 Jetson AGX Xavier 的性能非常强大!很多人说它可以实时处理 30 个 1080p 视频流的计算机视觉模型处理任务,看来的确是这样。
亚马逊 SageMaker JumpStart 提供了大量流行的 AI 模型,并让它们非常易于部署。
构建 3D 游戏引擎的经历让我重拾之前作为游戏和电影 SFX 开发人员的经历,再次用起了生疏的 OpenGL、C++ 和三角学方面的技能。
说到动作识别游戏,人们自然会想到 Xbox——我本可以用 Unity 引擎和 Kinect 传感器在 Xbox 上构建一个 Griffin,但是这样不就没有太大意义了吗?有时从头构建一套系统才是乐趣所在。
扮演老鹰是一个很累的工作,尤其是长时间抬起手臂这件事。不过真正的老鹰是通过上升气流获得帮助并滑翔在天空中的。