Reddit热议:轻量型视频理解+动作识别的开源框架Sense火热出炉
新智元报道
新智元报道
来源:reddit
编辑:keyu
【新智元导读】不需要姿态估计、骨架追踪,仅靠端到端深度学习,即可实现视频理解和行为识别——获得微软1000万美元融资后,初创公司Twentybn推出最新推理工具Sense,集合数据处理、模型训练等多种功能一体,帮你实现诸如手势识别,健身跟踪,健身重复计数器和卡路里计算等多种任务!
本周,来自初创公司Twentybn的研究人员在Reddit上发布了一则帖子,获得了广泛关注:
帖子中记录道,Twentybn的研究团队最近发明了一个名为Sense的推理框架,使用Sense,在不需要姿态估计、骨架追踪的情况下,仅靠端到端的深度学习,开发人员就可以使用RGB摄像头来预测人类的行为。
官方给出的范例包括了手势识别,健身跟踪,卡路里计算等任务。
研究人员表示,他们正在努力使Sense成为集收集和清理视频数据、训练强大且高效的视频分类器功能、并能部署到任何设备(iOS和Android)上的一体化工具包。
致力于帮助AI学习解释人类行为,TwentyBN目标远大
TwentyBN是一家在柏林和加拿大设有办事处的创业公司,2018年,它筹集了由微软风险基金M12领导的1000万美元资金,主要用于帮助AI学习解释人类行为。
首席执行官兼首席科学家Roland Memisevic表示,公司将利用新资本扩大业务规模。
“从成立的第一天起,我们一直致力于将AI和交互式计算机视觉领域数十年的进步推向世界的每个角落,无论是家庭,办公室,商店还是机器人的大脑。”
TwentyBN的新型计算机视觉系统可以只使用现成的RGB相机观察人类,并与他们互动。它的AI不仅能响应基本行为,还考虑到每个参与的环境和背景,提供类似人类的情境意识。
Memisevic认为,虽然AI图像分类系统非常适合检测物体,但它们并不接近人类自治。他说,真正认知理解的关键在于能够理解行动。
TwentyBN技术的核心是一个众包的视频剪辑数据库,TwentyBN称,该数据库是同类中最大的。多年来,它从一个志愿者网络中采购了大约200万个片段,这些片段已经演出了数十万个场景,其中一个场景是免费提供的。
其“Something Something”数据集包括人们使用日常对象执行的基本操作,其Jester数据集显示人类在网络摄像头前执行预定义的手势。在数据集上训练的精密机器学习模型可以为汽车、智能家居和零售应用提供无触点、基于手势的界面。
模型SuperModel可以检测身体动作和人与物体的相互作用。手势识别模型则可以识别30多个动态的手部动作,并在空中追踪手指的运动。
客户通过与各种平台兼容的软件开发工具包来利用这些模型,包括Docker,RIS,Vuforia和Wikitude。在AirMouse和手势识别的情况下,它们与各种硬件兼容,包括嵌入式系统,台式机和移动设备。
免费提供预训练参数,多个demo任你跑
这款推理工具已经包含了预训练参数,现可供大家免费下载:
下载地址:
https://20bn.com/licensing/sdk/evaluation
Sense中的模型规模小、效率高、在CPU上运行平稳。使用官方提供的预训练参数,大家可以运行诸如手势识别,健身跟踪,健身重复计数器和卡路里计算的demo。
图:手势识别
图:健身追踪器和卡路里计算
此外,用户还可以使用这些权重参数,在自己的视频分类器上进行迁移学习,并根据自己的用例自定义模型。
该项目的Github页面还附上了相关操作和使用的全部说明和指南:
Github地址:https://github.com/TwentyBN/sense
感兴趣的小伙伴可以前去试一试!
参考链接:
https://www.reddit.com/r/MachineLearning/comments/ld8yjz/p_sense_open_source_framework_for_video/
推荐阅读: