阿里研发 AI 黑科技，有望替代人工鉴黄师-技术圈

头图 | 下载于ICphoto

出品 | AI科技大本营（ID：rgznai100）

互联网内容越来越朝着视频化方向发展，短视频处于爆发期，一些不法分子试图利用视频风口牟利。3月底，深圳警方打掉了一起以短视频APP为载体，大肆从事淫秽传播、网络赌博以及网络诈骗等犯罪活动。

最近，阿里安全图灵实验室发布了一项关于社会文化的研究，这是一种新型视频描述方法（SGR），可用于视频内容安全和视频检索等场景，助力建设互联网清朗环境。该研究成果已经被人工智能国际顶会CVPR2021（oral）收录。

让AI做“阅读理解”

现有的密集型视频描述生成方法采用自底向上的方式，即先生成大量的事件候选片段，再为每个片段独立的生成描述，从而组合得到密集型视频描述。然而，视频中事件具有很强的多样性，既可以简单到是一个动作，也可以复杂到是若干事件的组合，这导致事件候选片段的生成目标不明确，对应的密集型描述不够连贯和准确，且充斥着大量冗余。

对此，研究者提出了自顶向下的密集型视频描述方法，即SGR。

SGR可以实现两类基本功能，一是让AI对视频内容做“阅读理解”，生成一段长文本描述视频中心内容，二是可以根据描述性的文本精准匹配视频中的相关片段。

此前，必须人工定义关键词词库后才能“指挥”AI命中检索，这项AI技术的目标是仅通过输入自然语言就能实现检索，对AI“说句话”，就能找到相应片段。

“视频中如果有人拿起鼠标，点击电脑，然后脱掉衣服，呈现黄赌毒等相关违规信息，以前的技术路径上，AI可能还要分析脱掉衣服之前的动作，其实拿鼠标和点击电脑与后面的违规内容没什么关联，无需提取这些信息。”该研究第一作者、阿里安全图灵实验室实习算法工程师青崧介绍道。

SGR解决了这个问题。给定一个视频，AI可对视频的关键候选片段无缝衔接成一个完整的故事，保证了密集型描述的连贯性，且减少了冗余。

为了进一步增加视频片段的描述细节，研发人员设计了描述提升模块，以初步得到的密集型视频描述和视频片段为基准，提出专用于描述质量提升的强化学习策略，来生成细节更丰富的密集型视频描述。方法结构如下图所示：

输入一段视频，本方法首先使用一个视频编码器（）来为所有视频帧提取表征。接着，段落解码器（）根据视频帧的表征生成一段由多句描述组成的段落。然后，由描述定位器（）对段落中的每句描述在视频中的发生时刻进行定位。最后，描述提升模块，即描述解码器（）接受由输出的视频片段描述和由定位出的视频片段表征，并输出细节更丰富的视频片段描述。

该项研究的共同作者、阿里安全图灵实验室高级算法工程师雍秦介绍，虽然目前这个技术还无法做到“1分钟讲清楚一部电影”，但可做到“两句话讲清楚一个10分钟以内的短视频”，这意味着通过该技术未来可迅速判断整个视频的关键信息是否包含黄赌毒等违规内容。

更快更准识别违规风险内容

通过这两个功能，AI能快速识别、准确定位违规片段，无需人类鉴黄师反复回看确认。

雍秦透露，在SGR技术研究基础上，阿里安全近期还将研发低门槛、高可用的“鉴黄”AI工具，让AI对视频不同片段打出“危险指数”，依赖信息提取直接关联高亮风险片段，让AI鉴黄更智能、高效。

未来，在实际应用场景中，通过AI来进行不良内容识别的研判准确性和效率将大幅提高，比如判断视频内容中是否有“一个穿着暴露萝莉装的女孩鸭子坐着在录吃播”，以往要形成“暴露萝莉装”“鸭子坐”“吃播”三个标签，每次依据一个标签进行一轮审核，判断视频内容是否涉嫌低俗，三轮审核交叉验证。创新工具应用后，AI只用输入“一个穿着暴露萝莉装的女孩鸭子坐着在录吃播”这句话进行一轮研判，准确性也更高。

图说：阿里安全近期将研发低门槛、高可用的“鉴黄”AI工具，该图为示意模型。

阿里安全图灵实验室资深算法专家华棠指出，阿里安全一直希望从源头守护安全，这是阿里安全方法论“新一代安全架构”的核心理念。“互联网上每天产生海量视频，单靠人力无法维护互联网清朗环境，违规视频危及大众心理健康和财产安全，创新算法可以有更多用武之地，构建美好安全的网络生活。”

作者简介：邓超睿，阿里安全实习生，阿德莱德大学一年级博士，主要研究视频理解、图像理解，物体检测等方向，在TPAMI、CVPR、ECCV等学术期刊和会议上发表多篇文章，目前从事视频物体检测和检索的研究工作，利用创新算法提升视频内容安全的审核技术。

End

声明：部分内容来源于网络，仅供读者学术交流之目的，文章版权归原作者所有。如有不妥，请联系删除。