数据扫黄,是怎样发现你的?-技术圈

尾

扩展阅读

在诸多审查工具中，“AI 鉴黄”是最新也最高效的一种。

简单来说，“AI 鉴黄”就是通过深度神经网络，按照各种描述特征来提取图像中的关键点，比如是否出现皮肤裸露等等，将色情图片与正常图片进行分类。

读到这里，大家可能会发现，“AI 鉴黄”还存在一些严峻的挑战，比如：

1.色情图像和正常图像有很多相似之处，判断非常复杂。游泳、比基尼等图片中同样也有大量裸露皮肤，被错误地归类为色情并删除，很可能影响用户网上冲浪的体验。

2.判断色情的标准不同。法官斯图尔特曾有句名言，我无法定义色情，但当我看到它时，我就知道了。对色情内容的监测也有一定的主观性，AI 往往会根据特征对裸露身体的大卫塑像而“痛下杀手”，却对部分软色情轻松放过。

3.依赖训练数据带来的风险。那么，是不是给 AI 尽可能多地语料就能帮助它提升识别的准确率呢？答案也不行。基于深度学习的黑箱性，攻击者如果知道 AI 鉴黄是根据哪些数据训练出来的，就可以有针对性地攻击、对抗这个模型，使其很快失效。

这也是为什么，人工鉴黄师，即人类审查员，依然还需要兢兢业业地在岗位上为冲浪护航。

（完）

觉得不错，请点个在看