史上最大「面部识别数据研究」：43年，100个数据集，9个可怕的真相-技术圈

新智元报道

来源：外媒

编辑：小匀、LQ

【新智元导读】面部识别技术最初用于刑事调查和监控，受到政府的支持和推广，但现在已经发展成为无所不知的资本主义广告定位机器，最近一项对过去43年面部识别训练数据集的研究，显示了深度学习的兴起在何种程度上助长了隐私的丧失。

在科幻小说中，面部识别技术是威权社会的标志。关于它是如何被创造出来的，以及今天它是如何被使用的，真相都令人惊奇。

Mozilla的Deborah Raji和AI Now的Genevieve Fried在arXiv上发表了一篇论文About Face: A Survey of Facial Recognition Evaluation，在这篇论文中，作者对1976-2019年间收集的100多个用于训练面部识别系统的数据集进行了调查。

从中得出的最广泛的启示是，随着对更多数据(即照片)需求的增加，研究人员不再费心去征求用作数据的照片本人的同意。

《麻省理工学院技术评论》发文This is how we lost control of our faces，称该论文是「有史以来最大的面部识别数据研究，显示了深度学习的兴起在何种程度上助长了隐私的丧失」。

在这项关于面部识别数据集进化的追踪调查中，有一些历史时刻和揭示这项技术发展的事实，它们展示了面部识别的本质：当应用于现实世界时，它是一项有缺陷的技术，创建的明确目的是扩大监控状态，结果是侵犯我们的隐私。

以下是43年面部识别研究得出的9个令人惊讶又可怕的结果。

1 面部识别在学术环境与现实世界应用之间存在巨大的鸿沟

作者进行这项研究的原因之一就是想要了解为什么在测试中准确率接近100%的面部识别系统，在现实世界中应用时却有很大的缺陷。

例如，纽约市的大都会运输署在面部识别的错误率达到100%后，停止试点项目。

面部识别在识别黑人和棕色人种时的准确率较低，最近，三名黑人男子被面部识别技术错误识别并被捕。

2 美国国防部对这一技术的最初繁荣负有责任

虽然开发面部识别技术的努力始于学术界，但1996年美国国防部和美国国家标准和技术研究所（NIST）拨款650万美元建立了迄今为止最大的数据集，这一技术开始起步。

政府对这一领域产生了兴趣，因为它可用于实施监控，不像指纹识别那样需要人们积极参与。

3 早期用于创建面部识别数据的照片来自于人像拍摄，这就产生了很大缺陷

这看起来有点古怪，但大概在2005之前，研究人员建立数据库的方式是让人们坐着拍摄个人照。

因为今天的一些基础性的面部识别技术就来自于这些数据集，所以人像技术的缺陷可以产生共鸣的，比如，参与者类型单一，以及不能准确反映真实世界状况的现场设置。

4 当人像拍摄不够的时候，研究人员就开始Google，也不再征求同意

是的，当研究人员不再满足于添加人像到数据集的时候，事实确实是这样。

2007年的一个名为「Labeled Faces in the Wild」的数据集搜刮了谷歌、Flickr、YouTube和其他在线照片库。其中包括儿童的照片。虽然这极大地丰富了数据库，但却抛弃了照片主体的隐私权。

5 面部识别的下一次繁荣来自Facebook

研究人员引用了面部识别的一个转折点，即Facebook在2014年公布了其DeepFace数据库的创建。

Facebook展示了如何用收集到的数百万张照片创建神经网络，这些神经网络在面部识别上的表现远优于之前的系统，这使得深度学习成为现代面部识别技术的基石。

6 令人意外的是，Facebook大规模的面部识别做法侵犯了用户的隐私。

由于Facebook使用了用户上传的照片来用作面部识别，但却没有征得用户的正面同意，Facebook被美国联邦贸易委员会罚款，并向伊利诺伊州支付了一笔赔偿金。DeepFace通过「标签建议」(Tag Suggestions) ，这个功能向你推荐照片中想要标记的人。

接受或拒绝标记又让Facebook的系统变得更加智能。标签建议是可以选择退出的，这意味着参与这项技术是默认的。

7 面部识别系统已经在1770万人的脸上进行了训练--这还只是在公共数据集中。

事实上，我们并不知道有多少人的照片使在不知不觉中参与了面部识别技术的开发，也不知道这些参与者的身份。

8 面部识别的自动化导致了令人反感的标签系统和不平等的代表性。

面部识别系统的发展已经超出了识别一张脸或一个人的范围。它们还可以以攻击性的方式给人及其属性贴标签。

「这些标签包括关于体型的问题和潜在的侮辱性标签--'胖子'、'双下巴'--或不恰当的种族特征，如亚洲受试者的'苍白皮肤'、'尖鼻子'、'细长眼睛'，以及许多黑人受试者的'大鼻子'和'大嘴唇'。此外，还有怪异的概念，如'眼袋'、'胡茬'和客观上不可能一致定义的标签，如'吸引力'。」

训练集的默认值识别对象是「西方人」的面孔，而其他明确为增加多样性而创建的数据集本身也存在问题。

其中一个系统的目的是「训练无偏见和能够辨别歧视意识的人脸识别算法」，但研究人员指出，它只「将人类的种族起源划分为三类」。

这些毛病不仅仅是令人反感。研究表明，人工智能中的歧视会强化现实世界中的歧视。

9 今天，面部识别技术的应用范围从政府监控扩展到广告定位。

面部识别不仅保持了它的本来面目，又扩大了范围，超出了1970年代其创造者的想象。

「我们可以从历史背景中看到，政府从一开始就推广和支持这项技术，目的是为了实现刑事调查和监控。」作者写道。

例如，亚马逊已经将其有问题的Rekognition技术卖给了数不清的警察部门。

另一方面，一些训练集承诺，它可以帮助开发系统来分析购物者的情绪，更好地跟踪和了解潜在客户。

哪个更荒诞？利用面部识别实施监视的国家还是无所不知的资本主义广告机器? 你来决定。

参考链接：

https://mashable.com/article/facial-recognition-databases-privacy-study/

论文链接 https://arxiv.org/pdf/2102.00813.pdf