Google最新最权威的未来人工智能技术之一：人脸领域-技术圈

计算机视觉研究院

长按扫描维码关注

EDC.CV

计算机视觉研究院专栏

作者：Edison_G

接下来，先看一小段我做的比较简单的人脸检测识别Demo！开始进入今天我们正式的主题！

关注并星标

从此不迷路

计算机视觉研究院

♥

通过视频可以看出，人脸检测识别在我们的生活中已经无处不在，未来十年内，人脸领域的技术依然火热，今天就让谷歌公司带领大家一起来学习认知下该领域的技术，及未来发展趋势！

近年来由于深度学习爆炸式的发展，已经带动了整个行业的发展。身为人工智能的一份子，为该技术骄傲自豪。在丰富的应用场景，人脸识别市场潜力巨大。应用场景逐渐增多，布局人脸识别的生态从而也更丰富。从消费电子领域，到汽车电子、安防、互联网支付、金融等领域逐步引入指纹识别，随着消费者用户习惯的养成，未来市场渗透快速攀升。

几年前的三大巨头，引领了人工智能的热潮，之后很多互联网公司奋力直追，现在已经有许许多多的互联网公司后起之秀，而且做的都特别好！

亚马逊、谷歌、IBM 和微软现在使用着什么？

从那以后，并没有太大变化。今天的供应商仍然使用深度卷积神经网络，当然可能会与其他深度学习技术相结合。显然，他们没有公布自己的视觉识别技术是如何工作的。我发现的信息是：

亚马逊：深度神经网络
谷歌：卷积神经网络
IBM：深度学习算法
微软：人脸算法

虽然它们听起来都很相似，但结果有一些不同。在我们测试它们之前，让我们先看看定价模型吧！

定价

亚马逊、谷歌和微软都有类似的定价模式，这意味着随着使用量的增加，每次检测的价格会下降。然而，对于 IBM，在你的免费层使用量用完之后，你就要为每次调用 API 支付相同的价格。Microsoft 为你提供了最好的免费协议，允许你每月免费处理 30000 张图片。如果你需要检测更多，则需要使用他们的标准协议，是从第一张图片开始付费的。

价格比较

话虽如此，让我们计算三种不同配置类型的成本。

条件 A：小型初创公司/企业可每月处理 1000 张图片
条件 B：拥有大量图像的数字供应商，每月可处理 100，000 幅图像
条件 C：数据中心每月处理 10，000，000 张图像。

集成供应商的 API

获取 SDK 非常容易。使用 Composer 更容易。然而，我确实注意到一些可以改进的东西，以便开发者的生活变得更轻松。

亚马逊

我从亚马逊的识别 API 开始。浏览他们的文档后，我真的开始觉得有点失落。我不仅没找到一些基本的例子（或者无法找到它们？)，但我也有一种感觉，我必须点击几次，才能找到我想要的东西。有一次，我甚至放弃了，只是通过直接检查他们的 SDK 源代码来获得信息。

另一方面，这可能只发生在我身上？让我知道亚马逊的识别对你来说是容易（还是困难）整合的吧！

注意：当 Google 和 IBM 返回边界框坐标时，Amazon 会返回坐标作为整体图像宽度/高度的比率。我不知道为什么，但这没什么大不了的。你可以编写一个辅助函数来从比率中获取坐标，就像我一样。

谷歌

接下来是谷歌。与亚马逊相比，他们确实提供了一些例子，这对我帮助很大！或者也许我已经处于投资不同 SDK的心态了。

不管情况如何，集成 SDK 感觉要简单得多，而且我可以花费更少的点击次数来检索我想要的信息。

IBM

如前所述，IBM（还没有？）为 PHP 提供一个 SDK。然而，通过提供的 cURL 示例，我很快就建立了一个自定义客户端。如果已经能提供一个 cURL 例子，那么你使用它也错不了什么了。

微软

看着微软的 PHP 代码示例（使用 Pear 的 HTTP _ request2 包），我最终为微软的 Face API 编写了自己的客户端。

为了回答市场空间有多大，应该关注三个现象：

整体市场成长迅速；
手机市场正在启动；
汽车、安防市场潜在增量。

人脸识别方案整体空间大，年复合增长率达27.68%。根据相关数据，2016年人脸识别市场规模为38亿美元，占生物识别的26%。人脸识别技术从2016年至2020年复合增长率将达到27.68%，届时含硬件、软件、服务的人脸识别整体市场达到101亿美元。手机市场已经爆发，未来空间超100亿。根据目前消息，苹果45%的新机型、三星主力机型有望搭载人脸识别，虽然其他厂商也有开始研究并准备相关方案，但根据整个方案成型并且最终搭载，需要等到明年。如此测算，2017年人脸识别对应的窄带滤光片渗透率约6-7%，窄带滤光片ASP以3元计算，对应市场空间约3个亿。中长期来看，在领导厂商示范效应下，未来正面人脸识别放量，渗透率到80%，那么空间约50亿；并且考虑正面人脸识别+背面3D建模的话，生物识别+增强现实双双实现，对应的市场空间再翻一倍，共达到100亿，是目前IRCF空间的2.5倍。

即使考虑降价因素，市场空间仍很大。人脸识别，汽车及安防提供潜在的增量空间。汽车电子是下一个金矿，电动汽车与无人驾驶技术带动下，汽车电子化率提速明显。2000年时平均每辆汽车使用芯片数量仅有十几个，2016年平均每辆车需要600个芯片，未来汽车电子化率进一步提升。博世、大陆、英伟达、克莱斯勒在2017年CES均展示了车内人脸识别应用，人脸识别未来有望大规模进入汽车电子领域。全球每年汽车销售8000万辆，考虑到汽车所需要的滤光片的数量、尺寸；组立件结构等因素，且在整车成本占比更小，价格敏感性低，ASP应比手机高，以50%渗透率算，未来空间容量约5亿。安防领域贡献人脸识别另一个增量市场。保守估计，安防用摄像头销量未来能够达到4000万台，以50%渗透率计算，未来市场空间约1亿。

通过上面的分析可以清晰的知道，未来人脸领域是一个发展空间巨大的技术，其中基本的技术路线如下图所示：

所以今天来和大家聊聊人脸检测与识别中的一些技术，简单为大家介绍和展示，希望可以给有兴趣的您带来一丝丝帮助，给未知的您带来浓厚的兴趣！今天主要内容有：人脸检测，人脸配准，人脸属性识别等技术。

人脸检测

“人脸检测(Face Detection)”是检测出图像中人脸所在位置的一项技术。其中，人脸检测算法的输入是一张图片，输出是人脸边界框坐标。一般情况下，输出的人脸坐标框为一个正朝上的正方形，但也有一些人脸检测技术输出的是正朝上的矩形，或者是带旋转方向的矩形。

常见的人脸检测算法基本是一个“扫描”加“判别”的过程，即算法在图像范围内扫描，再逐个判定候选区域是否是人脸的过程。因此人脸检测算法的计算速度会跟图像尺寸、图像内容相关。

人脸检测的结果

人脸专集1 | 级联卷积神经网络用于人脸检测（文末福利）

人脸配准

“人脸配准(Face Alignment)”是定位出人脸上五官关键点坐标的一项技术。人脸配准算法的输入是“一张人脸图片”＋“人脸边界框坐标”，输出五官关键点的坐标。五官关键点的数量是预先设定好的一个固定数值，可以根据不同的语义来定义(常见的有5点、68点、90点等等)。其实，我一般的做法是在精确检测人了后，进行裁剪将最后的结果作为人脸配准的输入。

当前效果的较好的一些人脸配准技术，基本通过深度学习框架实现，这些方法都是基于人脸检测的边界框，按某种事先设定规则将人脸区域扣取出来，缩放的固定尺寸，然后进行关键点位置的计算。因此，若不计入图像缩放过程的耗时，人脸配准算法是可以计算量固定的过程。另外，相对于人脸检测，或者是后面将提到的人脸提特征过程，人脸配准算法的计算耗时都要少很多。比较流行的模型如：CFAN，MTCNN，Cascade CNN等。

各种流行框架模型

人脸专集2 | 人脸关键点检测汇总（文末有相关文章链接）

人脸专集3 | 人脸关键点检测（下）—文末源码

人脸专集4 | 遮挡、光照等因素的人脸关键点检测

关键点配准结果

人脸属性识别

“人脸属性识别(Face Attribute)”是识别出人脸的性别、年龄、姿态、表情等属性值的一项技术。一般的人脸属性识别算法的输入是“一张人脸图”+“人脸五官关键点坐标”，输出是人脸相应的属性值。人脸属性识别算法一般会根据人脸五官关键点坐标将人脸对齐(旋转、缩放、扣取等操作后，将人脸调整到预定的大小和形态)，然后进行属性分析。

常规的人脸属性识别算法识别每一个人脸属性时都是一个独立的过程，即人脸属性识别只是对一类算法的统称，性别识别、年龄估计、姿态估计、表情识别都是相互独立的算法。但最新的一些基于深度学习的人脸属性识别也具有一个算法同时输入性别、年龄、姿态等属性值的能力。

人脸比对

“人脸比对(Face Compare)”是衡量两个人脸之间相似度的算法。其中，人脸比对算法的输入是两个人脸特征，输出是两个特征之间的相似度。人脸验证、人脸识别、人脸检索都是在人脸比对的基础上加一些策略来实现。

基于人脸比对可衍生出人脸验证(Face Verification)、人脸识别(Face Recognition)、人脸检索(Face Retrieval)、人脸聚类(Face Cluster)等算法。

人脸识别

“人脸识别(Face Recognition)”是识别出输入人脸图对应身份的算法。它的输入一个人脸特征，通过和注册在库中N个身份对应的特征进行逐个比对，找出“一个”与输入特征相似度最高的特征。将这个最高相似度值和预设的阈值相比较，如果大于阈值，则返回该特征对应的身份，否则返回“不在库中”。

人脸活体

“人脸活体(FaceLiveness)”是判断人脸图像是来自真人还是来自攻击假体(照片、视频等)的方法。和前面所提到的人脸技术相比，人脸活体不是一个单纯算法，而是一个问题的解法。这个解法将用户交互和算法紧密结合，不同的交互方式对应于完全不同的算法。鉴于方法的种类过于繁多，这里只介绍“人脸活体”的概念，不再展开。

／End.

我们开创“计算机视觉协会”知识星球一年有余，也得到很多同学的认可，我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

如果想加入我们“计算机视觉研究院”，请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

计算机视觉研究院

长按扫描维码关注我们

EDC.CV