【人工智能】一文读懂人脸识别技术，人工智能，人脸识别技术解析

facai369 现代审美 2024-12-19 1 0

本文内容涵盖人脸识别发展历程、市场研究、核心技术、商业应用以及产业落地、个人看法等干货研究。注意，本文干货满满，约有2万7千字，强烈建议大家先收藏后学习！

01 发展史

1. 人脸识别的理解

人脸识别(Face Recognition)是一种依据人的面部特征(如统计或几何特征等)，自动进行身份识别的一种生物识别技术，又称为面像识别、人像识别、相貌识别、面孔识别、面部识别等。通常我们所说的人脸识别是基于光学人脸图像的身份识别与验证的简称。

人脸识别利用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸图像进行一系列的相关应用操作。技术上包括图像采集、特征定位、身份的确认和查找等等。简单来说，就是从照片中提取人脸中的特征，比如眉毛高度、嘴角等等，再通过特征的对比输出结果。

2. 人脸识别的发展简史

第一阶段（1950s—1980s）初级阶段

人脸识别被当作一个一般性的模式识别问题，主流技术基于人脸的几何结构特征。这集中体现在人们对于剪影（Profile）的研究上，人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事 AFR 研究的研究人员除了布莱索（Bledsoe）外还有戈登斯泰因（Goldstein）、哈蒙（Harmon）以及金出武雄(Kanade Takeo)等。总体而言，这一阶段是人脸识别研究的初级阶段，非常重要的成果不是很多，也基本没有获得实际应用。

第二阶段（1990s）高潮阶段

这一阶段尽管时间相对短暂，但人脸识别却发展迅速，不但出现了很多经典的方法，例如Eigen Face, Fisher Face和弹性图匹配；并出现了若干商业化运作的人脸识别系统，比如最为著名的 Visionics（现为 Identix）的 FaceIt 系统。从技术方案上看， 2D人脸图像线性子空间判别分析、统计表观模型、统计模式识别方法是这一阶段内的主流技术。

第三阶段（1990s末~现在）

人脸识别的研究不断深入，研究者开始关注面向真实条件的人脸识别问题，主要包括以下四个方面的研究：1）提出不同的人脸空间模型，包括以线性判别分析为代表的线性建模方法，以Kernel方法为代表的非线性建模方法和基于3D信息的3D人脸识别方法。2）深入分析和研究影响人脸识别的因素，包括光照不变人脸识别、姿态不变人脸识别和表情不变人脸识别等。3）利用新的特征表示，包括局部描述子（Gabor Face, LBP Face等）和深度学习方法。4）利用新的数据源，例如基于视频的人脸识别和基于素描、近红外图像的人脸识别。

02 市场研究

1. 全球人脸识别市场

前瞻根据人脸识别行业发展现状；到2016年，全球生物识别市场规模在127.13亿美元左右，其中人脸识别规模约26.53亿美元，占比在20%左右。预计到2021年，全球人脸识别市场预计将达到63.7亿美元，按预计期间的复合增长率达17.83％。

640?wx_fmt=png

2. 中国人脸识别市场

前瞻根据人脸识别行业发展现状，估算我国人脸识别市场规模约占全球市场的10%左右。2010-2016年，我国人脸识别市场规模逐年增长，年均复合增长率达27%。2016年，我国人脸识别行业市场规模约为17.25亿元，同比增长27.97%，增速较上年上升4.64个百分点。

640?wx_fmt=png

3. 国内主要玩家分布

3.1 中国部分人脸识别公司（排名不分先后）

640?wx_fmt=png

3.2 四大独角兽介绍及对比细分领域

（1）旷视科技：

2014年，获阿里巴巴旗下蚂蚁金服投资，主攻金融和监控两大行业，有子公司旷视智安；团队成员除了几名来自清华校友外，还有来自美国哥伦比亚大学、英国牛津大学和美国南加州大学的科研及开发人员，截至目前员工仅有100余人。

在金融、安防、零售领域分别开始了商业化探索成功发育出Face++Financial，Face++Security，Face++BI等垂直人脸验证解决方案，主要将人脸识别应用在互联网产品上，自己做研发，在美图秀秀、淘宝等互联网领域得到良好的应用，在金融领域的市场一直占据沙发前排阵营；2016年获得上亿元C轮融资，最后选择通过计算机视觉技术与NLP技术的结合，制造出能“识别万物”的智能机器人，提供硬件模组，里面内置他们家的算法。目前正在准备启动IPO的步伐，VIE架构让他们得以绕过A股，不用达到连续三年盈利的标准实现快速上市。

（2）商汤科技：

SenseTime（商汤科技），获IDG资本投资，主攻金融、移动互联网、安防监控三大行业；由香港中文大学的汤晓欧创建，“商汤”中的汤指的就是汤晓欧本人，汤晓鸥及其研究团队所开发的DeepID算法率先将深度学习应用到人脸识别上，在技术指标上实现了新的突破。主要案例是围绕各个美化软件与直播平台制作人脸贴图，重点强化了人脸识别的关键点检测及跟踪技术。

团队有300多号，也从当初toC转向toB领域；成立于2014年的商汤科技选择另辟蹊径，选择用“四大美女”这个话题让人们躁动起来，到最后四大美女走了三个；商汤的网络都是自己设计的，这样对于深度学习网络的掌控力就会更强，提供SaaS服务的同时，可以通过SaaS把背后的数据拿到，再进行更多更细致的分析再次提升服务质量。

（3）云从科技：

2015年4月，周曦拿到战略投资成立云从科技，同年针对金融和银行业推出了40多种解决方案，包含从算法、产品、销售、售后的全产业链打造，针对农行、建行、交行、中行及多地公安提供定制化服务。团队成员除了来自中科大的校友外，还来自中国科学院各大研究所、UIUC、IBM、NEC、MicroSoft等全球顶尖学府及研究机构。

截止2016年11月，成立一年半，研发团队扩展为200余名，核心产品是人脸识别系统及IBIS集成生物识别平台，还具备3D模型、红外活体、静默活体等技术，可根据场景需求自由调节。选择连接硬件、开发与技术，属于全产业链模式，因为人脸识别系统多数情况下需要深度定制，只有这样，才能在客户提出需求的情况下迅速反馈，修改，统一用户体验。

（4）依图科技：

2012 年九月，朱珑与他的好友林晨曦在创立依图科技，这家从事人工智能创新性研究的创企从图像识别入手，首先与全国省市级公安系统合作，对车辆品牌、型号等进行精准识别，随后扩展到人像识别，通过静态人像比对技术和动态人像比对技术，协助公安系统进行人员身份核查、追逃、监控、关系挖掘等。

发展近6年，依图科技的产品已经应用到全国二十多个省市地区的安防领域，安防领域之外，依图也进入智慧城市领域和健康医疗领域，它要协助政府构建"城市大脑"，也希望将医疗领域的巨大知识鸿沟缩小，改善医患体验。

（5）细分领域对比表

640?wx_fmt=png

（6）主要客户对比

640?wx_fmt=png

4. 商业模式

4.1 人脸识别商业模式设计步骤

640?wx_fmt=png

4.2 人脸识别盈利模式

640?wx_fmt=png

03 人脸识别的流程及主要技术

1. 人脸识别系统组成

640?wx_fmt=png

2. 人脸识别的一般流程

2.1 人脸采集

（1）简介

不同的人脸图像通过摄像镜头采集得到，比如静态图像、动态图像、不同的位置、不同表情等，当采集对象在设备的拍摄范围内时，采集设备会自动搜索并拍摄人脸图像。

（2）人脸采集的主要影响因素

2.2 人脸检测

（1）简介

在图像中准确标定出人脸的位置和大小，并把其中有用的信息挑出来（如直方图特征、颜色特征、模板特征、结构特征及Haar特征等），然后利用信息来达到人脸检测的目的。

（2）人脸关键点检测（人脸对齐）

自动估计人脸图片上脸部特征点的坐标。

（3）主流方法

基于检测出的特征采用Adaboost学习算法（一种用来分类的方法，它把一些比较弱的分类方法合在一起，组合出新的很强的分类方法）挑选出一些最能代表人脸的矩形特征（弱分类器），按照加权投票的方式将弱分类器构造为一个强分类器，再将训练得到的若干强分类器串联组成一个级联结构的层叠分类器，有效地提高分类器的检测速度。

最近人脸检测算法模型的流派包括三类及其之间的组合：viola-jones框架（性能一般速度尚可，适合移动端、嵌入式上使用），dpm（速度较慢），cnn（性能不错）。

2.3 人脸图像预处理

（1）简介

基于人脸检测结果，对图像进行处理并最终服务于特征提取的过程。

（2）原因

系统获取的原始图像由于受到各种条件的限制和随机干扰，往往不能直接使用，必须在图像处理的早期阶段对它进行灰度矫正、噪声过滤等图像预处理。

（3）主要预处理过程

人脸对准（得到人脸位置端正的图像），人脸图像的光线补偿，灰度变换、直方图均衡化、归一化（取得尺寸一致，灰度取值范围相同的标准化人脸图像），几何校正、中值滤波（图片的平滑操作以消除噪声）以及锐化等。

2.4 人脸特征提取

（1）简介

人脸识别系统可使用的特征通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取就是针对人脸的某些特征进行的，也称人脸表征，它是对人脸进行特征建模的过程

（2）人脸特征提取的方法

2.5 匹配与识别

提取的人脸特征值数据与数据库中存贮的特征模板进行搜索匹配，通过设定一个阈值，将相似度与这一阈值进行比较，来对人脸的身份信息进行判断。

3. 人脸识别的主要方法

3.1 Eigen Face（特征脸）

MIT实验室的特克（Turk）和潘特（Pentland）提出的“特征脸”方法无疑是这一时期内最负盛名的人脸识别方法。其后的很多人脸识别技术都或多或少与特征脸有关系，现在特征脸已经与归一化的协相关量(Normalized Correlation)方法一道成为人脸识别的性能测试基准算法。

人脸识别特征脸算法文档：

https://blog.csdn.net/zizi7/article/details/52757300

3.2 Fisher Face（渔夫脸）

贝尔胡米尔（Belhumeur）等提出的 Fisherface 人脸识别方法是这一时期的另一重要成果。该方法首先采用主成分分析（PCA）对图像表观特征进行降维。在此基础上，采用线性判别分析（LDA）的方法变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该方法目前仍然是主流的人脸识别方法之一，产生了很多不同的变种，比如零空间法、子空间判别模型、增强判别模型、直接的LDA 判别方法以及近期的一些基于核学习的改进策略。

Fisher Face算法文档：

https://blog.csdn.net/zizi7/article/details/52999432

3.3 EGM（弹性图匹配）

其基本思想是用一个属性图来描述人脸：属性图的顶点代表面部关键特征点，其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换12特征，称为Jet；边的属性则为不同特征点之间的几何关系。对任意输入人脸图像，弹性图匹配通过一种优化搜索策略来定位预先定义的若干面部关键特征点，同时提取它们的Jet特征，得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该方法的优点是既保留了面部的全局结构特征，也对人脸的关键局部特征进行了建模。

弹性图匹配算法文档：

https://blog.csdn.net/real_myth/article/details/44828219

3.4 基于几何特征的方法

几何特征可以是眼、鼻、嘴等的形状和它们之间的几何关系（如相互之间的距离）。这些算法识别速度快，需要的内存小，但识别率较低。

3.5 基于神经网络的方法

神经网络的输入可以是降低分辨率的人脸图像、局部区域的自相关函数、局部纹理的二阶矩等。这类方法同样需要较多的样本进行训练，而在许多应用中，样本数量是很有限的。

3.6 基于线段Hausdorff 距离(LHD) 的方法

心理学的研究表明，人类在识别轮廓图（比如漫画）的速度和准确度上丝毫不比识别灰度图差。LHD是基于从人脸灰度图像中提取出来的线段图的，它定义的是两个线段集之间的距离，与众不同的是，LHD并不建立不同线段集之间线段的一一对应关系，因此它更能适应线段图之间的微小变化。实验结果表明，LHD在不同光照条件下和不同姿态情况下都有非常出色的表现，但是它在大表情的情况下识别效果不好。

3.7 基于支持向量机(SVM) 的方法

近年来，支持向量机是统计模式识别领域的一个新的热点，它试图使得学习机在经验风险和泛化能力上达到一种妥协，从而提高学习机的性能。支持向量机主要解决的是一个2分类问题，它的基本思想是试图把一个低维的线性不可分的问题转化成一个高维的线性可分的问题。通常的实验结果表明SVM有较好的识别率，但是它需要大量的训练样本（每类300个），这在实际应用中往往是不现实的。而且支持向量机训练时间长，方法实现复杂，该函数的取法没有统一的理论。

4. 技术发展方向

5. 人脸识别数据库

6. 技术指标

6.1 人脸检测中的关键指标

例子：在摄像头某张抓拍图像中，一共有100张人脸，算法检测出80张人脸，其中75张是真实人脸，5 张是把路标误识为人脸。

在这个实际案例中：检测率=75/100误检率=5/80漏检率=（100-75）/100

6.2 人脸识别中的关键指标

1000张样本图片里，共600张正样本。相似度为0.9的图片一共100张，其中正样本为99张。虽然0.9阈值的正确率很高，为99/100；但是0.9阈值正确输出的数量确很少，只有99/600。这样很容易发生漏识的情况。

在这个实际案例中：检测率=75/100 误检率=5/80 漏检率=（100-75）/100

6.3 人脸识别中的关键指标

04 行业应用

1. 人脸识别（FR）+其他行业

1.1 FR+金融

（1）实名认证

金融机构传统上使用人工肉眼判断、短信验证、绑定银行卡等手段进行实名认证。这些传统手段存在准确率不高、客户体验较差、成本高等问题，对金融企业业务发展造成了巨大的困扰。基于人脸识别的实名认证方式具有准确率高（一亿人中才存在两人长相相同）、客户体验好（认证速度快、客户操作少）、成本低（相较于传统认证方式）的优点，已被众多领先金融企业所采用。

（2）人脸识别在银行远程开户上的应用

在远程开户时，金融机构可以通过智能终端在线上进行身份鉴权验证，使用人脸识别技术开户可以极大提升业务办理的安全性、时效性，并节省大量人力。

（3）刷脸取款

在这方面人脸取代了银行卡，只需要人脸+密码即可完成取款。在前两个方面，人脸识别技术已经被国内各大银行广泛采用，刷脸取款方面，农行和招行抢先一步在ATM上线了刷脸取款功能。

640?wx_fmt=png

1.2 FR+医疗

（1）重点应用

（2）人脸识别在医疗行业的应用突破基于三点

（3）人脸识别在医疗行业的前景

1.3 FR+新零售

（1）应用人脸识别的优势

（2）人脸识别的安全隐患

1.4 FR+安防

（1）智慧城市的基础

（2）反恐行动的助力

现在新疆、西藏等城市都将人脸识别作为基础设施建设领域的投资重点，由于人员复杂、居住人口相对混乱等因素，这些城市成为了恐怖袭击等违法犯罪行为的高发场所。而人脸识别技术采用人脸检测算法、人脸跟踪算法、人脸质量评分算法以及人脸识别算法。实现城市居住人员人脸的抓拍采集、建模存储，实时黑名单比对报警和人脸后检索等功能。能及时在危险发生之前制止。

（3）儿童安全的保镖

近年来儿童拐卖活动越来越猖獗，为了更好的保护儿童安全，有些幼儿园、小学在门口已经安装上了面部识别系统。系统采用人脸识别加IC/ID卡(非接触式智能卡) 双重认证：每一位幼儿在入学注册时进行相关登记：资料、面像、IC/ID卡号、接送者、接送者面像。

每次入园时刷卡进行报道，放学时刷卡并进行接送家长人脸认证，如果认证失败拍照后即报警通知管理员，如果认证成功即拍照放行。不论识别成功与否，系统都会记录下被识别者图像。每一次接送都有详细的时间、接送人员的照片可供查询。另外系统提供短信提示的扩展功能，家长可在手机上看到人脸识别认证时所拍的照片，从而监控到接送这个过程，从其中一个重要源头杜绝了儿童被拐的可能性。

（4）智慧酒店的管理

以前开房登记流程是：接待人员问询——身份证扫描确认——支付押金——选房层发房卡——打印纸质票据，这些流程非常繁杂，尤其是身份认证耗时最长，若遇到团队入住情况则更为复杂，身份证识别设备可能会因高频使用出现故障，而急于进房间休息的顾客却只能在前台等待手续完成，客户体验非常糟糕。

人脸识别技术就能很好的解决这一难题，帮助酒店实现系统化业务管理和一站式共享解决方案。智慧酒店的安防系统利用人脸识别技术，当顾客走到前台时系统已经自动根据顾客被摄像头捕捉到的影像调取顾客身份核对。整个验证核对过程简单、快速且实现了自动化，更大幅降低了人工识别造成的误差。而且，针对酒店VIP客人，系统可实时对比酒店大堂的摄像头影像和登记在酒店基础系统中的VIP面部数据，当VIP客人到达时，酒店可第一时间提供个性化周到服务，提高客户的满意度。

1.5 FR+公安

1.6 FR+商业场景

应用模式典型具体应用特点说明应用领域：

640?wx_fmt=png

2. FR的部分应用

2.1 人脸检测跟踪

（1）应用

商场客流跟踪分析，地铁、火车站、会场、机场等场所的可疑人员的跟踪检测，体育赛事的现场监控等。

（2）难点

多人脸跟踪、远场识别人脸、背景复杂、低质量图片人脸识别（算法预处理），还有侧脸（3D重建人物全面），遮挡，模糊，表情变化、强弱光（多特征融合增强抗干扰力）等各种实际环境。

（3）建议

远场识别（可依据距离识别）、背景复杂（可虚化无关场景，凸显主角）。

2.2 人脸关键点定位

（1）应用

可用于图片的合成、动态图片的分析（直播行业鉴黄、鉴暴），通过关键点分析人脸表情情绪。

（2）难点

大角度侧脸，表情变化、遮挡、模糊、明暗等，动静态关键点捕捉。

（3）建议

对模糊部位可进行平滑处理，根据眼睛、嘴的特点建立不同的区域块等。

2.3 人脸身份认证

（1）应用

关键性应用（金融身份认证、海关检查、火车站和机场等进站），非关键性应用（智慧小区居民进出、办公大楼进出、公司单位上班打卡等）

（2）难点

年轻时的证件照和本人识别匹配、戴眼镜和未戴眼镜、侧脸和正脸、表情、背景干扰、整容后、双胞胎及长相类似等。

（3）建议

可基于三维人像分析避免认证时的假冒，动作分析等。（旷视的难以区分蜡像、海报和真人）

2.4 人脸属性（性别、年龄、种族、表情、饰品、胡须、面部动作状态）

（1）人脸表情识别（Face expression recognition 简称FER）

（2）人脸性别识别

性别分类是一个典型的二类问题，人脸性别分类问题需要解决的两个关键问题是人脸特征提取和分类器的选择。人脸性别识别其实仅能识别到人脸外貌更偏向于女性还是男性，很难对女生男相、男生女相进行正确判断。

（3）人脸年龄识别

（4）人脸属性的应用

根据物理属性（性别、年龄、种族、眼镜颜值等）可用于广告定向投放、个性化智能推荐、顾客分析、婚恋交友等；化学属性（面部动作、情绪等）可用于即时视频社交、图片合成、图片美化等。

（5）识别建议

人脸属性分析时，可利用K-近邻算法匹配云端库里的类似照片后再对相似属性进行分析。

2.5 人脸聚类

（1）应用：个性化相册管理、照片分享社交、婚恋交友相似脸型匹配推荐兴趣社交等。

（2）难点：角度、光线、发型、相似脸型等干扰分类。

（3）建议：可基于一张正脸照片，将其他照片进行依次比对分析后再分类等（智能相册、婚恋社交）。

2.6 真人检测

（1）应用：银行开户验证、车站、机场、公司打卡等。

（2）难点：2D和3D的识别检测、真人与蜡像、硅胶假冒人脸识别、照片和真人识别检测验证等。

（3）建议：可基于三维人像分析避免认证时的假冒等，动态识别验证以区分假象（旷视的难以区分蜡像、海报和真人）。

2.7 人像美颜/美妆

（1）应用：兴趣社交、婚恋交友、图像合成、个性化用品推荐和广告投放等。

（2）难点：美颜与一般滤镜效果的区别、美颜后的自然效果等。

（3）建议：基于数据集的算法更新迭代。

2.8 人体关键点（CPM、DeeperCut）

（1）应用：关键动作抓拍、人体姿态估计、舞蹈难度评定。

（2）难点：多目标关键点定位、关键点遮挡、光线强弱等。

（3）建议：关键点遮挡（分块处理、三维构建找寻关键点）

3. FR的商业化

3.1 从时间上看商业化的不同阶段

640?wx_fmt=png

3.2 从业务场景上看

场景关键点：

640?wx_fmt=png

3.3 垂直行业人脸解决方案（地产行业为例）

（1）地产行业分布

（2）地产行业的市场规模

640?wx_fmt=png

（3）演变方向及客户痛点

（4）建设步骤及架构

步骤：

第一步：人员通信管理

第二步：传感网络融合

第三步：商业地产+新零售

整体IoT架构：

640?wx_fmt=png

（5）影响因素与优化方案

3.4 顶尖公司的应用举例

（1）Google：2011年07月谷歌收购人脸识别软件公司PittPatt

（2）Facebook：2012年6月 Facebook收购以色列脸部识别公司Face.com

（3）微软：2012年6月微软亚洲研究院发布人脸检测算法，面部识别系统

（4）网易：2012年5月，网易人脸识别系统全国公测，用于邮箱登陆

（5）百度：2012年12月百度推出人脸识别，基于图像的全网人脸搜索

（6）阿里：2015年11月，在推出支付宝刷脸认证付款

（7）腾讯：2012年下半年，成立优图项目组

05 人脸识别（FR）的产品落地

1. FR技术产品的优势

1.1 非接触

人脸图像的采集不同于指纹、掌纹需要接触指掌纹专用采集设备，指掌纹的采集除了对设备有一定的磨损外，也不卫生，容易引起被采集者的反感，而人脸图像采集的设备是摄像头，无须接触。

1.2 非侵扰

人脸照片的采集可使用摄像头自动拍照，无须工作人员干预，也无须被采集者配合，只需以正常状态经过摄像头前即可。

1.3 友好

人脸是一个人出生之后暴露在外的生物特征，因此它的隐私性并不像指掌纹、虹膜那样强，因此人脸的采集并不像指掌纹采集那样难以让人接受。

1.4 直观

我们判断一个人是谁，通过看这个人的脸就是最直观的方式，不像指掌纹、虹膜等需要相关领域专家才可以判别。

1.5 快速

从摄像头监控区域进行人脸的采集是非常快速的，因为它的非干预性和非接触性，让人脸采集的时间大大缩短。

1.6 简便

人脸采集前端设备——摄像头随处可见，它不是专用设备，因此简单易操作。

1.7 可扩展性好

它的采集端完全可以采用现有视频监控系统的摄像设备，后端应用的扩展性决定了人脸识别可以应用在出入控制、黑名单监控、人脸照片搜索等多领域。

2. FR三大识别场景

2.1 人脸确认（1:1）

2.2 人脸辨认（1:N）

（1）简介

将某人面像与数据库中的多人的人脸进行比对，并根据比对结果来鉴定此人身份，或找到其中最相似的人脸，并按相似程度的大小输出检索结果。

（2）产品应用

人脸开门、人脸检索，排查犯罪嫌疑人、失踪人口的全库搜寻、一人多证的重复排查等。

（3）实际问题

（4）产品难点

a. 1:N中的N能够支持多大

b. 非配合场景

c. 跨人种，跨年龄识别问题

d. 产品体验

2.3 多人脸检索（N:N）

（1）简介

1：N同时作业就是N:N了，同时相应多张照片检索需求。

（2）实际产品问题中

主要的限制如下：

海量的人脸照片解析需要大量运算（目前很少看到在采集端直接解析的，都是照片剪裁）海量的人脸照片传输需要大量的带宽（常见的720布控摄像头抓取最小的人脸照片为20K）海量的人脸照片在后台检索需要耗费大量的运算（国内主流主机为例，最多到24路摄像头）。

640?wx_fmt=png

3. 产品实战中的物理问题

3.1 光照问题

（1）简介

光照问题是机器视觉重的老问题，在人脸识别中的表现尤为明显。由于人脸的3D结构，光照投射出的阴影，会加强或减弱原有的人脸特征。

（2）解决思路

A、对其进行包括光照强度和方向、人脸反射属性的量化，面部阴影和照度分析等，尝试建立数学模型，以利用这些光照模型，在人脸图像预处理或者归一化阶段尽可能的补偿乃至消除其对识别性能的影响，将固有的人脸属性（反射率属性、3D表面形状属性）和光源、遮挡及高光等非人脸固有属性分离开来。

B、基于光照子空间模型的任意光照图像生成算法，用于生成多个不同光照条件的训练样本，然后利用具有良好的学习能力的人脸识别算法，如子空间法，SVM等方法进行识别。

3.2 人脸姿态问题

（1）简介

与光照问题类似，姿态问题也是目前人脸识别研究中需要解决的一个技术难点。姿态问题涉及头部在三维垂直坐标系中绕三个轴的旋转造成的面部变化，其中垂直于图像平面的两个方向的深度旋转会造成面部信息的部分缺失。针对姿态的研究相对比较的少，目前多数的人脸识别算法主要针列正面、准正而人脸图像，当发生俯仰或者左右侧而比较厉害的情况下，人脸识别算法的识别率也将会急剧下降。面部幅度较大的哭、笑、愤怒等表情变化同样影像着面部识别的准确率。

（2）解决思路

3.3 遮挡问题

对于非配合情况下的人脸图像采集，遮挡问题是一个非常严重的问题。特别是在监控环境下，往往彼监控对象都会带着眼镜，帽子等饰物，使得被采集出来的人脸图像有可能不完整，从而影响了后面的特征提取与识别，甚至会导致人脸检测算法的失效。

3.4 年龄变化

随着年龄的变化，面部外观也在变化，特别是对于青少年，这种变化更加的明显。对于不同的年龄段，人脸识别算法的识别率也不同。一个人从少年变成青年，变成老年，他的容貌可能会发生比较大的变化，从而导致识别率的下降。对于不同的年龄段，人脸识别算法的识别率也不同。

3.5 人脸相似性

不同个体之间的区别不大，所有的人脸的结构都相似，甚至人脸器官的结构外形都很相似。这样的特点对于利用人脸进行定位是有利的，但是对于利用人脸区分人类个体是不利的。

3.6 图像质量

人脸图像的来源可能多种多样，由于采集设备的不同，得到的人脸图像质量也不一样，特别是对于那些低分辨率、噪声大、质量差的人脸图像(如手机摄像头拍摄的人脸图片、远程监控拍摄的图片等)如何进行有效地人脸识别是个需要关注的问题。同样的，对于高分辨图像对人脸识别算法的影响也需要进一步的研究。

3.7 样本缺乏

基于统计学习的人脸识别算法是目前人脸识别领域中的主流算法，但是统计学习方法需要大量的训练。由于人脸图像在高维空间中的分布是一个不规则的流形分布，能得到的样本只是对人脸图像空间中的一个极小部分的采样，如何解决小样本下的统计学习问题有待进一步的研究。

3.8 海量数据

传统人脸识别方法如PCA、LDA等在小规模数据中可以很容易进行训练学习。但是对于海量数据，这些方法其训练过程难以进行，甚至有可能崩溃。

3.9 大规模人脸识别

随着人脸数据库规模的增长，人脸算法的性能将呈现下降。

3.10 动态识别

非配合性人脸识别的情况下，运动导致面部图像模糊或摄像头对焦不正确都会严重影响面部识别的成功率。在地铁、高速公路卡口、车站卡口、超市反扒、边检等安保和监控识别的使用中，这种困难明显突出。

3.11 人脸防伪

伪造人脸图像进行识别的主流欺骗手段是建立一个三维模型，或者是一些表情的嫁接。随着人脸防伪技术的完善、3D面部识别技术、摄像头等智能计算视觉技术的引入，伪造面部图像进行识别的成功率会大大降低。

3.12 丢帧和丢脸问题

需要的网络识别和系统的计算机识别可能会造成视频的丢帧和丢脸现象，特别是监控人流量大的区域，由于网络传输的带宽问题和计算能力问题，常常引起丢帧和丢脸问题。

3.13 摄像机的头像问题

摄像机很多技术参数影响视频图像的质量，这些因素有感光器（CCD、CMOS）、感光器的大小、DSP的处理速度、内置图像处理芯片和镜头等，同时摄像机内置的一些设置参数也将影响质量，如曝光时间、光圈、动态白平衡等参数。

4. 实战中的数据标注

4.1 数据标注

（1）一般来说，数据标注部分可以有三个角色

只有在数据被审核员审核通过后，这批数据才能够被算法同事利用。

（2）数据标记流程

4.2 模型训练

数据标记完成后，交由算法同学进行模型的训练，期间发现的问题可与产品一起商讨。训练过程中，最好能可视化一些中间结果。一来可以检测代码实现是否有Bug，二来也可以通过这些中间结果，来帮助自己更好的理解这个算法的过程。

4.3 模型测试

测试同事（一般来说算法同事也会直接负责模型测试）将未被训练过的数据在新的模型下做测试。

如果没有后台设计，测试结果只能由人工抽样计算，抽样计算繁琐且效率较低。模型的效果，需要在精确率（识别为正确的样本数/识别出来的样本数）和召回率（识别为正确的样本数/所有样本中正确的数）中达到某一个平衡。

测试同事需要关注特定领域内每个类别的指标，比如针对识别人脸的表情，里面有喜怒哀乐等分类，每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事，算法同事才能找准模型效果欠缺的原因。同时，测试同事将本次模型的指标结果反馈给产品，由产品评估是否满足上线需求。

（1）测试环境说明

例如：

（2）测试集和测试需求说明

比如“图片包含人脸大小应超过96*96像素，测试结果达到XX程度满足需求。

（3）需要说明“有效距离，左右角度，上下角度，速度”等参数值（范围）

注：这和“部署的灵活性”相关——由于不同客户不同场景的需求不同，所以技术方的人脸检测模块，一般可以通过调整参数得到N种亚型，以适应不同应用场景(光照、角度、有效距离、速度) 下对运算量和有效检测距离的需求。

（4）测试结果——欠拟合

640?wx_fmt=png

左图表示size与prize关系的数据，中间的图就是出现欠拟合的模型，不能够很好地拟合数据，如果在中间的图的模型后面再加一个二次项，就可以很好地拟合图中的数据了，如右面的图所示。

（5）测试结果——过拟合

640?wx_fmt=png

上面左图表示size和prize的关系，我们学习到的模型曲线如右图所示，虽然在训练的时候模型可以很好地匹配数据，但是很显然过度扭曲了曲线，不是真实的size与prize曲线。

从产品角度：

从算法角度：

4.5 标注流程中遇到的问题

（1）项目过程中的不确定性

a. 出现原因：

一般情况下，只要数据标注的规范清晰，对规则的界定从一而终，标注工作的流程还是比较简单的。

数据标注规范可能会在测试后根据结果情况进行调整，那么，规则修改前后“数据标注的一致性”就出现了问题，会导致多次返工，在时间和人工成本上颇有影响。

b. 解决方法：

5. 实际案例分析

5.1 某领域的人脸识别监测与身份确认

（1）案例问题

光照影响：过暗或过亮等非正常光照环境，会对模型的效果产生很大干扰。

（2）解决方案

a. 从产品角度控制

b. 从算法角度控制

用算法将图片进行处理，可以将图片恢复得让人眼看清的程度。

5.2 某款人脸年龄识别产品

（1）案例问题

一款识别人脸年龄的产品对女性某个年龄阶段（25—35）的判断，误差较大，经过发现，是因为该年龄阶段有以下特点：

（2）解决方案

（3）需求研究

5.3 某款AR美颜相机

（1）无法定位出人脸

在背景出现多人或宠物时，相机有时并未能精确定位出目标用户，而定位到背景图片中的人、宠物、身旁的其他人；有时屏幕一片漆黑；有时显示未检测出人脸。

（2）图像模糊昏暗

光线太暗、运动、对焦等造成模糊（摄像头距离因素，造成图像低频存在，高频流失等）

（3）人脸关键动作抓捕太慢

在进行AR美颜搞怪时（如张嘴动作，屏幕出现音符、唾沫星子等）对动作抓捕太慢（半天才抓捕到张嘴动作）。

（4）关键位置添加虚拟物品失败（如在嘴上叼烟、耳朵吊耳环、眼镜戴墨镜、脸显红晕）

5.4 人脸开门和人脸检索

（1）人脸开门等跨网方案需要关注的因素

（2）人脸检索等某一局域网方案需要关注的因素

5.5 旷视科技官网产品体验（多图预警）

（1）年龄略有差距，自我估计+-5，性别基本无误，头部状态略有误差，人种误差在30-40%（样本量10，白种人和黄种人误差明显），情绪基本无误，眼镜种类识别有误差（商品识别的范畴），强光状态下表现不佳。

640?wx_fmt=png

（2）逻辑错误：左眼（睁眼、普通眼镜）、右眼（墨镜）；相似度大（下图为张一山和夏雨）的较难区分（双胞胎估计很难区分）

640?wx_fmt=png

（3）远距离检测较难：左图检测出一张，右图检测出两张（估计10米开外检测不到）

640?wx_fmt=png

（4）能够识别蜡像、海报等非真人场景，因此在一些场合可欺骗摄像头，如在金融领域里的身份识别，海关检查等关键性应用中，将会有风险。

640?wx_fmt=png

（5）佩戴的口罩无法检测出人脸

640?wx_fmt=png

（6）公司体验对比结果

640?wx_fmt=png

6. 项目虚拟实战（以AR美颜APP为例，过程为理论经验推理所得，自己并未实习）

人脸检测系统下，有很多FR相关的应用，比如人脸属性识别（年龄、表情、性别、种族等）、人脸美颜/美妆、人脸聚类等等。我们从AR美颜/美妆这一个例子着手，探索项目的具体流程。

6.1 项目前期准备

（1）需求调研

场景及痛点：现在大多数美颜相机拍照后，都只有添加各种滤镜、加几个字、变白一点，早已经不能满足广大女性群体对于美颜的需求；加上如今年轻女性和男性的审美标准和猎奇心理都在发生改变，社交方式的趣味性也变得不同，比如原来大家可能在空间、朋友圈、直播上看到美女帅哥都会觉得很吸睛，点赞粉丝直奔而来，但随着快手和抖音的出现，可以发现不仅仅是俊男靓女的照片和视频能引起围观，同样的各种普通群众的搞怪合成视频或合成照片（虚拟的AR特效带来的各种浮夸造型）同样能吸引无数粉丝的追捧，让普通人也能享受被人膜拜的满足感，而这些都需要用到人脸识别的相关技术。

（2）目标用户画像分析

（3）市场分析

美颜美妆的市场规模，产业链，潜在的边际效应利益等。

6.2 文档准备

（1）需求文档

详细的分析目前的用户需求，针对不同群体，设计不同的产品解决方案，包括市场的需求文档。

（2）数据文档

前期的人脸图片收集、分发、标注总结文档（确定什么样的图片能要，什么样的不能要），各种脸型（长的、宽的、圆的、前额凸出的、眼睛深陷的等等）的分类，多少人完成眼睛美颜图片的分类等。

（3）产品文档

6.3 数据标注

（1）数据图片的采集

在文档的指引下，从公开网站上爬取收集符合模型训练的人脸图片、或是运用公司的数据图片等

（2）数据图片的标注

在标注规范文档的指引下，将图片分发给标注团队进行数据的标注，对一些模棱两可的图片，如图片中的人脸较模糊，此时该照片是要还是不要，期间应与算法同事保持沟通，有时暗的图片在算法的优化中能准确识别，这样增加实际情况的容错率（实际中较暗的人脸图像也能定位出关键部位），那么这张图片则视为有效数据；有时较暗的图片经过算法之后并不能达到要求（及无法定位出人脸关键点），此时这照片则视为无效数据，直接剔除；但是标注团队并不知道这张图片是有效还是无效，所以标注过程中，算法同事也需间接参与进来。

（3）数据的反馈

在部分图片标注过程后，交于算法同事训练模型调节参数，期间将测试后的数据（精确率和召回率的计算，来反映数据的标注结果）反馈给还在标注的人员，有时可能造成过拟合有时可能造成欠拟合等方便对数据进行重新操作。

6.4 项目流程跟踪

（1）产品立项后，每天的任务管理，流程进度跟踪，产出时间管理，开会反馈工作成果等。

（2）软硬件端：在开发流程文档的指引下，按照常规的软硬件跟踪开发。

（3）算法流程：人脸采集、人脸检测、图像的预处理（模糊的则用算法去模糊等）、人脸特征提取、图像的匹配识别、AR虚拟等。

6.5 项目测试

6.6 项目优化

经过各种测试之后，针对反馈回来的数据进行产品的优化。

如一张嘴就给你来根烟，结果烟插到鼻子上了，这就明显是没有定位到人脸关键点，是数据的原因还是算法的原因，这些都要经过优化处理；经过种子用户测试后，反馈得知这个点赞按钮操作起来有点别扭，应该怎样怎样，这时可能要与设计的同学讨论一下，该怎样优化产品的设计和体验。

6.7 项目验收上线

产品按照流程功能进行验收后上线。

06 FR的个人看法

1. 人脸识别的现状

1.1 实验室效果和现实效果对比，差距巨大

现如今的人脸识别技术在金融、安防等领域的应用实际上的效果要比实验室里的差很多，前阵子西安的某高校引入人脸识别晨读打卡，由于反应速度太慢，到中午还排着很长的队。可见实际生活中，由于各种物理因素（光照、角度、对焦、人鱼摄像头的距离等）导致抓拍的图片质量比较差，又经过网络传输到局域网/互联网进行对比（网络差的过程中，反应很慢），使得实际效果大打折扣。大多数情况下，实际抓拍图像质量远低于训练图像质量。

1.2 训练时的标准和实际应用的标准

大多数情况下，实际应用的标准会远高于训练标准。例如，人脸识别实验室的标准是通过正脸数据训练出模型，能识别正确人脸就可以。而实际情况可能没有正脸数据，对训练提出了更高的要求。

1.3 训练效果和现实效果

大多数情况下，实际效果会远低于训练效果。现在市面上CV公司都是说自己的训练效果在99%以上（无限接近于100%），但这不等于实际应用的效果就是99%。工业上场景复杂的人脸应用（类似识别黑名单这种1:N的人脸比对）正确率在90%以上就已经是表现得很好的算法模型。

2. 未来发展趋势的思考

随着人工智能的火热和发展，在全球信息化、云计算、大数据的背景下，生物识别技术的应用面会越来越大，由以人脸识别为其中代表。以下几个发展趋势呈现：

3. 盈利模式的思考

（1）单一盈利模式

现如今的人脸识别技术服务商，都以将技术接入第三方应用软件，或是搭载在智能终端上，通过收取一定技术服务费来获取盈利。目前国内的第一梯队创业公司都在技术和数据上沉淀，而是否盈利，盈利多少都还尚不明确。

如在金融领域，人脸识别用于身份确认，然而身份确认之后，就没你什么事，你跟用户的关系只在于，打开某款APP或某个终端场景（闸机）的钥匙，打开之后，用户的所有行为都沉浸在APP中，并没有给FR技术服务商带来其他的使用数据及用户行为信息；从根本上来看，用户只是用钥匙开了门，而往往是门里面的东西（用户数据）才能带来商业价值。

（2）对比互联网和移动互联网

d. 人脸识别作为一种技术，并没有实际的产品承载点。以上分析中的种种产品，你都能叫出来名字，是因为这些功能或是技术都有一个实际的产品承载点，比如QQ用了即时通讯技术，头条背后的智能推荐用了机器学习相关技术，但在我们心目中它不是以一种技术停留在我们的心智空间里，它是一款实实在在的产品，我们可以操作它，使用它。无论是QQ还是滴滴、高德、今热头条、新浪等等，这些产品我们都能实实在在的接触到，并且后续行为都在这个技术的承载点里（如即时通讯技术的产品承载点是QQ，机器学习技术的产品承载点是头条），那么用户的数据自然也就在产品承载点之中，这样我们才能应用数据来创造价值，从而实现盈利。

e. 人脸识别目前的阶段停留在大众视野里只是一种技术，人们的潜意识里并没有建立起一个概念，那就是这个人脸识别到底是个什么东西，我能操作它吗？它能给我带来什么呢？而一旦人脸识别有一个产品承载点，让用户能实实在在的进行操作，并有数据积累，才会有盈利的可能。而人脸识别的产品承载点是什么，目前还都没有出现，未来肯定会有，这也是未来的一大机会，无论是什么，这个产品必然都能被用户实实在在的接触到，并且后续也都将在其中产生行为，后者是必要条件。

4. 信息安全的思考

一旦前面提到的产品承载点出现，FR技术必将大行其道，随之而来的可能是信息安全问题。

物联网时代之下，万物互联，万物智能，FR技术也必将融入到物联网之中，人们可能都不需要身份类的实物证件。回家开门扫脸，外出开车门扫脸，进公司扫脸，出去吃饭付钱扫脸。当人脸成为你的虚拟证件时，一旦又不法公司、团体、个人泄露或是破解了你的人脸虚拟证件，那么你的一切信息可能都暴露在他人面前，财产、房子、车子可能都有风险，还有可能因为丢失人脸证件，将无法证明你自己的身份，就像你丢了身份证一样。可想而知信息安全的重要性，未来估计会诞生一个虚拟身份信息系统，里面有每一个人的身份信息，当第三方需要身份认证时，可接入系统等。前阵子脸书因为社交信息泄露而惹上众怒引起公关麻烦。我想未来如果有一个公司专门负责用户信息数据的监管，我也不会觉得很奇怪的。

5. 产品形式的思考

下面附上总结这篇系列文章的思路导图：

640?wx_fmt=png