刷脸支付时，算法如何判断面前是不是真人？

17611538698

webmaster@21cto.com

登录注册

刷脸支付时，算法如何判断面前是不是真人？

21CTO

资讯 0 4076 2017-04-30 12:01:07

我先简单介绍一下我所在的公司商汤科技。商汤做的是人工智能的一个细分子领域，是计算机视觉技术解决方案的提供商，专注于计算机视觉和深度学习原创技术。计算机视觉简单说是对于图像和视频的智能化分析处理。目前涉足的行业包括金融、安防还有娱乐互联网等。所以商汤其实不完全是金融行业里的玩家，有些点上可能视角会不太一样。

目前比较火的刷脸，其实在整个金融行业都有比较强烈的需求，这也是我们现在在做的事情之一。我们现在致力于给金融行业提供以人脸识别为代表的身份核验的解决方案。

人脸识别等远程身份核验技术对金融支付的意义

金融行为实际上是说在不同时间、不同地点的价值之间的交换，我把这个定义稍微扩展一下，它实际上是发生在人和人之间的有价物的交换过程。

有几个很重要的点：一是你必须先去这个物的价值做评估和判定，二是虽然你交换的东西是物，但是实际上进行交换的个体是人，就是说人和物之间的关系绑定。只有交换双方、交换前后，人和物之间都进行一个正确的绑定，这个金融行为才能够比较完整、正确的发生。

这样的绑定是不是永远正确的呢？其实不然。首先这样的人和物之间的绑定，成本往往是蛮高的，比如说传统金融，做一些线下的物权的捆绑和锁定，包括抵押担保的方式，流程周期、额外成本其实都是很高的；另一方面，绑定环节，也就是人和物之间的关系，往往会成为整个金融行为中风险很大的一点，比如说信用卡盗刷、一房两卖等等，都是人和物之间的绑定关系被别人窃取或者造假所导致的。

随着金融的互联网化，对人和物的关系绑定的便捷性和安全性其实都提出了更高的要求。其实，便捷性、安全性这两个指标从某种程度上讲是负相关的，安全性高了往往便捷性会降低，但是我们希望两个指标整体能够有一个共同的持续性的提高。另外，互联网化的金融在这方面迎来了更大的挑战。比如我用手机App发生一些金融行为的时候，很多时候传统的方法是把验证码发我的手机上，它会说OK这个验证码不要告诉别人，实际上我手机上装的很多app会自动读这些验证码，有自动读短信的功能，这就造成了安全隐患。

另外互联网金融行为过程中，因为有这种线上的轻量级、快捷化的行业趋势在，所以对人和物的关系绑定的一个强行的控制能力是非常弱的，比如远程支付，双方其实也不知道对方是谁，不知道对方在哪里，这个过程中的信息的监管取证各方面，相比传统金融模式都存在非常大的难度。

所以，以人脸识别为代表的生物特征识别技术，给金融行业提供的远程的个人身份核验的能力，就是为了更有效、准确、快捷地去人和物的绑定。

人脸识别，是如何应用在远程身份核验的？

刷脸在生物特征识别的多种方法中，相对来说对人的交互性的要求是最低的，现在有各种各样的刷脸识别技术解决方案，有些需要配合度高一点，有些需要配合度低一点，甚至某些场景下我们可以做完全非配合式的刷脸。同时刷脸所需要的硬件设备极其简单标准，普及性远超其他方式。配合要求越低实际上对用户而言就更加便利，所以成本、易推广性、便捷程度决定了人脸识别是生物特征识别解决方案中相对最成熟、落地最快的。

金融中的人脸识别，主要用途分两种：一种是身份核验，用我们行话叫1：1。其实你已经知道了你当前操作的这个待核验人的身份，接下来只要对这个身份和这个人之间进行一个信息核验。比如，我说我叫杨帆，其实你只要核实一下我的脸是不是商汤的杨帆就可以了；另外一种我们称之为叫1：N，应用在规模化的场景应用中，打个比方我今天去我们家门口的理发馆理发，我可能办了卡，我希望我不用报名字，也不用掏出我的VIP卡，到门口刷一下脸他就知道是我，我理发完了自动扣钱。这样一个场景因为实际上我也没有说出我是谁，但是理发馆知道他的VIP一共就几百人，这样的情况下是1：N的应用，他对于不清楚的目标对象进行了检索然后找到了正确的目标对象。

下面介绍一下这两类场景的业务流程：

1：1刷脸，它非常广泛地被应用于互联网金融、银行的远程开户、远程身份认证、远程支付，通过刷脸的方式进行校验。一般在帐户进行注册的时候，你上传了身份证照片，这里用到我刚才讲的OCR技术，它实际上会自动的识别出你这个人的身份证号和姓名。有了这个信息后，其实会有官方提供的本人的存档的照片，接下来我们会要求这个使用者进行一个刷脸的行为，对使用者进行一个数据采集，获得一张全新的照片或者是获得一段新的视频，然后跟已经存在库里的标准照片进行核验，一旦判断是同一个人，就说这个人通过了实名制的注册和认证的过程。

1：N的场景会是一种类似的体验，比如说有的银行做校园金融，会在学校里提供自动的柜员机，这个学校每个人都可以到这个柜员机上进行操作。比如校园里去买水，使用者就去刷一个脸，之前系统中可能已经预存了这个学校里几千人的肖像信息，当一个人来这里买水的时候，我根据这张脸在几千人的信息中进行查找，查找到对应的那个人，就可以对这个人进行自动的扣款。

所以，这两种场景，底层所需要的技术其实是比较近似的，但是从业务和应用的层面会有比较大的差别，包括不同的技术指标决定了所能够支撑的场景和空间也存在差别。

与黑客的攻防战

其实在远程身份核验的业务场景中，所使用的技术不只人脸识别一项。任何一个技术落地到一个实际应用时，实际上是一种综合的技术解决方案的应用。比如说在1：1的识别中最常用的辅助技术：身份证文字内容识别（身份证OCR）。还有一些行业特殊性问题的解决，以手机刷脸为例，需要解决的一个问题是防止用户在用照片伪造刷脸，我们称之为活体识别，需要判断进行刷脸的是一个真人还是一个照片还是一个视频。

很多人可能会问，人脸识别的技术水平到达一个什么样的程度了？其实，我们现在在金融行业进行这样的认证支付，它的安全性已经非常高了，我想远超大多数行业者所认为的水平，单纯从人脸识别这一点上来讲。我放几张图解释一下这里最常用的两个技术指标：

1、正确识别

2、漏识

（小李子躺枪……）

3、误识

4、正确拒绝

正确识别率和漏识率加起来永远等于1，这两个数字其实是同一个指标。正确识别率代表了刷脸过程的便捷性，就是我自己刷自己的脸有几次会被系统拒绝掉，拒绝掉我可能需要重刷一次，这个指标一般可以判断这个系统有多易用。

误识和正确拒绝率加起来也是等于1。误识率，可以理解为当有一个人去攻击的时候，实际上他被人脸识别系统错误的放过了，这其实代表着人脸识别系统的一个安全性。

一般来讲对同一个算法我们可以进行阈值的调整，便利性、安全性是互相影响并且可调节的。现在行业中一般去比较不同的人脸识别算法好坏的时候，最常用的方法就是把这两个指标中某一个固定住去看另一个指标。我们现在比较常用的是把通过率、便捷性控制在90%或者是95%，去看误识率、安全性。

90%是什么概念？你自己去刷自己的脸刷十次有九次过，有10%的概率要重新来一次，95%就是20次你有一次不过要重新来一次，这代表便利性。现在行业认为90%或者是95%，是一个基本可用的状态。有人说为什么不设到99%，我们可以设到99%，但是99%对安全性会有影响，这两个指标会有冲突，金融行业要求在便捷性可接受的情况下安全性越高越好。

当通过率控制在90%的时候，我们误识率会到一个什么程度呢？现在来说，像这个行业内的一些比较好的供应商的平均水平，目前可以达到十万分之一甚至更低。商汤现在可以做到什么水平呢？目前我们在市面上最先进的线上服务提供的指标是百万分之一。百万分之一的安全性等效甚至超过一个6位的数字银行卡密码。一个银行卡6位数字密码，你随机输入蒙对的概率就是百万分之一，但是银行卡密码一般你可以蒙三次，三次加一起随机蒙对的概率是三十三万分之一，但是刷脸这个行为每次都是独立的，他的安全性试多少次都是百万分之一，所以从这个角度来说已经超过了6位的数字银行卡密码。而我们这个月最新出台的算法版本，已经可以把误识率控制到千万分之一，其实等效7位的数字密码，已经超过了现在数字密码的安全性。

是不是意味着说人脸识别就已经可以完全取代银行卡密码甚至达到一个更高的安全性呢？其实不是这样的，首先人脸识别单纯从识别技术它已经非常高了，达到并且超过了银行卡的本身的现存密码支付的一个安全级别。但是实际的一个系统，对应的攻击者他其实会尝试绕开你最强的那堵墙。打个比方说，我用六位的银行卡密码去进行安全校验，犯罪分子他不会傻傻猜你六位数数字密码，一般会偷偷看到你的密码，或者拿刀逼迫你说出你自己的六位数字密码，对人脸识别大家想想是类似的概念，他们不会强行用人脸尝试破解你的攻击率，他会采用边缘的方法，比如说他用照片或者视频尝试替代真人进行这样仿冒性的攻击。
我们现在接很多规模非常大的客户，一天的人脸识别注册量可以到几百万，其实在我们线上的服务过程中，就会看到非法攻击者会尝试运用各种各样的攻击手段，有照片、视频，甚至有人会用照片去生成3D的视频动作，会把照片贴在一些3D的模型上然后进行一些动作的驱动，包括他们会进行一些PS，会用各种各样的手段尝试把一个人的照片仿冒成一个像是真人的情况，然后对你的系统进行攻击。

面对这个困难，我们的解法是什么呢？其实我们通过实际的业务获取到了各种各样的攻击方式，然后应用人工智能最新的深度学习的引擎，去学习各种各样的攻击方式，我会看各种各样的攻击的类型以及它背后所蕴含的特征，然后会得到到对于这些攻击的分辨能力，当我拥有这样的分辨能力，我在做人脸识别之前我先进行这样一个分辨，我就能够进行真人和黑客的区分。

其实攻击者的技术手段也在不断的升级，防御者的技术手段也在不断的升级，这是一个矛盾的互相升级的较量。当一项新的技术在被逐渐实用化的过程中，一定会存在各种各样的问题，甚至往往有时候就像我刚才讲的这个例子，问题甚至可能不是来源于这个技术本身，而是这个技术被使用的方法。

这里很重要的一点就是，我们作为一个技术引擎的提供商，是否能够有效快速的针对各种出现的问题进行高效的反应，最短的时间内把问题解决掉，来通过这样实战的打磨提供一个更好的技术服务。因为归根到底新技术本身它的巨大的价值是摆在那里的，所有人都看得见的，我们不可能因为说出现了一点这样那样的小的技术问题，就裹足不前，因噎废食。

人脸识别技术应用于金融场景的价值

其实可以看到在金融相关各种各样的业务发展中，对于这种自动化的技术的需求是越来越高的。有几个原因：
人力成本的节省。一些企业说我不需要上人脸识别的引擎，我可以让用户拍一段视频，然后在后台进行人工的校验或者是审核，甚至不拍视频，我要求用户填表单，我要求他提供各种各样的信息我在后台进行人工的核验和审核。这里面最大的一个问题首先是人力成本的开销其实是非常巨大的，包括你的这种实时性的响应能力其实也是很受限的；

短时间的可扩展性。因为互联网是具备业务爆发增长的可能性的，这种基于人工的核验，基于人工的认证方式，当业务进行快速的爆发的时候，其实人工的核验的能力和规模其实是往往是不能够同步配合线上业务的快速增长，只有自动化的软件和服务才可能支撑这一点。这也是对于自动化的技术支撑的需求越来越强烈的一个本质原因。
持续提升的空间。机器认知类技术的一个很强的特点，就是当不断有业务数据提供过来之后，它是可以自我学习持续进步的。刚才讲商汤在金融支付这个场景90%通过率的情况下，安全性、误检率控制千万分之一，这个指标在半年前我们自己也不敢想象。

钛客：杨帆，商汤科技联合创始人、北京公司总经理。2006-2014，任职微软亚洲研究院创新工程组，负责视觉算法的产品转化，项目管理和团队管理。参与Xbox、KiNECt、Windows Hello、Bing图像搜索、Project Oxford、微软摄像头、微软相册Photo Gallary、视频编辑软件Movie Maker等数十项视觉新技术产品模块研发。
主题：人脸识别相关技术在金融支付上的实践价值

本文为 @ 21CTO 创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。