全球数治|规制人脸识别技术,开展第三方独立评估

澎湃新闻记者 吕娜 编译
2021-07-14 08:24
来源:澎湃新闻

人脸识别是人工智能(AI)技术被应用较多的功能之一。当前,人脸识别的应用场景日渐丰富,主要用于身份验证和监控,可分为政府机构的公共应用和非政府机构的商业应用、公益应用等类别。然而,随着人工智能应用场景的增加,对其技术的规制和监管也日益受到关注。

去年,包括微软、IBM和亚马逊在内的一些科技巨头公司纷纷宣布推迟或放弃它们的面部识别技术开发项目。这表明,人工智能的开发者和使用者已经意识到他们需要在人脸识别技术投入使用所创造的效益与其导致的社会成本之间进行适当平衡。

今年年初对国会山暴乱进行处置的过程中,一些美国执法机构与一家名为Clearview AI的科技公司合作,使用人脸识别技术辨认犯罪嫌疑人身份,并与其驾照和社交媒体资料相匹配,这激起了部分美国民众对隐私泄露问题的疑虑。

今年5月,美国布鲁金斯协会技术创新研究中心的高级研究员马克·麦卡锡(Mark MacCarthy)在布鲁金斯协会官网发表文章《强制要求对执法部门的人脸识别系统进行公平性和准确性评估》(Mandating Fairness and Accuracy Assessments for Law Enforcement Facial Recognition Systems),对相关问题进行了研究。

目前,美国并不具备联邦层面关于人工智能与人脸识别的统一立法。从有限的部门与地方法规来看,美国对政府部门和非政府机构使用人脸识别系统是分别立法、分开规制的,监管思路和手段不尽相同。马克·麦卡锡(Mark MacCarthy)在文章中表述的观点仅针对美国执法部门使用的人脸识别系统。他主张,任何人脸识别系统在被执法部门投入使用之前都必须接受全面、公开且由第三方主导的评估,以确定其公平性与准确性。执法部门需要充分了解系统可能出错的频率和程度,特别是在应用于以性别、种族、年龄和民族等标准区分的不同子群体时。

马克·麦卡锡(Mark MacCarthy)指出,麻省理工学院对人脸识别技术中的偏见和歧视问题的一项研究显示,美国国内使用较多的几种人脸识别系统都出现了对肤色较深女性的识别错误率远高于对肤色较浅男性的问题。美国公民自由联盟发现,亚马逊公司的面部识别技术曾错误地将28名国会议员与犯罪逮捕记录数据库中的人脸记录进行匹配,并且其中以非裔和拉丁裔议员居多。随着“黑命攸关”(Black Lives Matter movement)运动在美国全国范围内愈演愈烈,公众对警察滥用执法权,涉嫌歧视非裔美国人等问题日益关注,要求完全或部分禁止使用人脸识别系统的呼声越来越高。

在马克·麦卡锡(Mark MacCarthy)看来,美国对人脸识别立法步伐迟缓的深层次原因在于决策部门担心对新兴技术规定严格的有效性或公平性规则可能会阻碍创新,于是变相降低了监管要求。但是,随着决策者们越来越意识到先放任一项技术的滥用,然后再去解决它所造成的问题将是多么危险,这种情况正悄然发生改变。对执法部门使用人脸识别系统进行法律规制,既要发挥人脸识别技术之利,又要防范人脸识别技术之弊。

马克·麦卡锡认为对人脸识别的规制并不是一味限制或禁止该技术,而是要在确保安全的前提下,倡导一种负责任、有底线地使用。开展人脸识别系统公平性和准确性前置评估很有必要。其关键目的在于让执法机构充分比较和了解各种不同人脸识别算法的优劣。这项工作交由独立的第三方机构承担显然更为恰当。

马克·麦卡锡建议,对特定人脸识别技术系统的准确性和公平性前置评估可以由美国国家标准与技术研究所(NIST)承担,评估结果向社会公布,在公众充分知晓后才能允许相关产品上市销售和用于执法行动。同时,美国应在联邦层面对此事项统一立法,并适用于各州、各地方的执法机构。

NIST正在开展人脸识别供应商测试计划,其中一项重要内容就是创建评估人脸识别系统本身准确性和公平性的具体标准。该机构具有开展此类评估的能力和经验,是相对合适的第三方机构选择。

在一个常规的使用人脸识别系统进行执法的过程中,执法人员会将一个需要识别的人像图片输入系统,系统会在几秒钟内完成对其海量数据库的搜索,并返回一个分数,说明被搜索图像与数据库中的一个或多个图像的相似程度。通常情况下,人脸识别系统会被设置为只有当搜索图像得分高于某个阈值时才会返回匹配结果。这个阈值代表了错误否定(可能错失锁定犯罪线索)和错误肯定(将无辜者认定为犯罪嫌疑人)所导致的社会成本之间的平衡。NIST的测试除了会同时衡量面部识别系统在一定阈值下算出匹配结果的错误肯定率和错误否定率,还会对照统计识别系统给出的最高匹配分数与最终实际结果的误差情况,以确定系统在技术上达到的准确程度。按照NIST的评估标准,美国当前使用较多的几种人脸识别算法在分辨高质量图像时,失误率大约为0.1%;分辨较低质量图像时,错误率则会达到20%。同时,不同算法的准确性差异较大,有的错误率甚至高达50%。

NIST还曾评估同一人脸识别系统在按性别、年龄、种族等区分的各子群体中的准确度差异,并进一步将人脸识别系统的公平性定义为不同子群体间的同质准确性。总的看来,几种主要算法对非裔美国女性脸部识别的错误肯定率较高,对非裔男性识别的错误否定率总是比白人男性低,对女性识别的错误否定率总是比男性高。即使在使用高质量的图像时这些差异也仍然存在。同时,不同算法在对待不同子群体时体现出的公平性往往有所差异,相对更准确的算法往往也相对更公平。

不过,马克·麦卡锡(Mark MacCarthy)也指出了NIST目前已开发的测试方法还有需要改进的地方。例如,NIST需要特别加强对质量较差或被部分遮挡的人脸图像的测试能力;通过使用更多样化的数据集来减少人口统计学上的差异;对不同子群体进行人脸识别时设定不同的准确性阈值;按照性别、年龄、种族或民族划分的亚群体的面部识别错误率不应超过20%等。如果在执法机构调整准确性阈值或采取其他改进措施后,人脸识别系统得出的结果仍无法达到相对公平准确,就应该被停止使用。

马克·麦卡锡(Mark MacCarthy)还就强制要求对执法部门的人脸识别系统进行公平性和准确性评估提出了若干建议,包括:人脸识别系统的开发者和使用者应详尽了解系统所采用的算法,并使用来自NIST和其他渠道的公开数据;警方在执法过程中使用的人脸识别系统须接受NIST的准确性测试,以及发生基于种族偏见的错误率测试,确保较高公平性;美国国会应对情报部门、国土安全部和联邦调查局使用的人工智能系统,尤其是人脸识别系统做出尽可能全面的隐私保护规定。

    责任编辑:吴英燕
    校对:张艳