照片来自哪里,用于测试人脸识别系统?


IBM 在Faces数据集中注释了多样性

最近,IBM 从Flickr照片托管和其他站点拍摄公开可用的照片而受到批评 ,在这些站点上用户未经许可就将其图像上传到训练神经网络。 正式而言,一切都是依法进行的-所有照片都是在知识共享许可下发布的-但人们会感到不舒服,因为AI从他们的脸上学习。 有些甚至不知道自己被拍照了。 如您所知,要在公共场所拍摄人物,您无需征得他的许可。

据媒体报道,IBM使用了来自Flickr的约100万张私人照片来训练其面部识别系统。 但是事实证明,IBM实际上并没有从Flickr复制照片,这些图像是YFCC100M数据 (用于训练神经网络的9,920万张照片)的一部分。 这个基地也是由Flickr的前所有者雅虎制造的。

事实证明,IBM的故事只是冰山一角。 在这里,该公司意外地属于分销商,实际上,用户照片长期以来一直用于训练各种系统,这已经成为一种普遍做法:“我们的研究表明,美国政府,研究人员和公司使用了移民,受虐儿童以及死者要测试他们的面部识别系统,” Slate 写道 。 它强调即使是政府机构,例如美国国家标准技术研究院(NIST),也要进行此类活动。

特别是,NIST运营面部识别验证测试(FRVT)计划,以对第三方公司开发的面部识别系统进行标准化测试。 该程序允许您以相同的方式评估所有系统,从而客观地将它们相互比较。 在某些情况下,会赢得高达2.5万美元的现金奖励,但即使没有金钱奖励,NIST测试中的高分也是开发公司的商业成功的有力诱因,因为潜在客户会立即关注该系统,并且可以提及A +等级在新闻稿和促销材料中。

为了评估NIST,大型数据集用于以不同角度和不同光照条件拍摄的面部照片。

一项Slate调查显示,NIST数据集包含以下照片:


国土安全部(DHS)的员工在公共场所拍摄了许多照片,而在对路人进行拍照的过程中,DHS的员工假装是为周围环境拍照的游客。

NIST数据集包含数百万个人的图像。 由于数据收集是在公共场所进行的,因此实际上任何人都可以在该数据库中。 NIST正在积极分配其数据集,允许每个人下载,存储和使用这些照片来开发人脸识别系统(未发布剥削儿童的图像)。 Slate写道,目前无法确定有多少商业系统在使用这些数据,但是可以肯定地说,有许多 科学 项目在使用它。

NIST发言人在对该出版物的评论中说,FRVT基地是由其他政府组织根据其任务收集的,这也适用于带有儿童照片的基地。 NIST严格按照法律和现行法规使用这些数据。 他确认,带有儿童色情内容的数据库实际上是用于测试商品的,但是该数据库中的儿童是匿名的,也就是说,他们的姓名和居住地未注明。 NIST员工不会查看这些照片,它们存储在DHS服务器上。

至少从2016年开始使用包含儿童照片的数据集。 根据开发人员文档 ,其中包括“从婴儿到青少年的儿童照片”,其中大部分图像显示“胁迫,暴力和性行为”。 由于位置,上下文等的较大差异,这些图像被认为特别难以识别。

该数据集可能用于训练和测试系统,以自动过滤色情内容

记者还强调了多重遭遇数据集数据集的“偏见”。 尽管黑人仅占美国人口的12.6%,但47.5%的人口在罪犯照片数据库中,这就是AI还能学习偏见并成为种族主义者的原因

Source: https://habr.com/ru/post/zh-CN444984/


All Articles