D'où viennent les photos pour tester les systèmes de reconnaissance faciale?


IBM annoté ensemble de données Diversity in Faces

Récemment, IBM a été critiqué pour avoir pris des photos accessibles au public de l'hébergement de photos Flickr et d'autres sites où les utilisateurs téléchargent leurs images pour former des réseaux de neurones sans autorisation. Formellement, tout est conforme à la loi - toutes les photos sont publiées sous une licence Creative Commons - mais les gens se sentent mal à l'aise parce que l'IA apprend de leurs visages. Certains ne savaient même pas qu'ils avaient été photographiés. Comme vous le savez, pour photographier une personne dans un lieu public, vous n'avez pas besoin de lui demander la permission.

Selon les médias, IBM a utilisé environ 1 million de photos privées de Flickr pour former son système de reconnaissance faciale. Mais il s'est avéré qu'IBM n'avait pas réellement copié les photos de Flickr, ces images font partie de l' ensemble de données YFCC100M de 99,2 millions de photos disponibles pour la formation des réseaux de neurones. Cette base a également été réalisée par Yahoo, l'ancien propriétaire de Flickr.

Il s'avère que l'histoire avec IBM n'est que la pointe de l'iceberg. Ici, l'entreprise est accidentellement tombée sous la distribution, et en fait, les photos des utilisateurs ont longtemps été utilisées pour former une variété de systèmes, c'est déjà devenu une pratique courante: «Notre étude a montré que le gouvernement américain, les chercheurs et les sociétés utilisaient des images d'immigrants, d'enfants maltraités et des morts pour tester leurs systèmes de reconnaissance faciale », écrit Slate . Il souligne que même les organismes gouvernementaux tels que l'Institut national des normes et de la technologie (NIST) pratiquent de telles activités.

En particulier, le NIST gère le programme FRVT (Facial Recognition Verification Testing) pour tester de manière standardisée les systèmes de reconnaissance faciale développés par des sociétés tierces. Ce programme vous permet d'évaluer tous les systèmes de la même manière, en les comparant objectivement les uns aux autres. Dans certains cas, des prix en espèces allant jusqu'à 25 000 $ sont attribués pour avoir remporté le concours. Mais même sans récompense monétaire, un score élevé au test NIST est une puissante incitation au succès commercial de la société de développement, car les clients potentiels prêteront immédiatement attention à ce système, et la note A + peut être mentionnée dans les communiqués de presse et le matériel promotionnel.

Pour évaluer le NIST, de grands ensembles de données sont utilisés avec des photographies de visages pris sous différents angles et dans différentes conditions d'éclairage.

Une enquête Slate a révélé que l'ensemble de données NIST comprend les photographies suivantes:


De nombreuses photos ont été prises par des employés du Département de la sécurité intérieure (DHS) dans des lieux publics, tandis qu'en train de photographier des passants, les employés du DHS faisaient semblant d'être des touristes qui photographient les environs.

Les jeux de données du NIST contiennent des millions d'images de personnes. Étant donné que la collecte de données a eu lieu dans des lieux publics, n'importe qui peut littéralement figurer dans cette base de données. Le NIST distribue activement ses ensembles de données, permettant à chacun de télécharger, stocker et utiliser ces photos pour développer des systèmes de reconnaissance faciale (les images d'exploitation des enfants ne sont pas publiées). Il est impossible de dire combien de systèmes commerciaux utilisent ces données, mais de nombreux projets scientifiques le font à coup sûr, écrit Slate .

Dans un commentaire de la publication, un porte-parole du NIST a déclaré que la base du FRVT est en train d'être assemblée par d'autres organisations gouvernementales conformément à leurs tâches, cela s'applique également à la base avec des photos d'enfants. Le NIST utilise ces données en stricte conformité avec la loi et les réglementations en vigueur. Il a confirmé que la base de données sur la pornographie juvénile est en fait utilisée pour tester des produits commerciaux, mais les enfants de cette base de données sont anonymes, c'est-à-dire que leurs noms et leur lieu de résidence ne sont pas indiqués. Les employés du NIST ne voient pas ces photos, elles sont stockées sur des serveurs DHS.

Un ensemble de données avec des photographies d'enfants est utilisé depuis au moins 2016. Selon la documentation destinée aux développeurs , il comprend des «photographies d'enfants de l'âge d'un nourrisson à un adolescent», où la plupart des images montrent «la coercition, la violence et l'activité sexuelle». Ces images sont considérées comme particulièrement difficiles à reconnaître en raison d'une plus grande variabilité de position, de contexte, etc.

Cet ensemble de données est probablement utilisé pour la formation et le test de systèmes de filtrage automatique de contenu obscène .

Les journalistes soulignent également le «biais» de l'ensemble de données Multiple Encounter Dataset. Bien que les Noirs ne représentent que 12,6% de la population américaine, 47,5% figurent dans la base de données de photographies de criminels, c'est pourquoi l'IA peut également apprendre les préjugés et devenir raciste .

Source: https://habr.com/ru/post/fr444984/


All Articles