Woher kommen Fotos zum Testen von Gesichtserkennungssystemen?


IBM hat das Dataset " Diversity in Faces" kommentiert

Vor kurzem wurde IBM dafür kritisiert , öffentlich verfügbare Fotos von Flickr-Fotohosting und anderen Websites aufzunehmen, auf denen Benutzer ihre Bilder hochladen, um neuronale Netze ohne Erlaubnis zu trainieren. Formal entspricht alles dem Gesetz - alle Fotos werden unter einer Creative Commons-Lizenz veröffentlicht -, aber die Menschen fühlen sich unwohl, weil die KI aus ihren Gesichtern lernt. Einige wussten nicht einmal, dass sie fotografiert wurden. Wie Sie wissen, müssen Sie eine Person nicht um Erlaubnis bitten, um sie an einem öffentlichen Ort zu fotografieren.

Medienberichten zufolge hat IBM rund 1 Million private Fotos von Flickr verwendet, um sein Gesichtserkennungssystem zu trainieren. Dann stellte sich jedoch heraus, dass IBM keine Fotos von Flickr kopierte. Diese Bilder sind Teil des YFCC100M- Datensatzes von 99,2 Millionen Fotos, die für das Training neuronaler Netze verfügbar sind. Diese Basis wurde auch von Yahoo, dem ehemaligen Eigentümer von Flickr, erstellt.

Es stellt sich heraus, dass die Geschichte mit IBM nur die Spitze des Eisbergs ist. Hier fiel das Unternehmen versehentlich unter die Distribution, und tatsächlich wurden Benutzerfotos seit langem zum Trainieren einer Vielzahl von Systemen verwendet. Dies ist bereits gängige Praxis: „Unsere Studie hat gezeigt, dass die US-Regierung, Forscher und Unternehmen Bilder von Einwanderern, missbrauchten Kindern und Kindern verwendeten Tote, um ihre Gesichtserkennungssysteme zu testen “, schreibt Slate . Es wird betont, dass sogar Regierungsbehörden wie das Nationale Institut für Standards und Technologie (NIST) solche Aktivitäten durchführen.

Insbesondere betreibt NIST das FRVT-Programm (Facial Recognition Verification Testing) zum standardisierten Testen von Gesichtserkennungssystemen, die von Drittunternehmen entwickelt wurden. Mit diesem Programm können Sie alle Systeme auf die gleiche Weise bewerten und objektiv miteinander vergleichen. In einigen Fällen werden Geldpreise von bis zu 25.000 US-Dollar für den Gewinn des Wettbewerbs vergeben. Aber auch ohne finanzielle Belohnung ist eine hohe Punktzahl im NIST-Test ein starker Anreiz für den wirtschaftlichen Erfolg des Entwicklungsunternehmens, da potenzielle Kunden sofort auf dieses System achten und das A + -Rating erwähnt werden kann in Pressemitteilungen und Werbematerialien.

Zur Auswertung von NIST werden große Datenmengen mit Fotos von Gesichtern verwendet, die unter verschiedenen Winkeln und unter verschiedenen Lichtbedingungen aufgenommen wurden.

Eine Slate- Untersuchung ergab, dass der NIST-Datensatz die folgenden Fotos enthält:


Viele Bilder wurden von Mitarbeitern des Department of Homeland Security (DHS) an öffentlichen Orten aufgenommen, während sich DHS-Mitarbeiter beim Fotografieren von Passanten als Touristen ausgaben, die die Umgebung fotografierten.

NIST-Datensätze enthalten Millionen von Bildern von Personen. Da die Datenerfassung an öffentlichen Orten stattfand, kann sich buchstäblich jede Person in dieser Datenbank befinden. NIST verteilt seine Datensätze aktiv und ermöglicht es jedem, diese Fotos herunterzuladen, zu speichern und zur Entwicklung von Gesichtserkennungssystemen zu verwenden (Bilder der Ausbeutung von Kindern werden nicht veröffentlicht). Es ist unmöglich zu sagen, wie viele kommerzielle Systeme diese Daten verwenden, aber zahlreiche wissenschaftliche Projekte tun dies mit Sicherheit, schreibt Slate .

In einem Kommentar zur Veröffentlichung sagte ein NIST-Sprecher, dass die FRVT-Basis von anderen Regierungsorganisationen gemäß ihren Aufgaben gesammelt wird. Dies gilt auch für die Basis mit Fotos von Kindern. NIST verwendet diese Daten in strikter Übereinstimmung mit dem Gesetz und den geltenden Vorschriften. Er bestätigte, dass die Datenbank mit Kinderpornografie tatsächlich zum Testen kommerzieller Produkte verwendet wird, die Kinder in dieser Datenbank jedoch anonym sind, dh ihre Namen und ihr Wohnort sind nicht angegeben. NIST-Mitarbeiter sehen diese Fotos nicht an, sondern werden auf DHS-Servern gespeichert.

Seit mindestens 2016 wird ein Datensatz mit Fotos von Kindern verwendet. Laut der Dokumentation für Entwickler enthält es "Fotos von Kindern vom Alter eines Säuglings bis zu einem Teenager", wobei die meisten Bilder "Zwang, Gewalt und sexuelle Aktivität" zeigen. Diese Bilder gelten aufgrund der größeren Variabilität in Position, Kontext usw. als besonders schwer zu erkennen.

Dieser Datensatz wird wahrscheinlich für Schulungs- und Testsysteme zum automatischen Filtern obszöner Inhalte verwendet .

Journalisten heben auch die „Verzerrung“ des Datensatzes für mehrere Begegnungsdatensätze hervor. Obwohl Schwarze nur 12,6% der US-Bevölkerung ausmachen, befinden sich 47,5% in der Datenbank mit Fotos von Kriminellen, weshalb KI auch Voreingenommenheit lernen und rassistisch werden kann .

Source: https://habr.com/ru/post/de444984/


All Articles