Dataset Beranotasi keragaman IBM dalam WajahBaru-baru ini, IBM
dikritik karena mengambil foto yang tersedia untuk umum dari hosting foto Flickr dan situs lain di mana pengguna mengunggah gambar mereka untuk melatih jaringan saraf tanpa izin. Secara resmi, semuanya sesuai dengan hukum - semua foto diterbitkan di bawah lisensi Creative Commons - tetapi orang merasa tidak nyaman karena AI belajar dari wajah mereka. Beberapa bahkan tidak tahu bahwa mereka difoto. Seperti yang Anda tahu, untuk memotret seseorang di tempat umum, Anda tidak perlu meminta izin padanya.
Menurut laporan media, IBM menggunakan sekitar 1 juta foto pribadi dari Flickr untuk melatih sistem pengenalan wajahnya. Tetapi ternyata IBM tidak benar-benar menyalin foto dari Flickr, gambar-gambar ini adalah bagian dari
kumpulan data
YFCC100M dari 99,2 juta foto yang tersedia untuk pelatihan jaringan saraf. Pangkalan ini juga dibuat oleh Yahoo, mantan pemilik Flickr.
Ternyata kisah dengan IBM hanyalah puncak gunung es. Di sini, perusahaan secara tidak sengaja jatuh di bawah distribusi, dan pada kenyataannya, foto pengguna telah lama digunakan untuk melatih berbagai sistem, itu sudah menjadi praktik umum: โPenelitian kami menunjukkan bahwa pemerintah AS, peneliti dan perusahaan menggunakan gambar imigran, anak-anak yang dilecehkan, dan orang mati untuk menguji sistem pengenalan wajah mereka, โ
tulis Slate . Ini menekankan bahwa bahkan lembaga pemerintah seperti Institut Nasional Standar dan Teknologi (NIST) mempraktikkan kegiatan tersebut.
Secara khusus, program NIST menjalankan Facial Recognition Verification Testing (FRVT) untuk pengujian standar sistem pengenalan wajah yang dikembangkan oleh perusahaan pihak ketiga. Program ini memungkinkan Anda untuk mengevaluasi semua sistem dengan cara yang sama, membandingkannya secara objektif satu sama lain. Dalam beberapa kasus,
hadiah uang tunai hingga $ 25 ribu diberikan untuk memenangkan kompetisi, tetapi bahkan tanpa imbalan uang, skor tinggi dalam tes NIST adalah insentif yang kuat untuk keberhasilan komersial perusahaan pengembangan, karena pelanggan potensial akan segera memperhatikan sistem ini, dan peringkat A + dapat disebutkan. dalam siaran pers dan materi promosi.
Untuk mengevaluasi NIST, set data besar digunakan dengan foto wajah yang diambil pada sudut yang berbeda dan dalam kondisi pencahayaan yang berbeda.
Investigasi
Slate mengungkapkan bahwa dataset NIST termasuk foto-foto berikut:
Banyak foto yang diambil oleh karyawan Departemen Keamanan Dalam Negeri (DHS) di tempat-tempat umum, sementara dalam proses memotret orang yang lewat, karyawan DHS menyamar sebagai turis yang memotret lingkungan.
Kumpulan data NIST berisi jutaan gambar orang. Karena pengumpulan data dilakukan di tempat-tempat umum, secara harfiah setiap orang dapat berada dalam database ini. NIST secara aktif mendistribusikan set datanya, memungkinkan setiap orang untuk mengunduh, menyimpan, dan menggunakan foto-foto ini untuk mengembangkan sistem pengenalan wajah (gambar eksploitasi anak tidak dipublikasikan). Tidak mungkin untuk mengatakan berapa banyak sistem komersial yang menggunakan data ini, tetapi
banyak proyek ilmiah pasti melakukannya, tulis
Slate .
Dalam komentar untuk publikasi, seorang perwakilan NIST mengatakan bahwa markas FRVT sedang dikumpulkan oleh organisasi pemerintah lain sesuai dengan tugas mereka, ini juga berlaku untuk markas dengan foto anak-anak. NIST menggunakan data ini sesuai dengan hukum dan peraturan yang ada. Dia mengkonfirmasi bahwa database dengan pornografi anak sebenarnya digunakan untuk menguji produk komersial, tetapi anak-anak dalam database ini anonim, yaitu, nama dan tempat tinggal mereka tidak disebutkan. Karyawan NIST tidak melihat foto-foto ini, mereka disimpan di server DHS.
Dataset dengan foto-foto anak-anak telah digunakan sejak setidaknya 2016. Menurut
dokumentasi untuk pengembang , itu termasuk "foto-foto anak-anak dari bayi hingga remaja," di mana sebagian besar gambar menunjukkan "paksaan, kekerasan, dan aktivitas seksual." Gambar-gambar ini dianggap sangat sulit dikenali karena variabilitas yang lebih besar dalam posisi, konteks, dll.
Kumpulan data ini mungkin digunakan untuk sistem pelatihan dan pengujian untuk
penyaringan otomatis konten cabul .
Jurnalis juga mencatat "bias" dari kumpulan data Dataset Multiple Encounter. Meskipun orang kulit hitam hanya 12,6% dari populasi AS, 47,5% ada dalam database foto-foto penjahat, itulah sebabnya mengapa AI juga dapat belajar bias dan
menjadi rasis .