
Theguardian.com
menerbitkan temuan dari studi yang dilakukan oleh dua universitas terkemuka: Universitas UCLouvain Belgia dan Imperial College London: para ilmuwan mengkonfirmasi bahwa ada banyak cara untuk mengaitkan data anonim dengan orang sungguhan.
Misalnya, data dengan 15 atribut demografis "akan diungkapkan oleh 99,98% penduduk Massachusetts." Dan untuk populasi kecil, prosedur ini bahkan lebih sederhana: misalnya, jika kita berbicara tentang kota kecil, maka "tidak akan sulit untuk mengidentifikasi penduduk Harwich Port, Massachusetts, tempat tinggal kurang dari 2.000 orang."
Data "anonim" mendasari banyak proses: dari penelitian medis modern hingga rekomendasi pribadi dan teknologi AI. Sayangnya, menurut penelitian, dalam kumpulan data yang kompleks, hampir mustahil untuk berhasil menganonimkan data.
Semua informasi pribadi yang dapat diidentifikasi harus sepenuhnya dihapus dari set data anonim, sehingga hanya data dasar yang berguna yang tersisa yang dapat dioperasikan oleh peneliti tanpa takut melanggar privasi. Misalnya, rumah sakit dapat menghapus nama, alamat, dan tanggal lahir pasien dari berbagai catatan medis dengan harapan bahwa para peneliti akan dapat menggunakan sisa data untuk menemukan hubungan tersembunyi antara kondisi.
Namun, dalam praktiknya, data dapat didanonimisasi dengan berbagai cara. Pada tahun 2008, dataset peringkat film Netflix anonim didanonimisasi dengan membandingkan peringkat dengan data di situs web IMDb. Alamat pengemudi taksi New York diungkapkan berdasarkan pada set data anonim perjalanan individu di sekitar kota. Dan data tagihan medis anonim yang diusulkan oleh Departemen Kesehatan Australia dapat diidentifikasi dengan referensi silang dengan "fakta biasa," seperti ulang tahun seorang ibu dan anak, atau seorang ibu dan beberapa anak.
Para peneliti dari Universitas Katolik Belgia Louvain (UCLouvain) dan Imperial College of London telah membangun sebuah model untuk mengevaluasi kemudahan deanonimisasi setiap dataset yang sewenang-wenang. Misalnya, data dengan 15 atribut demografis "akan diungkapkan oleh 99,98% penduduk Massachusetts." Dan untuk populasi kecil, prosedur ini bahkan lebih sederhana: misalnya, jika kita berbicara tentang kota kecil, maka "tidak akan sulit untuk mengidentifikasi penduduk Harwich Port, Massachusetts, tempat tinggal kurang dari 2.000 orang."
Meskipun demikian, pialang data seperti Experian menjual kumpulan data "tidak teridentifikasi" yang berisi lebih banyak informasi tentang setiap orang. Peneliti menunjuk data yang dijual ke perusahaan perangkat lunak Alteryx - itu berisi 248 atribut untuk 120 juta rumah tangga Amerika.
Para peneliti berpendapat bahwa hasil mereka membuktikan kurangnya upaya anonimisasi untuk memenuhi persyaratan hukum, seperti GDPR (peraturan perlindungan data umum).
" Hasil kami membantah tuduhan bahwa pemulihan informasi identifikasi tidak mungkin ... "
“ Selanjutnya, mereka mempertanyakan relevansi metode de-identifikasi saat ini dengan standar anonimisasi dari undang-undang perlindungan data modern seperti GDPR dan CCPA (California Consumer Privacy Act), dan menekankan kebutuhan, dari sudut pandang hukum dan peraturan, untuk melampaui model de-identifikasi "Dirilis-dan-lupa. "
Pendekatan lain untuk memproses kumpulan data besar mungkin lebih dekat memenuhi kriteria perlindungan informasi saat ini. Privasi yang dibedakan, dipraktikkan oleh perusahaan-perusahaan seperti Apple dan Uber, sengaja mengikis setiap unit informasi yang dirata-ratakan atas seluruh dataset, sehingga mengganggu deanonimisasi dengan memberikan informasi yang secara teknis salah tentang setiap orang.
Enkripsi homomorfik tidak memungkinkan data untuk dibaca, tetapi mereka masih bisa dimanipulasi. Hasilnya juga akan dienkripsi, tetapi pengontrol data dapat mendekripsi mereka. Dan pada akhirnya, kita akan sampai pada dataset sintetik, yang berarti melatih AI pada informasi yang nyata dan dapat diidentifikasi, berdasarkan yang baru, unit data palsu akan dihasilkan yang akan identik secara statistik, tetapi tidak terhubung dengan orang-orang tertentu.