L'anonymat est une illusion. Selon les données des ensembles de données anonymisés, vous pouvez identifier de vraies personnes



Theguardian.com a publié les résultats d'une étude réalisée par deux éminentes universités: UCLouvain University of Belgium et Imperial College London: les scientifiques confirment qu'il existe de nombreuses façons d'associer des données anonymes à de vraies personnes.
Par exemple, des données avec 15 attributs démographiques «seront révélées par 99,98% des résidents du Massachusetts». Et pour les petites populations, cette procédure est encore plus simple: par exemple, si nous parlons d'une petite ville, alors "il ne sera pas difficile d'identifier les habitants de Harwich Port, Massachusetts, où vivent moins de 2000 personnes".

Les données «anonymisées» sous-tendent de nombreux processus: de la recherche médicale moderne aux recommandations personnelles et aux technologies de l'IA. Malheureusement, selon l'étude, dans tous les ensembles de données complexes, il est presque impossible d'anonymiser avec succès les données.

Toutes les informations personnelles identifiables doivent être complètement supprimées de l'ensemble de données anonymisé, de sorte qu'il ne reste que les données utiles de base que les chercheurs peuvent utiliser sans craindre de violer la vie privée. Par exemple, un hôpital peut supprimer les noms, adresses et dates de naissance des patients d'un éventail de dossiers médicaux dans l'espoir que les chercheurs puissent utiliser le reste des données pour découvrir des relations cachées entre les conditions.

Mais, dans la pratique, les données peuvent être désanonymisées de différentes manières. En 2008, l'ensemble de données anonyme de notation des films Netflix a été désanonymisé en comparant les évaluations aux données sur le site Web IMDb. Les adresses des chauffeurs de taxi de New York ont ​​été divulguées sur la base d'un ensemble de données anonyme de déplacements individuels dans la ville. Et les données de facturation médicale anonymes proposées par le ministère australien de la Santé peuvent être identifiées par des références croisées avec des «faits prosaïques», tels que les anniversaires d'une mère et de l'enfant, ou d'une mère et de plusieurs enfants.

Des chercheurs de l'Université catholique belge de Louvain (UCLouvain) et de l'Imperial College de Londres ont construit un modèle pour évaluer la facilité de désanonymisation de tout ensemble de données arbitraire. Par exemple, des données avec 15 attributs démographiques «seront révélées par 99,98% des résidents du Massachusetts». Et pour les petites populations, cette procédure est encore plus simple: par exemple, si nous parlons d'une petite ville, alors "il ne sera pas difficile d'identifier les habitants de Harwich Port, Massachusetts, où vivent moins de 2000 personnes".

Malgré cela, les courtiers de données comme Experian vendent des ensembles de données «dépersonnalisés» contenant beaucoup plus d'informations sur chaque personne. Les chercheurs ont souligné les données vendues à la société de logiciels Alteryx - elles contiennent 248 attributs pour 120 millions de foyers américains.

Les chercheurs soutiennent que leurs résultats prouvent le manque d'efforts d'anonymisation pour se conformer aux exigences légales, telles que le RGPD (règlement général sur la protection des données).
" Nos résultats réfutent les allégations selon lesquelles la restauration des informations d'identification est impossible ... "

« Ensuite, ils remettent en question la pertinence des méthodes de désidentification actuelles par rapport aux normes d'anonymisation des lois modernes sur la protection des données telles que le RGPD et le CCPA (California Consumer Privacy Act), et soulignent la nécessité, d'un point de vue juridique et réglementaire, d'aller au-delà du modèle de désidentification. "Libéré et oublié. "

D'autres approches de traitement d'ensembles de données massifs peuvent répondre plus étroitement aux critères actuels de protection des informations. La confidentialité différenciée, pratiquée par des entreprises comme Apple et Uber, érode délibérément chaque unité d'information moyenne sur l'ensemble des données, interférant ainsi avec la désanonymisation en fournissant des informations techniquement incorrectes sur chaque personne.

Le cryptage homomorphique ne permet pas de lire les données, mais elles peuvent toujours être manipulées. Les résultats seront également chiffrés, mais le responsable du traitement peut les déchiffrer. Et à la fin, nous arriverons à des ensembles de données synthétiques, ce qui signifie former l'IA sur des informations réelles et identifiables, sur la base desquelles de nouvelles unités de données fausses seront générées qui seront statistiquement identiques, mais sans lien avec des personnes spécifiques.

Source: https://habr.com/ru/post/fr461381/


All Articles