
Theguardian.com hat Ergebnisse einer Studie veröffentlicht, die von zwei bedeutenden Universitäten durchgeführt wurde: der UCLouvain University of Belgium und dem Imperial College London: Wissenschaftler bestätigen, dass es viele Möglichkeiten gibt, anonyme Daten mit realen Personen zu verknüpfen.
Zum Beispiel werden Daten mit 15 demografischen Attributen "von 99,98% der Einwohner von Massachusetts enthüllt". Und für kleine Bevölkerungsgruppen ist dieses Verfahren noch einfacher: Wenn wir beispielsweise von einer kleinen Stadt sprechen, wird es "nicht schwierig sein, die Einwohner von Harwich Port, Massachusetts, zu identifizieren, in denen weniger als 2000 Menschen leben".
"Anonymisierte" Daten liegen vielen Prozessen zugrunde: von der modernen medizinischen Forschung über persönliche Empfehlungen bis hin zu KI-Technologien. Leider ist es der Studie zufolge in komplexen Datensätzen fast unmöglich, die Daten erfolgreich zu anonymisieren.
Alle identifizierbaren persönlichen Informationen müssen vollständig aus dem anonymisierten Datensatz entfernt werden, damit nur die grundlegenden nützlichen Daten übrig bleiben, die Forscher ohne Angst vor einer Verletzung der Privatsphäre verwenden können. Beispielsweise kann ein Krankenhaus die Namen, Adressen und Geburtsdaten von Patienten aus einer Reihe von medizinischen Unterlagen entfernen, in der Hoffnung, dass Forscher den Rest der Daten verwenden können, um verborgene Beziehungen zwischen den Erkrankungen zu entdecken.
In der Praxis können Daten jedoch auf verschiedene Arten dekanonymisiert werden. Im Jahr 2008 wurde der anonyme Netflix-Filmbewertungsdatensatz durch Vergleich der Bewertungen mit den Daten auf der IMDb-Website dekanonymisiert. Die Adressen der New Yorker Taxifahrer wurden anhand eines anonymen Datensatzes einzelner Fahrten durch die Stadt bekannt gegeben. Die vom australischen Gesundheitsministerium vorgeschlagenen anonymen medizinischen Abrechnungsdaten können durch Querverweise mit „prosaischen Fakten“ wie den Geburtsjahren einer Mutter und eines Kindes oder einer Mutter und mehrerer Kinder identifiziert werden.
Forscher der belgischen katholischen Universität von Louvain (UCLouvain) und des Imperial College of London haben ein Modell erstellt, um die einfache Dekanonymisierung eines beliebigen Datensatzes zu bewerten. Zum Beispiel werden Daten mit 15 demografischen Attributen "von 99,98% der Einwohner von Massachusetts enthüllt". Und für kleine Bevölkerungsgruppen ist dieses Verfahren noch einfacher: Wenn wir beispielsweise von einer kleinen Stadt sprechen, wird es "nicht schwierig sein, die Einwohner von Harwich Port, Massachusetts, zu identifizieren, in denen weniger als 2000 Menschen leben".
Trotzdem verkaufen Datenbroker wie Experian "nicht identifizierte" Datensätze, die viel mehr Informationen über jede Person enthalten. Die Forscher wiesen auf die Daten hin, die an das Softwareunternehmen Alteryx verkauft wurden - es enthält 248 Attribute für 120 Millionen amerikanische Haushalte.
Die Forscher argumentieren, dass ihre Ergebnisse den Mangel an Anonymisierungsbemühungen zur Einhaltung gesetzlicher Anforderungen wie der DSGVO (allgemeine Datenschutzverordnung) belegen.
" Unsere Ergebnisse widerlegen die Behauptungen, dass die Wiederherstellung von Identifikationsinformationen unmöglich ist ... "
„ Als nächstes hinterfragen sie die Relevanz aktueller Entidentifizierungsmethoden für Anonymisierungsstandards aus modernen Datenschutzgesetzen wie GDPR und CCPA (California Consumer Privacy Act) und betonen die Notwendigkeit, aus rechtlicher und behördlicher Sicht über das Entidentifizierungsmodell hinauszugehen "Freigegeben und vergessen. "
Andere Ansätze zur Verarbeitung umfangreicher Datensätze erfüllen möglicherweise die aktuellen Informationsschutzkriterien besser. Der differenzierte Datenschutz, der von Unternehmen wie Apple und Uber praktiziert wird, untergräbt absichtlich jede über den gesamten Datensatz gemittelte Informationseinheit und beeinträchtigt so die Dekanonymisierung, indem technisch inkorrekte Informationen über jede Person bereitgestellt werden.
Die homomorphe Verschlüsselung ermöglicht nicht das Lesen von Daten, kann jedoch manipuliert werden. Die Ergebnisse werden ebenfalls verschlüsselt, der Datencontroller kann sie jedoch entschlüsseln. Und am Ende werden wir zu synthetischen Datensätzen kommen, was bedeutet, KI auf reale, identifizierbare Informationen zu trainieren, auf deren Grundlage neue, gefälschte Dateneinheiten generiert werden, die statistisch identisch sind, aber nicht mit bestimmten Personen verbunden sind.