
Theguardian.com ha
publicado los resultados de un estudio realizado por dos universidades eminentes: la Universidad UCLouvain de Bélgica y el Imperial College de Londres: los científicos confirman que hay muchas formas de asociar cualquier información anónima con personas reales.
Por ejemplo, los datos con 15 atributos demográficos "serán revelados por el 99.98% de los residentes de Massachusetts". Y para las poblaciones pequeñas, este procedimiento es aún más simple: por ejemplo, si estamos hablando de un pueblo pequeño, entonces "no será difícil identificar a los residentes de Harwich Port, Massachusetts, en el que viven menos de 2000 personas".
Los datos "anónimos" subyacen a muchos procesos: desde la investigación médica moderna hasta las recomendaciones personales y las tecnologías de IA. Desafortunadamente, según el estudio, en cualquier conjunto de datos complejo es casi imposible anonimizar con éxito los datos.
Toda la información personal identificable debe eliminarse por completo del conjunto de datos anonimizados, de modo que solo los datos básicos útiles permanezcan para que los investigadores puedan operar sin temor a violar la privacidad. Por ejemplo, un hospital puede eliminar los nombres, las direcciones y las fechas de nacimiento de los pacientes de una variedad de registros médicos con la esperanza de que los investigadores puedan usar el resto de los datos para descubrir relaciones ocultas entre las condiciones.
Pero, en la práctica, los datos se pueden desanonimizar de varias maneras. En 2008, el conjunto de datos anónimos de calificación de películas de Netflix se desanonimizó comparando calificaciones con datos en el sitio web de IMDb. Las direcciones de los taxistas de Nueva York se revelaron en base a un conjunto de datos anónimos de viajes individuales por la ciudad. Y los datos anónimos de facturación médica propuestos por el Ministerio de Salud de Australia pueden identificarse mediante referencias cruzadas con "hechos prosaicos", como los años de nacimiento de una madre y un hijo, o una madre y varios hijos.
Investigadores de la Universidad Católica Belga de Lovaina (UCLouvain) y el Imperial College de Londres han construido un modelo para evaluar la facilidad de desanonimización de cualquier conjunto de datos arbitrario. Por ejemplo, los datos con 15 atributos demográficos "serán revelados por el 99.98% de los residentes de Massachusetts". Y para las poblaciones pequeñas, este procedimiento es aún más simple: por ejemplo, si estamos hablando de un pueblo pequeño, entonces "no será difícil identificar a los residentes de Harwich Port, Massachusetts, en el que viven menos de 2000 personas".
A pesar de esto, los corredores de datos como Experian venden conjuntos de datos "desidentificados" que contienen mucha más información sobre cada persona. Los investigadores señalaron los datos vendidos a la compañía de software Alteryx: contiene 248 atributos para 120 millones de hogares estadounidenses.
Los investigadores sostienen que sus resultados demuestran la falta de esfuerzos de anonimato para cumplir con los requisitos legales, como el GDPR (regulación general de protección de datos).
" Nuestros resultados refutan las acusaciones de que la restauración de la información de identificación es imposible ... "
“ Luego, cuestionan la relevancia de los métodos actuales de desidentificación para los estándares de anonimato de las leyes modernas de protección de datos como GDPR y CCPA (Ley de Privacidad del Consumidor de California), y enfatizan la necesidad, desde un punto de vista legal y regulatorio, de ir más allá del modelo de desidentificación "Liberado y olvidado " .
Otros enfoques para procesar conjuntos de datos masivos pueden cumplir más estrechamente con los criterios actuales de protección de la información. La privacidad diferenciada, practicada por compañías como Apple y Uber, erosiona deliberadamente cada unidad de información promediada en todo el conjunto de datos, lo que interfiere con la desanonimización al proporcionar información técnicamente incorrecta sobre cada persona.
El cifrado homomórfico no permite la lectura de datos, pero aún se pueden manipular. Los resultados también se cifrarán, pero el controlador de datos puede descifrarlos. Y al final, llegaremos a conjuntos de datos sintéticos, lo que implica entrenar a la IA en información real e identificable, sobre la base de qué nuevas unidades de datos falsos se generarán que serán estadísticamente idénticas, pero que no estarán conectadas con personas específicas.