O anonimato é uma ilusão. De acordo com dados de conjuntos de dados anônimos, você pode identificar pessoas reais



Theguardian.com publicou resultados de um estudo realizado por duas universidades eminentes: Universidade UCLouvain da Bélgica e Imperial College London: os cientistas confirmam que existem muitas maneiras de associar dados anônimos a pessoas reais.
Por exemplo, dados com 15 atributos demográficos "serão revelados por 99,98% dos residentes de Massachusetts". E para populações pequenas, esse procedimento é ainda mais simples: por exemplo, se estamos falando de uma cidade pequena, "não será difícil identificar os residentes de Harwich Port, Massachusetts, onde vivem menos de 2000 pessoas".

Os dados "anonimizados" estão subjacentes a muitos processos: da pesquisa médica moderna às recomendações pessoais e tecnologias de IA. Infelizmente, de acordo com o estudo, em quaisquer conjuntos de dados complexos é quase impossível anonimizar os dados com sucesso.

Todas as informações pessoais identificáveis ​​devem ser completamente removidas do conjunto de dados anonimizado, para que apenas os dados úteis básicos permaneçam para que os pesquisadores possam operar sem medo de violar a privacidade. Por exemplo, um hospital pode remover os nomes, endereços e datas de nascimento de pacientes de uma série de registros médicos, na esperança de que os pesquisadores possam usar o restante dos dados para descobrir relações ocultas entre as condições.

Mas, na prática, os dados podem ser desanonimizados de várias maneiras. Em 2008, o conjunto de dados de classificação de filmes anônimos da Netflix foi anonimizado pela comparação de classificações com os dados no site da IMDb. Os endereços dos motoristas de táxi de Nova York foram divulgados com base em um conjunto de dados anônimos de viagens individuais pela cidade. E os dados anônimos de cobrança médica propostos pelo Ministério da Saúde da Austrália podem ser identificados pela referência cruzada com "fatos prosaicos", como os aniversários de uma mãe e filho ou mãe e vários filhos.

Pesquisadores da Universidade Católica Belga de Louvain (UCLouvain) e do Imperial College de Londres criaram um modelo para avaliar a facilidade de des-anonimização de qualquer conjunto de dados arbitrário. Por exemplo, dados com 15 atributos demográficos "serão revelados por 99,98% dos residentes de Massachusetts". E para populações pequenas, esse procedimento é ainda mais simples: por exemplo, se estamos falando de uma cidade pequena, "não será difícil identificar os residentes de Harwich Port, Massachusetts, onde vivem menos de 2000 pessoas".

Apesar disso, corretores de dados como o Experian vendem conjuntos de dados "desidentificados" contendo muito mais informações sobre cada pessoa. Os pesquisadores apontaram os dados vendidos para a empresa de software Alteryx - ele contém 248 atributos para 120 milhões de lares americanos.

Os pesquisadores argumentam que seus resultados comprovam a falta de esforços de anonimização para cumprir requisitos legais, como o GDPR (regulamento geral de proteção de dados).
" Nossos resultados refutam as alegações de que a restauração das informações de identificação é impossível ... "

Eles questionam ainda a relevância das técnicas atuais de desidentificação para os padrões de anonimização das leis modernas de proteção de dados, como o GDPR e o CCPA (California Consumer Privacy Act), e enfatizam a necessidade, do ponto de vista legal e regulatório, de ir além do modelo de desidentificação. "Liberado e esquecido. "

Outras abordagens para processar conjuntos de dados maciços podem atender mais de perto aos critérios atuais de proteção de informações. A privacidade diferenciada, praticada por empresas como Apple e Uber, erode deliberadamente cada unidade de informação calculada a média de todo o conjunto de dados, interferindo na desanonimização, fornecendo informações tecnicamente incorretas sobre cada pessoa.

A criptografia homomórfica não permite que os dados sejam lidos, mas eles ainda podem ser manipulados. Os resultados também serão criptografados, mas o controlador de dados pode descriptografá-los. E, no final, chegaremos a conjuntos de dados sintéticos, o que significa treinar a IA em informações reais e identificáveis, com base nas quais novas unidades de dados falsas serão geradas que serão estatisticamente idênticas, mas não conectadas a pessoas específicas.

Source: https://habr.com/ru/post/pt461381/


All Articles