Os crackers do genoma mostraram que nenhum DNA será mais anônimo


Em 2013, um jovem especialista em biologia computacional, Yaniv Erlich, chocou a comunidade de pesquisadores ao mostrar como revelar as identidades das pessoas listadas em um banco de dados genético anônimo usando apenas a conexão à Internet . Os reguladores responderam limitando o acesso a conjuntos de dados genéticos biomédicos anônimos. Um porta-voz do National Institutes of Health disse então: "As chances de isso acontecer são pequenas para a maioria das pessoas, embora não sejam nulas".

Avanço rápido, cinco anos depois, e descobrimos que a quantidade de informações de DNA armazenadas em bancos de dados digitais aumentou de forma explosiva, e esse crescimento não vai desacelerar. Empresas consumidoras como 23andMe e Ancestry têm perfis genéticos para mais de 12 milhões de pessoas, de acordo com estimativas recentes . Usuários que baixaram suas informações podem opcionalmente adicioná-las a sites públicos de genealogia, por exemplo, GEDmatch, que este ano se tornou conhecido por seu papel em direcionar a polícia a um suspeito no caso do “assassino do Golden State”.

Essas árvores genealógicas que se cruzam, unindo as pessoas através de pedaços de DNA, cresceram tanto que podem ser usadas para detectar metade da população dos EUA. De acordo com um novo estudo de Ehrlich publicado na Science em outubro de 2018, mais de 60% dos americanos com raízes européias podem ser identificados por seu DNA usando bancos de dados de genealogia abertos, independentemente de terem enviado seu DNA para lá.

"O resultado é que não importa se você testou ou não", diz Erlich, pesquisador-chefe do MyHeritage, a terceira maior empresa de genética de consumo, depois do 23andMe e do Ancestry. "Você pode ser identificado porque os bancos de dados já cobrem a maior parte dos Estados Unidos, especialmente os descendentes de europeus".

Para derivar essas estimativas, Erlich e seus colegas da Universidade Columbia e da Universidade Hebraica de Jerusalém analisaram o banco de dados MyHeritage, que contém 1,28 milhão de usuários anônimos, a maioria com pele branca, assim como a grande maioria dos bancos de dados genéticos do mundo. Considerando cada usuário como um "alvo", eles contaram o número de seus parentes com grandes partes do DNA correspondente e descobriram que 60% das consultas de pesquisa encontraram pelo menos seu segundo primo. Os investigadores para procurar o "assassino do Golden State" e resolver outros 17 casos exigiram apenas esse nível de parentesco, conhecido na polícia como "a busca por parentes distantes". Para confirmar a descoberta, a equipe de Ehrlich enviou 30 perfis genéticos para o GEDmatch e encontrou resultados semelhantes - 76% das pesquisas foram enviadas por parentes não além de primos em segundo grau.

A análise produziu uma lista de aproximadamente 850 pessoas, dependendo da fertilidade dos ancestrais do objeto. A partir deste ponto de partida, você pode reduzir rapidamente as informações demográficas básicas. Os arquivos públicos, dos quais o local de residência de uma pessoa segue com uma precisão de 160 km, reduzem pela metade a seleção de candidatos. As crianças de cinco anos excluem 9 em cada 10 pessoas. O sexo baseado em gênero apara a lista a cerca de 16 pessoas. O ano exato de nascimento pode deixar um ou dois candidatos.

Para demonstrar a facilidade do processo, os pesquisadores selecionaram uma mulher anônima do 1000 Genomes Project - um projeto de código genômico aberto - que era casado com um homem que Erlich havia identificado anteriormente em seu popular trabalho de 2013. Eles reformataram os dados no DNA dela para se parecerem com os dados de um cliente típico de um serviço online e os carregaram no GEDmatch. O serviço encontrou dois parentes, um em Dakota do Norte e outro em Wyoming. Por coincidência, seu distante parentesco se seguiu, dentro de 4-6 gerações. Depois de uma hora vasculhando os arquivos públicos, a equipe descobriu o marido e a esposa. Com base nisso, os pesquisadores traçaram a genealogia de centenas de descendentes e calcularam a identidade de seu objetivo. Tudo levou um dia.

Erlich acredita que não está longe o dia em que essa pesquisa possa ser realizada em qualquer pessoa que tenha deixado seu DNA em algum lugar. O estudo constatou que, quando um banco de dados genético cobre aproximadamente 2% da população adulta de qualquer população étnica, uma correspondência não mais que primos em segundo grau pode ser encontrada para quase qualquer pessoa. A base da amostra é mais rica em pessoas cujos ancestrais eram americanos ou europeus e, para eles, esse marco pode ser alcançado dentro de alguns anos se o interesse em divertir os testes de DNA for mantido no mesmo nível. A julgar pelo último censo dos EUA, dois por cento da população será de apenas quatro milhões de pessoas.

Esse recurso aumentará seriamente o número e a variedade de suspeitos, cujos dados estarão disponíveis para a aplicação da lei durante as investigações. Os bancos de dados de infratores da lei nos quais a polícia armazena o DNA de quase 17 milhões de pessoas são criminosos condenados e, em alguns estados, apenas pessoas que foram presas, contêm principalmente dados sobre negros e latinos. Desde os primeiros dias do teste de DNA, as incompatibilidades tecnológicas de diferentes métodos criaram um muro entre os bancos de dados de criminosos e os bancos de dados de pessoas que doam DNA para fins de entretenimento ou pesquisa. Os agentes da lei coletam e analisam partes não-codificadoras altamente variáveis ​​do genoma, contando o número de repetições de partes "lixo" do DNA. Na verdade, isso é simplesmente uma sequência de números e não diz nada sobre a personalidade de uma pessoa. No entanto, é exclusivo para cada pessoa, algo como um código de barras ou impressão digital. Além disso, esse método é rápido e barato - ideal para fins policiais.

Os registros médicos e recreativos de DNA incluem uma decodificação completa ou matrizes de genótipos - um conjunto de alterações que ocorrem em um local de um gene. Esse é um polimorfismo de nucleotídeo único (SNP), e é ele quem é responsável por ter olhos verdes ou cabelos encaracolados, ou uma predisposição para doenças cardíacas. Também é muito mais útil para encontrar parentes. Como esses dois tipos de bancos de dados não estão relacionados, no caso do “Golden State Killer”, tivemos que extrair o DNA de amostras antigas, criar um perfil SNP e enviá-lo ao GEDmatch. Mas agora mesmo isso não é mais necessário.

Outro trabalho publicado em outubro na revista Cell demonstrou como procurar parentes distantes com base em dados de bancos de dados criminais. O grupo Noah Rosenberg da Universidade de Stanford já mostrou que é possível associar registros nesses dois bancos de dados comparando os SNPs mais próximos com as repetições sem codificação. O trabalho foi publicado no ano passado e não atraiu muita atenção. "Silêncio", diz Rosenberg. Mas seu último trabalho, estudando a compatibilidade cruzada de dois bancos de dados, já está ganhando um novo significado à luz do caso do "Golden State Killer".

"Esse método pode expandir o alcance da genética forense e potencialmente ajudar a resolver casos ainda mais antigos", diz Rosenberg. "Ao mesmo tempo, ele divulgará os dados dos participantes desses bancos de dados durante pesquisas relacionadas à investigação de crimes, o que provavelmente não esperavam".

Especialistas jurídicos consideram um problema maior que o trabalho de Rosenberg implique que o perfil de DNA armazenado nos bancos de dados policiais contenha mais informações do que se pensava anteriormente. Ele pode ser usado para prever com precisão as regiões codificadoras do genoma - aquelas associadas a olhos verdes, cabelos encaracolados e problemas cardíacos. "Todas as decisões da Suprema Corte de que os bancos de dados criminais existentes não violam a Quarta Emenda são baseadas no pressuposto de que nada pode ser extraído desse DNA inútil", diz Andrea Roth, diretora do Centro de Direito e Tecnologia da Universidade da Califórnia, Berkeley. "E agora tudo vai para o pó."

Rosenberg não lançou nenhum software com o trabalho, portanto levará algum tempo para realizar cálculos reais. Mas ele diz que qualquer pessoa com acesso a vários bancos de dados tem todas as informações necessárias para começar a usar essa tecnologia. Portanto, a proteção de privacidade integrada pode polvilhar rapidamente. O trabalho tem como objetivo alertar os reguladores sobre as capacidades da tecnologia moderna, e Rosenberg espera que inicie uma discussão há muito esperada sobre o armazenamento e o uso de informações genéticas.

Ehrlich et al. Foram ainda mais longe ao fazer recomendações sobre as mudanças necessárias para recursos como o GEDmatch, que fornecem um serviço importante para pessoas que procuram parentes desaparecidos e para filhos adotivos que procuram pais biológicos, para ficar on-line e estar seguros. Eles apelaram ao Departamento de Saúde e Serviços Humanos dos EUA para revisar o escopo das informações de saúde relacionadas aos dados pessoais e incluir genomas anônimos. Eles descreveram uma estratégia de criptografia que poderia criar uma cadeia de responsabilidade pela preservação de informações, para que os bancos de dados pudessem marcar usuários tentando analisar dados genéticos de outras pessoas. Mas mesmo se você arrastar para esse sistema absolutamente todas as empresas que prestam serviços relacionados a genomas, isso pode não ser suficiente.

"Acho que o resultado final é que agora todas as pessoas também estarão sob o capô da vigilância genética se não regulamentarmos a capacidade do governo de realizar buscas genéticas", diz Roth. Ele propõe um sistema semelhante ao regulamento da Califórnia de buscas criminais mais tradicionais por parentes. Eles só podem ser usados ​​para investigar crimes violentos - assassinatos, violência - e o escopo da pesquisa é limitado para não envolver informações sobre centenas de pessoas inocentes. Existem comissões de supervisão que podem impedir a divulgação inadvertida de informações confidenciais se, por exemplo, o pai de alguém não for um pai biológico. "Isso é tudo ironia", diz Roth. "Se seu parente estiver no banco de dados CODIS [banco de dados criminal], você terá muito mais direitos à privacidade genética do que se tiver um parente no GEDMatch." Mas com o seu DNA suficiente, não importa se você deseja ser encontrado ou não. Falhas não são mais aceitas.

Source: https://habr.com/ru/post/pt429626/


All Articles