Les crackers du génome ont montré qu'aucun ADN ne sera plus anonyme


En 2013, un jeune spécialiste de la biologie computationnelle, Yaniv Erlich, a choqué la communauté des chercheurs en montrant comment révéler l'identité des personnes répertoriées dans une base de données génétiques anonyme utilisant uniquement la connexion Internet . Les régulateurs ont réagi en limitant l'accÚs aux ensembles de données génétiques biomédicales anonymes. Un porte-parole des National Institutes of Health a ensuite déclaré : "Les chances que cela se produise sont faibles pour la plupart des gens, bien qu'elles ne soient pas nulles."

Avance rapide cinq ans plus tard, et nous constatons que la quantité d'informations ADN stockées dans les bases de données numériques a augmenté de maniÚre explosive, et cette croissance ne va pas ralentir. Des entreprises de consommation comme 23andMe et Ancestry ont des profils génétiques pour plus de 12 millions de personnes, selon des estimations récentes . Les utilisateurs qui ont téléchargé leurs informations peuvent éventuellement les ajouter à des sites de généalogie publics, par exemple GEDmatch, qui est devenu célÚbre cette année pour son rÎle en dirigeant la police vers un suspect dans le cas du «tueur de Golden State».

Ces arbres gĂ©nĂ©alogiques entrecroisĂ©s, unissant les gens Ă  travers des morceaux d'ADN, ont tellement grandi qu'ils peuvent ĂȘtre utilisĂ©s pour dĂ©tecter la moitiĂ© de la population amĂ©ricaine. Selon une nouvelle Ă©tude Ehrlich publiĂ©e dans Science en octobre 2018, plus de 60% des AmĂ©ricains d'origine europĂ©enne peuvent ĂȘtre identifiĂ©s par leur ADN Ă  l'aide de bases de donnĂ©es gĂ©nĂ©alogiques ouvertes, qu'ils y aient ou non envoyĂ© leur ADN.

«Le rĂ©sultat est que peu importe que vous ayez testĂ© ou non», explique Erlich, chercheur en chef chez MyHeritage, la troisiĂšme plus grande entreprise de gĂ©nĂ©tique grand public, aprĂšs 23andMe et Ancestry. "Vous pouvez ĂȘtre identifiĂ© parce que les bases de donnĂ©es couvrent dĂ©jĂ  la plupart des États-Unis, en particulier de descendance europĂ©enne."

Pour dĂ©river ces estimations, Erlich et ses collĂšgues de l'UniversitĂ© Columbia et de l'UniversitĂ© hĂ©braĂŻque de JĂ©rusalem ont analysĂ© la base de donnĂ©es MyHeritage, qui contient 1,28 million d'utilisateurs anonymes, principalement avec la peau blanche, ainsi que la grande majoritĂ© des bases de donnĂ©es gĂ©nĂ©tiques du monde. En considĂ©rant chaque utilisateur comme une «cible», ils ont comptĂ© le nombre de ses proches avec une grande part d'ADN correspondant, et ont constatĂ© que 60% des requĂȘtes de recherche trouvaient au moins son cousin au deuxiĂšme degrĂ©. Les enquĂȘteurs pour rechercher le «tueur de l'État d'Or» et rĂ©soudre 17 autres cas n'ont exigĂ© que ce niveau de parentĂ©, connu des forces de l'ordre comme «la recherche de parents Ă©loignĂ©s». Pour confirmer leur dĂ©couverte, l'Ă©quipe Ehrlich a tĂ©lĂ©chargĂ© 30 profils gĂ©nĂ©tiques sur GEDmatch et a trouvĂ© des rĂ©sultats similaires - 76% des recherches ont Ă©tĂ© envoyĂ©es par des proches au plus tard les cousins ​​au deuxiĂšme degrĂ©.

L'analyse a produit une liste d'environ 850 personnes, selon la fertilitĂ© des ancĂȘtres de l'objet. À partir de ce point de dĂ©part, vous pouvez rapidement rĂ©duire les informations dĂ©mographiques de base. Les archives publiques, d'oĂč suit le lieu de rĂ©sidence d'une personne avec une prĂ©cision de 160 km, rĂ©duisent de moitiĂ© la sĂ©lection des candidats. Les enfants de cinq ans excluent 9 personnes sur 10. Le sexe basĂ© sur le genre rĂ©duit la liste Ă  environ 16 personnes. L'annĂ©e de naissance exacte peut vous laisser un ou deux candidats.

Pour démontrer la facilité du processus, les chercheurs ont sélectionné une femme anonyme du 1000 Genomes Project - un projet de code génomique ouvert - qui était mariée à un homme qu'Erlich avait précédemment identifié dans son travail populaire de 2013. Ils ont reformaté les données de son ADN afin qu'elles ressemblent aux données d'un client typique d'un service en ligne et les ont téléchargées sur GEDmatch. Le service a trouvé deux parents, un dans le Dakota du Nord et un dans le Wyoming. Par coïncidence, leur parenté éloignée a suivi, en 4 à 6 générations. AprÚs une heure à fouiller les archives publiques, l'équipe a découvert leur mari et leur femme. Sur cette base, les chercheurs ont retracé la généalogie de centaines de descendants et calculé l'identité de leur objectif. Tout cela a pris un jour.

Erlich estime que le jour n'est pas loin oĂč une telle recherche peut ĂȘtre effectuĂ©e sur toute personne ayant laissĂ© son ADN quelque part. L'Ă©tude a rĂ©vĂ©lĂ© que lorsqu'une base de donnĂ©es gĂ©nĂ©tiques couvre environ 2% de la population adulte de toute population ethnique, une correspondance ne dĂ©passant pas celle des cousins ​​au deuxiĂšme degrĂ© peut ĂȘtre trouvĂ©e pour presque toutes les personnes. La base d'Ă©chantillonnage est plus riche en personnes dont les ancĂȘtres Ă©taient amĂ©ricains ou europĂ©ens, et pour eux, cette Ă©tape peut ĂȘtre atteinte en quelques annĂ©es si l'intĂ©rĂȘt pour les tests ADN divertissants est maintenu au mĂȘme niveau. À en juger par le dernier recensement amĂ©ricain, deux pour cent de la population ne sera que quatre millions de personnes.

Une telle ressource augmentera considĂ©rablement le nombre et la variĂ©tĂ© des suspects, dont les donnĂ©es seront mises Ă  la disposition des forces de l'ordre lors des enquĂȘtes. Les bases de donnĂ©es des contrevenants dans lesquels la police stocke l'ADN de prĂšs de 17 millions de personnes sont des criminels condamnĂ©s, et dans certains États, seules les personnes qui ont Ă©tĂ© arrĂȘtĂ©es, contiennent principalement des donnĂ©es sur les Noirs et les Latinos. DĂšs les premiers jours des tests ADN, les incompatibilitĂ©s technologiques des diffĂ©rentes mĂ©thodes ont crĂ©Ă© un mur entre les bases de donnĂ©es des criminels et les bases de donnĂ©es des personnes qui donnent de l'ADN Ă  des fins de divertissement ou de recherche. Les responsables de l'application des lois collectent et analysent des parties non codantes trĂšs variables du gĂ©nome, en comptant le nombre de rĂ©pĂ©titions de parties "ordures" de l'ADN. En fait, il s’agit simplement d’une sĂ©quence de chiffres et cela ne dit rien sur la personnalitĂ© d’une personne. Cependant, il est unique pour chaque personne, quelque chose comme un code Ă  barres ou une empreinte digitale. De plus, cette mĂ©thode est rapide et bon marchĂ© - idĂ©ale pour la police.

Les enregistrements d'ADN mĂ©dicaux et rĂ©crĂ©atifs comprennent un dĂ©codage complet ou des tableaux de gĂ©notypes - un ensemble de changements se produisant Ă  un endroit d'un gĂšne. Il s'agit d'un polymorphisme mononuclĂ©otidique (SNP), et c'est lui qui est responsable d'avoir les yeux verts ou les cheveux bouclĂ©s, ou d'une prĂ©disposition aux maladies cardiaques. Il est Ă©galement beaucoup plus utile pour trouver des proches. Étant donnĂ© que ces deux types de bases de donnĂ©es ne sont pas liĂ©s, dans le cas du «Golden State Killer», nous avons dĂ» extraire l'ADN d'anciens Ă©chantillons, crĂ©er un profil SNP et le tĂ©lĂ©charger sur GEDmatch. Mais maintenant, mĂȘme cela n'est plus nĂ©cessaire.

Un autre travail publié en octobre dans le magazine Cell a d'abord montré comment rechercher des parents éloignés sur la base de données provenant de bases de données criminelles. Le groupe Noah Rosenberg de l'Université de Stanford a déjà montré qu'il est possible d'associer des enregistrements dans ces deux bases de données en comparant les SNP les plus proches avec des répétitions non codantes. L'ouvrage a été publié l'année derniÚre et n'a pas attiré beaucoup d'attention. «Silence», dit Rosenberg. Mais son dernier travail, étudiant la compatibilité croisée de deux bases de données, prend déjà un nouveau sens à la lumiÚre du cas du «Golden State Killer».

«Cette mĂ©thode peut Ă©tendre la portĂ©e de la gĂ©nĂ©tique mĂ©dico-lĂ©gale et potentiellement aider Ă  rĂ©soudre des cas encore plus anciens», explique Rosenberg. «Dans le mĂȘme temps, il divulguera les donnĂ©es des participants Ă  ces bases de donnĂ©es lors de recherches liĂ©es Ă  l'enquĂȘte sur des crimes, auxquelles ils ne s'attendaient probablement pas.»

Les experts juridiques estiment que le travail de Rosenberg implique que le profil ADN stockĂ© dans les bases de donnĂ©es de la police contient plus d'informations qu'on ne le pensait. Il peut ĂȘtre utilisĂ© pour prĂ©dire avec prĂ©cision les rĂ©gions codantes du gĂ©nome - celles associĂ©es aux yeux verts, aux cheveux bouclĂ©s et aux problĂšmes cardiaques. «Toutes les dĂ©cisions de la Cour suprĂȘme selon lesquelles les bases de donnĂ©es criminelles existantes ne violent pas le quatriĂšme amendement reposent sur l'hypothĂšse que rien ne peut ĂȘtre extrait de cet ADN indĂ©sirable», explique Andrea Roth, directrice du Center for Law and Technology, University of California, Berkeley. "Et maintenant, tout devient poussiĂšre."

Rosenberg n'a publié aucun logiciel avec le travail, il faudra donc un certain temps pour effectuer de vrais calculs. Mais il dit que toute personne ayant accÚs à plusieurs bases de données dispose de toutes les informations nécessaires pour commencer à utiliser cette technologie. Ainsi, la protection de la vie privée intégrée peut saupoudrer assez rapidement. Le travail est conçu comme un avertissement pour montrer aux régulateurs les capacités de la technologie moderne, et Rosenberg espÚre qu'il lancera une discussion attendue depuis longtemps sur le stockage et l'utilisation des informations génétiques.

Ehrlich et al. Sont allĂ©s encore plus loin en faisant des recommandations sur les changements nĂ©cessaires pour que des ressources telles que GEDmatch, qui fournissent un service important aux personnes Ă  la recherche de parents disparus et aux enfants en famille d'accueil Ă  la recherche de parents biologiques, restent en ligne et soient en sĂ©curitĂ©. Ils ont appelĂ© le dĂ©partement amĂ©ricain de la SantĂ© et des Services sociaux Ă  revoir la portĂ©e des informations de santĂ© liĂ©es aux donnĂ©es personnelles et Ă  inclure les gĂ©nomes anonymisĂ©s. Ils ont dĂ©crit une stratĂ©gie de cryptage qui pourrait crĂ©er une chaĂźne de responsabilitĂ© pour la conservation des informations afin que les bases de donnĂ©es puissent marquer les utilisateurs essayant d'analyser les donnĂ©es gĂ©nĂ©tiques d'autres personnes. Mais mĂȘme si vous faites glisser dans ce systĂšme absolument toutes les entreprises qui fournissent des services liĂ©s aux gĂ©nomes, cela peut ne pas ĂȘtre suffisant.

"Je pense que l'essentiel est que maintenant tout le monde sera Ă©galement sous le capot de la surveillance gĂ©nĂ©tique si nous ne rĂ©glementons pas la capacitĂ© du gouvernement Ă  effectuer des recherches gĂ©nĂ©tiques", a dĂ©clarĂ© Roth. Il propose un systĂšme similaire Ă  la rĂ©glementation californienne des recherches criminelles plus traditionnelles pour les proches. Ils ne peuvent ĂȘtre utilisĂ©s que pour enquĂȘter sur des crimes violents - meurtres, violence - et la portĂ©e de la recherche est limitĂ©e afin de ne pas contenir d'informations sur des centaines de personnes innocentes. Il existe des commissions de surveillance qui peuvent empĂȘcher la divulgation accidentelle d'informations sensibles si, par exemple, le pĂšre d'une personne n'est pas un pĂšre biologique. «C'est de l'ironie», explique Roth. "Si votre parent est dans la base de donnĂ©es CODIS [base de donnĂ©es criminelle], vous avez beaucoup plus de droits Ă  la vie privĂ©e gĂ©nĂ©tique que si vous avez un parent dans GEDMatch." Mais avec suffisamment d’ADN, peu importe que vous vouliez ou non ĂȘtre retrouvĂ©. Les Ă©checs ne sont plus acceptĂ©s.

Source: https://habr.com/ru/post/fr429626/


All Articles