En 2013, un joven especialista en biología computacional, Yaniv Erlich, sorprendió a la comunidad de investigadores al
mostrar cómo revelar las identidades de las personas que figuran en una base de datos genética anónima utilizando solo la
conexión a Internet . Los reguladores han respondido limitando el acceso a conjuntos de datos genéticos biomédicos anónimos. Un portavoz de los Institutos Nacionales de Salud
dijo : "Las posibilidades de que esto suceda son pequeñas para la mayoría de las personas, aunque no son nulas".
Un avance rápido cinco años después, y encontramos que la cantidad de información de ADN almacenada en bases de datos digitales ha aumentado de manera explosiva, y este crecimiento no se ralentizará. Según
estimaciones recientes , las compañías de consumo como 23andMe y Ancestry tienen perfiles genéticos para más de 12 millones de personas. Los usuarios que han descargado su información pueden agregarla opcionalmente a sitios públicos de genealogía, por ejemplo, GEDmatch, que este año se hizo famoso por su papel en dirigir a la policía a un sospechoso en el caso del "asesino del Estado Dorado".
Estos árboles genealógicos que se entrecruzan, uniendo a las personas a través de fragmentos de ADN, han crecido tanto que pueden usarse para detectar la mitad de la población de los EE. UU. Según un nuevo
estudio de Ehrlich publicado en Science en octubre de 2018, más del 60% de los estadounidenses con raíces europeas pueden ser identificados por su ADN utilizando bases de datos de genealogía abiertas, independientemente de si enviaron su ADN allí.
"El resultado es que no importa si se realizó la prueba o no", dice Erlich, investigador jefe de MyHeritage, la tercera compañía genética de consumo más grande, después de 23andMe y Ancestry. "Se puede identificar porque las bases de datos ya cubren la mayor parte de los Estados Unidos, especialmente de ascendencia europea".
Para obtener estas estimaciones, Erlich y sus colegas de la Universidad de Columbia y la Universidad Hebrea de Jerusalén analizaron la base de datos MyHeritage, que contiene 1,28 millones de usuarios anónimos, en su mayoría de piel blanca, así como la gran mayoría de las bases de datos genéticas del mundo. Al considerar a cada usuario como un "objetivo", contaron el número de sus familiares con grandes proporciones de ADN coincidente, y encontraron que el 60% de las consultas de búsqueda encontraron al menos a su primo segundo. Los investigadores para buscar al "asesino del Estado Dorado" y resolver otros 17 casos solo necesitaban ese nivel de parentesco, conocido en la policía como "la búsqueda de parientes lejanos". Para confirmar sus hallazgos, el equipo de Ehrlich subió 30 perfiles genéticos a GEDmatch y encontró resultados similares: el 76% de las búsquedas fueron enviadas por familiares no más allá de los primos segundos.
El análisis produjo una lista de aproximadamente 850 personas, dependiendo de la fertilidad de los antepasados del objeto. Desde este punto de partida, puede recortar rápidamente la información demográfica básica. Los archivos públicos, de los cuales se deriva el lugar de residencia de una persona con una precisión de 160 km, reducen la selección de candidatos a la mitad. Los niños de cinco años excluyen a 9 de cada 10 personas. El sexo basado en el género recorta la lista a unas 16 personas. El año exacto de nacimiento puede dejarle uno o dos candidatos.
Para demostrar la facilidad del proceso, los investigadores seleccionaron a una mujer anónima del Proyecto 1000 Genomas, un proyecto de código genómico abierto, que estaba casada con un hombre que Erlich había identificado previamente en su popular trabajo de 2013. Reformatearon los datos en su ADN para que se parecieran a los datos de un cliente típico de un servicio en línea y los subieron a GEDmatch. El servicio encontró dos familiares, uno en Dakota del Norte y otro en Wyoming. Por coincidencia, su parentesco lejano siguió, dentro de 4-6 generaciones. Después de una hora revisando los archivos públicos, el equipo descubrió a su esposo y esposa. En base a esto, los investigadores rastrearon la genealogía de cientos de descendientes y calcularon la identidad de su objetivo. Todo tomó un día.
Erlich cree que no está lejos el día en que dicha búsqueda pueda llevarse a cabo en cualquier persona que haya dejado su ADN en algún lugar. El estudio encontró que cuando una base de datos genéticos cubre aproximadamente el 2% de la población adulta de cualquier población étnica, se puede encontrar una coincidencia no mayor a la de primos segundos para casi cualquier persona. La base de la muestra es más rica en personas cuyos antepasados fueron estadounidenses o europeos, y para ellos se puede alcanzar este hito dentro de unos años si el interés en entretener las comprobaciones de ADN se mantiene al mismo nivel. A juzgar por el último censo de EE. UU., El dos por ciento de la población serán solo cuatro millones de personas.
Tal recurso aumentará seriamente la cantidad y variedad de sospechosos, cuyos datos estarán disponibles para la aplicación de la ley durante las investigaciones. Las bases de datos de infractores de la ley en las que la policía almacena el ADN de casi 17 millones de personas son criminales condenados, y en algunos estados, solo las personas que han sido arrestadas, contienen principalmente datos sobre negros y latinos. Desde los primeros días de las pruebas de ADN, las incompatibilidades tecnológicas de los diferentes métodos crearon un muro entre las bases de datos de delincuentes y las bases de datos de personas que donan ADN para fines de entretenimiento o investigación. Los encargados de hacer cumplir la ley recolectan y analizan partes del genoma no codificantes muy variables, contando el número de repeticiones de partes de ADN "basura". Esto, de hecho, es simplemente una secuencia de números, y no dice nada sobre la personalidad de una persona. Sin embargo, es exclusivo de cada persona, algo así como un código de barras o una huella digital. Además, este método es rápido y barato, ideal para fines policiales.
Las grabaciones de ADN médicas y recreativas incluyen una decodificación completa o conjuntos de genotipos, un conjunto de cambios que ocurren en un lugar de un gen. Este es un
polimorfismo de un
solo nucleótido (SNP), y es él el responsable de tener los ojos verdes o el cabello rizado, o una predisposición a las enfermedades del corazón. También es mucho más útil para encontrar familiares. Dado que estos dos tipos de bases de datos no están relacionadas entre sí, en el caso del "Golden State Killer", tuvimos que extraer ADN de muestras antiguas, crear un perfil SNP y subirlo a GEDmatch. Pero ahora incluso esto ya no es necesario.
Otro trabajo publicado en octubre en la revista Cell demostró por primera vez cómo buscar parientes lejanos a partir de datos de bases de datos criminales. El grupo Noah Rosenberg de la Universidad de Stanford
ya ha demostrado que es posible asociar registros en estas dos bases de datos al comparar los SNP más cercanos con repeticiones sin codificación. El trabajo fue publicado el año pasado y no atrajo mucha atención. "Silencio", dice Rosenberg. Pero su último trabajo, estudiando la compatibilidad cruzada de dos bases de datos, ya está adquiriendo un nuevo significado a la luz del caso del "Asesino del Estado Dorado".
"Este método puede ampliar el alcance de la genética forense y potencialmente ayudar a resolver casos aún más antiguos", dice Rosenberg. "Al mismo tiempo, revelará los datos de los participantes en estas bases de datos durante las búsquedas relacionadas con la investigación de crímenes, que probablemente no esperaban".
Los expertos legales consideran que es un problema mayor que el trabajo de Rosenberg implique que el perfil de ADN almacenado en las bases de datos policiales contiene más información de lo que se pensaba anteriormente. Se puede usar para predecir con precisión las regiones de codificación del genoma: aquellas asociadas con ojos verdes, cabello rizado y problemas cardíacos. "Todas las decisiones de la Corte Suprema de que las bases de datos criminales existentes no violan la
Cuarta Enmienda se basan en el supuesto de que no se puede extraer nada de este ADN basura", dice Andrea Roth, directora del Centro de Derecho y Tecnología de la Universidad de California, Berkeley. "Y ahora todo se vuelve polvo".
Rosenberg no lanzó ningún software con el trabajo, por lo que llevará algún tiempo realizar cálculos reales. Pero dice que cualquier persona con acceso a varias bases de datos tiene toda la información necesaria para comenzar a usar esta tecnología. Por lo tanto, la protección de privacidad incorporada puede rociarse bastante rápido. El trabajo pretende ser una advertencia para mostrar a los reguladores las capacidades de la tecnología moderna, y Rosenberg espera que se inicie una discusión largamente esperada sobre el almacenamiento y el uso de la información genética.
Ehrlich et al. Fue aún más lejos al hacer recomendaciones sobre los cambios necesarios para recursos como GEDmatch, que proporciona un servicio importante para las personas que buscan familiares desaparecidos, y para los niños de crianza temporal que buscan padres biológicos, para mantenerse en línea y estar seguros. Pidieron al Departamento de Salud y Servicios Humanos de EE. UU. Que revise el alcance de la información de salud relacionada con los datos personales e incluya genomas anónimos. Describieron una estrategia de encriptación que podría crear una cadena de responsabilidad para la preservación de la información de modo que las bases de datos pudieran marcar a los usuarios que intentan analizar los datos genéticos de otras personas. Pero incluso si arrastra a este sistema absolutamente todas las empresas que brindan servicios relacionados con los genomas, esto puede no ser suficiente.
"Creo que la conclusión es que ahora todas las personas también estarán bajo el capó de la vigilancia genética si no regulamos la capacidad del gobierno para realizar búsquedas genéticas", dice Roth. Propone un sistema similar a la regulación de California de búsquedas criminales más tradicionales de familiares. Solo se pueden usar para investigar crímenes violentos (asesinatos, violencia) y el alcance de la búsqueda es limitado para no involucrar información sobre cientos de personas inocentes. Existen comisiones de supervisión que pueden evitar la divulgación involuntaria de información confidencial si, por ejemplo, el padre de alguien no es un padre biológico. "Todo esto es ironía", dice Roth. "Si su pariente está en la base de datos CODIS [base de datos criminal], tiene muchos más derechos a la privacidad genética que si tiene un pariente en GEDMatch". Pero con suficiente ADN, no importa si quieres que te encuentren o no. Las fallas ya no son aceptadas.