基因组破解者表明,不再有DNA将是匿名的


2013年,一位年轻的计算生物学专家Yaniv Erlich通过展示如何仅使用Internet连接来揭示匿名遗传数据库中所列人员的身份而震惊了研究界。 监管者通过限制访问匿名生物医学遗传数据集来做出回应。 美国国立卫生研究院的发言人随后 :“对于大多数人来说,发生这种情况的机会很小,尽管并非零。”

五年后的今天,我们发现数字数据库中存储的DNA信息数量呈爆炸性增长,并且这种增长不会减慢。 根据最近的估计 ,像23andMe和Ancestry这样的消费类公司拥有超过1200万人的遗传特征。 下载了他们的信息的用户可以选择将其添加到公共家谱站点,例如GEDmatch,该站点今年因其在“金州杀手”案中将警察引向嫌疑人的角色而臭名昭著。

这些相交的家谱通过DNA片段将人们团结在一起,已经长得如此之多,以至于可以用来检测美国一半的人口。 根据2018年10月发表在《科学》杂志上的Ehrlich的一项研究 ,无论是否将DNA发送到欧洲,超过60%的具有欧洲血统的美国人都可以使用开放的家谱数据库通过其DNA进行识别。

“结果是您是否进行了测试都没有关系,”仅次于23andMe和Ancestry的第三大消费者基因公司MyHeritage的首席研究员Erlich说。 “可以确定您的身份,因为数据库已经涵盖了美国大部分地区,尤其是欧洲血统。”

为了获得这些估计值,耶路撒冷哥伦比亚大学和希伯来大学的Erlich及其同事分析了MyHeritage数据库,该数据库包含128万匿名用户,其中大多数是白皮肤的,以及世界上绝大多数的遗传数据库。 他们将每个用户都视为“目标”,他们计算出拥有大量匹配DNA的亲戚的数量,并发现60%的搜索查询至少找到了他的第二个表亲。 调查人员寻找“金州杀手”并解决另外17个案件,只需要这种亲属关系,在执法部门中称为“寻找远亲”。 为了证实他们的发现,Ehrlich小组将30个遗传图谱上传到GEDmatch,并发现了相似的结果-76%的搜索是由亲戚发送的,他们的亲戚仅次于表亲。

根据对象祖先的生育能力,该分析产生了大约850人的列表。 从此开始,您可以快速减少基本的人口统计信息。 一个人的居住地所处的公共档案的精确度为160公里,使候选人的选择减少了一半。 五岁以下儿童中有十分之九的人除外。 基于性别的性别将名单减少到约16人。 确切的出生年份可能会让您留下一两个候选人。

为了证明这一过程的简便性,研究人员从1000个基因组计划(一个开放的基因组代码计划)中选择了一名匿名妇女,该妇女与Erlich先前在其2013年流行的工作中确定的男人结婚。 他们重新格式化了她DNA上的数据,使它们类似于在线服务的典型客户的数据,并将其上传到GEDmatch。 该部门发现了两名亲戚,一名在北达科他州,另一名在怀俄明州。 从巧合开始,他们的远亲就在4至6代之内。 经过一个小时的整理,公共团队发现了他们的丈夫和妻子。 基于此,研究人员追踪了数百个后代的家谱,并计算了他们目标的身份。 都花了一天的时间。

埃利希(Erlich)相信,可以对任何遗忘了DNA的人进行此类搜索的日子已经过去了。 这项研究发现,当一个遗传数据库覆盖了任何种族人口中大约2%的成年人口时,几乎没有人能找到比第二个表亲更匹配的人。 样本库中有许多祖先是美国人或欧洲人的人,对于他们来说,如果对娱乐性DNA检查的兴趣保持在同一水平,则可以在几年内实现这一里程碑。 根据美国最新的人口普查,人口的百分之二将只有四百万。

这种资源将严重增加犯罪嫌疑人的数量和种类,其数据将在调查过程中提供给执法人员。 警察在其中存储了将近1700万人的DNA的违法者数据库被判为罪犯,在某些州,仅是被逮捕的人,主要包含有关黑人和拉丁裔的数据。 从DNA测试的早期开始,不同方法的技术不兼容性就在罪犯数据库与为娱乐或研究目的捐赠DNA的人员数据库之间筑起了一道墙。 执法人员收集和分析基因组中高度可变的非编码部分,计算DNA中“垃圾”部分的重复次数。 实际上,这仅仅是一个数字序列,它并没有说明一个人的性格。 但是,它对于每个人都是唯一的,例如条形码或指纹。 而且,此方法既快速又便宜-非常适合警察使用。

医学和娱乐性DNA记录包括完整的解码或基因型阵列-在一个基因的一个位置发生的一组变化。 这是一个单核苷酸多态性 (SNP),是引起绿色眼睛或卷曲头发或心脏病易感性的人。 寻找亲戚也更有用。 由于这两种类型的数据库互不相关,因此在“金州杀手”的情况下,我们必须从旧样品中提取DNA,创建SNP配置文件并将其上传到GEDmatch。 但是现在甚至不再需要。

十月份在《细胞》杂志上发表的另一篇著作首次展示了如何根据犯罪数据库中的数据寻找远亲。 斯坦福大学的Noah Rosenberg小组已经表明 ,可以通过比较最近的SNP与非编码重复序列来关联这两个数据库中的记录。 该作品于去年出版,并未引起太多关注。 “沉默,”罗森伯格说。 但是,鉴于“金州杀手”的案子,他最近的工作,即研究两个数据库的交叉兼容性,已经获得了新的含义。

罗森伯格说:“这种方法可以扩大法医遗传学的范围,并有可能帮助解决更多的旧病例。” “与此同时,他将在与犯罪调查有关的搜索过程中披露这些数据库中参与者的数据,这可能是他们所没有想到的。”

法律专家认为,更大的问题是Rosenberg的工作意味着警察数据库中存储的DNA概况包含的信息比以前想象的要多。 它可用于准确预测基因组的编码区-与绿色眼睛,卷发和心脏病有关的编码区。 加州大学伯克利分校法律与技术中心主任安德里亚·罗斯说:“最高法院关于现有犯罪数据库不违反《 第四修正案 》的所有判决均基于不能从该垃圾DNA中提取任何东西的假设。” “现在一切都尘土飞扬了。”

Rosenberg并未随工作发布任何软件,因此需要花费一些时间来执行实际的计算。 但是他说,任何可以访问多个数据库的人都拥有所有必要的信息,以便开始使用这项技术。 因此,内置的隐私保护功能可以迅速散布。 这项工作的目的是警告,以向监管者展示现代技术的能力,Rosenberg希望它将就基因信息的存储和使用展开早就该进行的讨论。

Ehrlich等人甚至进一步就诸如GEDmatch之类的资源的必要更改提出了建议,GEDmatch为寻找失踪亲属的人们和寻找亲生父母的寄养儿童提供了重要的服务,使其可以上网并保持安全。 他们呼吁美国卫生与公共服务部审查与个人数据有关的健康信息的范围,并包括匿名基因组。 他们描述了一种加密策略,该策略可以创建一条信息保存责任链,以便数据库可以标记试图分析他人遗传数据的用户。 但是,即使您绝对将所有提供与基因组相关服务的公司纳入该系统,这可能还不够。

罗斯说:“我认为最重要的是,如果我们不规范政府进行基因搜索的能力,那么现在所有人也将处于基因监视之下。” 他提出了一种类似于加州对亲属进行更传统的犯罪搜查的法规。 它们只能用于调查暴力犯罪-谋杀,暴力-并且搜索范围受到限制,以免涉及数百名无辜者的信息。 如果有人的父亲不是亲生父亲,有监督委员会可以防止敏感信息的无意泄露。 罗斯说:“这真是讽刺。” “如果您的亲戚在CODIS数据库[犯罪数据库]中,那么您拥有的遗传隐私权比在GEDMatch中拥有亲戚的权利要多得多。” 但是,有了足够的DNA,您是否想要被发现并不重要。 失败不再被接受。

Source: https://habr.com/ru/post/zh-CN429626/


All Articles