操作系统和视频保存在DNA中,然后无误读取

图片

很快,人类将产生大量数据,以至于熟悉的存储库将无法应对。 为了解决这个问题,科学家转向了几乎无限的自然信息仓库-DNA。 研究人员认为,DNA是一种理想的存储介质,因为它具有超紧凑性,并且如果提供适当的存储条件,则可以保留数十万年的特性。 最近从西班牙洞穴中发现的一个43岁的人类祖先的骨骼中恢复了 DNA,证明了这一点。

在一项新的研究中,来自哥伦比亚大学和纽约基因组中心( NYGC )的科学家证明,一种旨在在智能手机上流式传输视频的算法几乎可以完全释放DNA存储和压缩4个核苷酸碱基的附加信息的潜力。


关于在DNA分子中记录,存储和搜索信息的可能性的想法和一般考虑属于苏联物理学家Mikhail Neumann 。 1964年,Radiotechnika杂志发布了描述该过程技术和数据存储设备Neumann寡核苷酸(MNeimON)的材料。

2012年,哈佛大学的遗传学家设法对53.4万字,11张图像和一个程序的草稿进行了编码。 他们发现,每立方毫米的DNA可以存储5.5 PB的数据。 一年后,欧洲生物信息学研究所的研究人员成功保存,然后完全提取并播放了约0.6兆字节的文本和视频文件:154莎士比亚的十四行诗,是马丁·路德·金著名演讲的26秒片段,是结构的科学著作James Watson和Francis Crick的DNA,Hinkston EBI总部的照片以及描述数据转换技术的文件。 复制所有DNA文件的准确性在99.99%到100%之间。

Yaniv Erlich和他的同事NYGC研究人员Dina Zielinski选择了六个用于编码和写入DNA的文件-KolibriOS计算机操作系统,法国电影1896年,“到达La Ciotat站的火车”,代码50亚马逊的美元礼品卡,计算机病毒, 先锋记录的图像以及克劳德·香农(Claude Shannon)1948年对信息论的研究。

科学家将这些文件收集到一个文件中,然后将数据分成几行简短的二进制代码。 他们使用源代码将行随机填充到源块的“滴”中,并将组合00、01、10、11转换为四个核苷酸碱基:腺嘌呤(A),胞嘧啶(C),鸟嘌呤(G)和胸腺嘧啶(T ) 为了将这些块组装在一起,一组科学家为每个“滴”添加了标签。

研究人员总共产生了约7.2万条这些DNA链,每条都包含约200个碱基。 他们将这些信息收集到一个文本文件中,然后发送到旧金山,DNA合成初创公司Twist Bioscience将数字数据转换为生物数据。 两周后,Ehrlich小组收到了带有DNA分子的试管。

他们使用测序技术读取DNA链,并使用特殊软件将遗传密码转换回二进制文件,从而成功恢复了文件。 科学家尚未指定阅读和写作需要多长时间。

由Erlich领导的一组研究人员还证明,通过使用聚合酶链反应使DNA样品繁殖,其算法可以生成并准确还原几乎无限数量的样品,甚至其副本。


Erlich在虚拟机中启动操作系统并播放Minesweeper

但是,该算法最令人印象深刻的功能是能够将215 PB的数据放入一克DNA中的能力,这是使用其他方法和算法所获得的能力的100倍。

从理论上讲,DNA的存储容量对于每个核苷酸以及生物DNA装置都限于两位数。 另外,为了收集和读取记录的片段,有必要包括附加信息,其随后将容量减小到核苷酸中的1.8个二进制字符。 DNA Fountain算法允许您在每个核苷酸中平均放置1.6位-比以前增加60%,并且也接近1.8位的限制。

广泛传播技术的主要障碍仍然是其成本。 研究人员花费了7,000美元来合成DNA并存档2兆字节的数据,另外花了2000美元对其进行解密。 而且,尽管DNA测序的成本正在逐渐降低,但其合成仍需花费一整笔费用。 投资者不准备仅仅为了使合成价格下跌而投入大量资金。

Erlich和他的团队提出了另一种解决问题的方法:如果生产出质量较低的分子,则可以降低DNA合成的价格,然后使用诸如“ DNA喷泉”之类的编码策略来纠正分子错误。

科学工作已于2017年3月3日发表在《科学》杂志上
DOI: 10.1126 / science.aaj2038

Source: https://habr.com/ru/post/zh-CN402079/


All Articles