O sistema operacional e o vídeo foram salvos no DNA e lidos sem erros

imagem

Em breve, a humanidade gerará tantos dados que os repositórios familiares deixarão de lidar. Para resolver esse problema, os cientistas se voltaram para um repositório natural de informações quase ilimitado - DNA. Segundo os pesquisadores, o DNA é um meio de armazenamento ideal, porque é ultracompacto e pode reter suas propriedades por centenas de milhares de anos, se forem fornecidas condições apropriadas de armazenamento. Isso é evidenciado pela recente restauração de DNA dos ossos de um ancestral humano de 43 mil anos encontrado em cavernas da Espanha.

Em um novo estudo, cientistas da Universidade de Columbia e do New York Genome Center ( NYGC ) demonstraram que um algoritmo projetado para transmitir vídeo em um smartphone pode liberar quase totalmente o potencial do DNA para armazenar e comprimir informações adicionais em quatro bases nucleotídicas.


A idéia e considerações gerais sobre as possibilidades de registrar, armazenar e procurar informações em moléculas de DNA pertencem a Mikhail Neumann , físico soviético. Em 1964, a revista Radiotechnika publicou material descrevendo a tecnologia desse processo e o dispositivo de armazenamento de dados, os oligonucleotídeos Neumann (MNeimON).

Em 2012, geneticistas da Universidade de Harvard conseguiram codificar um rascunho de 53,4 mil palavras, 11 imagens e um programa. Eles descobriram que 5,5 petabytes de dados podem ser armazenados em cada milímetro cúbico de DNA. Um ano depois, pesquisadores do Instituto Europeu de Bioinformática conseguiram salvar e extrair e reproduzir completamente cerca de 0,6 megabytes de arquivos de texto e vídeo: o soneto de 154 Shakespeare, um fragmento de 26 segundos da famosa palestra de Martin Luther King, trabalho científico sobre a estrutura DNA de James Watson e Francis Crick, fotografias da sede da EBI em Hinkston e um arquivo descrevendo técnicas de conversão de dados. Todos os arquivos de DNA foram reproduzidos com uma precisão variando entre 99,99% e 100%.

Yaniv Erlich e sua colega Dina Zielinski, pesquisadora do NYGC, selecionaram seis arquivos para codificação e gravação no DNA - sistema operacional de computador KolibriOS, 1896 filme francês “Trem chegando à estação La Ciotat”, código 50 Cartão-presente da Amazon, um vírus de computador, imagens dos registros da Pioneer e pesquisa de Claude Shannon em 1948 sobre teoria da informação.

Os cientistas reuniram esses arquivos em um e depois dividiram os dados em pequenas linhas de código binário. Usando códigos de fonte , eles agruparam aleatoriamente as linhas nas "gotas" da fonte - blocos e converteram as combinações 00, 01, 10, 11 em quatro bases nucleotídicas: adenina (A), citosina (C), guanina (G) e timina (T ) Para então montar esses blocos, uma equipe de cientistas adicionou rótulos para cada "gota".

No total, os pesquisadores geraram cerca de 72 mil dessas cadeias de DNA, cada uma contendo aproximadamente 200 bases. Eles coletaram essas informações em um arquivo de texto e as enviaram para São Francisco, onde a startup de síntese de DNA Twist Bioscience transformou dados digitais em dados biológicos. Duas semanas depois, a equipe de Ehrlich recebeu um tubo de ensaio com moléculas de DNA.

Usando a tecnologia de seqüenciamento para ler as cadeias de DNA e um software especial para converter o código genético de volta em um arquivo binário, eles restauraram os arquivos com êxito. Quanto tempo a leitura e a escrita levam, os cientistas ainda não especificaram.

Uma equipe de pesquisadores liderada por Erlich também demonstrou que seu algoritmo, ao multiplicar uma amostra de DNA usando uma reação em cadeia da polimerase, pode gerar e restaurar com precisão um número quase ilimitado de cópias de uma amostra e até cópias de suas cópias.


Erlich lança o sistema operacional em uma máquina virtual e toca Campo Minado

No entanto, a capacidade mais impressionante do algoritmo acabou sendo a capacidade de colocar 215 petabytes de dados em um grama de DNA - 100 vezes mais do que o alcançado por outros métodos e algoritmos.

A capacidade de armazenamento de dados de DNA é teoricamente limitada a dois dígitos para cada nucleotídeo, bem como a um dispositivo biológico de DNA. Além disso, para coletar e ler os fragmentos registrados, é necessário incluir informações adicionais, que subsequentemente reduzem a capacidade de 1,8 caracteres binários no nucleotídeo. O algoritmo DNA Fountain permite que você coloque uma média de 1,6 bits em cada nucleotídeo - isso é 60% mais do que o anteriormente possível e também perto do limite de 1,8 bits.

O principal obstáculo à disseminação generalizada da tecnologia continua sendo o seu custo. Os pesquisadores gastaram 7 mil dólares para sintetizar o DNA e arquivar 2 megabytes de dados e outros 2 mil para descriptografá-lo. E embora o custo do sequenciamento de DNA esteja diminuindo gradualmente, sua síntese ainda está custando uma soma redonda. Os investidores não estão prontos para investir toneladas de dinheiro apenas para fazer com que a síntese caia no preço.

Ehrlich e sua equipe propõem outra maneira de resolver o problema: reduzir o preço da síntese de DNA é possível se moléculas de menor qualidade forem produzidas e, em seguida, usar uma estratégia de codificação de "fonte de DNA" para corrigir erros moleculares.

Trabalho científico publicado na revista Science em 3 de março de 2017
DOI: 10.1126 / science.aaj2038

Source: https://habr.com/ru/post/pt402079/


All Articles