
A perspectiva de um enorme data warehousing baseado em DNA tornou-se bastante real graças ao novo método de extração de dados.
A Microsoft já vê o DNA sintético como um meio de armazenamento promissor que pode satisfazer as necessidades de armazenamento de big data. Estudos anteriores mostraram que apenas alguns gramas de DNA podem armazenar exabytes de dados, com uma vida útil de cerca de 2000 anos.
Mas a principal desvantagem dessa tecnologia é o alto custo e lentidão do registro, que inclui a conversão de zeros e uns em nucleotídeos. Extrair dados do DNA envolve seqüenciar e converter arquivos de volta para zeros e uns. Encontrar e extrair arquivos específicos também é um grande problema.
Mas isso é coisa do passado - cientistas da Microsoft Research e da Universidade de Washington obtiveram pela primeira vez acesso aleatório a um portador de DNA em larga escala. Como eles explicaram, a falta de acesso aleatório ou a capacidade de extrair arquivos seletivamente do armazenamento de DNA leva ao fato de que, para encontrar os arquivos necessários, o usuário deve sequenciar e decodificar todo o conjunto de dados. Obter acesso aleatório reduzirá o número de operações de seqüenciamento.
Para obter acesso aleatório ao DNA, os cientistas criaram uma biblioteca de iniciadores que são anexados a cada sequência da molécula e são usados como alvos para selecionar os fragmentos desejados.
Os pesquisadores também desenvolveram um algoritmo para decodificação e recuperação de dados mais eficientes. O pesquisador sênior da Microsoft, Sergey Yekhanin, observou que os novos algoritmos são mais tolerantes a erros na escrita e na leitura de seqüências de DNA, o que reduz o seqüenciamento e o processamento dos dados necessários para sua recuperação.
O DNA sintético codificou 200 megabytes de dados, consistindo em 35 arquivos com tamanho variando de 29 kilobytes a 44 megabytes. Esses arquivos contêm vídeo em HD, arquivos de áudio, imagens e textos. Os cientistas acreditam que o método usado para acesso aleatório será escalonado para pools de DNA fisicamente isolados que podem acomodar vários terabytes.