Le système d'exploitation et la vidéo ont été enregistrés dans l'ADN, puis lus sans erreur

image

Bientôt, l'humanité générera tellement de données que les dépôts familiers cesseront de faire face. Pour résoudre ce problème, les scientifiques se sont tournés vers un référentiel naturel presque illimité d'informations - l'ADN. Selon les chercheurs, l'ADN est un support de stockage idéal, car il est ultra-compact et peut conserver ses propriétés pendant des centaines de milliers d'années, si les conditions de stockage appropriées sont fournies. En témoigne la récente restauration de l' ADN des os d'un ancêtre humain de 43 000 ans trouvé dans les grottes d'Espagne.

Dans une nouvelle étude, des scientifiques de l'Université de Columbia et du New York Genome Center ( NYGC ) ont démontré qu'un algorithme conçu pour diffuser des vidéos sur un smartphone peut presque entièrement révéler le potentiel de l'ADN pour stocker et compresser des informations supplémentaires dans quatre bases nucléotidiques.


L'idée et les considérations générales sur les possibilités d'enregistrement, de stockage et de recherche d'informations dans les molécules d'ADN appartiennent à Mikhail Neumann , un physicien soviétique. En 1964, la revue Radiotechnika a publié des documents décrivant la technologie de ce processus et le dispositif de stockage de données, les oligonucléotides Neumann (MNeimON).

En 2012, des généticiens de l'Université Harvard ont réussi à coder un projet de livre de 53,4 mille mots, 11 images et un programme. Ils ont découvert que 5,5 pétaoctets de données peuvent être stockés dans chaque millimètre cube d'ADN. Un an plus tard, des chercheurs de l'Institut européen de bioinformatique ont réussi à enregistrer, puis à extraire et à lire complètement, environ 0,6 mégaoctets de fichiers texte et vidéo: 154 sonnet de Shakespeare, un fragment de 26 secondes du célèbre discours de Martin Luther King, des travaux scientifiques sur la structure ADN de James Watson et Francis Crick, photographies du siège d' EBI à Hinkston et un dossier décrivant les techniques de conversion des données. Tous les fichiers ADN ont été reproduits avec une précision comprise entre 99,99% et 100%.

Yaniv Erlich et sa collègue Dina Zielinski, chercheuse au NYGC, ont sélectionné six fichiers pour l'encodage et l'écriture dans l'ADN - Système d'exploitation informatique KolibriOS, film français 1896 «Arrivée d'un train à la gare de La Ciotat», code 50 Carte-cadeau $ -dollard d'Amazon, un virus informatique, des images des enregistrements de Pioneer et les recherches de Claude Shannon en 1948 sur la théorie de l'information.

Les scientifiques ont rassemblé ces fichiers en un seul, puis divisé les données en courtes lignes de code binaire. En utilisant des codes de fontaine , ils ont emballé au hasard les lignes dans les «gouttes» de la fontaine - blocs et converti les combinaisons 00, 01, 10, 11 en quatre bases nucléotidiques: adénine (A), cytosine (C), guanine (G) et thymine (T ) Pour ensuite assembler ces blocs, une équipe de scientifiques a ajouté des étiquettes pour chaque «goutte».

Au total, les chercheurs ont généré environ 72 000 de ces brins d'ADN, chacun contenant environ 200 bases. Ils ont collecté ces informations dans un fichier texte et les ont envoyées à San Francisco, où la startup de synthèse d'ADN Twist Bioscience a transformé les données numériques en données biologiques. Deux semaines plus tard, l'équipe d'Ehrlich a reçu un tube à essai avec des molécules d'ADN.

En utilisant la technologie de séquençage pour lire les brins d'ADN et un logiciel spécial pour traduire le code génétique dans un fichier binaire, ils ont réussi à restaurer les fichiers. Combien de temps prend la lecture et l'écriture, les scientifiques ne l'ont pas encore précisé.

Une équipe de chercheurs dirigée par Erlich a également démontré que son algorithme, en multipliant un échantillon d'ADN à l'aide d'une réaction en chaîne par polymérase, peut générer et restaurer avec précision un nombre presque illimité de copies d'un échantillon, et même des copies de ses copies.


Erlich lance le système d'exploitation dans une machine virtuelle et joue au démineur

Cependant, la capacité la plus impressionnante de l'algorithme s'est avérée être la capacité de placer 215 pétaoctets de données dans un gramme d'ADN - 100 fois plus que ce qui a été obtenu en utilisant d'autres méthodes et algorithmes.

La capacité de stockage des données d'ADN est théoriquement limitée à deux chiffres pour chaque nucléotide, ainsi qu'à un dispositif d'ADN biologique. De plus, afin de collecter et de lire les fragments enregistrés, il est nécessaire d'inclure des informations supplémentaires, ce qui réduit ensuite la capacité à 1,8 caractère binaire dans le nucléotide. L'algorithme DNA Fountain vous permet de placer une moyenne de 1,6 bits dans chaque nucléotide - c'est 60% de plus que précédemment possible, et également proche de la limite de 1,8 bits.

Le principal obstacle à une large diffusion de la technologie reste son coût. Les chercheurs ont dépensé 7 000 dollars pour synthétiser l'ADN et archiver 2 mégaoctets de données, et 2 000 autres pour le décrypter. Et bien que le coût du séquençage de l'ADN diminue progressivement, sa synthèse coûte toujours une somme ronde. Les investisseurs ne sont pas prêts à investir des tonnes d'argent juste pour faire baisser le prix de la synthèse.

Ehrlich et son équipe proposent une autre façon de résoudre le problème: abaisser le prix de la synthèse d'ADN est possible si des molécules de qualité inférieure sont produites, puis utiliser une stratégie de codage comme la «fontaine d'ADN» pour corriger les erreurs moléculaires.

Ouvrage scientifique publié dans la revue Science le 3 mars 2017
DOI: 10.1126 / science.aaj2038

Source: https://habr.com/ru/post/fr402079/


All Articles