Produit en vrac: premier dépôt d'ADN commercial à être dévoilé en 2019

Lancer le catalogue de démarrage des plans de services. La société développe une installation spéciale qui vous permettra d'enregistrer quotidiennement un téraoctet de données dans 500 billions de molécules d'ADN.

Ensuite, nous parlons de l'approche utilisée par Catalog, et d'autres développements récents dans le domaine de l'ADN.


/ photo Université du Michigan CC

Détails du projet


L'approche classique de l'écriture de données dans l'ADN consiste à convertir une séquence de bits - zéros et uns - en une séquence de quatre bases d'ADN de base. Par exemple, les bases azotées adénine (A), thymine (T), guanine (G) et cytosine (C) peuvent être représentées comme suit: A = 00, T = 01, G = 10, C = 11.

En utilisant cette approche, Microsoft a pu en 2016 «perpétuer» 200 Mo de texte et de vidéo dans des molécules d'ADN synthétique (comme nous l'avons déjà écrit dans l' un des articles ). Cependant, cette méthode n'est pas adaptée à l'enregistrement de données de masse, tout en étant coûteuse.

Au lieu d'utiliser des millions de brins d'ADN, les chercheurs du catalogue suggèrent de générer un grand nombre de molécules d'ADN différentes, consistant en pas plus de 30 paires de bases. Ensuite, en raison de réactions enzymatiques, ces «morceaux» pré-préparés forment des motifs spéciaux qui codent les informations. Ainsi, au lieu de représenter une seule base azotée, les bits sont disposés en matrices multidimensionnelles. Et des groupes de molécules reflètent la position des bits dans ces matrices.

Devin Leake, directeur de la recherche sur les catalogues, cite l' analogie suivante: «Imaginez que vous avez un livre. Vous pouvez le copier manuellement: lettre par lettre. De même, vous pouvez écrire des données dans l'ADN - molécule par molécule. Cette approche a été utilisée par Microsoft. Nous proposons de créer une sorte de "presse à imprimer", où les molécules d'ADN seront un casque . Ainsi, en réarrangeant les molécules pré-générées, nous travaillons immédiatement avec des mots entiers, en les arrangeant dans le bon ordre. »

Grâce à cette méthode, les chercheurs du catalogue ont réussi à enregistrer et à récupérer des données dans l'ADN. Pour ce faire, ils ont utilisé le poème The Road Not Taken (dans l'une des traductions - «Another Road») de Robert Frost. Aujourd'hui, la société résout le problème de l'adaptation de la plateforme aux besoins des sociétés informatiques et des organisations gouvernementales.

Selon Hyunjun Park, l'un des fondateurs du catalogue, cette approche rendra les stockages d'ADN de téraoctets commercialement viables début 2019. Cependant, le coût exact du service de stockage de données que le démarrage offrira est encore inconnu.

Développements similaires


Comme déjà indiqué, les problèmes de création de référentiels ADN sont traités par Microsoft. Et depuis 2016, les chercheurs de l'entreprise ont avancé dans leur développement: en février 2018, ils ont créé une «bibliothèque d' amorces » pour organiser l'accès aléatoire à l'ADN. Chacune des amorces est «attachée» à une chaîne spécifique, par conséquent, en utilisant la réaction en chaîne par polymérase, vous pouvez sélectionner l'une d'entre elles (et accéder aux données enregistrées).


/ photo Col Ford et Natasha de Vere CC

La société espère que cette approche, couplée à un nouvel algorithme d'écriture et de lecture des données, moins sensible aux erreurs, contribuera à l'avenir à créer des stockages d'ADN de plusieurs téraoctets. Le géant informatique prévoit de fournir un stockage d'ADN en tant que service. L'entreprise a entrepris de mettre en œuvre l'idée d'ici 2020.

ADN et IA gagnant-gagnant


Il n'y a pas de difficulté particulière à enregistrer des informations sur un support ADN: les entreprises ont mis au point des méthodes d'automatisation. Mais le processus de lecture des informations est toujours compliqué et prend du temps. Pour résoudre ce problème, Lifebit prévoit d' utiliser des systèmes d'IA. Lifebit développe la plate-forme cloud Deploit basée sur des algorithmes MO, qui automatisera le processus de lecture des informations des porteurs d'ADN.

Ainsi, l'apprentissage automatique contribuera à l'organisation des dépôts d'ADN. Cependant, l'inverse est également vrai - les molécules d'ADN sont utilisées pour créer des systèmes d'intelligence artificielle. Par exemple, des chercheurs de Caltech travaillent dans ce domaine.

Le principe de fonctionnement de leur réseau neuronal est basé sur des réactions chimiques, appelées déplacement de fil (un mécanisme de réplication de l'ADN connu dans certains virus), lorsqu'un fil appelé fil entrant déplace l'un des brins de l'ADN d'origine. Le système intelligent a déjà appris à reconnaître les nombres manuscrits.

La figure est dessinée sur un plan carré, divisé en cent cellules identiques (10x10) - pixels originaux. Chacune de ces cellules est représentée par une molécule d'ADN qui «sait» s'il y a un morceau de chiffre sur ce pixel. Une fois toutes les molécules mélangées dans un tube à essai, le réseau d'ADN donne sa réponse en utilisant des signaux fluorescents. Le tube commence à émettre une lueur dont la couleur dépend du chiffre reconnu. Par exemple, le vert et le jaune signifient cinq, et le vert et le rouge signifient neuf.

Les chercheurs envisagent de former une sorte de mémoire dans le réseau neuronal afin qu'il «se souvienne» des vecteurs d'entraînement et les utilise pour résoudre d'autres problèmes.

O catalogue

Catalog est une startup américaine fondée en 2016, qui développe des technologies de stockage de données dans des molécules d'ADN. Basée à Boston, Massachusetts.



PS Quelques documents supplémentaires du premier blog IaaS d'entreprise:




La direction principale de notre activité est la fourniture de services cloud:

Infrastructure virtuelle (IaaS) | Hébergement PCI DSS | Cloud FZ-152 | Louer 1C dans le cloud

Source: https://habr.com/ru/post/fr419219/


All Articles