
Bald wird die Menschheit so viele Daten generieren, dass vertraute Repositories nicht mehr damit fertig werden. Um dieses Problem zu lösen, wandten sich die Wissenschaftler einem nahezu unbegrenzten natürlichen Informationsspeicher zu - der DNA. Laut den Forschern ist DNA ein ideales Speichermedium, da es ultrakompakt ist und seine Eigenschaften bei geeigneten Lagerbedingungen für Hunderttausende von Jahren beibehalten kann. Dies wird durch die kürzlich erfolgte
Wiederherstellung der DNA aus den Knochen eines 43.000 Jahre alten menschlichen Vorfahren belegt, der in Höhlen Spaniens gefunden wurde.
In einer neuen Studie haben Wissenschaftler der
Columbia University und des New York Genome Center (
NYGC ) gezeigt, dass ein Algorithmus zum
Streamen von Videos auf einem Smartphone das Potenzial der DNA zum Speichern und Komprimieren zusätzlicher Informationen in vier Nukleotidbasen nahezu vollständig
freisetzen kann.
Die Idee und die allgemeinen Überlegungen zu den Möglichkeiten der Aufzeichnung, Speicherung und Suche nach Informationen in DNA-Molekülen gehören dem sowjetischen Physiker
Mikhail Neumann . 1964 veröffentlichte die Zeitschrift Radiotechnika Material, das die Technologie dieses Prozesses und das Datenspeichergerät Neumann Oligonucleotides (MNeimON) beschreibt.
Im Jahr 2012 gelang es Genetikern der Harvard University, einen Entwurf eines Buches mit 53,4 Tausend Wörtern, 11 Bildern und einem Programm zu kodieren. Sie fanden heraus, dass 5,5 Petabyte Daten in jedem Kubikmillimeter DNA gespeichert werden können. Ein Jahr später gelang es Forschern des Europäischen Instituts für Bioinformatik, etwa 0,6 Megabyte Text- und Videodateien
zu speichern und dann vollständig zu extrahieren und abzuspielen: 154 Shakespeares Sonett, ein 26-Sekunden-Fragment von Martin Luther Kings berühmtem Vortrag, wissenschaftliche Arbeit über die Struktur DNA von James Watson und Francis Crick, Fotos der
EBI- Zentrale in Hinkston und eine Datei, die Datenkonvertierungstechniken beschreibt. Alle DNA-Dateien wurden mit einer Genauigkeit zwischen 99,99% und 100% reproduziert.
Yaniv Erlich und seine Kollegin Dina Zielinski, NYGC-Forscherin, wählten sechs Dateien zum Codieren und Schreiben in DNA aus - KolibriOS-Computerbetriebssystem, 1896 französischer Film „Zugankunft am Bahnhof La Ciotat“, Code 50 Die $ -Dollard-Geschenkkarte von Amazon, ein Computervirus, Bilder aus
Pioneer-Aufzeichnungen und Claude Shannons Forschungen zur Informationstheorie von 1948.
Wissenschaftler haben diese Dateien zu einer zusammengefasst und die Daten dann in kurze Zeilen Binärcode unterteilt. Mit Hilfe von
Brunnencodes packten sie die Linien zufällig in die „Tropfen“ der Brunnenblöcke und wandelten die Kombinationen 00, 01, 10, 11 in vier Nukleotidbasen um: Adenin (A), Cytosin (C), Guanin (G) und Thymin (T. ) Um diese Blöcke dann zusammenzusetzen, fügte ein Team von Wissenschaftlern Etiketten für jeden „Tropfen“ hinzu.
Insgesamt erzeugten die Forscher etwa 72.000 dieser DNA-Stränge, von denen jeder etwa 200 Basen enthielt. Sie sammelten diese Informationen in einer Textdatei und schickten sie nach San Francisco, wo das Startup-Unternehmen für die DNA-Synthese von Twist Bioscience digitale Daten in biologische Daten umwandelte. Zwei Wochen später erhielt das Ehrlich-Team ein Reagenzglas mit DNA-Molekülen.
Mithilfe der Sequenzierungstechnologie zum Lesen von DNA-Strängen und einer speziellen Software zum Zurückübersetzen des genetischen Codes in eine Binärdatei konnten die Dateien erfolgreich wiederhergestellt werden. Wie lange das Lesen und Schreiben dauert, haben Wissenschaftler noch nicht festgelegt.
Ein von Erlich geführtes Forscherteam zeigte auch, dass sein Algorithmus durch Multiplikation einer DNA-Probe mit einer Polymerasekettenreaktion eine nahezu unbegrenzte Anzahl von Kopien einer Probe und sogar Kopien ihrer Kopien erzeugen und genau wiederherstellen kann.
Erlich startet das Betriebssystem in einer virtuellen Maschine und spielt MinesweeperDie beeindruckendste Fähigkeit des Algorithmus war jedoch die Fähigkeit, 215 Petabyte Daten in einem Gramm DNA zu platzieren - 100-mal mehr als mit anderen Methoden und Algorithmen.
Die Speicherkapazität von DNA-Daten ist theoretisch auf zwei Stellen für jedes Nukleotid sowie auf ein biologisches DNA-Gerät begrenzt. Um die aufgezeichneten Fragmente zu sammeln und zu lesen, müssen zusätzliche Informationen hinzugefügt werden, wodurch die Kapazität des Nukleotids anschließend auf 1,8 Binärzeichen reduziert wird. Mit dem DNA-Fountain-Algorithmus können Sie durchschnittlich 1,6 Bit in jedes Nukleotid einfügen - dies sind 60% mehr als bisher möglich und auch nahe an der Grenze von 1,8 Bit.
Das Haupthindernis für die weitverbreitete Verbreitung von Technologie bleiben die Kosten. Die Forscher gaben 7 Tausend Dollar aus, um DNA zu synthetisieren und 2 Megabyte Daten zu archivieren, und weitere 2 Tausend, um sie zu entschlüsseln. Und obwohl die Kosten für die DNA-Sequenzierung allmählich sinken, kostet ihre Synthese immer noch eine runde Summe. Investoren sind nicht bereit, Tonnen von Geld zu investieren, nur um die Synthese im Preis fallen zu lassen.
Erlich und sein Team schlagen einen anderen Weg vor, um das Problem zu lösen: Eine Senkung des Preises für die DNA-Synthese ist möglich, wenn Moleküle mit geringerer Qualität hergestellt werden, und anschließend eine Kodierungsstrategie wie der „DNA-Brunnen“, um molekulare Fehler zu korrigieren.
Wissenschaftliche Arbeit veröffentlicht in der Zeitschrift Science am 3. März 2017
DOI:
10.1126 / science.aaj2038