Forschungsteam schafft Basis für DNA-Datenspeicher
Ein neuer Algorithmus erlaubt die Erzeugung von DNA-Wörtern, die das Speichern von digitalen Informationen in DNA ermöglichen. Das Verfahren aus der Marburger Informatik berücksichtigt etliche Besonderheiten des Speichermediums: Wenn Informationen in DNA kodiert werden, dürfen zum Beispiel keine Kombinationen entstehen, die bei der Erzeugung oder weiteren Nutzung der DNA zur Langzeitspeicherung stören.
Die Masse digitaler Daten steigt enorm, doch die gängigen
Speichermedien überdauern nur verhältnismäßig kurz, in der Regel nur
wenige Jahre. Das Forschungsprojekt „MOSLA“ nimmt die Erbsubstanz DNA
als molekularen Speicher zur Langzeit-Archivierung in den Blick. „Wir
beschreiben in unserer Studie einen neuartigen Ansatz, der die
Konstruktion von Wörterbüchern für DNA-Speicher ermöglicht, wobei er
benutzerdefinierte Einschränkungen einhält“, erläutert der
Informatikprofessor Dr. Dominik Heider von der Philipps-Universität
Marburg, der die Forschungsarbeit leitete.
„In DNA-Speichern
werden die digitale Informationen zunächst in eine DNA-Sequenz
übersetzt“, erklärt Heiders Mitarbeiterin Dr. Hannah Franziska Löchel,
die Erstautorin des Fachaufsatzes. Im nächsten Schritt wird die DNA
gemäß dieser Vorlage synthetisiert, also chemisch hergestellt. „Die
Buchstabenfolge der DNA kann jederzeit mit Sequenzierern ausgelesen
werden, um die gespeicherten Informationen abzurufen.“
Die
Konstruktion der DNA unterliegt jedoch einigen Beschränkungen. Dies
betrifft beispielsweise die Zusammensetzung der DNA-Sequenz, dem
sogenannten GC-Gehalt. Werden diese Beschränkungen nicht eingehalten, so
kann es zur Bildung von Schleifen, Spiralen oder zufälligen
Verschlingungen kommen, die ein gleichmäßiges Ablesen der DNA-Sequenz
verhindern.
„Eine weitere wichtige Einschränkung, die die
Forschung jedoch bislang übersehen hat, sind unerwünschte Motive, die
für die Synthese, Sequenzierung und Speicherung von DNA-Sequenzen
relevant sind“, legt Heider dar. Dabei handelt es sich um kurze
Sequenzabschnitte auf der DNA, an denen zum Beispiel Enzyme ansetzen,
die das Erbmolekül schneiden, es vervielfältigen oder die darin
enthaltenen Informationen ablesen.
Das Team um Heider fand einen
neuartigen Ansatz, um DNA-Wörter zu erzeugen, die den genannten
Bedingungen gehorchen. „Unser Modell berechnet alle möglichen
Code-Wörter einer bestimmten Länge und schließt diejenigen Wörter aus,
die nicht den gegebenen Beschränkungen entsprechen“, führt Löchel aus.
„Das neue Modell basiert auf Fraktalen, das sind selbstähnliche Muster,
die sich häufig in der Natur finden lassen.“
Um die
Leistungsfähigkeit der Methode zu überprüfen, verglich die
Forschungsgruppe ihren Ansatz mit anderen Algorithmen auf dem aktuellen
Stand der Technik. „Andere Ansätze erfüllen nicht alle Bedingungen, die
unser Verfahren berücksichtigt, obwohl sie für die
Informationsspeicherung in DNA wichtig sind“, hebt die Informatikerin
hervor. Die Wörterbücher, die mit dem Marburger Modell erstellt werden,
lassen sich somit als Grundlage für beliebige DNA-Speichercodes
verwenden.
„Soweit wir wissen, ist dies der erste Algorithmus,
der DNA-Wörter konstruiert, die nicht nur die in der wissenschaftlichen
Literatur beschriebenen Beschränkungen einhalten, sondern auch beliebige
unerwünschte Motive ausschließen“, fasst Heider zusammen.
Publikation: Hannah
F. Löchel & al.: Fractal Construction of Constrained Code Words for
DNA Storage Systems, Nucleic Acids Research 2021, DOI: https://doi.org/10.1093/nar/gkab1209