Die DNA-Sequenzierung hat die biomedizinische Forschung bereits vor Jahrzehnten revolutioniert, indem sie es ermöglicht, seltene Erbkrankheiten bei Patient*innen oder spezielle Mutationen in Tumorzellen zu erkennen. Insbesondere neue Verfahren wie das Next-Generation-Sequencing führten in den letzten Jahren zu zahlreichen wissenschaftlichen Durchbrüchen, darunter beispielsweise die schnelle Entschlüsselung und weltweite Überwachung des SARS-CoV-2-Genoms in den Jahren 2020/2021.
Wachstum der DNA-Datenbanken
Die zunehmende Bereitschaft von Forscher*innen, sequenzierte DNA-Ergebnisse öffentlich zugänglich zu machen, hat zur Entstehung riesiger Datenmengen geführt. Diese sind in zentralen Datenbanken wie dem amerikanischen SRA (Sequence Read Archive) oder dem europäischen ENA (European Nucleotide Archive) gespeichert. Dort lagern mittlerweile gegen 100 Petabyte an Daten – eine Menge, die in etwa dem gesamten Textinhalt des Internets entspricht. Ein Petabyte entspricht dabei einer Million Gigabyte.
Bislang erforderte das Durchsuchen dieser gewaltigen Mengen an DNA-Sequenzen und der Abgleich mit eigenen Sequenzen erhebliche Rechenleistung und andere Ressourcen. Dies machte eine effiziente Suche in diesem Datenberg nahezu unmöglich. Dieses grundlegende Problem haben nun Computerwissenschaftler der ETH Zürich gelöst.
Volltextsuche statt Download ganzer Datensätze
Computerwissenschaftler der ETH Zürich haben ein innovatives Verfahren entwickelt, das die Suche in riesigen DNA-Datenbanken drastisch verkürzt und vereinfacht. Ihr digitales Werkzeug, genannt „MetaGraph“, durchsucht die Rohdaten aller in den Datenbanken gespeicherten DNA- oder RNA-Sequenzen – vergleichbar mit der Funktionsweise einer herkömmlichen Internet-Suchmaschine.
Forschende können eine Sequenz, die sie interessiert, als Volltext in eine Suchmaske eingeben. Je nach Komplexität der Anfrage erfahren sie daraufhin innerhalb von Sekunden oder Minuten, an welchen Stellen diese Sequenz bereits aufgetaucht ist. „Es handelt sich um eine Art Google für DNA“, fasst Professor Gunnar Rätsch, Datenwissenschaftler am Institut für Informatik der ETH, die Innovation zusammen.
Bisher waren Forschende gezwungen, die Datenbanken zuerst nach beschreibenden Metadaten zu durchsuchen und anschließend die jeweiligen Datensätze komplett herunterzuladen, um an die eigentlichen Rohdaten zu gelangen. Dieser Prozess war nicht nur lückenhaft und aufwändig, sondern auch teuer. In ihrer Studie heben die Forschenden hervor, dass „MetaGraph“ vergleichsweise günstig sei. Die gesamte Darstellung aller öffentlichen biologischen Sequenzen würde demnach auf nur wenige Computer-Festplatten passen. Zudem sollen größere Abfragen nicht mehr als 0,74 Dollar pro Megabase kosten.
Beschleunigung der Genforschung
Die von den ETH-Forschern entwickelte DNA-Suchmaschine ist nicht nur kostengünstig, sondern auch präzise und effizient, wodurch sie die Genforschung beschleunigen kann – besonders bei wenig erforschten Erregern oder im Falle neuer Pandemien. Das Tool hat das Potenzial, als Katalysator in der Forschung zu Antibiotika-Resistenzen zu wirken: Es könnte in den riesigen Datenbanken dabei helfen, Resistenzgene oder nützliche, Bakterien vertilgende Viren – sogenannte Bakteriophagen – schnell und zuverlässig zu identifizieren.
Komprimierung um das 300-fache
In der Studie zeigen die ETH-Forschenden auf, wie „MetaGraph“ funktioniert: Das Tool indiziert die Daten und stellt sie komprimiert dar. Das gelingt dank komplexen mathematischen Graphen, die für eine bessere Struktur der Daten sorgen – ähnlich einem Tabellenprogramm wie Excel. „Mathematisch gesehen handelt es sich um eine riesige Matrix mit Millionen von Spalten und Billionen von Zeilen“, sagt Rätsch.
Die Methode, große Datenmengen durch die Verwendung von Indizes durchsuchbar zu machen, ist in der Informatik ein Standardverfahren. Die Innovation der ETH-Forschenden liegt jedoch in der komplexen Verknüpfung von Roh- und Metadaten sowie in einer extremen Komprimierung um den Faktor 300. Dies lässt sich mit der Zusammenfassung eines Buches vergleichen: Zwar ist nicht mehr jedes Wort enthalten, aber alle wichtigen Handlungsstränge und Zusammenhänge bleiben erhalten – die Information ist kompakter, jedoch ohne relevanten Informationsverlust.
„Wir bewegen uns damit am Limit dessen, was möglich ist, um die Datensätze so klein wie möglich zu halten, ohne notwendige Informationen zu verlieren“, sagt Dr. André Kahles. Im Gegensatz zu anderen aktuell erforschten DNA-Suchmasken ist der Ansatz der ETH-Forscher skalierbar. Das bedeutet, je größer die abgefragte Datenmenge wird, desto weniger zusätzlichen Rechenaufwand benötigt das Tool.
Verfügbarkeit und Anwendung von MetaGraph
Das Tool „MetaGraph“ wurde von den ETH-Forschern erstmals im Jahr 2020 vorgestellt und seitdem kontinuierlich optimiert. Es ist bereits heute für Abfragen verfügbar und bietet eine Volltext-Suchmaske für Millionen von Sequenzsätzen aus DNA und RNA sowie Proteinen von Viren, Bakterien, Pilzen, Pflanzen, Tieren und Menschen. Aktuell ist knapp die Hälfte der weltweit verfügbaren Sequenz-Datensätze indexiert, doch laut Gunnar Rätsch soll der Rest bis Ende des Jahres folgen. Da „MetaGraph“ als Open Source zur Verfügung steht, ist es auch für Akteure wie Pharmafirmen interessant, die über große Mengen an internen Forschungsdaten verfügen.
Kahles hält es für möglich, dass die DNA-Suchmaschine dereinst auch von Privatpersonen angewendet werden kann: „In den Anfängen wusste man auch bei Google noch nicht genau, wofür eine Suchmaschine gut sein soll. Wenn die rasante Entwicklung, in der in der DNA-Sequenzierung so weitergeht, wird es vielleicht üblich, seine Balkonpflanzen genauer zu bestimmen.“
Quelle
Eidgenössische Technische Hochschule Zürich (ETH Zürich) (10/2025)
Publikation
Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., Rätsch, G., & Kahles, A.: Efficient and accurate search in petabase-scale sequence repositories. Nature 2025, doi:10.1038/s41586-025-09603-w
https://www.nature.com/articles/s41586-025-09603-w