Mit Hilfe künstlicher Intelligenz (KI) ist es einem deutsch-amerikanischen Wissenschaftsteam gelungen, komplexe Anweisungen der Genregulation in der DNA zu entschlüsseln. Sie trainierten ihr neuronales Netzwerk mit hochauflösenden Protein-DNA-Bindungsdaten . Mit Hilfe neu entwickelter Techniken zur Modellinterpretation gelang es ihnen, die relevanten DNA-Sequenzmuster aufzudecken. Die Ergebnisse liefern ein tieferes Verständnis dafür, wie DNA Sequenzen organisiert sind, um Gene zu regulieren.
Algorithmen für künstliche Intelligenz sind äußerst
leistungsfähig, um umfangreiche und komplexe Datensätze zu erschließen.
Wie die Maschine zu bestimmten Vorhersagen kommt, wenn eine bestimmte
Eingabe präsentiert wird, ist jedoch nicht einfach zu verstehen. Da
nachvollziehbare Interpretationen in der medizinischen Diagnostik
wichtig sind, steht dieses Black-Box-Verhalten der KI einer breiten
Akzeptanz entgegen und schränkt ihre Nützlichkeit in Naturwissenschaften
ein, in denen das Verständnis von Mechanismen das Ziel ist.
Ein
interdisziplinäres Forschungsteam aus Biologie und Informatik der
Technischen Universität München, des Stowers Institute for Medical
Research und der Stanford University hat nun gezeigt, dass die Anwendung
neuronaler Netze, wie sie zur Gesichtserkennung verwendet werden,
zusammen mit neu entwickelten Techniken zur Modellinterpretation
verwendet werden kann, um komplexe Anweisungen zu entschlüsseln, die in
der DNA kodiert sind.
Eines der großen ungelösten Probleme in der
Biologie ist der zweite Code des Genoms, der regulatorische Code. Denn
die Abfolge der DNA-Basen beinhaltet nicht nur die Anweisungen zum
Aufbau von Proteinen, sondern auch wann und wo diese Proteine in einem
Organismus hergestellt werden.
Der regulatorische Code wird von
Proteinen gelesen, die Transkriptionsfaktoren genannt werden und an
kurze DNA-Abschnitte binden, die als Motive bezeichnet werden. Wie
bestimmte Kombinationen und Anordnungen von Motiven die regulatorische
Aktivität beeinflussen, ist jedoch ein äußerst komplexes Problem, das
bisher nicht lösbar war.
DNA-Bindungsexperimente und Computermodellierung gehen Hand in Hand
Ein
wichtiger Schlüssel zum Erfolg war es,
Transkriptionsfaktor-DNA-Bindungsexperimente und Computermodellierungen
mit der höchstmöglichen Auflösung durchzuführen, also auf der Ebene
einzelner DNA-Basen. Die hohe Auflösung ermöglichte es dem Team, nicht
nur hochpräzise neuronalen Netzwerkmodelle zu trainieren, sondern auch
die Schlüsselelemente und Muster aus den Modellen zu extrahieren,
einschließlich der Bindungsmotive für Transkriptionsfaktoren und der
kombinatorischen Regeln, nach denen sie zusammen als Code fungieren.
„Neuronale
Netze gelten als schwer durchschaubare Black Box, sie können aber
digital befragt werden. Mit einer großen Zahl virtueller Experimente
gelingt es so, die Regeln herauszufinden, die das neuronale Netz gelernt
hat,“ sagt Erstautor Dr. Žiga Avsec, Mitarbeiter im Labor von Julien
Gagneur, Professor für Computational Molecular Medicince an der TU
München. Zusammen mit Anshul Kundaje, Professor an der Stanford
University, schuf er die erste Version des Modells, als er Stanford als
Gastwissenschaftler besuchte.
Das Team wandte den Ansatz auf die
Hauptregulatoren embryonaler Stammzellen der Maus an und bestätigte die
Ergebnisse durch CRISPR-Genom-Edition experimentell. Die entdeckten
Muster zeigten klare Regeln, die unter anderem auf eine präzise
Positionierung entlang der DNA-Doppelhelix hinwiesen und eine bevorzugte
Reihenfolge der Transkriptionsfaktoren beinhalten.
„Das war
äußerst befriedigend,“ sagt Projektleiterin Julia Zeitlinger, Forscherin
am Stowers Institute und Professorin am Medical Center der University
of Kansas, „da die Ergebnisse hervorragend zu den vorhandenen
experimentellen Ergebnissen passen, aber auch neue, überraschende
Erkenntnisse enthüllen.“
Ein Muster wird sichtbar: Wie Nanog an die DNA bindet
Zum
Beispiel fand das Forschungsteam heraus, dass ein gut untersuchter
Transkriptionsfaktor namens Nanog bevorzugt an DNA bindet, wenn mehrere
seiner Motive periodisch angeordnet sind, so dass sie auf derselben
Seite der spiralförmigen DNA-Helix erscheinen.
„Es gibt eine
Menge experimenteller Hinweise, dass eine solche Motivperiodizität im
Regulierungscode manchmal vorkommt,“ sagt Zeitlinger. „Die genauen
Umstände waren jedoch bisher schwer zu erfassen. Es war daher eine
Überraschung, dass Nanog ein solches Muster zeigt, insbesondere da wir
nicht speziell nach diesem Muster gesucht haben. “
„Dies ist der
Hauptvorteil der Verwendung neuronaler Netze für diese Aufgabe. Ein
klassisches Rechenmodell basiert auf handgefertigten, starren Regeln, um
sicherzustellen, dass es interpretiert werden kann “, sagt Avsec. „Die
Biologie ist jedoch äußerst reich und kompliziert. Indem wir darauf
verzichten, einzelne Parameter zu interpretieren, können wir viel
flexiblere und vielschichtigere Modelle trainieren, die alle
biologischen Phänomene erfassen, einschließlich der noch unbekannten.“
Ein leistungsstarker Bottom-up Ansatz
Dieses
neuronale Netzmodell, Base Pair Network genannt, oder kurz BPNet, ist
ein leistungsstarker Bottom-up-Ansatz, der der Gesichtserkennung in
Bildern ähnelt. Das neuronale Netzwerk erkennt zuerst Kanten in den
Pixeln, dann lernt es, wie Kanten Gesichtselemente wie Auge, Nase oder
Mund formen, und schließlich, wie Gesichtselemente zusammen ein Gesicht
bilden.
Anstatt aus Pixeln zu lernen, lernt BPNet aus der
DNA-Sequenz. Es lernt zuerst Motive zu erkennen und dann die
kombinatorischen Regeln, nach denen die Elemente zusammen die
Bindungsdaten vorhersagen.
Die Arbeitsgruppen von Julia
Zeitlinger und Anshul Kundaje verwenden BPNet bereits, um Bindungsmotive
für andere Zelltypen zuverlässig zu identifizieren, Motive mit
biophysikalischen Eigenschaften in Verbindung zu bringen und andere
strukturelle Merkmale im Genom zu analysieren. Damit andere
Wissenschaftler BPNet verwenden und an ihre eigenen Bedürfnisse anpassen
können, haben die Forscher die gesamte Software mit Dokumentation und
Tutorials zur Verfügung gestellt.
„Diese Arbeit ist eine
technologische Tour de Force,“ sagt Julien Gagneur. „Sie kombiniert
Deep-Learning-Modellierung genomweiter Daten in höchster Auflösung mit
neuentwickelten erklärbaren KI-Techniken, mit denen interpretiert werden
kann, was die „Black Box“ gelernt hat. Die Methodik wird der
biologischen Forschung helfen, die vollständige regulatorische Grammatik
zu studieren.“