Das menschliche Erbgut besteht aus insgesamt drei Milliarden Buchstaben. Dabei weicht die Reihenfolge der Bausteine zwischen zwei Menschen nur in durchschnittlich einem von 1000 Buchstaben ab. Es kommen allerdings verschiedene Variationen vor, von einzeln ausgetauschten Buchstaben bis hin zu ganzen fehlenden Abschnitten. Wissenschaftler*innen vom Berlin Institute of Health (BIH) und vom Regensburger Centrum für Interventionelle Immunologie haben nun in Kooperation mit isländischen Kolleg*innen eine Software entwickelt, die insbesondere große Lücken im Erbgut zuverlässig und schnell entdeckt.
Das menschliche Erbgut besteht aus insgesamt drei Milliarden
Buchstaben, verteilt auf 46 Chromosomen. Dabei sind die Unterschiede von
Mensch zu Mensch insgesamt sehr gering, nur in einem von 1000
Buchstaben weicht die Reihenfolge der Bausteine zwischen zwei Menschen
ab. Dabei sind manchmal nur einzelne Buchstaben ausgetauscht,
gelegentlich aber auch längere Abschnitte verändert. „Viele dieser
Unterschiede fallen im Alltag gar nicht auf, weil sie die Struktur der
Eiweiße, die im Erbgut verschlüsselt sind, nicht beeinflussen und daher
keine Krankheiten hervorrufen“, weiß Birte Kehr, Leiterin einer
Nachwuchsgruppe am Berlin Institute of Health (BIH) und seit Kurzem
Professorin am Regensburger Centrum für Interventionelle Immunologie
(RCI). Die Bioinformatikerin beschäftigt sich mit den so genannten
Strukturvarianten im Erbgut, bei denen größere Abschnitte fehlen,
verdoppelt sind oder gar an anderer Stelle wieder auftauchen.
Große Strukturveränderungen haben große Auswirkungen
„Die
großen Strukturveränderungen sind viel seltener als der Austausch
einzelner Buchstaben“, erklärt Birte Kehr, „aber sie haben oft größere
Auswirkungen und sind auch schwieriger zu entdecken.“ Um mehr über diese
großen Veränderungen zu lernen, ist es hilfreich, in großen Datenbanken
danach zu forschen. Da bot sich die Zusammenarbeit mit der isländischen
Firma deCODE Genetics an, die insgesamt 50.000 menschliche
Erbgutsequenzen in ihrer Datenbank bereithält, und bei der Birte Kehr
als Postdoc beschäftigt war. „Wir hatten immer vor, die großen
Datenbanken nach Deletionen zu durchforsten, doch uns fehlte ein
Programm, das in der Lage war, zuverlässig und schnell diese riesigen
Datenmengen zu verarbeiten.“ Als Birte Kehr nach Berlin ans BIH
wechselte, übertrug sie diese Aufgabe ihrem ersten Doktoranden,
Sebastian Niehus.
Daten sind nur relevant, wenn sie genutzt werden
Die
Programme, die bisher verfügbar waren, um Strukturvarianten wie
Deletionen zu erfassen, konnten nur Daten von wenigen Personen
gleichzeitig verarbeiten. Die Ergebnisse mussten dann für größere
Datenmengen, wie etwa die der deCODE Genomdatenbank, umständlich und
fehleranfällig wieder zusammengefügt werden. „Wir wollten also zunächst
ein statistisches Modell entwickeln, mit dem es möglich ist, die
Informationen aller Sequenzdaten gleichzeitig auszuwerten“, berichtet
Sebastian Niehus. „Dazu musste das Programm so gestaltet sein, dass ein
Computer in der Lage ist, es auf riesigen Datenmengen schnell zu
berechnen. Außerdem mussten wir die Dateien auf 1-2 % ihrer
ursprünglichen Größe komprimieren, um überhaupt mit ihnen arbeiten zu
können.“
Schneller und genauer als andere Programme
Nachdem
ein Prototyp entwickelt war, musste sich das Programm PopDel in
verschiedenen Szenarien gegenüber anderen Programmen bewähren. Dazu
gehörten simulierte Sequenzdaten von bis zu 1.000 „Personen“,
Sequenzdaten von 49 Eltern-Kind Trios, mit deren Hilfe es möglich war zu
prüfen, ob die Vererbungsmuster korrekt rekonstruiert werden,
Sequenzdaten von 150 Personen unterschiedlicher Ethnien, die es
ermöglichten, auf Populationsstrukturen zu prüfen, und schließlich die
rund 50.000 Genome des Kooperationspartners deCODE Genetics in Island.
„Dabei
konnten wir zeigen, dass PopDel sowohl mit den Daten einzelner Menschen
als auch mit den Daten der größten Kohorten zuverlässig, schnell und
ressourcenschonend gute Ergebnisse produzierte“, berichtet Niehus stolz.
Und Birte Kehr ergänzt: „PopDel war in der Lage, die Genome von 150
Personen innerhalb von zwei Tagen zu analysieren, wofür andere Programme
vier Wochen benötigt hatten. Und die Ergebnisse von PopDel waren
besser.“
Seltene Genvariante entdeckt
Höhepunkt der
Forscher*innen war die Entdeckung einer seltenen, bisher unbekannten
Genvariante in nur einer einzigen Familie der insgesamt 50.000
analysierten Isländer. „Das Gen für den LDL-Rezeptor zeigte bei diesen
Familienmitgliedern eine größere Deletion, also eine Lücke. Das war
gekoppelt mit einem sehr niedrigen Cholesterinspiegel bei diesen
Personen.“ Kehrs Kooperationspartner bei deCODE Genetics konnten
mittlerweile zeigen, dass die Veränderung im LDL-Rezeptorgen tatsächlich
verantwortlich ist für den niedrigen Cholesterinspiegel der betroffenen
Personen. „Eine betroffene Person ist im Alter von 85 Jahren
verstorben, sechs weitere Betroffene im Alter von 35 bis 65 Jahren sind
aufgrund ihres niedrigen Cholesterin-Spiegels allesamt sehr gesund“, so
die Wissenschaftlerin. „Die Ergebnisse sind deshalb auch medizinisch
sehr interessant, weil wir offenbar eine genetische Variante entdeckt
haben, die zu einem gesunden Fettstoffwechsel beiträgt.“
Im
nächsten Schritt möchten die Forscher*innen nun das Programm
weiterentwickeln. Dazu arbeiten sie selbst weiter daran, haben aber auch
den Quellcode von PopDel auf einen offenen Server gestellt, damit ihn
jeder einsehen, nutzen und verbessern kann. „Bisher kann PopDel nur
verloren gegangene DNA-Abschnitte entdecken, aber es gibt auch
Genvarianten, bei denen Abschnitte dupliziert, umgedreht oder verschoben
wurden. Alle diese möchten wir nun auch mit PopDel finden“, blickt
Sebastian Niehus in die Zukunft. Und Birte Kehr hofft, „dass wir
langfristig aus den Erkenntnissen neue Behandlungsansätze und Therapien
entwickeln können.“ Ganz dem Motto des BIH entsprechend: Aus Forschung
wird Gesundheit.