Das menschliche Genom ist eine komplexe DNA-Sequenz, die durch unzählige genetische Varianten geprägt ist, welche unsere individuellen Unterschiede definieren. Dennoch bleibt es eine enorme Herausforderung, aus den massiven Datensätzen großer Biobanken präzise Informationen über Merkmale zu extrahieren, die von Tausenden oder Millionen solcher Varianten beeinflusst werden. Bisherige Versuche, dieses „Big Data“-Problem zu lösen, konzentrierten sich oft auf Stichprobenalgorithmen, die jeden Datenpunkt einzeln modellieren. Da diese Verfahren den gesamten Datensatz jedoch millionenfach abtasten müssen, sind ihre theoretisch hohen Genauigkeitswerte aufgrund unerschwinglicher Rechenkosten in der Praxis kaum erreichbar.
Um diese Hürde zu nehmen, wurden bislang Ansätze gewählt, die Geschwindigkeit auf Kosten der Präzision bevorzugten. Vor diesem Hintergrund stellte sich die Frage: Gibt es die Möglichkeit, Genauigkeit und Verarbeitungs-Geschwindigkeit in einem ausgewogeneren Ansatz zu vereinen?
Forschende der Gruppen von Matthew Robinson und Marco Mondelli am Institute of Science and Technology Austria (ISTA) haben nun in dem Bestreben, Präzision und Leistung zu optimieren, einen Algorithmus entwickelt, der Informationen aus der weltweit umfangreichsten Biobank mit beispielloser Geschwindigkeit und Genauigkeit analysiert. Am Beispiel der menschlichen Körpergröße – einem genetisch hochkomplexen Merkmal – demonstrieren sie das Potenzial ihrer Methode. Diese neue Form der Datenextraktion könnte künftig die Diagnostik in der personalisierten Medizin entscheidend voranbringen und sogar Anwendungen in der Forensik ermöglichen.
Körpergröße und algorithmische Innovation
Der Ansatz des Teams stützt sich auf das kürzlich etablierte mathematische Framework „Approximate Message Passing“ (AMP), zu dem Mondelli maßgeblich beigetragen hat. Ihre neue Methode mit dem Namen „Genomic Vector Approximate Message Passing“ oder gVAMP verbessert die Fähigkeit des Frameworks, komplexe Informationen aus dem vorliegenden Datensatz zu extrahieren. „Während andere Methoden dazu neigen, jeweils nur einen Ausschnitt zu analysieren, bevor sie die Ergebnisse kombinieren, funktioniert gVAMP als Methode der „gemeinsamen Schätzung“. Daher bietet es einen Gesamtüberblick über die Auswirkungen auf ein Merkmal im Kontext aller Varianten in massiven genetischen Datensätzen“, sagt ISTA-Doktorand Al Depope. „Wir können von einer algorithmischen Innovation sprechen.“
Um ihre Methode zu entwickeln, wählte das Team die Körpergröße des Menschen, ein etabliertes Modell für die genetische Analyse komplexer Merkmale. „Die Untersuchung der Körpergröße ermöglichte es uns, die Grenzen der rechnerischen Skalierbarkeit mit gVAMP sowohl hinsichtlich der Anzahl der Genomsequenzen als auch der Anzahl der beteiligten Varianten zu erforschen“, sagt Depope. Tatsächlich wird dieses Merkmal von beeindruckenden 17 Millionen Varianten beeinflusst, die das Team gleichzeitig in Hunderttausenden von Gesamt-Genomsequenzen anonymisierter Freiwilliger aus der UK Biobank, dem weltweit umfassendsten Datensatz mit Informationen zu Biologie, Gesundheit und Lebensstil, analysieren konnte.
„Besonders wichtig finde ich die Interpretierbarkeit unseres Algorithmus bei der Anwendung in der Biologie. Damit können wir nicht nur die Körpergröße von Menschen anhand ihrer DNA genauer als bisher vorhersagen, sondern auch die spezifischen DNA-Regionen identifizieren, die daran beteiligt sind“, sagt Jakub Bajzik.
Leistungsstärker als bestehende Methoden
Da gVAMP die genetischen Beiträge zur menschlichen Körpergröße erstmals in dieser Form berechnet, existierten bisher keine Vergleichswerte, um die Ergebnisse unmittelbar zu validieren. „Im Wesentlichen lautet die Frage hier: ‚Woher wissen wir, dass gVAMP die richtigen Varianten ausgewählt hat?‘“, erklärt Depope. Um diese Hürde zu nehmen und die Leistungsfähigkeit der Methode objektiv zu bewerten, griffen die ISTA-Forscher auf eine Datensimulation zurück. Sie entwickelten ein künstliches Merkmal, das in seiner Komplexität der menschlichen Körpergröße entspricht, und verglichen die Ergebnisse des Algorithmus in umfangreichen Studien mit denen etablierter Verfahren.
Die Simulationen bestätigten, dass gVAMP bestehende Methoden sowohl in der Genauigkeit als auch in der Verarbeitungsgeschwindigkeit deutlich übertrifft. „Unsere Methode erreicht eine Spitzenpräzision und ist gleichzeitig so effizient, dass sie eine echte gemeinsame Analyse riesiger genetischer Datensätze in nur wenigen Tagen durchführen kann. Dadurch können wir die zugrunde liegende Biologie aufdecken, die zuvor aufgrund des begrenzten Umfangs der Datenanalyse verborgen blieb“, sagt Depope. Abschließend betont er die Bedeutung des technischen Fortschritts: „Die algorithmische Innovation ist genau das, was diese Größenordnung der Analyse und die daraus resultierenden biologischen Erkenntnisse möglich macht.“
Von der personalisierten Medizin zur Forensik?
Diese interdisziplinäre Studie vereint Fachwissen aus Informationstheorie, Mathematik, Genomik und Softwareentwicklung. Dabei ergänzte Bajziks Informatik-Hintergrund den theoretisch-mathematischen Schwerpunkt von Depope. Betreut wurde das Projekt gemeinsam von Robinson, einem Spezialisten für statistische Genommodelle, und Mondelli, dessen Fokus auf robusten Inferenzmethoden der Informationstheorie liegt, um datengesteuerte Herausforderungen in den Naturwissenschaften zu bewältigen.
Derzeit arbeitet das Team daran, die Methode auf die personalisierte Medizin und diagnostische Anwendungen auszuweiten. Dies umfasst Prognosen zum Krankheitsausbruch, zum Schweregrad sowie zum Auftreten spezifischer Symptome. Zudem soll der Ansatz künftig auch Protein- und epigenetische Daten einbeziehen, die über die reine Genomsequenz hinausgehen.
Das Potenzial von gVAMP könnte Ärzt:innen dabei unterstützen, gezielte Patient:innen-Profile für klinische Studien zu erstellen. Über den medizinischen Bereich hinaus sieht Depope jedoch noch weitere Einsatzgebiete. „Ich denke, unser Algorithmus könnte auch in der Forensik nützlich sein, um anhand der am Tatort gefundenen DNA die Größe eines oder einer Verdächtigen vorherzusagen“, sagt er.
Quelle
Institute of Science and Technology Austria (02/2026)
Publikation
Al Depope, Jakub Bajzik, Marco Mondelli, and Matthew R. Robinson. 2026. Joint modelling of whole genome sequence data for human height via approximate message passing. Cell Genomics. DOI: 10.1016/j.xgen.2026.101162
https://doi.org/10.1016/j.xgen.2026.101162