Sprachmodelle finden mittlerweile auch in den Naturwissenschaften Anwendung. In der Chemie werden sie beispielsweise eingesetzt, um potenzielle Wirkstoffe vorherzusagen. Dies erfordert jedoch ein aufwändiges Training der Modelle. Eine aktuelle Studie der Universität Bonn legt nun nahe, dass sich die Modelle dabei nicht zwangsläufig Wissen über biochemische Zusammenhänge aneignen. Stattdessen basieren ihre Schlussfolgerungen auf Ähnlichkeiten und statistischen Korrelationen.
Große Sprachmodelle sind in ihren Leistungen oft erstaunlich gut – sei es beim Führen mathematischer Beweise, beim Komponieren von Musik oder beim Entwerfen von Werbeslogans. Die Frage bleibt, wie sie zu diesen Ergebnissen gelangen: Verstehen sie tatsächlich, was eine Symphonie oder ein guter Witz ausmacht? Eine eindeutige Antwort darauf ist nicht leicht zu finden. „Alle Sprachmodelle sind eine Black Box“, erklärt Prof. Dr. Jürgen Bajorath. „Es ist schwer, ihnen – metaphorisch gesprochen – in den Kopf zu schauen.“
Der Chemieinformatiker am Lamarr-Institut für maschinelles Lernen und künstliche Intelligenz der Universität Bonn versuchte, die Funktionsweise einer speziellen Form von KI-Algorithmen – den chemischen Transformer-Modellen – zu ergründen. Ähnlich wie textbasierte Modelle wie ChatGPT oder Gemini wurden diese trainiert, jedoch basieren sie auf Molekül-Repräsentationen statt auf Textmengen. Ihr Wissen erwerben sie anhand von Beziehungen und Strukturen von Molekülen, zum Beispiel über SMILES-Strings, welche Moleküle und deren Struktur als Zeichenfolgen darstellen.
Trainingsdaten gezielt manipuliert
In der Pharmazie besteht häufig die Notwendigkeit, Substanzen zu finden, die spezifische Enzyme hemmen oder Rezeptoren blockieren. Mithilfe chemischer Sprachmodelle ist es beispielsweise möglich, aktive Moleküle vorherzusagen, wobei die Aminosäure-Sequenzen der Zielproteine als Basis dienen. „Wir haben dieses sogenannte sequenzbasierte Moleküldesign als ein Testsystem benutzt, um besser zu verstehen, wie die Transformer zu ihren Vorhersagen kommen“, erklärt Bajoraths Doktorand Jannik Roth. „Wenn man ein solches Modell nach einer Anlernphase etwa mit einem neuen Enzym füttert, spuckt es mit etwas Glück eine Verbindung aus, mit der sich dieses Enzym hemmen lässt. Doch heißt das, dass die KI gelernt hat, nach welchen biochemischen Prinzipien so eine Hemmung erfolgt?“
Um die Funktionsweise chemischer Sprachmodelle zu untersuchen, trainierten die Wissenschaftler diese in der Anlernphase mit Paaren aus Aminosäure-Sequenzen und den entsprechenden Wirkstoff-Molekülen. Für ihre Fragestellung manipulierten die Forscher diese Trainingsdaten gezielt. „Wir haben das Modell beispielsweise zunächst nur mit einer bestimmten Gruppe von Enzymen und deren Hemmstoffen gefüttert“, erklärt Bajorath. „Wenn wir nun für Testzwecke ein neues Enzym aus derselben Familie genutzt haben, schlug uns der Algorithmus tatsächlich einen plausiblen Hemmstoff vor.“ Anders verhielt es sich jedoch, wenn die Forscher für den Test ein Enzym aus einer anderen Familie verwendeten – also eines, das im Körper völlig andere Aufgaben erfüllt. In diesem Fall lieferte das chemische Sprachmodell lediglich unbrauchbare Ergebnisse.
Statistische Daumenregel
„Das spricht dagegen, dass das Modell allgemein gültige chemische Prinzipien erlernt hat – dass es also weiß, wie die Hemmung eines Enzyms chemisch in aller Regel abläuft“, sagt der Wissenschaftler. Die Vorschläge basieren demnach allein auf statistischen Zusammenhängen und Mustern in den Daten. Das Modell schließt: Wenn das neue Enzym einem der im Training gelernten Enzyme ähnelt, ist die Wahrscheinlichkeit hoch, dass auch ein ähnlicher Hemmstoff wirksam ist. „Eine solche Daumenregel muss nicht unbedingt schlecht sein“, betont Bajorath. „Schließlich kann sie beispielsweise dabei helfen, neue Einsatzgebiete für bekannte Wirkstoffe zu finden.“
Die Modelle zeigten auch bei der Abschätzung von Ähnlichkeiten keine biochemische Kenntnis. Sie stuften Enzyme (oder Proteine) stets als ähnlich ein – und schlugen entsprechende Hemmstoffe vor –, wenn diese zu 50 bis 60 Prozent in ihrer Aminosäure-Sequenz übereinstimmten. Dabei war es den Forschern egal, den Rest der Sequenzen beliebig zu verändern. Dies ist problematisch, da oft nur bestimmte Teile eines Enzyms für dessen Funktion entscheidend sind und schon eine einzige Änderung dort zur Funktionsunfähigkeit führen kann, während andere Bereiche weniger relevant sind. „Die Modelle lernten während ihres Trainings nicht, wichtige von unwichtigen Sequenzanteilen zu unterscheiden“, betont Bajorath.
Modelle plappern zuvor Gehörtes nach
Die Ergebnisse der Studie zeigen daher eindrucksvoll, dass den Modellen zumindest für dieses Testsystem jegliches tiefere chemische Verständnis abgeht. Bildlich ausgedrückt, plappern sie nur mit leichten Variationen nach, was sie irgendwann in einem ähnlichen Kontext aufgeschnappt haben. „Das bedeutet nicht, dass sie für die Wirkstoff-Forschung ungeeignet sind“, betont Bajorath. „Es ist gut möglich, dass sie Wirkstoffe vorschlagen, die tatsächlich bestimmte Rezeptoren blockieren oder Enzyme hemmen. Das tun sie aber mit Sicherheit nicht, weil sie die Chemie so gut verstehen, sondern weil sie Ähnlichkeiten in textbasierten molekularen Repräsentationen und statistischen Korrelationen erkennen, die uns verborgen bleiben. Das diskreditiert ihre Ergebnisse nicht. Man darf sie aber auch nicht überinterpretieren.“
Quelle
Rheinische Friedrich-Wilhelms-Universität Bonn (10/2025)
Publikation
Jannik P. Roth, Jürgen Bajorath: Unraveling learning characteristics of transformer models for molecular design, Patterns, https://doi.org/10.1016/j.patter.2025.101392, URL: https://www.cell.com/patterns/fulltext/S2666-3899(25)00240-5