Ein internationales Forschungsteam, unter anderem vom SLAC und dem European XFEL, hat ein generatives KI-Modell entwickelt, das Molekülstrukturen mittels Coulomb-Explosions-Bildgebung rekonstruiert. Dabei werden Moleküle durch Röntgenlicht zerrissen, woraufhin die KI aus der Ionenbewegung die ursprüngliche Geometrie berechnet. Die Methode sagte die Strukturen kleiner Moleküle bereits präzise voraus und ebnet den Weg für die Echtzeit-Erfassung chemischer Reaktionen in Medizin und Industrie. „Wir waren ziemlich begeistert davon“, sagte Xiang Li. „Es ist das erste KI-Modell, das für die Rekonstruktion molekularer Strukturen anhand von Coulomb-Explosionsbildern entwickelt wurde.“ Rebecca Boll fügte hinzu: „Ein explodiertes Molekül anhand der aufgezeichneten Impulse im realen Raum wieder zusammenzusetzen, ist sehr schwierig. Künstliche Intelligenz kann uns dabei helfen.“
Eine neue Art, Moleküle zu betrachten
Die Abbildung isolierter Moleküle in der Gasphase stößt oft an Grenzen: Während die Elektronenmikroskopie fixierte Proben erfordert, liefern diffraktionsbasierte Techniken nur Durchschnittsbilder vieler Moleküle. Die Forschung konzentriert sich daher auf die Coulomb-Explosions-Bildgebung, bei der ein Röntgenpuls ein Molekül im Vakuum zerreißt. Die entstehenden Ionen prallen auf einen Detektor, dessen Daten zur Rekonstruktion der Struktur dienen. „Diese Technik ist in der Lage, chemisch relevante Feinheiten herauszuarbeiten“, so James Cryan. Doch die Rechenleistung war oft ein Hindernis. Da sich Atome während des Prozesses leicht verschieben, liefert das klassische Coulomb-Gesetz ungenaue Ergebnisse. „Das Ergebnis wäre ungenau, da die einfache Anwendung dieses Gesetzes nur funktioniert, wenn der Aufladungsprozess augenblicklich erfolgt“, erklärt Li.
Zudem erhöht jedes Atom die Komplexität exponentiell. „Es ist sehr schwierig, rückwärts zu arbeiten, um die ursprüngliche Struktur zu ermitteln“, sagt Phay Ho. „Es ist in etwa so, als würde man ein Glas zerbrechen und versuchen, es anhand der verstreuten Scherben wieder zusammenzusetzen. Viele Probleme in der modernen Physik und Chemie beinhalten die Rekonstruktion verborgener Strukturen anhand indirekter Messungen. Diese Arbeit zeigt, wie KI dabei helfen kann, solche inversen Probleme zu lösen.“ Obwohl Mitautor Michael Meyer den bisherigen Erfolg der Technik bei SQS betont, ermöglicht erst der KI-Ansatz die tatsächliche Rekonstruktion der Geometrie trotz der physikalischen Verzögerungen beim Zerfall.
Maschinelles Lernen für Molekülstrukturen
Um die rechnerischen Hürden der herkömmlichen Simulation zu überwinden, entwickelte und trainierte das Forschungsteam an der S3DF des SLAC ein generatives KI-Modell. Der Vorteil: Anstatt komplexe Gleichungssätze abzuarbeiten, lernt die KI Muster in Trainingsdaten und nutzt diese für statistische Vorhersagen. Als Basis diente eine von Ho erstellte, rechenintensive Simulation, die über einen Monat lang quantenmechanische und klassische Daten von 76.000 Molekülproben generierte.
Da dieser Datensatz für ein präzises KI-Training allein zu klein war, stellten die Forschenden zunächst ungenaue Vorhersagen fest. Um das Modell zu optimieren, wiederholten sie das Training und ergänzten die Daten um einen zweiten, rein auf klassischer Physik basierenden Datensatz. Dieser war zwar weniger präzise, aber etwa 100-mal umfangreicher, was der KI half, die zugrunde liegenden Strukturen besser zu erfassen.
Dieses zweistufige Training war der Schlüssel zur Vorhersage präziser Strukturen
Zur Überprüfung des Modells MOLEXA („molecular structure reconstruction from Coulomb explosion imaging“) ließen die Forschenden die KI zunächst unbekannte Simulationsdaten analysieren. Durch einen zweistufigen Trainingsprozess gelang es, die Ionenimpulse präzise in Geometrien zu übersetzen. „Wir stellten fest, dass dieser zweistufige Trainingsprozess den Vorhersagefehler um den Faktor zwei reduzierte“, so Li. Anschließend bewährte sich MOLEXA an realen Experimentaldaten vom SQS für Moleküle wie Wasser, Tetrafluormethan und Ethanol.
Der Abgleich mit Referenzdaten des National Institute of Standards and Technology bestätigte die Genauigkeit: Die Bindungen wurden korrekt lokalisiert, wobei die Positionsfehler meist unter der Hälfte einer typischen Bindungslänge lagen. „Das Modell schneidet tatsächlich meistens noch besser ab“, ergänzte Li. „Es ist nur ein Ausgangspunkt für zukünftige Forschung, die nicht nur die Modellgenauigkeit verbessern, sondern auch seine Anwendbarkeit auf größere molekulare Systeme ausweiten wird.“
Ausweitung auf größere Moleküle und chemische Reaktionen
Die enorme Datenmenge bei Experimenten wie der Coulomb-Explosions-Bildgebung ist oft schwer interpretierbar. „Durch den Einsatz künstlicher Intelligenz zur Analyse dieser Daten können wir den Umfang der Experimente erweitern, die in unserer Anlage durchführbar sind, und unseren Nutzerinnen und Nutzern ermöglichen, Studien durchzuführen, die zuvor als zu komplex galten“, erklärt Serguei Molodtsov. Künftig soll das Modell auch zeitaufgelöste Experimente am LCLS und European XFEL unterstützen, um chemische Reaktionen als „Molekülfilme“ im Daumenkino-Stil festzuhalten.
Aktuell testet das Team zudem, wie das Modell mit unvollständigen Daten umgeht, etwa wenn der Detektor einzelne Ionen verpasst. Li untersucht dabei, ob die KI ein Ethanolmolekül selbst bei fehlenden Wasserstoffionen rekonstruieren kann. Langfristig ist die Anwendung auf komplexe biologische Systeme wie Proteine geplant. „Das ist wirklich das Ziel“, so Li. „Wir werden in der Lage sein, Systeme zu untersuchen, die biologisch oder industriell relevanter sind.“