Die Grenzen von KI in Chemie und Materialwissenschaft

20. August 2025

Forschende der Friedrich-Schiller-Universität Jena haben in Zusammenarbeit mit internationalen Partnern eine Studie durchgeführt, die zeigt, dass aktuelle KI-basierte Sprach-Bild-Modelle zwar gut darin sind, Inhalte wahrzunehmen, bei komplexeren wissenschaftlichen Prozessen, insbesondere in der Chemie und Materialwissenschaft, jedoch an ihre Grenzen stoßen. Für die Studie wurde erstmals systematisch untersucht, wie effektiv diese modernen KI-Modelle visuelle und textuelle Informationen in diesen Fachbereichen verarbeiten können.

Innovatives Bewertungsverfahren für KI

„Unsere Studie löst ein Problem in der KI-Forschung: Wie kann man multimodale Systeme fair bewerten, wenn unklar ist, welche Daten die Modelle bereits im Training gesehen haben?“, erklärt Dr. Kevin Maik Jablonka die methodische Innovation. Das entwickelte Bewertungsverfahren ermöglicht es erstmals, die Stärken und Schwächen aktueller KI-Systeme in wissenschaftlichen Anwendungen systematisch zu analysieren. „Multimodale KI-Systeme, die sowohl Texte als auch Bilder verstehen können, gelten als Zukunft der wissenschaftlichen Assistenzsysteme“, erläutert Jablonka. „Wir wollten herausfinden, ob diese Modelle wirklich das Potenzial haben, Forschende bei der täglichen Arbeit zu unterstützen – von der Literaturauswertung bis zur Datenanalyse.“

Mehr als eintausend Aufgaben aus dem wissenschaftlichen Alltag

Um die Fähigkeiten von multimodaler KI zu testen, hat das internationale Forschungsteam ein neues Bewertungsverfahren namens „MaCBench“ entwickelt, das unter https://macbench.lamalab.org verfügbar ist. Dieses Verfahren umfasst über 1.100 praxisnahe Aufgaben aus drei Kernbereichen der wissenschaftlichen Arbeit: der Datenextraktion aus Fachliteratur, dem Verständnis von Labor- und Simulationsexperimenten und der Interpretation von Messergebnissen. Die Tests reichten von der Analyse von Spektroskopie-Daten über die Bewertung der Laborsicherheit bis hin zur Interpretation von Kristallstrukturen.

Das Forschungsteam untersuchte führende KI-Modelle auf deren Fähigkeit, wissenschaftliche Informationen zu verstehen und zu verknüpfen. „Im Gegensatz zu reinen Textmodellen müssen diese Systeme visuelle und textuelle Informationen gleichzeitig verarbeiten können – eine Kernfähigkeit für wissenschaftliche Arbeit“, erläutert Jablonka.

Erfolge bei einfachen Aufgaben, Schwächen bei komplexem Denken

Die kürzlich vorgestellte Studie liefert ein differenziertes Bild der KI-Fähigkeiten: Zwar konnten die KI-Modelle Laborgeräte zuverlässig identifizieren und standardisierte Daten fast fehlerfrei extrahieren, jedoch zeigten sie grundlegende Schwächen bei räumlichen Analysen und der Verknüpfung von Informationen aus unterschiedlichen Quellen. „Besonders auffällig war, dass dieselben Informationen von den Modellen deutlich besser verarbeitet wurden, wenn sie als Text statt als Bild präsentiert wurden“, berichtet Jablonka. „Das deutet darauf hin, dass die Integration verschiedener Datentypen noch nicht optimal funktioniert.“

Auffällig war auch die Entdeckung, dass die Leistung der Modelle stark mit der Häufigkeit der Testmaterialien im Internet korrelierte. „Das lässt vermuten, dass die Modelle teilweise auf Mustererkennung aus Trainingsdaten zurückgreifen, anstatt echtes wissenschaftliches Verständnis zu entwickeln“, so der Forscher.

Grundlagen für bessere KI-Assistenzsysteme

Die Ergebnisse können bei der Entwicklung zukünftiger wissenschaftlicher KI-Assistenten von Vorteil sein: „Bevor diese Systeme zuverlässig in der Forschung eingesetzt werden können, müssen deren räumliche Wahrnehmung und die Verknüpfung verschiedener Informationsarten fundamental verbessert werden“, resümiert Jablonka. „Unsere Arbeit zeigt konkrete Wege auf, wie diese Herausforderungen angegangen werden können und die KI-Tools für die Naturwissenschaften verbessert werden können.“

Quelle

Friedrich-Schiller-Universität Jena (08/2025)

Publikation

Alampara et al.: „Probing the limitations of multimodal language models for chemistry and materials research“, Nature Computational Science (2025), DOI: 10.1038/s43588-025-00836-3
https://doi.org/10.1038/s43588-025-00836-3

Nach oben scrollen