Gleichzeitig führen diese Analysen zu einer stetig wachsenden Menge an Daten. Methoden des maschinellen Lernens helfen dabei, bestehende Datensätze neu zu interpretieren, Muster zu erkennen und wertvolle Informationen abzuleiten, die auch auf andere Bereiche angewendet werden können.
Selbstüberwachtes Lernen als neuer Ansatz
Fabian Theis, Professor für Mathematische Modellierung biologischer Systeme, und sein Team haben in einer aktuellen Studie untersucht, ob Selbstüberwachtes Lernen effektiver für die Analyse großer Datenmengen ist als andere Methoden. Selbstüberwachtes Lernen nutzt unbeschriftete Daten, was bedeutet, dass keine vorherige Klassifizierung der Daten erforderlich ist. Diese Methode ermöglicht eine robuste Verarbeitung großer Datenmengen.Die Studie basiert auf zwei Ansätzen des Selbstüberwachten Lernens: Beim maskierten Lernen wird ein Teil der Eingabedaten unkenntlich gemacht, und das Modell wird trainiert, die fehlenden Informationen zu rekonstruieren. Zusätzlich wurde kontrastives Lernen angewendet, bei dem das Modell lernt, ähnliche von unähnlichen Daten zu unterscheiden. Das Team testete beide Methoden an über 20 Millionen Einzelzellen und verglich die Ergebnisse mit klassischen Lernmethoden. Bei der Bewertung lag der Fokus auf Aufgaben wie der Vorhersage von Zelltypen und der Rekonstruktion der Genexpression..
Chancen für die Entwicklung virtueller Zellen
Die Ergebnisse zeigen, dass selbstüberwachtes Lernen insbesondere bei Transfer-Aufgaben von Vorteil ist, also bei der Anwendung auf kleinere Datensätze, die Informationen aus größeren Datenbanken nutzen. Zudem sind die Resultate bei Zero-Shot Zellvorhersagen vielversprechend, was bedeutet, dass Aufgaben ohne vorheriges Training erfolgreich bearbeitet werden können. Der Vergleich zwischen maskiertem und kontrastivem Lernen ergab, dass maskiertes Lernen besser für große Einzelzell-Datensätze geeignet ist.Die Forschenden arbeiten daran, sogenannte virtuelle Zellen zu entwickeln – umfassende Computermodelle, die die Vielfalt von Zellen in verschiedenen Datensätzen abbilden. Diese Modelle sind besonders vielversprechend für die Analyse von Zellveränderungen, wie sie bei Krebserkrankungen auftreten. Die Studienergebnisse bieten wertvolle Hinweise zur effizienteren Schulung und Verbesserung solcher Modelle.
Den Artikel finden Sie unter:
https://www.tum.de/aktuelles/alle-meldungen/pressemitteilungen/details/ein-schluessel-zur-analyse-von-millionen-einzelzellen
Quelle: Technische Universität München (01/2025)
Publikation:
Richter, T., Bahrami, M., Xia, Y. et al. Delineating the effective use of self-supervised learning in single-cell genomics. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00934-3