Detailseite
Multi-Fidelity, Active Learning Strategien für Exzitonen-Transfer in Antennenkomplexen von Cryptophyten
Antragsteller
Professor Dr. Ulrich Kleinekathöfer; Professor Dr. Peter Zaspel
Fachliche Zuordnung
Künstliche Intelligenz und Maschinelle Lernverfahren
Theoretische Chemie: Elektronenstruktur, Dynamik, Simulation
Theoretische Chemie: Elektronenstruktur, Dynamik, Simulation
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 496900167
Die Multiskalensimulation von Lichtsammelkomplexen ist der Schlüssel zur Grundlagenforschung im Bereich der Photosynthese und der Entwicklung von Solarzellen. Zu den biologischen Arten, die Licht ernten, gehören die Cryptophyten-Algen. Die Absorption des Sonnenlichts in diesen Algen erfolgt in Phycobiliproteinen durch Pigmentmoleküle, die Biline genannt werden. Aufgrund der flexiblen Natur der Proteine erfordert die Simulation des Lichtsammelprozesses die genaue Berechnung der exzitonischen Eigenschaften (Anregungsenergien, Kopplungen, Übergangsdipolmomente usw.) für Hunderttausende bis Millionen von Bilinkonformationen. Heutzutage ermöglichen große Parallelrechner erste Studien in großem Maßstab. Dennoch sind solche Studien nur dann rechnerisch durchführbar, wenn die exzitonischen Eigenschaften auf eher niedrigen, d. h. billig zu berechnenden Ebenen der quantenchemischen Theorie bewertet werden. Dies schränkt die Aussagekraft der Ergebnisse stark ein. Das übergreifende Ziel dieses Projekts ist es, hochgenaue Multiskalensimulationen von Lichtsammelkomplexen zu ermöglichen, indem rechenintensive quantenchemische Berechnungen auf hohem theoretischen Niveau durch kostengünstige Modelle des maschinellen Lernens (ML) ersetzt werden. Um die tatsächliche Effizienz des Ansatzes zu gewährleisten, müssen alle ML-Modelle so konstruiert sein, dass ein minimaler Rechenaufwand erforderlich ist, um Trainingsdaten zu erstellen, die Modelle mit geringem Vorhersagefehler ergeben. Ziel ist es, nicht mehr beliebig viel Rechenzeit in die Erzeugung von Trainingsdaten zu investieren und gleichzeitig schnelle Modellvorhersagen zu liefern, sondern einen Ansatz zu verfolgen, der sowohl bei der Modellkonstruktion als auch bei der Modellbewertung effizient ist. Das Hauptziel der zweiten Förderphase besteht darin, das maschinelle Lernen mit hoher Wiedergabetreue (Multi-Fidelity Machine Learning, MFML) in die „Produktion“ zu bringen, d. h., der Ansatz wird auf vielfältigere chemische Eigenschaften verallgemeinert, in seiner Effizienz bei weniger klaren Datenhierarchien verbessert und in einer auf aktivem Lernen (AL) basierenden Zielfehler-adaptiven Konstruktion automatisiert. Die MFML-Techniken werden dann als Community-weit verfügbares Softwarepaket für die weitere Erforschung über die ursprünglich vorgesehene Anwendung hinaus bereitgestellt. Für das bimolekulare Lernen besteht das Ziel darin, über eine explorative Studie hinauszugehen und echte Auswirkungen auf schwierige Daten mit massiven Kostensenkungen und besserer Verallgemeinerbarkeit der Modelle für z. B. Kopplungsenergien zu zeigen. Im Rahmen dieses Projekts werden sowohl MFML als auch bimolekulares Lernen für drei Phycobiliproteine aus Cryptophyten-Algen, nämlich PC612, PC645 und PE566, angewendet und getestet.
DFG-Verfahren
Schwerpunktprogramme
