Detailseite
Molekulare Deskriptoren in Matrixvervollständigungsmethoden
Antragstellerinnen / Antragsteller
Professor Dr.-Ing. Fabian Jirasek; Professorin Dr. Heike Leitte
Fachliche Zuordnung
Theoretische Chemie: Elektronenstruktur, Dynamik, Simulation
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 497201843
Die Kenntnis der physikalisch-chemischen Eigenschaften von Mischungen ist von entscheidender Bedeutung für Prozessdesign und -optimierung in der Chemie. Allerdings sind experimentelle Daten oft nicht verfügbar, sodass zuverlässige Vorhersagemethoden unabdingbar sind. Matrixvervollständigungsmethoden (MCMs) sind eine interessante Klasse von Modellen aus dem maschinellen Lernen (ML) für diesen Zweck. Sie basieren darauf, dass die Eigenschaften binärer Mischungen in Matrizen angeordnet werden können, die nur dünn mit experimentellen Daten besetzt sind, wodurch die Vorhersage der fehlenden Einträge zu einem Matrixvervollständigungsproblem wird. MCMs sind dabei besondere Modelle, da sie in ihrer Reinform keine molekularen Deskriptoren verwenden; sie lernen, in einem collaborative-filtering Ansatz, ausschließlich aus den verfügbaren Mischungsdaten. Ziel dieses Projekts ist es, MCMs für die Vorhersage von Mischungseigenschaften deutlich zu verbessern, indem zusätzlich molekulare Deskriptoren in ihren Trainingsprozess integriert werden. Dabei werden im Projekt zwei Strategien verfolgt: Die Integration molekularer Klassenzugehörigkeiten, die durch Clustering auf Basis molekularer Ähnlichkeiten gelernt werden, und die Integration molekularer Graphen durch die Kopplung von MCMs mit Graph Neural Networks (GNNs). Aufbauend auf den Ergebnissen der ersten Förderperiode, in der verbesserte MCMs zur Vorhersage von Aktivitätskoeffizienten entwickelt wurden, werden die Ansätze in diesem Projekt in drei Richtungen erweitert: Zum einen werden wir die Ansätze auf die Vorhersage weiterer Mischungseigenschaften, insb. von Henrykonstanten und Diffusionskoeffizienten, übertragen. Weiterhin werden wir Multi-Task-Modelle für die gemeinsame Vorhersage mehrerer Eigenschaften entwickeln. Schließlich werden wir verbesserte hybride Modelle entwickeln, die physikalische Modelle mit MCMs kombinieren, wobei die MCMs zur Vorhersage fundamentaler Paarwechselwirkungen verwendet werden. Darüber hinaus werden wir in Kooperationen innerhalb des SPP 2363 eine Übertragung der MCMs auf die Vorhersage weiterer Eigenschaften, wie chemische Reaktionen und Affinitäten zwischen Liganden und Metallkomplexen, untersuchen. Um dieses Ziel zu erreichen, müssen Werkzeuge für eine interaktive Datenanalyse entwickelt werden, z.B. um zuverlässig molekulare Klassenzugehörigkeiten auf der Grundlage von Mischungsdaten definieren zu können, welche auch ein Verständnis für die ML-Modelle und die Frage, was auf molekularer Ebene für die Beschreibung des Mischungsverhaltens von Bedeutung ist, generieren werden. Dadurch wird Vertrauen in die entwickelten Vorhersagemethoden geschaffen. Darüber hinaus werden wir Werkzeuge zur systematischen Analyse und Erklärung der molekularen Graph Embeddings entwickeln. Wir werden alle entwickelten Methoden und Modelle in Softwaretools implementieren, die wir innerhalb des SPP und darüber hinaus frei verfügbar machen werden.
DFG-Verfahren
Schwerpunktprogramme
