Detailseite
Quantenchemische Moleküldarstellungen für Maschinelles Lernen
Antragsteller
Professor Dr. Stefan Grimme
Fachliche Zuordnung
Theoretische Chemie: Elektronenstruktur, Dynamik, Simulation
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 497190956
Das Projekt zielt darauf ab, neue molekulare Darstellungen für maschinelles Lernen (ML) basierend auf effizienter Tight-Binding-(TB)-Quantenchemie („Quantenmerkmale“) zu entwickeln und diese Darstellungen in verschiedenen neuen Netzwerkarchitekturen anzuwenden. Die Modelle werden verwendet, um chemisch relevante Eigenschaften von pharmazeutischen Molekülen vorherzusagen, wie Konformations- und Tautomerisierungsenergien, pKa-Werte, Löslichkeit oder Verteilungskoeffizienten. Es ist ein Projekt einer weltweit führenden Gruppe für theoretische Chemie zur Entwicklung und Anwendung vereinfachter quantenchemischer (QC) Methoden mit starker Unterstützung durch das Wissenschafts- und Technologieunternehmen Merck mit ausgewiesener Kompetenz bei der Nutzung umfangreicher chemischer Daten. Zur Berechnung der Quanteneigenschaften wird ein neuer Modell-Hamiltonian (ShellQ) in einem erweiterten AO-Basissatz (vDZP) entwickelt, welcher verschiedene Moleküleigenschaften (Atomladung, Schalenbesetzung, Bindungsordnung, Dipolmoment, Polarisierbarkeit) aus einer Referenz-DFT-Rechnung genau reproduzieren kann und immer noch allgemein auf das gesamte Periodensystem einschließlich metallorganischer Systeme anwendbar ist. ShellQ berücksichtigt zum ersten Mal in einem semiempirischen Kontext grundlegende physikalische Effekte wie Orbitalkontraktion und elektronische Polarisation und wird mit etablierten Kontinuumssolvationstheorien kombiniert, um solvatisierte Moleküle zu modellieren. Weitere Schwerpunkte des Antrags sind die Optimierung der neuronalen Netzarchitektur auf Basis der ShellQ-Merkmale, die Entwicklung von Feature Repräsentationen, die automatisierte Generierung molekularer Trainingsdatensätze und modernstes Multitask-Learning inspiriert von Bilderkennungsalgorithmen. Im Allgemeinen verfolgen wir eine Delta-ML-Strategie, bei der ein Korrekturterm zu einer schnellen QC-Berechnung (typischerweise die etablierten GFN-xTB- oder GFN-FF-Methoden) basierend auf den verfügbaren Merkmalen vom Netzwerk berechnet wird. Der gesamte Ansatz soll Effizienz und Genauigkeit für einen potenziell breiten Bereich chemischer Eigenschaften bieten.
DFG-Verfahren
Schwerpunktprogramme