Detailseite
GML4Space: Generatives maschinelles Lernen agierend auf chemischen Fragmenträumen
Antragsteller
Professor Dr. Matthias Rarey
Fachliche Zuordnung
Organische Molekülchemie - Synthese, Charakterisierung
Theoretische Chemie: Moleküle, Materialien, Oberflächen
Theoretische Chemie: Moleküle, Materialien, Oberflächen
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 561190157
In der Frühphase der Wirkstoffforschung gibt es verschiedene Methoden zur Identifizierung neuer, kleiner organischer bioaktiver Verbindungen, darunter Ähnlichkeitssuchen anhand molekularer Topologien, von Form und Pharmakophoreigenschaften, molekulares Docking und heute auch Modelle des überwachten, maschinellen Lernens (ML). Traditionell wurde der Suchprozess in großen Molekülkatalogen durchgeführt, entweder experimentell oder computergestützt (Hochdurchsatz- oder Virtuelles Screening). Aufgrund der schieren Größe des chemischen Raums sind neue Ansätze wie fragmentbasiertes und de-novo-Design vielversprechende Alternativen. Hier werden zunächst kleine Fragmente als Binder identifiziert und anschließend zu größeren Molekülen kombiniert oder erweitert. In letzter Zeit hat auch das de-novo-Design mithilfe von generativem ML viel Aufmerksamkeit erhalten. Der Nachteil dieser Ansätze ist, dass die entworfenen Verbindungen in einem zeit- und kostenintensiven Prozess individuell synthetisiert werden müssen. Neben dem ML entstanden in den vergangenen Jahren die Konzepte der kombinatorischen Chemie und der chemischen Fragmenträume. Auf deren Grundlage erstellen Anbieter wie Enamine oder WuXi große Make-on-Demand-Kataloge. Heute enthält Enamine REAL nahezu 50 Milliarden Verbindungen, andere Fragmenträume sogar Billionen und mehr. Da die Räume zur Verarbeitung von Molekül zu Molekül zu groß sind, werden kombinatorische Algorithmen zur effizienten Durchsuchung und Navigation entwickelt. Während Lösungen zur Handhabung chemischer Fragmenträume für viele Suchszenarien existieren, ist die Kombination von Fragmenträumen mit generativem ML noch weitgehend unerforscht. Ziel dieses Projekts ist es, generatives ML von Molekülen und chemische Fragmenträume konzeptionell zu kombinieren. So werden neue Methoden entwickelt, die eine effiziente Anwendung des überwachten ML auf chemische Fragmenträume ermöglichen. In einer ersten Phase werden Modelle des ML in generischen Optimierungsverfahren verwendet, um aktive Moleküle in Fragmenträumen zu identifizieren. Anschließend werden neue Techniken zur Beschreibung von Molekülen aus Fragmenträumen entwickelt. Die Verwendung dieser Deskriptoren stellt sicher, dass alle beschriebenen Verbindungen tatsächlich im Raum enthalten sind und modellieren gleichzeitig sensitive Aspekte der molekularen Ähnlichkeit. Auf diese Weise kann generatives ML direkt auf chemischen Fragmenträumen operieren und nur jene Moleküle erzeugen, die in einem vordefinierten Suchraum wie Enamine REAL enthalten sind. In einer abschließenden Phase werden Techniken des erklärenden ML eingesetzt, um die Bedeutung einzelner Fragmente in Verbindungen bezüglich ihrer Aktivität zu extrahieren und dieses Wissen direkt für die Auswahl optimierter Moleküle zu verwenden. Nach einer sorgfältigen Validierung wird eine Reihe neuer generativer maschineller Lernverfahren entstehen, die direkt in chemischen Fragmenträumen operieren.
DFG-Verfahren
Schwerpunktprogramme
