Detailseite
Maschinelle Lernmethoden für die Chemische Informatik II
Antragsteller
Professor Dr. Klaus-Robert Müller
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2007 bis 2012
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 51114943
Das Anwendungsfeld der chemisch-biologischen Forschung stellt besondere Anforderungen an kernbasierte statistische Prädiktionverfahren: Zuverlässigkeit, Robustheit und Umgang mit Nichtstationarität. Im Bereich der Zuverlässigkeitsabschätzung von Vorhersagen konnten wir mit Gauß’schen Prozessen (GPs) ein leistungsstarkes Vorhersageverfahren in die Chemoinformatik einführen. Die Fehlerbalken der GPs lieferten vielfach hilfreiche Aussagen; gleichzeitig zeigte sich, dass derzeitige Verfahren zur Risikobewertung nicht allgemein für alle Endpunkte und Datensätze anwendbar sind und hier weiterer Forschungsbedarf besteht. Im Bereich der Robustheit konnten wir über eine KernPCA zur Ausreißererkennung und eine large-scale Implementierung heteroskedastischer GPs Messungenauigkeiten und Messfehler chemischer Versuchsreihen kompensieren. Basierend auf Ranking-Verfahren wurde ein neuer, besonders robuster Algorithmus für das Anwendungsfeld des virtuellen screenings entwickelt. Zur Nichtstationarität wurden zwei konzeptuelle Beiträge erarbeitet. Die beiden praktischen Studien hierzu illustrieren die Auswirkungen von Nichtstationarität auf das Prädiktionsverhalten. Neben der Entwicklung angepasster Vorhersageinstrumente hat das Forschungsprojekt gezeigt, dass maschinelle Lernverfahren über die reine Vorhersage hinaus zur Erweiterung des chemischen Verständnisses und zur Ableitung neuer chemischer Hypothesen beitragen können. Basierend auf lokalen Gradienten konnten einflussreiche molekulare Eigenschaften in Bezug auf Toxizität identifiziert und deren Relevanz für einzelne Verbindungen oder Verbindungsklassen erstmals quantifiziert werden. Ein neu entwickeltes Verfahren zur Visualisierung entscheidungsrelevanter chemischer Verbindungen bietet darüber hinaus dem Anwender die Möglichkeit, Vorhersagen besser nachzuvollziehen und Messfehler effizienter zu eliminieren. Zusammenfassend konnten wir im Berichtszeitraum Gauß’sche Prozesse in aller Breite als einen neuen Ansatz für QSAR-Studien etablieren, sowie erfolgversprechende neue Techniken im Bereich der Robustheit und Nichtstationarität entwickeln und über unsere neuen Erklärungverfahren erstmals die Anwendung von nicht-linearen maschinellen Lernverfahren als Optimierungshilfen in der Chemoinformatik ermöglichen.
DFG-Verfahren
Sachbeihilfen