Detailseite
Kausale Inferenz durch maschinelles Lernen: Nutzung multidimensionaler omics-Daten für ein besseres Verständnis komplexer Krankheiten
Antragsteller
Dr. Pascal Schlosser
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 530592017
Das Proteom und das Metabolom sind eng miteinander verbunden. Proteine erfüllen viele verschiedene biologische Funktionen, von enzymatischer Aktivität bis hin zum molekularen Transport, und häufig sind Metaboliten als Zwischen-, Endprodukte oder Substrate beteiligt. Metaboliten sind von zentraler Bedeutung für die Energieerzeugung und die Homöostase. Technische Fortschritte bei der Quantifizierung von molekularen Merkmalen wie Proteinen und Metaboliten haben die Messung breiter Panels in großen Bevölkerungs- und Patientenstudien ermöglicht. Darüber hinaus hat die Einrichtung moderner Biobanken, in denen genetische und klinische Informationen zusammengeführt werden, Phänotyp-übergreifende genetische Screens in einem noch nie dagewesenen Umfang ermöglicht. Während solche Studien geeignet sind, statistische Assoziationen zu identifizieren, ist die integrierte Analyse der zugrunde liegenden, korrelierten molekularen Pfade und korrelierten Gesundheitszuständen eine offene statistische Herausforderung. Hier schlage ich vor, mit Hilfe von maschinellem Lernen Methoden zu entwickeln und anzuwenden, um Assoziationsmuster von molekularen Merkmalen und Gesundheitszuständen in einer datengesteuerten Netzwerkanalyse zu untersuchen. Wir werden uns darauf konzentrieren, die Assoziation zwischen Gruppen von intermediären molekularen Phänotypen und Gruppen verwandter Krankheiten zu clustern und hervorzuheben. Die Algorithmen werden so konzipiert, dass sie die Vorteile starker genetischer Instrumente für molekulare Merkmale nutzen und es ermöglichen, kausale Schlüsse vom molekularen Merkmal zur Krankheit zu ziehen. Die entwickelte Methodik wird Phänotyp-unabhängig und skalierbar sein und gleichzeitig Limitationen der derzeitigen genetischen Methodik adressieren sowie den Ansatz auf neue Datentypen ausdehnen: Einen oft ignorierten Teil der menschlichen DNA, das mitochondriale Genom, und molekulare Zwischenstufen, die auf der Ebene des Zelltyps und nicht des Zielgewebes aufgelöst werden. Die primären Anwendungen werden Phänotyp-übergreifend sein, gefolgt von der detaillierten Untersuchung der Verbindung zwischen Mitochondrien und Metaboliten und einem Schwerpunkt auf Nierenfunktionsparametern. Dies ist dadurch motiviert, dass die Mitochondrien eine zentrale Rolle bei der Energieerzeugung spielen, die für die Beseitigung von Abfallstoffen aus dem Blut erforderlich ist, und kann die Ausweitung des Ansatzes auf andere Organe und Gewebe veranschaulichen. Alle Algorithmen werden in leicht zugänglichen Softwarepaketen zur Verfügung gestellt, um eine breite Anwendung zu ermöglichen. Insgesamt werden wir ein Konzept entwickeln, mit dem die genetischen Grundlagen tausender komplexer Merkmale und Krankheiten anhand molekularer Phänotypen hypothesenfrei und unvoreingenommen untersucht werden können, was letztlich die Auswahl potenzieller therapeutischer Ziele verbessern und die Priorisierung experimenteller Folgestudien erleichtern kann.
DFG-Verfahren
Emmy Noether-Nachwuchsgruppen