Detailseite
Mehr als nur Prädiktion: Statistische Inferenz mit maschinellem Lernen
Antragsteller
Professor Dr. Marvin Wright
Fachliche Zuordnung
Medizininformatik und medizinische Bioinformatik
Förderung
Förderung seit 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 437611051
Im Zeitalter der digitalen Epidemiologie stehen aufgrund moderner Technologien gigantische Datenmengen zur Verfügung, die über den Gesundheitszustand der Bevölkerung Auskunft geben. Genetische Daten, Daten zu Mobilität und Verhalten sowie elektronische Gesundheitsdaten ermöglichen eine umfangreiche und kontinuierliche Abbildung von Gesundheitsverhalten und Krankheitsverläufen. Die Komplexität und die Menge dieser Daten stellt eine Herausforderung für die statistische Modellierung dar. Maschinelle Lernverfahren zeichnen sich dadurch aus, präzise Vorhersagen und Entscheidungen auf der Grundlage solcher komplexen Datenansammlungen zu treffen. Diese Methoden lernen selbständig in unstrukturierten Daten Muster erkennen, ohne dass Regeln oder Berechnungsvorschriften im Vorhinein festgelegt werden müssen. Ein Hauptanliegen der Epidemiologie ist es jedoch, die Determinanten von Erkrankungen zu analysieren, also die zugrundeliegenden Krankheitsmechanismen zu erklären. Hier stoßen die derzeitigen maschinellen Lernverfahren an ihre Grenzen. Um mit maschinellen Lernverfahren auch logische Schlussfolgerungen sowie kausale Interpretationen zu ermöglichen und nicht nur Vorhersagen, werden in diesem Forschungsvorhaben statistische Inferenzmethoden für maschinelle Lernverfahren entwickelt.Um diese Herausforderung erfolgreich anzugehen, fokussieren wir uns auf vier wichtige Teilaspekte, die jeweils in einem Arbeitspaket abgebildet werden. Im ersten Arbeitspaket entwickeln wir einen modellunabhängigen Test auf bedingte Unabhängigkeit und Methoden zur Adjustierung von Confoundern beim maschinellen Lernen. Vor dem Hintergrund des Erfolgs von Deep Learning leiten wir im zweiten Arbeitspaket statistische Eigenschaften von neuronalen Netzen her, erweitern Methoden, die zur Bildanalyse oder Verarbeitung natürlicher Sprache entwickelt wurden, auf epidemiologische Forschungsfragen und implementieren ein Softwarepaket zur statistischen Inferenz mit neuronalen Netzen. Im dritten Arbeitspaket entwickeln wir, aufbauend auf dem ersten Arbeitspaket, Methoden des maschinellen Lernens, um Assoziationen zwischen genetischen Varianten und Krankheiten zu erkennen sowie Methoden zur Adjustierung von Populationsstratifikation. Im vierten Arbeitspaket entwickeln wir Methoden zur statistischen Inferenz bei konkurrierenden Risiken sowie zur Schätzung zeitspezifischer Effekte und erweitern eine Methode zur Schätzung heterogener Behandlungseffekte auf Überlebenszeitdaten.Zusammengefasst entwickeln wir Methoden des maschinellen Lernens, um zugrundeliegende Krankheitsmechanismen zu verstehen. Besonderes Augenmerk legen wir auf statistische Inferenz und epidemiologische Probleme wie Confounding, hochdimensionale Daten und Überlebenszeitanalysen. Das Projekt ist methodischer Natur, konzentriert sich jedoch stark auf Anwendungen. Alle Methoden werden als Softwarepakete öffentlich verfügbar gemacht, die von Praktikern und angewandten Forschern direkt verwendet werden können.
DFG-Verfahren
Emmy Noether-Nachwuchsgruppen