Detailseite
Lifespan AI - Projekt D2: Von Längsschnitt- zu lebensüberspannenden Vorhersagen
Antragstellerinnen
Dr. Claudia Börnhorst; Professorin Dr.-Ing. Tanja Schultz
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 459360854
Chronische Krankheiten wie kardiovaskuläre Erkrankungen oder Demenz entstehen typischerweise über lange Zeitspannen im Lebenslauf. Die Untersuchung von frühen Einflüssen auf solche Erkrankungen sowie die Vorhersage von Krankheiten lange vor Krankheitsausbruch stellen die epidemiologische Forschung vor große Herausforderungen. Da es nahezu keine Studie gibt, die die gesamte Lebensspanne abdeckt, bietet die gemeinsame Auswertung mehrerer Kohorten, die verschiedene Lebensphasen abdecken, den vielversprechendsten Ansatz, um gesundheitliche Spätfolgen in realistischen Zeiträumen erforschen zu können. Aktuell gibt es jedoch keine statistische Methode, die es ermöglicht, das komplexe Zusammenspiel verschiedener Faktoren basierend auf den gepoolten Daten mehrerer Kohorten adäquat zu modellieren und vorherzusagen. Diese Forschungslücke soll im Rahmen dieses Projektes geschlossen werden, indem „Lifespan AI“ Methoden entwickelt werden, die individuelle Krankheitsverläufe über lange Zeiträume vorhersagen können. Generalisierte gemischte Modelle (GLMM) bieten ein flexibles, statistisches Tool zur Modellierung von longitudinalen und geclusterten Daten. Die restriktiven parametrischen Annahmen stellen allerdings einen großen Nachteil dar. Flexible nicht-lineare Methoden des maschinellen Lernens wie Random Forests (RF) und tiefe neuronale Netze (DNN) weisen diese Nachteile nicht auf, nehmen aber die Daten implizit als unabhängig und identisch verteilt an. Dies führt in einem Längsschnitt-Setting zu ineffizienten Schätzungen. Um die Stärken der jeweiligen Methoden zu bündeln und Schwächen zu beheben, werden in diesem Projekt sogenannte Mixed-Effects-Machine-Learning (ME-ML) Ansätze vorangetrieben. Dabei wird die Struktur der zufälligen Effekte der GLMM in RF sowie NN integriert. Wir werden ME-ML Ansätze erweitern, um individuelle gesundheitliche Verläufe basierend auf den gepoolten Daten verschiedener Kohorten vorhersagen zu können und die Zeitspanne abschätzen, die basierend auf den entwickelten Methoden valide über den eigentlichen Beobachtungszeitraum hinaus vorhergesagt werden kann. Zudem untersuchen wir Ansätze zur Harmonisierung von Daten verschiedener Kohorten und wie sich die Designeigenschaften von gepoolten Kohortendaten auf die Identifizierbarkeit und Performance von Standardmethoden für Vorhersagen und auf kausale Modellselektion im Lebenslauf auswirken. Zusammengefasst werden theoretische und praktische Untersuchungen in Bezug auf Datenharmonisierung und die Designeigenschaften von gepoolten Kohortenstudien durch die methodische Entwicklung von ME-ML Ansätzen (WP2)komplementiert. Abschließend wird die Vorhersagekraft der neu entwickelten Methoden mit denen von Standardmethoden verglichen. Zudem werden alle Verfahren unter Berücksichtigung verschiedener Kriterien bewertet. Zur Illustration und Validierung der verschiedenen Ansätze werden Daten von verschiedenen Kohortenstudien verwendet.
DFG-Verfahren
Forschungsgruppen