Detailseite
Erhaltung logischer und funktionaler Abhängigkeiten in synthetischen klinischen Datensätzen
Antragsteller
Professor Dr. Olaf Wolkenhauer
Fachliche Zuordnung
Medizininformatik und medizinische Bioinformatik
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 576429337
Die Generierung synthetischer Daten hat in verschiedenen Bereichen, einschließlich der medizinischen Forschung, an Bedeutung gewonnen. Während viele fortschrittliche generative Modelle qualitativ hochwertige synthetische Daten erzeugen können, wurde ihre Wirksamkeit bei der Erhaltung der Abhängigkeiten zwischen verschiedenen Attributen innerhalb der Daten nur begrenzt untersucht. Abhängigkeiten zwischen Attributen sind in Tabellendaten üblich. Z. B. sind Attribute wie Geschlecht und Schwangerschaft logisch abhängig, da ein Mann nicht schwanger sein kann. Modernste generative Modelle pflegen diese Beziehungen nicht adäquat und gehen von Merkmalsunabhängigkeit aus. Ferner werden funktionale Abhängigkeiten, die für die Normalisierung von Datenbanken und die allgemeine Datenqualität unerlässlich sind, bei der Generierung synthetischer Daten häufig übersehen. In einer Machbarkeitsstudie haben wir eine Funktion eingeführt, um logische Abhängigkeiten aus einem bestimmten Satz von Attributen zu extrahieren. Wir führten auch eine vergleichende Analyse von sieben generativen Modellen anhand von fünf öffentlich zugänglichen Datensätzen durch. Diese Analyse ergab, dass einige Modelle zwar logische Abhängigkeiten beibehalten können, aber keines die funktionalen Abhängigkeiten, die üblicherweise in realen Datensätzen zu finden sind, erfolgreich beibehält. Unser Projekt zielt darauf ab, Methoden zu entwickeln, die logische und funktionale Abhängigkeiten in synthetischen Tabellendaten effektiv erhalten. Das erste Ziel unserer Forschung ist es, Abhängigkeiten zwischen Attributen zu modellieren. Wir planen, einen Algorithmus zu entwickeln, der die top k logischen Abhängigkeiten aus einem tabellarischen Datensatz identifiziert. Bei diesem Ansatz werden die Beziehungen zwischen Attributen quantifiziert, indem die relevantesten Abhängigkeiten ausgewählt und eine Bewertung basierend auf logischen Assoziationen maximiert wird. Das zweite Ziel konzentriert sich auf die Etablierung einer hierarchischen Methode zur Merkmalsgenerierung, die logische und funktionale Abhängigkeiten zwischen Attributen in synthetischen Daten beibehält. Dabei handelt es sich um einen zweistufigen Prozess: Zuerst werden unabhängige Features generiert, dann werden abhängige Features auf der Grundlage von Beziehungen kartiert, die aus realen Daten abgeleitet werden. Wir werden die Wirksamkeit dieser Algorithmen mit klinischen Patientendaten validieren, als auch mit simulierten Datensätzen, um ihre Robustheit über verschiedene Daten hinweg zu bewerten. Unser Projekt zielt darauf ab, zuverlässigere und nutzbare synthetische Daten zu schaffen, indem wir den Schwerpunkt auf die Beibehaltung logischer und funktionaler Abhängigkeiten legen. Dieser Fokus ist besonders wichtig im klinischen Bereich, wo eine genaue Darstellung von Abhängigkeiten die Wirksamkeit von Vorhersagemodellen und die Qualität von Entscheidungen erheblich beeinflussen kann.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Indien
Kooperationspartner
Professor Dr.-Ing. Saptarshi Bej
