Detailseite
Ensemble Learning Methoden zur Generierung synthetischer Gesundheitsdaten bei gleichzeitig hohem Grad an Datenschutz und Nutzbarkeit.
Antragstellerin
Dr. Lisa Pilgram
Fachliche Zuordnung
Medizininformatik und medizinische Bioinformatik
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 530282197
Der Zugang zu und das Teilen von Gesundheitsdaten hat großes Potenzial für translationale Medizin im Sinne von sekundärer Datennutzung, Innovation, Reproduzierbarkeit und Transparenz. Vor dem Hintergrund einer zunehmenden Verfügbarkeit und Verknüpfbarkeit von Daten, aber auch von Beispielen an erfolgreichen Angriffen werden Technologien zum Schutz der Privatsphäre (Privacy Enhancing Technologies, PETs) immer relevanter. Das Generieren synthetischer Daten (Synthetic Data Generation, SDG) durch künstliche Intelligenz stellt eine moderne PET dar, bei der statistische Eigenschaften der realen Daten erhalten bleiben. Aktuelle Forschungsarbeiten zeigen, dass synthetische Daten als Ersatz für reale Daten dienen können. Der tatsächliche Datenschutz und die Nutzbarkeit hängen jedoch stark vom zugrundeliegenden Datensatz und der gewählten Methode ab. Es gibt danach wohl keine überlegene SDG Methode, sondern eher Anwendungsspezifitäten. Ensembles, hingegen, können eine Lösung für diese Herausforderung darstellen. Durch die synergistische Nutzung verschiedener Methoden bietet dieser Ansatz das Potenzial, den Trade-Off zwischen Privatsphäre und Nutzbarkeit einzelner Methoden zu überwinden. Das kann einen bedeutenden Vorteil insbesondere bei der Arbeit mit komplexen Daten aus elektronischen Gesundheitsakten oder aus verschiedenen Quellen haben. Vor diesem Hintergrund möchte ich gemeinsam mit dem Electronic Health Information Laboratory um Dr. K. El Emam (Ottawa, Kanada) SDG als vielversprechende moderne Technologie unter Einbezug von Nutzbarkeit und Datenschutz optimieren. Wir planen, Datensätze mittels Ensembles aus Generative Adversarial Networks, sequentieller SDG und Bayes'schen Neuronal Networks zu synthetisieren. Um die Multidimensionalität von Nutzbarkeit zu erfassen, werden wir breite (Hellinger-Distanz) und enge (Reproduzierbarkeit von Ergebnissen) Metriken kombinieren. Datenschutz werden wir in einem breiten Kontext evaluieren. Das bedeutet neben der Messung von Datenschutzmetriken (Disclosure Risks) auch der Einbezug von Ethikkomissionen und deren bioethischen Verständnisses von synthetischen Daten. Hierfür planen wir bei der Jahrestagung der Canadian Association of Research Ethics Boards eine Mixed-Methods-Studie durchführen. Mittels Fragebögen und seriellen Fokusgruppen soll ein präzises bioethisches Verständnis entwickelt werden. Der ganzheitliche Ansatz des Projektes garantiert einen Einsatz von Ensembles zur optimierten SDG unter Einbezug tatsächlicher Datennutzbarkeit und des bioethischen Verständnisses. Das Projekt führt so zu einer zuverlässigen SDG Methode, die unabhängig von zugrundeliegendem Datensatz konsistente Ergebnisse liefert. Dies wiederum ermöglicht es Data Manager:innen ohne tiefergreifende Expertise, SDG als PET im Alltag anzuwenden.
DFG-Verfahren
WBP Stipendium
Internationaler Bezug
Kanada
Gastgeber
Professor Khaled El Emam, Ph.D.