Ensemble Learning Methoden zur Generierung synthetischer Gesundheitsdaten bei gleichzeitig hohem Grad an Datenschutz und Nutzbarkeit.

Antragstellerin Dr. Lisa Pilgram

Fachliche Zuordnung Medizininformatik und medizinische Bioinformatik

Förderung Förderung von 2023 bis 2025

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 530282197

Der Zugang zu und das Teilen von Gesundheitsdaten hat großes Potenzial für translationale Medizin im Sinne von sekundärer Datennutzung, Innovation, Reproduzierbarkeit und Transparenz. Vor dem Hintergrund einer zunehmenden Verfügbarkeit und Verknüpfbarkeit von Daten, aber auch von Beispielen an erfolgreichen Angriffen werden Technologien zum Schutz der Privatsphäre (Privacy Enhancing Technologies, PETs) immer relevanter. Das Generieren synthetischer Daten (Synthetic Data Generation, SDG) durch künstliche Intelligenz stellt eine moderne PET dar, bei der statistische Eigenschaften der realen Daten erhalten bleiben. Aktuelle Forschungsarbeiten zeigen, dass synthetische Daten als Ersatz für reale Daten dienen können. Der tatsächliche Datenschutz und die Nutzbarkeit hängen jedoch stark vom zugrundeliegenden Datensatz und der gewählten Methode ab. Es gibt danach wohl keine überlegene SDG Methode, sondern eher Anwendungsspezifitäten. Ensembles, hingegen, können eine Lösung für diese Herausforderung darstellen. Durch die synergistische Nutzung verschiedener Methoden bietet dieser Ansatz das Potenzial, den Trade-Off zwischen Privatsphäre und Nutzbarkeit einzelner Methoden zu überwinden. Das kann einen bedeutenden Vorteil insbesondere bei der Arbeit mit komplexen Daten aus elektronischen Gesundheitsakten oder aus verschiedenen Quellen haben. Vor diesem Hintergrund möchte ich gemeinsam mit dem Electronic Health Information Laboratory um Dr. K. El Emam (Ottawa, Kanada) SDG als vielversprechende moderne Technologie unter Einbezug von Nutzbarkeit und Datenschutz optimieren. Wir planen, Datensätze mittels Ensembles aus Generative Adversarial Networks, sequentieller SDG und Bayes'schen Neuronal Networks zu synthetisieren. Um die Multidimensionalität von Nutzbarkeit zu erfassen, werden wir breite (Hellinger-Distanz) und enge (Reproduzierbarkeit von Ergebnissen) Metriken kombinieren. Datenschutz werden wir in einem breiten Kontext evaluieren. Das bedeutet neben der Messung von Datenschutzmetriken (Disclosure Risks) auch der Einbezug von Ethikkomissionen und deren bioethischen Verständnisses von synthetischen Daten. Hierfür planen wir bei der Jahrestagung der Canadian Association of Research Ethics Boards eine Mixed-Methods-Studie durchführen. Mittels Fragebögen und seriellen Fokusgruppen soll ein präzises bioethisches Verständnis entwickelt werden. Der ganzheitliche Ansatz des Projektes garantiert einen Einsatz von Ensembles zur optimierten SDG unter Einbezug tatsächlicher Datennutzbarkeit und des bioethischen Verständnisses. Das Projekt führt so zu einer zuverlässigen SDG Methode, die unabhängig von zugrundeliegendem Datensatz konsistente Ergebnisse liefert. Dies wiederum ermöglicht es Data Manager:innen ohne tiefergreifende Expertise, SDG als PET im Alltag anzuwenden.

DFG-Verfahren Stipendium

Internationaler Bezug Kanada

Gastgeber Professor Khaled El Emam, Ph.D.

Servicenavigation

Hauptnavigation

Ensemble Learning Methoden zur Generierung synthetischer Gesundheitsdaten bei gleichzeitig hohem Grad an Datenschutz und Nutzbarkeit.

Zusatzinformationen

Servicenavigation

Hauptnavigation

Ensemble Learning Methoden zur Generierung synthetischer Gesundheitsdaten bei gleichzeitig hohem Grad an Datenschutz und Nutzbarkeit.

Zusatzinformationen

Textvergrößerung und Kontrastanpassung