Detailseite
TMF - Standards und Werkzeuge zur Beurteilung der Datenqualität in Beobachtungsstudien - Bewertung der Datenqualität von Texten
Antragstellerinnen / Antragsteller
Professor Dr. Carsten Oliver Schmidt; Professorin Dr.-Ing. Kristina Yordanova
Fachliche Zuordnung
Medizininformatik und medizinische Bioinformatik
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 538742134
Eine große Herausforderung für die Bewertung der Datenqualität in aktuellen Gesundheitsbeobachtungsstudien ist der Umfang und die Komplexität der erhobenen Daten. Es sind zwar mehrere Datenqualitätskonzepte und Tools zur Beschreibung und Bewertung der Datenqualität verfügbar, doch liegt der Schwerpunkt auf numerischen Daten. Bislang fehlen einerseits Standards zur Behandlung der Datenqualität in Textfeldern sowie andererseits Standardmethoden zu deren Messung, obwohl gerade Textfelder sehr anfällig für Datenqualitätsprobleme sind. Das Hauptziel dieses Projekts ist daher, die Grundlage für eine integrierte Datenqualitätsbewertungspipeline für Beobachtungstudien in den Gesundheitswissenschaften zu schaffen, die für häufig verwendete Textarten anwendbar ist (strukturiert: z.B. Diagnosecodes wie ICD-10, ATC Codes; halbstrukturiert: z.B. JSON-Datenexporte; unstrukturiert, z.B. Befundbriefe). Ausgangspunkt ist ein Datenqualitätskonzept für Beobachtungsstudien mit dem dazu erstellten Analysepaket dataquieR in der Programmiersprache R in Kombination mit modernen NLP-Ansätzen. Es werden vier Ziele verfolgt: Erstens, die Anpassung des Datenqualitätskonzeptes hinsichtlich Anforderungen an die Bewertung von Textfeldern. Zweitens, die Erweiterung des Informationsmodells als Grundlage für eine automatisierte Auswertung von Textfeldern. Drittens, die Implementierung und Evaluierung von textbezogenen Datenqualitätsprüfungen im dataquieR R-Paket. Viertens, die Entwicklung angewandter Lernmaterialien. Eine Wichtige Grundlage zur Überarbeitung unseres Datenqualitätskonzeptes ist ein Review anderer Datenqualitätskonzepte mit ihren Bezügen auf Textfelder. Darauf aufbauend werden wir in Anlehnung an bestehende Standards Informationsmodelle entwickeln, um Erwartungen über und Anforderungen an Textfelder maschinenlesbar abzubilden. Dies dient als Grundlage für automatisierte Analysen. Zur Erweiterung der Datenanalyse-Toolbox verwenden wir in erster Linie R und Python. Letzteres ist wichtig, um bestehende mächtige NLP-Bibliotheken einzubinden. Lernmaterialien werden auf einer zentralen Website zur Verfügung gestellt. Für die Entwicklung von Konzepten und Werkzeugen mit unseren Kooperationspartnern werden wir auf bestehende Datenkörper zurückgreifen, darunter Beobachtungsstudien (Study of Health in Pomerania, Dementia Agitation Ontology, and Dementia Forum Texts) und Daten aus der Routineversorgung (z.B. in Kooperation mit der Medizininformatik Initiative). In Zusammenarbeit mit der TMF werden datenschutzrechtliche Aspekte von Textfeldern in Hinblick auf Datenqualitätsanalysen untersucht. Eine Vernetzung mit wichtigen deutschen Netzwerken und gezielte Workshops werden die Verbreitung unserer Ergebnisse unterstützen. Insgesamt wird dieses Projekt die Grundlage für einen effizienteren und transparenteren Umgang mit Datenqualitätsproblemen bei Textfeldern in den Gesundheitswissenschaften verbessern.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Großbritannien, USA
Mitverantwortlich
Dr. Johannes Drepper
Kooperationspartnerinnen
Clair Blacketer; Dr. Emma Tonkin