Detailseite
Projekt Druckansicht

TMF - Standards und Werkzeuge zur Beurteilung der Datenqualität in Beobachtungsstudien - Bewertung der Datenqualität von Texten

Fachliche Zuordnung Medizininformatik und medizinische Bioinformatik
Förderung Förderung seit 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 538742134
 
Eine große Herausforderung für die Bewertung der Datenqualität in aktuellen Gesundheitsbeobachtungsstudien ist der Umfang und die Komplexität der erhobenen Daten. Es sind zwar mehrere Datenqualitätskonzepte und Tools zur Beschreibung und Bewertung der Datenqualität verfügbar, doch liegt der Schwerpunkt auf numerischen Daten. Bislang fehlen einerseits Standards zur Behandlung der Datenqualität in Textfeldern sowie andererseits Standardmethoden zu deren Messung, obwohl gerade Textfelder sehr anfällig für Datenqualitätsprobleme sind. Das Hauptziel dieses Projekts ist daher, die Grundlage für eine integrierte Datenqualitätsbewertungspipeline für Beobachtungstudien in den Gesundheitswissenschaften zu schaffen, die für häufig verwendete Textarten anwendbar ist (strukturiert: z.B. Diagnosecodes wie ICD-10, ATC Codes; halbstrukturiert: z.B. JSON-Datenexporte; unstrukturiert, z.B. Befundbriefe). Ausgangspunkt ist ein Datenqualitätskonzept für Beobachtungsstudien mit dem dazu erstellten Analysepaket dataquieR in der Programmiersprache R in Kombination mit modernen NLP-Ansätzen. Es werden vier Ziele verfolgt: Erstens, die Anpassung des Datenqualitätskonzeptes hinsichtlich Anforderungen an die Bewertung von Textfeldern. Zweitens, die Erweiterung des Informationsmodells als Grundlage für eine automatisierte Auswertung von Textfeldern. Drittens, die Implementierung und Evaluierung von textbezogenen Datenqualitätsprüfungen im dataquieR R-Paket. Viertens, die Entwicklung angewandter Lernmaterialien. Eine Wichtige Grundlage zur Überarbeitung unseres Datenqualitätskonzeptes ist ein Review anderer Datenqualitätskonzepte mit ihren Bezügen auf Textfelder. Darauf aufbauend werden wir in Anlehnung an bestehende Standards Informationsmodelle entwickeln, um Erwartungen über und Anforderungen an Textfelder maschinenlesbar abzubilden. Dies dient als Grundlage für automatisierte Analysen. Zur Erweiterung der Datenanalyse-Toolbox verwenden wir in erster Linie R und Python. Letzteres ist wichtig, um bestehende mächtige NLP-Bibliotheken einzubinden. Lernmaterialien werden auf einer zentralen Website zur Verfügung gestellt. Für die Entwicklung von Konzepten und Werkzeugen mit unseren Kooperationspartnern werden wir auf bestehende Datenkörper zurückgreifen, darunter Beobachtungsstudien (Study of Health in Pomerania, Dementia Agitation Ontology, and Dementia Forum Texts) und Daten aus der Routineversorgung (z.B. in Kooperation mit der Medizininformatik Initiative). In Zusammenarbeit mit der TMF werden datenschutzrechtliche Aspekte von Textfeldern in Hinblick auf Datenqualitätsanalysen untersucht. Eine Vernetzung mit wichtigen deutschen Netzwerken und gezielte Workshops werden die Verbreitung unserer Ergebnisse unterstützen. Insgesamt wird dieses Projekt die Grundlage für einen effizienteren und transparenteren Umgang mit Datenqualitätsproblemen bei Textfeldern in den Gesundheitswissenschaften verbessern.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Großbritannien, USA
Mitverantwortlich Dr. Johannes Drepper
Kooperationspartnerinnen Clair Blacketer; Dr. Emma Tonkin
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung