TMF - Standards und Werkzeuge zur Beurteilung der Datenqualität in Beobachtungsstudien - Bewertung der Datenqualität von Texten

Antragstellerinnen / Antragsteller Professor Dr. Carsten Oliver Schmidt; Professorin Dr.-Ing. Kristina Yordanova

Fachliche Zuordnung Medizininformatik und medizinische Bioinformatik

Förderung Förderung seit 2024

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 538742134

Projektbeschreibung

Eine große Herausforderung für die Bewertung der Datenqualität in aktuellen Gesundheitsbeobachtungsstudien ist der Umfang und die Komplexität der erhobenen Daten. Es sind zwar mehrere Datenqualitätskonzepte und Tools zur Beschreibung und Bewertung der Datenqualität verfügbar, doch liegt der Schwerpunkt auf numerischen Daten. Bislang fehlen einerseits Standards zur Behandlung der Datenqualität in Textfeldern sowie andererseits Standardmethoden zu deren Messung, obwohl gerade Textfelder sehr anfällig für Datenqualitätsprobleme sind. Das Hauptziel dieses Projekts ist daher, die Grundlage für eine integrierte Datenqualitätsbewertungspipeline für Beobachtungstudien in den Gesundheitswissenschaften zu schaffen, die für häufig verwendete Textarten anwendbar ist (strukturiert: z.B. Diagnosecodes wie ICD-10, ATC Codes; halbstrukturiert: z.B. JSON-Datenexporte; unstrukturiert, z.B. Befundbriefe). Ausgangspunkt ist ein Datenqualitätskonzept für Beobachtungsstudien mit dem dazu erstellten Analysepaket dataquieR in der Programmiersprache R in Kombination mit modernen NLP-Ansätzen. Es werden vier Ziele verfolgt: Erstens, die Anpassung des Datenqualitätskonzeptes hinsichtlich Anforderungen an die Bewertung von Textfeldern. Zweitens, die Erweiterung des Informationsmodells als Grundlage für eine automatisierte Auswertung von Textfeldern. Drittens, die Implementierung und Evaluierung von textbezogenen Datenqualitätsprüfungen im dataquieR R-Paket. Viertens, die Entwicklung angewandter Lernmaterialien. Eine Wichtige Grundlage zur Überarbeitung unseres Datenqualitätskonzeptes ist ein Review anderer Datenqualitätskonzepte mit ihren Bezügen auf Textfelder. Darauf aufbauend werden wir in Anlehnung an bestehende Standards Informationsmodelle entwickeln, um Erwartungen über und Anforderungen an Textfelder maschinenlesbar abzubilden. Dies dient als Grundlage für automatisierte Analysen. Zur Erweiterung der Datenanalyse-Toolbox verwenden wir in erster Linie R und Python. Letzteres ist wichtig, um bestehende mächtige NLP-Bibliotheken einzubinden. Lernmaterialien werden auf einer zentralen Website zur Verfügung gestellt. Für die Entwicklung von Konzepten und Werkzeugen mit unseren Kooperationspartnern werden wir auf bestehende Datenkörper zurückgreifen, darunter Beobachtungsstudien (Study of Health in Pomerania, Dementia Agitation Ontology, and Dementia Forum Texts) und Daten aus der Routineversorgung (z.B. in Kooperation mit der Medizininformatik Initiative). In Zusammenarbeit mit der TMF werden datenschutzrechtliche Aspekte von Textfeldern in Hinblick auf Datenqualitätsanalysen untersucht. Eine Vernetzung mit wichtigen deutschen Netzwerken und gezielte Workshops werden die Verbreitung unserer Ergebnisse unterstützen. Insgesamt wird dieses Projekt die Grundlage für einen effizienteren und transparenteren Umgang mit Datenqualitätsproblemen bei Textfeldern in den Gesundheitswissenschaften verbessern.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Großbritannien, USA

Mitverantwortlich Dr. Johannes Drepper

Kooperationspartnerinnen Clair Blacketer; Dr. Emma Tonkin

Servicenavigation

Hauptnavigation

TMF - Standards und Werkzeuge zur Beurteilung der Datenqualität in Beobachtungsstudien - Bewertung der Datenqualität von Texten

Zusatzinformationen

Servicenavigation

Hauptnavigation

TMF - Standards und Werkzeuge zur Beurteilung der Datenqualität in Beobachtungsstudien - Bewertung der Datenqualität von Texten

Zusatzinformationen

Textvergrößerung und Kontrastanpassung