Detailseite
Projekt Druckansicht

Datenqualität bei textuellen, Nutzer-generierten Inhalten

Fachliche Zuordnung Management und Marketing
Förderung Förderung seit 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 494840328
 
Mit zunehmender Digitalisierung gewinnen textuelle Nutzer-generierte Inhalte (NGI) – z.B. Kundenrezensionen, Inhalte von Wikis sowie weitere Beiträge in sozialen Medien – für Wissenschaft und Praxis sehr stark an Relevanz. Der Datenqualität (DQ) von textuellen NGI, und insbesondere ihrer automatisierten Messung und Verbesserung, kommt dabei eine zentrale Bedeutung zu. So sind Analysen großer Mengen an textuellen NGI mithilfe maschineller Lernverfahren und daraus resultierende Ergebnisse und Entscheidungen nur dann valide und wertstiftend, wenn die zugrunde gelegten Inputdaten qualitätsgesichert sind. Jedoch existieren – im Gegensatz zum Bereich der strukturierten Daten – für unstrukturierte, textuelle NGI bisher keine vergleichbaren Ansätze zur automatisierten Messung und Verbesserung der DQ. Auch die zur Analyse verwendeten maschinellen Lernverfahren berücksichtigen derzeit nur sehr bedingt, dass textuelle NGI schlechte DQ aufweisen können. Sie operieren unter der Annahme einer Elimination der DQ-Defekte im Rahmen der Datenvorverarbeitung („Preprocessing“) oder gehen grundsätzlich von qualitativ hochwertigen Daten aus, was in realen Umgebungen nicht der Fall ist.Zusammengefasst werden im geplanten Vorhaben DQNGI folgende Forschungsfragen adressiert:1) Wie kann die DQ bei textuellen NGI automatisiert gemessen und verbessert werden?2) Wie lassen sich DQ-annotierte textuelle NGI bei maschinellen Lernverfahren methodisch fundiert verarbeiten?Hierzu umfasst DQNGI zwei Teilprojekte T1 und T2, wobei als Untersuchungsmethodik eine analytische, mathematische Modellierung sowie eine experimentelle Evaluation mit Realweltdaten angestrebt wird.In T1 werden neue Ansätze zur Messung und Verbesserung der zentralen Datenwert-orientierten DQ-Dimensionen Korrektheit/Aktualität, Vollständigkeit, Konsistenz und Identität von textuellen NGI entwickelt. Als Resultate entstehen (u.a. hinsichtlich Validität und Reliabilität) evaluierte Ansätze zur automatisierten Messung und Verbesserung der DQ (inkl. öffentlich zugänglicher implementierter Software) sowie Datensätze, die textuelle NGI mit gemessener bzw. verbesserter DQ annotieren.In T2 werden neue Ansätze für maschinelle Lernverfahren entwickelt, die neben den NGI als Inputdaten auch die gemessenen bzw. verbesserten DQ-(Metrik-)Werte als Annotation methodisch verarbeiten können. Dabei werden Neuronale Netze und Random Forests als Methodentypen fokussiert, die zur Analyse von textuellen NGI weit verbreitet sind. Als Resultate entstehen neue Ansätze für maschinelle Lernverfahren (inkl. öffentlich zugänglicher implementierter Software), die DQ-annotierte Inputdaten verarbeiten, sowie Erkenntnisse sowohl zur (veränderten) Ergebnisgüte und -robustheit dieser Verfahren, als auch hinsichtlich deren Validität und Reliabilität.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung