Detailseite
Projekt Druckansicht

Datenqualität bei textuellen, Nutzer-generierten Inhalten

Fachliche Zuordnung Operations Management und BWL-spezifische Wirtschaftsinformatik
Förderung Förderung seit 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 494840328
 
Mit zunehmender Digitalisierung nehmen Menge und Relevanz von User Generated Content (UGC) wie Online-Reviews, Wiki-Artikel und Beiträge in öffentlichen sozialen Medien aber auch in Unternehmen kontinuierlich zu. Dabei ist die Datenqualität (DQ) von textuellem UGC – insbesondere die datenwertorientierten DQ-Dimensionen wie Korrektheit und Aktualität – von sehr hoher Relevanz. Die Analyse großer Mengen von textuellem UGC mit Methoden des maschinellen Lernens (ML) und die resultierenden Ergebnisse sind nur dann valide und wertstiftend, wenn die Qualität der zugrundeliegenden Daten gesichert ist. Bestehende Methoden zur Messung und Verbesserung der DQ von UGC weisen zentrale Limitationen auf. Im Vorprojekt DQNGI haben wir die Bedeutung und das Potenzial von Events, die DQ-Defekte verursachen, für die Entwicklung von Methoden zur Messung und Verbesserung der DQ erkannt. Dieses Potenzial gilt es nun systematisch zu heben und entsprechende Ansätze zu entwickeln. Darüber hinaus wird heute bei der Verwendung moderner ML-Methoden in der Regel per se von einer hohen Datenqualität ausgegangen, was zu einer geringeren Performance und Robustheit für UGC mit DQ-Defekten führt. Im Vorprojekt DQNGI haben wir erste vielversprechende Methoden für die methodisch fundierte Verarbeitung von DQ-annotierten Inputdaten durch ML-Modelle entwickelt. Diese sind jedoch – gerade auch für moderne ML-Modelle (z.B. Transformer-Modelle) –sowohl in Bezug auf die Propagation als auch auf das Training noch erheblich weiterzuentwickeln. Zusammenfassend konzentriert sich das Fortsetzungsprojekt DQUGC daher auf folgende Forschungsfragen: 1) Wie können Events, die DQ-Defekte in textuellen UGC verursachen, konzeptualisiert und allgemein identifiziert werden, um Event-basierte Ansätze zur Messung und Verbesserung von DQ zu ermöglichen? 2) Wie kann DQ-annotierter textueller UGC methodisch fundiert in modernen ML-Modellen (z.B. Transformer-Modelle) verarbeitet werden? Dazu umfasst DQUGC zwei Teilprojekte S1 und S2, wobei forschungsmethodisch eine analytische, mathematische Modellierung sowie eine experimentelle Evaluation auf Basis von Realweltdaten angestrebt werden. S1 befasst sich mit der Konzeptualisierung und Identifikation von Events, die DQ-Defekte in UGC verursachen, sowie mit der Event-basierten Bewertung und Verbesserung von DQ. S1 führt zu einer Konzeptualisierung von Events, die DQ-Mängel verursachen, sowie zu neuen Ansätzen für die automatisierte Identifizierung von DQ-bezogenen Events in textuellen UGC. Darüber hinaus werden Ansätze für eine Event-basierte Bewertung und Verbesserung von DQ entwickelt, implementiert und evaluiert. S2 beschäftigt sich mit der Frage, wie UGC mit DQ-Annotationen in modernen ML-Modellen methodisch verarbeitet werden kann. S2 liefert neue Ansätze für ML-Modelle, die DQ-annotierte Daten im Rahmen von Propagation und Training verarbeiten, sowie Erkenntnisse zur Validität, Zuverlässigkeit, (verbesserten) Performance und Robustheit der Ergebnisse.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung