Detailseite
Projekt Druckansicht

TDC 2- Entwickeln von Lenkbaren Datenreinigungsabläufen

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung seit 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 387872445
 
Die Datenbereinigung ist ein entscheidender Schritt bei der Datenintegration, um Datensätze für eine Anwendung oder eine bestimmte Analyseaufgabe nutzbar zu machen. Es gibt verschiedene Arten von Datenbereinigungsalgorithmen. Jeder Datenbereinigungsalgorithmus deckt normalerweise eine Teilmenge (oder eine Kategorie) aller Datenqualitätsprobleme in einem Datensatz ab. Daher müssen mehrere Iterationen verschiedener Reinigungsalgorithmen auf einen Datensatz angewendet werden, bis der Datensatz ausreichend sauber ist. Die Auswahl der Algorithmen in welcher Reihenfolge für einen neuen Datensatz ist eine anspruchsvolle Aufgabe, die normalerweise eine umfassende Datenprofilerstellung erfordert. In der Anfangsphase dieses Projekts haben wir uns mit dem Problem befasst, Arbeitsabläufe zur Datenbereinigung für eine vorhandene Bereinigungsaufgabe vorzuschlagen, indem wir die Bereinigungsanforderungen eines neuen Datensatzes mit zuvor bereinigten Datensätzen vergleichbar gemacht haben. Damit haben wir ein Lernmodell identifiziert, um vorherrschende Arten von Fehlern in einem Datensatz zu beschreiben und Datensatzprofile zu identifizieren, die Informationen über die Verschmutzung eines Datensatzes enthalten. Letztendlich haben wir ganzheitliche Fehlererkennungs- und Korrektursysteme Raha und Baran entwickelt, die mehrere Basisdetektoren/-korrektoren kombinieren und von einer vorherigen Reinigung profitieren. Wir möchten diese Forschung fortsetzen und untersuchen, wie dieser Ansatz genutzt werden kann, um die Datenbereinigung über das Ein-Datensatz-Szenario hinaus zu verbessern. Insbesondere möchten wir unseren Ansatz erweitern, um ganze Datenbanken bereinigen zu können oder die erforderlichen Reinigungsroutinen vorzubereiten, um den notwendigen Reinigungsaufwand während der Anfragezeit zu reduzieren.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung