MIDAS: Generierung großer und heterogener Testdaten zur Erkennung und Eliminierung von Duplikaten

Antragsteller Professor Dr. Fabian Panse

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik

Förderung Förderung seit 2022

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 495170629

Projektbeschreibung

Das Erkennen und Beseitigen von Duplikaten sind wichtige Aufgaben im Datenmanagement. Da sich die Anforderungen an ein solches Management aufgrund des zunehmenden Volumens, der Volatilität und der Verschiedenartigkeit der Daten zusehends ändern, ändern sich dementsprechend auch die Anforderungen an Duplikaterkennungs und -eliminierungs Algorithmen. Während sich die Forschung bereits intensiv mit der Anpassung dieser Algorithmen an die sich ändernden Gegebenheiten beschäftigt, sind existierende Testdatengeneratoren immer noch für kleine - meist relationale - Datensätze ausgelegt, so dass sie heutigen Anforderungen nicht mehr genügen. Da die Evaluation solcher Algorithmen jedoch ein wichtiger Bestandteil von Forschung und Praxis ist, sind neue Methoden zur Testdatengenerierung unabdingbar. In diesem Projekt wird ein neuer Ansatz zur Testdatengenerierung entwickelt und implementiert, der die Erstellung großer Testdatensätze mit komplexen Datenschemata unter Verwendung unterschiedlicher Datenmodelle und mit realistischen Fehlermustern, wie sie z.B. durch Kopiervorgänge und veraltete Werte entstehen, ermöglicht. Darüber hinaus werden wir ein Konzept zur automatischen Vorkonfiguration entwickeln und implementieren, das die Anwender dabei unterstützt, die Parametereinstellungen des resultierenden Generierungssystems an ihren jeweiligen Anwendungsfall anzupassen, um so eine effiziente und effektive Nutzung auch für unerfahrene Nutzer zu ermöglichen. Die wichtigsten Forschungsherausforderungen dieses Projekts sind: (i) das Profiling von nicht-relationalen und temporalen Daten, (ii) die effiziente Generierung von realistischen Datenhistorien zur Simulation von Kopierprozessen und veralteten Werten, (iii) die automatische und individuell anpassbare Berechnung von Parametereinstellungen (einschließlich einer anforderungsgesteuerten Transformation von Datenschemata) und (iv) die skalierbare Injektion realistischer Datenfehler und Fehlermuster in bestehende Datensätze.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Australien

Kooperationspartner Professor Dr. Peter Christen

Mitverantwortliche Professorin Dr.-Ing. Meike Klettke; Professor Dr. Felix Naumann

Servicenavigation

Hauptnavigation

MIDAS: Generierung großer und heterogener Testdaten zur Erkennung und Eliminierung von Duplikaten

Zusatzinformationen

Servicenavigation

Hauptnavigation

MIDAS: Generierung großer und heterogener Testdaten zur Erkennung und Eliminierung von Duplikaten

Zusatzinformationen

Textvergrößerung und Kontrastanpassung