Detailseite
Projekt Druckansicht

Erstellen und Optimieren von Datenvorbereitungs-Pipelines für Clusteranalysen auf Basis komplexer Datencharakteristika

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung seit 2025
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 556739690
 
In der Praxis stellt die Datenvorbereitung den weitaus größten Aufwand bei der Umsetzung von Datenanalyseprozessen dar. Zudem weisen die in realen Anwendungsfällen verfügbaren Daten komplexe Datencharakteristika auf, was die Umsetzung der Datenvorbereitung weiter erschwert. Werden anwendungsspezifische komplexe Datencharakteristika in der Datenvorbereitung nicht adressiert, führt dies häufig zu ungenauen Analysemodellen, aus denen falsche Rückschlüsse gezogen werden. Viele verwandte Ansätze, z.B. zu AutoML oder Meta-Learning, fokussieren primär auf der Modellbildung, d.h. auf der Auswahl passender Analysealgorithmen. Sie unterstützen daher die Datenvorbereitung nur unzureichend und lösen auch nicht die grundlegende Problematik, dass für die Datenvorbereitung ein großer Aufwand aufgebracht werden muss, um die Daten passgenau für die anwendungsspezifische Zielsetzung der Datenanalyse vorzubereiten. Für jeden Anwendungsfall müssen aus einer Vielzahl an möglichen Datenvorbereitungsoperationen (DVOs), z.B. zum Sampling oder Feature-Engineering, die für die jeweiligen Daten geeigneten DVOs ausgewählt, passgenau konfiguriert und in der richtigen Reihenfolge in einer Datenvorbereitungs-Pipeline (DVP) angewendet werden. Diese Problematik sowie entsprechende Lösungsansätze sollen in diesem Projektvorhaben grundlegend untersucht werden. Dabei steht zunächst die Datenvorbereitung für Clusteranalysen im Vordergrund. Als komplexe Datencharakteristika betrachten wir insbesondere komplexe Formen und Verteilungen der Cluster in Daten, durch die es für Clustering-Algorithmen schwierig wird, die Cluster korrekt zu erkennen. Dabei stellen u.a. Überlappungen von Clustern im Feature-Raum oder ungleichmäßig verteilte Cluster Probleme für Clusteranalysen dar. Zu den relevanten DVOs, die für solche komplexen Datencharakteristika passgenau zu konfigurieren und in einer DVP anzuwenden sind, gehören u.a. das Sampling von Dateninstanzen, Ausreißererkennung sowie verschiedene Techniken zum Feature-Engineering. Primäres Ziel ist die Entwicklung und Evaluation von Methoden, die im Gegensatz zu existierenden Ansätzen nicht die Modellbildung, sondern explizit die Datenvorbereitung unterstützen und für zu analysierende Daten passgenaue DVPs vorschlagen, mit denen die komplexen Datencharakteristika adressiert werden können. Unser methodischer Ansatz besteht darin, Effekte bestimmter DVOs und DVPs auf spezifische Datencharakteristika zu ermitteln und zu bewerten. Darauf aufbauend sollen Erkenntnisse und Wissen hinsichtlich dieser Effekte von DVOs und DVPs in einer zu entwickelnden Fallbasis zusammengetragen werden. Ein darauf aufbauender neuer Ansatz soll dieses strukturierte Wissen aus der Fallbasis nutzen, um für zu analysierende Daten geeignete DVPs vorzuschlagen, mit denen die spezifischen Datencharakteristika dieser Daten effektiv adressiert werden können. Dies soll den Aufwand für den Entwurf von DVPs signifikant reduzieren sowie zu besseren Analyseergebnissen führen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung