Detailseite
Projekt Druckansicht

Metaserve: Eine Plattform für anwendungsorientiertes Data Profiling

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung seit 2025
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 560957958
 
Das Metaserve-Projekt schlägt die Entwicklung eines innovativen Ansatzes zur Extraktion struktureller Metadaten (engl. Data Profiling) vor, der auf einer neuartigen, deklarativen Metadaten-Anfragesprache basiert. Das Data Profiling beschreibt Techniken und Prozesse für die systematische Ableitung impliziter Metadaten aus gegebenen Datensätzen. Dazu zählen Schemabeschreibungen, Datentypen und verschiedene Arten von Datenabhängigkeiten. Strukturelle Metadaten sind wichtig für viele datenintensive Anwendungen, wie beispielsweise Datenintegration, Datenbereinigung, maschinelles Lernen und Abfrageoptimierung. Moderne Algorithmen für das Data Profiling sind allerdings nur schwierig einzusetzen und entdecken dabei alle (also zu viele) minimalen (also oftmals falsche) Metadaten über Laufzeiten von Minuten bis Stunden (also zu langen Suchzeiten). Aus diesem Grund schlagen wir eine neuartige, deklarative Data Profiling Query Language (DPQL) in Kombination mit einer effektiven Data Profiling Engine vor, um sowohl einfache als auch komplexe Metadaten-Strukturen, die die konkreten Bedürfnisse von Anwendungen und Benutzern adressieren, einfacher und schneller zu entdecken. Wir untersuchen dabei insbesondere das Design und die mathematischen Grundlagen für eine Anfragesprache, die die Formulierung konkreter Metadaten-Strukturen erlaubt, wie z.B. Fremdschlüsselbeziehungen, Schema-Normalformverletzungen, Datenreinigungsregeln, zirkuläre Abhängigkeiten oder Feature-Korrelationen. Anschließend entwickeln wir eine umfassende Data Profiling Engine, die reale Data Profiling Anfragen mit bedarfsgerechten Ergebnissen, höherer Leistung und besserer Zugänglichkeit als bestehende Lösungen verarbeiten kann. Metaserve zielt darauf ab, dass Data Profiling für moderne Anwendungen, die von Datenbanksystemen über verschiedene Data-Engineering-Tools bis hin zu Datenanalyse- und Machine-Learning-Workflows reichen, praktisch zugänglicher zu machen. Das Metaserve-Projekt ist ein Teilprojekt des populären Open-Source-Frameworks Metanome und beabsichtigt, in dessen Entwicklung einzufließen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung