Detailseite
Verarbeitung großer Datenmengen in Ontologien mittels Abstraktion und Verfeinerung
Antragstellerin
Professorin Dr. Birte Glimm
Fachliche Zuordnung
Theoretische Informatik
Förderung
Förderung von 2015 bis 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 266736200
Ontologie-basierter Datenbankzugriff (OBDZ) ist ein zunehmend populäres Paradigma im Bereich der logik-basierten Wissensrepräsentation und in Informationssystemen. Unter einer Ontologie versteht man dabei eine Kombination aus einer TBox mit anwendungsspezifischem Hintergrundwissen und einer ABox mit Fakten über Elemente der Anwendungsdomäne. Das Hintergrundwissen dient der Anreicherung und Integration der meist großen, unvollständigen und heterogenen Datenbestände mittels maschinellem Schlussfolgern. Zahlreiche Daten aus Wikipedia liegen z.B. in maschinenlesbarer Form vor und stellen, angereichert durch das Hintergrundwissen aus einer Ontologie, eine wichtige Informationsquelle für viele Anwendungen dar. Ein typischer Ansatz zum maschinellen Schlussfolgern in diesem Kontext ist die Materialisierung, d.h. alle ableitbaren Konsequenzen werden explizit zu den Daten hinzugefügt, bevor Anfragen an das System gestellt werden können. Für große ABoxen kann die Materialisierung allerdings mehrere Stunden dauern.Wir möchten in der beantragten Projektverlängerung einen neuen Ansatz für die Materialisierung (weiter-)entwickeln, in dem die Materialisierung nicht direkt auf den (meist großen) Eingabedaten berechnet wird, sondern auf einer kleineren "Abstraktion" der Daten. Für die Abstraktion definieren wir Kriterien unter denen Individuen der ABox als äquivalent betrachtet werden. Solche nicht unterscheidbaren Individuen werden dann durch ein repräsentatives Individuum dargestellt. Wenn die TBox im Vergleich zur ABox klein ist (was im OBDZ Szenario typischerweise der Fall ist), kann die Materialisierung der kleinen Abstraktion effizient im Hauptspeicher berechnet werden. Durch das Ableiten neuer Konsequenzen können bisher nicht unterscheidbare Individuen unterscheidbar werden. Um dies zu berücksichtigen, wird die initiale Abstraktion in einem iterativen Prozess bis zu einem Fixpunkt verfeinert. Die bisher entwickelten Arbeiten sollen in diesem Projekt in mehrere Richtungen ausgebaut werden: 1) Die Ansätze zur Behandlung von Disjunktionen sollen (bei Erhalt von Vollständigkeit und Korrektheit) für ausdrucksstärkere Sprachen ausgebaut werden. 2) Relevante Teile der Abstraktion, die verfeinert werden müssen, sollen identifiziert und inkrementell bearbeitet werden, um die Kommunikation mit dem Datenbank Backend zu minimieren. 3) Basierend auf der inkrementellen Verfeinerung sollen Verfahren für die inkrementelle Behandlung von Änderungen an der Ontologie entwickelt werden. 4) Der Abstraktionsansatz zeigt vielversprechende Verbesserungsmöglichkeiten für das Ontologie Debugging durch Erklärungen insb. für große, aus Text gelernte ABoxen, indem Erklärungen direkt auf der Abstraktion berechnet werden. Das vorgeschlagene Projekt unterstützt die effektive und effiziente Nutzung der immer größer werdenden Datenmengen indem bestehende Technologien aus dem Bereich der Datenbanken mit ontologie-basierten Verfahren auf neue Art und Weise kombiniert werden.
DFG-Verfahren
Sachbeihilfen