Effizientes Aufzählen der Ergebnisse von Pfadanfragen bei Graphdatenbanken
Zusammenfassung der Projektergebnisse
Hauptzielsetzung des Projekts war die Entwicklung und theoretische Untersuchung von effizienten Algorithmen (inklusive Aufzählalgorithmen) zur Auswertung von Pfadanfragen auf Graphdatenbanken. Des Weiteren waren wir auch an anderen Datenmodellen und entsprechenden Anfragesprachen interessiert. Die Resultate des Projekts können in drei Teilgebiete unterteilt werden. Graphdatenbanken und Pfadanfragen: Bezüglich der Graphdatenbanken lag unser Hauptaugenmerk auf Anfragesprachen, die reguläre Ausdrücke (und Varianten davon) als Hauptelement verwenden. Diesbezüglich haben wir im Detail analysiert, wie sich das bekannte Konzept der "capture groups" (auch Rückreferenzen genannt), wie man es in praktischen Implementierungen von regulären Ausdrücken findet, auf praktisch relevante Klassen von Pfadanfragen übertragen lässt. Außerdem haben wir die klassischen "regular path queries" (die eine Kernfunktionalität sowohl von akademischen als auch kommerziellen Datenbanksystemen beschreiben) im Rahmen der "fine-grained complexity" untersucht. Informationsextraktion und Document Spanners: Document spanners - ein momentanes "hot topic" in der Datenbanktheorie extrahieren Tupel von Intervallen (die als "spans" bezeichnet werden) aus Textdokumenten. Wir haben eine Klasse von document spanners formuliert, die bezüglich ihrer Ausdrucksstärke einen großen Teil der zwar sehr mächtigen, aber algorithmisch schwer zu handhabenden "core spanners" abdecken, aber gleichzeitig bezüglich der Komplexität ihrer Auswerteprobleme viel eher der gutartigen Klasse der regulären spanners gleichen. Außerdem haben wir Algorithmen entworfen, die document spanners direkt auf Dokumenten auswerten (insbesondere aufzählen) können, welche durch "straight-line programs" (SLPs) komprimiert sind - ein grammatikbasiertes Kompressionsschema, das in der theoretischen Literatur äußerst beliebt ist, aber auch viele praktische Anwendungen hat. Die Laufzeit unserer Algorithmen hängt nur linear von der Größe der komprimierten Dokumente ab, die, im besten Fall, exponentiell kleiner sind als die unkomprimierten Daten. Aufgrund der hohen Komprimierbarkeit von textuellen Daten in praktischen Szenarios und aufgrund der Tatsache, dass viele Algorithmen für SLP-Kompression existieren, ist unser Ansatz von praktischer Relevanz. Wir waren außerdem in der Lage unsere Algorithmen auf den dynamischen Fall zu erweitern, wo wir die komprimierten Daten updaten können, ohne sie dafür dekomprimieren zu müssen. Complex Event Processing und Teilsequenz-Anfragen: Die Analyse von Eventströmen, welche zur Laufzeit großer Softwaresysteme generiert werden, ist ein noch junger Bereich der sowohl praktischen als auch theoretischen Forschung im Bereich Datenbanken. Basierend auf klassischen Resultaten der induktiven Inferenz von Patternsprachen nach Angluin haben wir eine Klasse von Teilsequenzanfragen für Eventströme entworfen. Außerdem haben wir einen Algorithmus entwickelt, welcher die gemeinsame Struktur einer endlichen Menge an Eventströmen lernen kann. Diese Arbeit hat zu einer Reihe neuer algorithmischer Herausforderungen im allgemeinen Bereich der Stringalgorithmik geführt, welche wir bereits teilweise lösen konnten.
Projektbezogene Publikationen (Auswahl)
-
Conjunctive Regular Path Queries with String Variables. Proceedings of the 39th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 361-374. ACM.
Schmid, Markus L.
-
Spanner Evaluation over SLP-Compressed Documents. Proceedings of the 40th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 153-165. ACM.
Schmid, Markus L. & Schweikardt, Nicole
-
Conjunctive Regular Path Queries with Capture Groups. ACM Transactions on Database Systems, 47(2), 1-52.
Schmid, Markus L.
-
Discovering event queries from traces: Laying foundations for subsequence-queries with wildcards and gap-size constraints. In 25th International Conference on Database Theory, ICDT 2022, March 29 to April 1, 2022, Edinburgh, UK (Virtual Conference), pages 18:1–18:21, 2022.
Sarah Kleest-Meißner, Rebecca Sattler, Markus L. Schmid, Nicole Schweikardt & Matthias Weidlich
-
Document Spanners - A Brief Overview of Concepts, Results, and Recent Developments. Proceedings of the 41st ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 139-150. ACM.
Schmid, Markus L. & Schweikardt, Nicole
-
Query Evaluation over SLP-Represented Document Databases with Complex Document Editing. Proceedings of the 41st ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 79-89. ACM.
Schmid, Markus L. & Schweikardt, Nicole
-
Subsequences with gap constraints: Complexity bounds for matching and analysis problems. In 33rd International Symposium on Algorithms and Computation, ISAAC 2022, December 19-21, 2022, Seoul, Korea, pages 64:1–64:18, 2022.
Joel D. Day, Maria Kosche, Florin Manea & Markus L. Schmid
-
Discovering multi-dimensional subsequence queries from traces - from theory to prac tice. In Datenbanksysteme für Business, Technologie und Web (BTW 2023), 20. Fachtagung des GI-Fachbereichs ,,Datenbanken und Informationssysteme” (DBIS), 06.-10, März 2023, Dresden, Germany, Proceedings, pages 511–533, 2023.
Sarah Kleest-Meißner, Rebecca Sattler, Markus L. Schmid, Nicole Schweikardt & Matthias Weidlich
-
Fine-Grained Complexity of Regular Path Queries. Logical Methods in Computer Science, Volume 19, Issue 4.
Casel, Katrin & Schmid, Markus L.
-
Refl-Spanners: A Purely Regular Approach to Non-Regular Core Spanners. Logical Methods in Computer Science, Volume 20, Issue 4.
Schmid, Markus L. & Schweikardt, Nicole
