Detailseite
Projekt Druckansicht

BigSIoT: Big Data Management für das Semantic Internet of Things

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung von 2019 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 422053062
 
Erstellungsjahr 2023

Zusammenfassung der Projektergebnisse

Ziel des Projekts war es, die verteilte Datenspeicherung und -verarbeitung im Semantic Web und lnternet-of-Things (loT)-Umgebungen zu untersuchen. Wir erwarten in loT-Umgebungen eine große Heterogenität zwischen und in allen Komponenten, die trotzdem miteinander interagieren müssen. Durch die Verwendung eines Semantic-Web-DBMS kann die Interoperabilität verbessert werden, da es schemalose Datenquellen verarbeiten kann. Wir haben das DBMS LUPOSDATE3000 in Kotlin implementiert, um nur eine einzige Codebasis für mehrere Ziele zu kompilieren, wie die Java Virtual Machine für hohe Leistung und Javascript für die vollständige Ausführung von LUPOSDATE3000 im Browser. Es soll prinzipiell möglich sein, LUPOSDATE3000 auf jedem Gerät und Betriebssystem auszuführen. Weiterhin ist LUPOSDATE3000 für verteilte Umgebungen und die einfache Erweiterung konzipiert worden. Wir haben eine lokale Strategie entwickelt, um mehrere Partitionierungsstrategien gleichzeitig zu verwenden, sodass der Optimierer zur Laufzeit mehr Optionen hat, um die beste Partitionierung für eine bestimmte Anfrage auszuwählen. Diese Optionen können die Vorteile von Merge-Joins neben der standardmäßigen sortierten Eingabe weiter steigern. Darüber hinaus entfällt dadurch der sonst notwendige Partitionierungsthread mit zeitaufwändigen Sperren. Wir haben einen Netzwerksimulator namens SIMORA entwickelt, der es der Anwendung ermöglicht, auf Routing-Protokollinformationen zuzugreifen. Mit diesem Simulator kann die Anwendung verbesserte Kommunikationsstrategien anwenden, um den gesamten Netzwerkverkehr zu reduzieren. Unser DBMS nutzt die vom Routing-Protokoll verwalteten Topologieinformationen, um die Joinreihenfolge so zu optimieren, dass der Pfad der Daten innerhalb des Netzwerks reduziert wird. Wir haben ein neues Benchmark-Szenario vorgeschlagen, da die Benchmarks nach dem Stand der Technik ihre Daten gleichzeitig an eine DBMS-lnstanz senden, statt an eine verteilte Umgebung. Diese neue verteilte Einfügung von Daten ermöglicht es der Datenbank, die Daten in ihrer natürlichen Instanz zu belassen, ohne dass zu Beginn viel Datenverkehr entsteht. Wir haben einige Experimente durchgeführt, um zu zeigen, dass unterschiedliche Datenverteilungsschemata für unterschiedliche Arten von Anfragen geeignet sind. Neben Standardoptimierungstechniken haben wir einen maschinellen Lernansatz entwickelt, um die Joinreihenfolge von SPARQL-Anfragen zu optimieren, die typischerweise aus einer beträchtlichen Anzahl von Joins bestehen. In unserer vorgeschlagenen Lösung skaliert der Speicherverbrauch quadratisch mit der Anzahl der Joins pro Anfrage. Zusätzlich konnten wir die Kosten des Netzwerkverkehrs in der Belohnungsfunktion nutzen, um den Netzwerkverkehr zu minimieren.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung