Rechencluster

Förderung Förderung in 2012

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 214121481

Erstellungsjahr 2016

Zusammenfassung der Projektergebnisse

Der Rechencluster ermöglicht dem Fachgebiet und seinen Partnern, Grundlagenforschung im Bereich massiv paralleler und skalierbarer Datenverarbeitung zu betreiben. Dabei werden unter anderem im Rahmen der beiden Forschungsprojekte Stratosphere (DFG) und Berlin Big Data Center (BMWF) unter Verwendung dieser Hardware neuartige Open-source Softwaresysteme entwickelt, optimiert und evaluiert. Stratosphere befasst sich als einzige DFG-Forschergruppe in Deutschland mit Grundlagenforschung im Bereich Big Data. Dabei wurde ein neuartiges, Datenbank-inspiriertes System zur hochparallelen Analyse von großen Datenmengen mit geringer Latenz entwickelt. Stratosphere erlaubt die Ausführung von komplexen Datenanalyseprogrammen, welche Datenkorrelationen, Iterationen sowie komplexe benutzerdefinierte Funktionen enthalten können. Die deklarative Spezifikation von Datenflussprogrammen geschieht dabei in einem erweiterten Map/Reduce-Modell. Derartige Programme werden von Stratosphere automatisch parallelisiert, optimiert und dann massiv-parallel auf einer Infrastructure-as-a-Service Plattform oder großen Rechenclustern ausgeführt. Das Rechencluster war und ist in diesem Forschungsvorhaben von zentraler Bedeutung für die Entwicklung der Ausführungsengine von Stratosphere: Nephele. Das Cluster erlaubt diese Engine sowie prototypische Optimierungen dieser mit verschiedenen Analyseprogrammen und Testdaten unter realistischen Bedingungen zu testen und die erreichte Effizienz zu evaluieren. Dabei können dank des Clusters die umgesetzten Ideen auch immer wieder mit alternativen Lösungen verglichen werden. Das Cluster ermöglicht es also erst die massiv-parallele Anfrageverarbeitung von ungeordneten Datenmengen im Detail zu untersuchen und gezielt für die Ausführung in Shared-Nothing Umgebungen zu optimieren. Das angegliederte Forschungsprojekt Stratosphere II vertieft die Forschung von Stratosphere mit einem Fokus auf komplexere Datenanalyse. Dies beinhaltet unter anderem zustandsbehaftete, iterative Datenanalyse auf großen Mengen von "Data in Motion" unter Low-Latency Anforderungen. Diese Forschung erfordert neue Verfahren und Techniken sowohl auf System- als auch auf algorithmischer Ebene. Auch bei der Optimierung der Verarbeitung großer Datenströme unter Berücksichtigung von Qualityof-Service Constraints nimmt das Rechencluster wieder eine zentrale Rolle ein. Die Forschungsthemen des Berlin Big Data Center (BBDC) sind skalierbare Datenanalysesysteme und Maschinelles Lernen, sowie deren Kombination in einem deklarativen, skalierbaren Datenanalysesystem. Das BBDC organisiert sich dabei in drei Forschungsschwerpunkte: A. Maschinelles Lernen, B. skalierbare Datenverarbeitung und C. die Integration der Technologien des Maschinellen Lernens und der skalierbaren Systeme in ein deklaratives, skalierbares Datenanalysesystem. Das BBDC untersucht also ähnliche Forschungsfragen wie Stratosphere, erweitert die Stratosphere-Forschung aber um den Anwendungsschwerpunkt Maschinelles Lernen, sowohl zur Analyse sehr großer Datensätze mittels der Verfahren des Unüberwachten Lernens als auch zur Ermöglichung der verschiedenen Verfahren des Supervised Learnings mit sehr großen Trainings- und Modelldaten. Auch in der Forschung des BBDCs ermöglicht das Rechencluster dabei erst die Entwicklung und die Evaluierung der neu-entwickelten Ansätze um die aufwendigen numerischen Verfahren des Maschinellen Lernens skalierbar auf große Datenmengen praktisch anwendbar zu machen.

Projektbezogene Publikationen (Auswahl)

Exploiting Dynamic Resource Allocation for Efficient Parallel Data Processing in the Cloud. Parallel and Distributed Systems, IEEE Transactions on. IEEE Press, 985-997. 2011
Warneke, D. & Kao, O.
IEEE 13th International Conference on High Performance Switching and Routing (HPSR)
Koerner, Marc & Kao, Odej
Massively-Parallel Stream Processing under QoS Constraints with Nephele. Proceedings of the 21st International Symposium on High-Performance Parallel and Distributed Computing (HPDC) 2012 ACM, pp. 271-282
Lohrmann, Björn; Warneke, Daniel & Kao, Odej
Adaptive Online Compression in Clouds - Making Informed Decisions in Virtual Machine Environments. Journal of Grid Computing, Springer, 2013
Hovestadt, Matthias; Kao, Odej; Kliem, Andreas & Warneke, Daniel
Ephemeral Materialization Points in Stratosphere Data Management on the Cloud. Advances in Parallel Computing, Journal, 163 - 181. 2013
Hovestadt, Matthias; Kao, Odej; Kliem, Andreas & Warneke, Daniel
Nephele Streaming: Stream Processing Under QoS Constraints at Scale. Journal of Cluster Computing, Springer, 2013
Lohrmann, Björn; Warneke, Daniel & Kao, Odej
VLDB Journal 2014
Alexandrov, Alexander; Bergmann, Rico; Ewen, Stephan; Freytag, Johann-Christoph; Hueske, Fabian; Heise, Arvid; Kao, Odej; Leich, Marcus; Leser, Ulf; Markl, Volker; Naumann, Felix; Peters, Mathias; Rheinländer, Astrid; Sax, Matthias J.; Schelter, Sebastian; Höger, Mareike; Tzoumas, Kostas & Warneke, Daniel
Elastic Stream Processing with Latency Guarantees. ICDCS 2015
Lohrmann, Bjorn; Janacik, Peter & Kao, Odej
ET Networks Journal. Institution of Engineering and Technology. 2015
Stanik, Alexander; Koerner, Marc & Kao, Odej
Implicit Parallelism through Deep Language Embedding. SIGMOD 2015
Alexandrov, Alexander; Kunft, Andreas; Katsifodimos, Asterios; Schüler, Felix; Thamsen, Lauritz; Kao, Odej; Herb, Tobias & Markl, Volker

Servicenavigation

Hauptnavigation

Rechencluster

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Rechencluster

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung