Detailseite
Projekt Druckansicht

Rechencluster

Förderung Förderung in 2012
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 214121481
 
Erstellungsjahr 2016

Zusammenfassung der Projektergebnisse

Der Rechencluster ermöglicht dem Fachgebiet und seinen Partnern, Grundlagenforschung im Bereich massiv paralleler und skalierbarer Datenverarbeitung zu betreiben. Dabei werden unter anderem im Rahmen der beiden Forschungsprojekte Stratosphere (DFG) und Berlin Big Data Center (BMWF) unter Verwendung dieser Hardware neuartige Open-source Softwaresysteme entwickelt, optimiert und evaluiert. Stratosphere befasst sich als einzige DFG-Forschergruppe in Deutschland mit Grundlagenforschung im Bereich Big Data. Dabei wurde ein neuartiges, Datenbank-inspiriertes System zur hochparallelen Analyse von großen Datenmengen mit geringer Latenz entwickelt. Stratosphere erlaubt die Ausführung von komplexen Datenanalyseprogrammen, welche Datenkorrelationen, Iterationen sowie komplexe benutzerdefinierte Funktionen enthalten können. Die deklarative Spezifikation von Datenflussprogrammen geschieht dabei in einem erweiterten Map/Reduce-Modell. Derartige Programme werden von Stratosphere automatisch parallelisiert, optimiert und dann massiv-parallel auf einer Infrastructure-as-a-Service Plattform oder großen Rechenclustern ausgeführt. Das Rechencluster war und ist in diesem Forschungsvorhaben von zentraler Bedeutung für die Entwicklung der Ausführungsengine von Stratosphere: Nephele. Das Cluster erlaubt diese Engine sowie prototypische Optimierungen dieser mit verschiedenen Analyseprogrammen und Testdaten unter realistischen Bedingungen zu testen und die erreichte Effizienz zu evaluieren. Dabei können dank des Clusters die umgesetzten Ideen auch immer wieder mit alternativen Lösungen verglichen werden. Das Cluster ermöglicht es also erst die massiv-parallele Anfrageverarbeitung von ungeordneten Datenmengen im Detail zu untersuchen und gezielt für die Ausführung in Shared-Nothing Umgebungen zu optimieren. Das angegliederte Forschungsprojekt Stratosphere II vertieft die Forschung von Stratosphere mit einem Fokus auf komplexere Datenanalyse. Dies beinhaltet unter anderem zustandsbehaftete, iterative Datenanalyse auf großen Mengen von "Data in Motion" unter Low-Latency Anforderungen. Diese Forschung erfordert neue Verfahren und Techniken sowohl auf System- als auch auf algorithmischer Ebene. Auch bei der Optimierung der Verarbeitung großer Datenströme unter Berücksichtigung von Qualityof-Service Constraints nimmt das Rechencluster wieder eine zentrale Rolle ein. Die Forschungsthemen des Berlin Big Data Center (BBDC) sind skalierbare Datenanalysesysteme und Maschinelles Lernen, sowie deren Kombination in einem deklarativen, skalierbaren Datenanalysesystem. Das BBDC organisiert sich dabei in drei Forschungsschwerpunkte: A. Maschinelles Lernen, B. skalierbare Datenverarbeitung und C. die Integration der Technologien des Maschinellen Lernens und der skalierbaren Systeme in ein deklaratives, skalierbares Datenanalysesystem. Das BBDC untersucht also ähnliche Forschungsfragen wie Stratosphere, erweitert die Stratosphere-Forschung aber um den Anwendungsschwerpunkt Maschinelles Lernen, sowohl zur Analyse sehr großer Datensätze mittels der Verfahren des Unüberwachten Lernens als auch zur Ermöglichung der verschiedenen Verfahren des Supervised Learnings mit sehr großen Trainings- und Modelldaten. Auch in der Forschung des BBDCs ermöglicht das Rechencluster dabei erst die Entwicklung und die Evaluierung der neu-entwickelten Ansätze um die aufwendigen numerischen Verfahren des Maschinellen Lernens skalierbar auf große Datenmengen praktisch anwendbar zu machen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung