Detailseite
SFB 1404: FONDA – Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten
Fachliche Zuordnung
Informatik, System- und Elektrotechnik
Biologie
Geowissenschaften
Materialwissenschaft und Werkstofftechnik
Medizin
Physik
Biologie
Geowissenschaften
Materialwissenschaft und Werkstofftechnik
Medizin
Physik
Förderung
Förderung seit 2020
Webseite
Zur Homepage
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 414984028
Entdeckungen in den Naturwissenschaften basieren zunehmend auf der computergestützten Analyse großer Datensätze, die von komplexen Datenanalyseworkflows (DAWs) auf einer verteilten Infrastruktur durchgeführt werden. Die meisten Forschungsarbeiten zu DAWs konzentrieren sich die Minimierung der Laufzeit auf einer bestimmten Infrastruktur, was zu Lösungen führt, die nur schwer zu warten und zu erstellen sind. In vielen Forschungsprojekten ist der entscheidende Faktor aber nicht die Laufzeit einer Analyse, sondern deren Entwicklungszeit. Der SFB FONDA erforscht daher neue Architekturen, Sprachen und Algorithmen, um die menschliche Produktivität bei der Entwicklung, Wartung oder Wiederverwendung von DAWs zu erhöhen. In der ersten Förderperiode fokussierte sich FONDA dabei auf drei spezifische Eigenschaften von DAWs, die in direktem Zusammenhang mit Produktivität stehen: Portabilität, Anpassbarkeit und Zuverlässigkeit. FONDA hat viel beachtete Ergebnisse in diesen Bereichen erzielt, wie z.B. verbesserte Portabilität durch flexible Schnittstellen zwischen Infrastrukturkomponenten, verbesserte Anpassbarkeit durch intelligentes Scheduling und verbesserte Zuverlässigkeit durch „Contract-Driven“ DAW-Entwicklung. In der zweiten Phase wird FONDA drei Einschränkungen aus Phase I aufheben und sich die daraus ergebenden Fragestellungen in jeweils einem Forschungsschwerpunkt erforschen. Erstens lösen wir uns von der Annahme, dass DAWs in einem einzigen Rechenzentrum ausgeführt werden, in dem alle notwendigen Daten vorliegen. Wir untersuchen stattdessen verteilte DAWs, deren Teilworkflows in verschiedenen Rechenzentren laufen und dort lokal vorhandene Daten einbeziehen. Zweitens erweitern wir unsere Ausrichtung in Hinblick auf den Lebenszyklus von DAWs mit einer neuen Research Area, in der Verbesserungen der Benutzerfreundlichkeit von DAW-Systemen erforscht werden. Drittens betrachten wir nicht mehr nur einzelne Workflows, sondern auch deren Evolution und Komposition, um die technische Nachhaltigkeit zu verbessern. Da die menschliche Produktivität in der Datenanalyse auch zunehmend durch hohe Energiekosten bedroht wird, werden wir auch Techniken zur Verbesserung der ökologischen Nachhaltigkeit erforschen. Neben den wissenschaftlichen Erfolgen konnte die erste Phase von FONDA auch bereits mehrere langfristige Entwicklungen anstoßen. Mit der Einrichtung des neuen HPC@HU Services hatte unser SFB einen nachhaltigen strukturellen Einfluss auf die Sprecheruniversität. Die Anerkennung der Bedeutung unseres Forschungsthemas spiegelt sich in zahlreichen Neuberufungen in der Region wider, die eine passgenaue Erweiterung unserer PI-Gruppe ermöglichen. Wir sind stolz auf den außergewöhnlich hohen Anteil an Frauen unter unseren Promovierenden (38%) und freuen uns auf das geplante Buch zu "Workflows for Large-Scale Scientific Data Analysis", für das mehr als 100 Autorinnen und Autoren aus 15 Ländern Beiträge zugesagt haben und das im Sommer 2024 als Open Access erscheinen wird.
DFG-Verfahren
Sonderforschungsbereiche
Laufende Projekte
- A01 - Validierung verteilter DAWs mittels Ereignisanfragen (Teilprojektleiterinnen / Teilprojektleiter Schweikardt, Nicole ; Weidlich, Matthias )
- A02 - Energie-Optimierung von Workflows in der Bioinformatik (Teilprojektleiter Leser, Ulf ; Reinert, Knut )
- A03 - Verbesserung der Robustheit rechnergestützter Workflows in der Materialwissenschaft (Teilprojektleiterinnen / Teilprojektleiter Draxl, Claudia ; Grunske, Lars ; Pavone, Pasquale )
- A05 - DAWs für effizientes Lernen anhand begrenzt annotierter Daten in der biomedizi-nischen Bildgebung (Teilprojektleiterinnen Kainmüller, Dagmar ; Ritter, Kerstin )
- A07 - Semantische Erzeugung und Validierung interagierender Workflows in der computergestützten Materialwissenschaft (Teilprojektleiterinnen / Teilprojektleiter Grunske, Lars ; Hickel, Tilmann ; Lamprecht, Anna-Lena )
- B01 - CO2 effizientes Scheduling verteilter Workflows mit Unsicherheiten (Teilprojektleiter Kao, Odej ; Meyerhenke, Henning )
- B04 - Proaktive Netzwerk, IO und Speichersteuerung für Workflows auf geteilten Infrastrukturen (Teilprojektleiter Reinefeld, Alexander ; Scheuermann, Björn ; Schintke, Florian )
- B05 - Transparente Multi-Center Datenanalyseworkflows für die Erdbeobachtung (Teilprojektleiter Hostert, Patrick ; Leser, Ulf )
- B06 - Ganzheitliche Energieprofile für Datenanalyse-Workflows (Teilprojektleiter Böhm, Matthias ; Grunske, Lars ; Rabl, Tilmann )
- B07 - Effiziente Ausführung von DAWs zur Vorhersage von Waldsterblichkeit unter Verwendung inkrementeller Daten (Teilprojektleiter Herold, Martin ; Hostert, Patrick ; Kao, Odej )
- C01 - Kollaborative Entwicklung von explorativen DAWs im Neuroimaging (Teilprojektleiterinnen / Teilprojektleiter Deniz, Ph.D., Fatma ; Kehr, Birte ; Weidlich, Matthias )
- C02 - Frühphase des Workflow-Entwurfs: Von kollaborativer wissenschaftlicher Problemlösung zu DAW-Spezifikationen (Teilprojektleiterinnen / Teilprojektleiter Lamprecht, Anna-Lena ; Mendling, Jan ; Weidlich, Matthias )
- C03 - Nutzerzentrierter Entwurf für Workflowsprachen (Teilprojektleiter Grunske, Lars ; Kosch, Thomas )
- MGKS02 - Integriertes Graduiertenkolleg (Teilprojektleiter Grunske, Lars ; Mendling, Jan ; Reinert, Knut )
- S01 - Testsysteme und Repositorien (Teilprojektleiter Dreyer, Malte ; Kao, Odej ; Leser, Ulf )
- Z - Zentrales Administrationsprojekt (Teilprojektleiter Leser, Ulf )
Abgeschlossene Projekte
- B02 - Portierbare und adaptive Datenanalyseworkflows für echtzeitfähiges 3D Mikroskopie (Teilprojektleiter Eisert, Peter ; Koch, Christoph Tobias )
- B03 - Debugging verteilter Datenanalyseworkflows (Teilprojektleiter Kehrer, Timo ; Markl, Volker )
Antragstellende Institution
Humboldt-Universität zu Berlin
Beteiligte Hochschule
Charité - Universitätsmedizin Berlin; Freie Universität Berlin; Technische Universität Berlin; Technische Universität Darmstadt; Universität Potsdam
Beteiligte Institution
Bundesanstalt für Materialforschung und -prüfung (BAM); Hasso-Plattner-Institut für Digital Engineering gGmbH; Helmholtz-Zentrum Potsdam - Deutsches GeoForschungsZentrum (GFZ); Max-Delbrück-Centrum für Molekulare Medizin (MDC); Zuse-Institut Berlin (ZIB)
Sprecher
Professor Dr. Ulf Leser