Detailseite
Schnelle Fehlererholungsstrategien für viele kleine Datenobjekte in einem verteilten Speichersystem Akronym: FastRecovery
Antragsteller
Professor Dr. Michael Schöttner
Fachliche Zuordnung
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung
Förderung von 2015 bis 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 269648469
Immer häufiger müssen Anwendungen Milliarden von kleinen Datenobjekten verarbeiten, beispielsweise bei interaktiven sozialen Netzwerken. Hierbei sind die Datenzugriffszeiten von Festplatten und Solid State Drives oft zu langsam, weshalb versucht wird möglichst viele Daten im Arbeitsspeicher zu halten. Aufgrund des großen Datenvolumens genügt hierbei ein einzelner Rechner nicht, weshalb die Arbeitsspeicher von unter Umständen vieler Knoten aggregiert werden müssen. Ein prominentes Beispiel ist das Unternehmen Facebook, welches mehr als 1.000 memcached Server einsetzt, um ca. 75% aller Daten permanent im RAM zu halten, da die Datenbanken im Hintergrund zu langsam sind.Offensichtlich sind hierbei Knoten- und Stromausfälle problematisch, da dadurch alle Daten im Arbeitsspeicher verloren sind und es Stunden dauern kann, um große Datenmengen wieder aus einer Datenbank oder einem Dateisystem in die verteilten Arbeitsspeicher zu laden. Hier setzt das beantragte Projekt an, in dem Konzepte für eine schnelle Wiederherstellung von verteilten Arbeitsspeichern entworfen, implementiert und evaluiert werden sollen. Hierbei liegt der Fokus auf einem Schlüssel-Wert-Datenmodell für bis zu einer Billion kleiner Objekte (16-64 Byte, verwaltet von 1.000 Knoten). Für die Wiederherstellung (engl. recovery) ist eine auf SSD-Speicher maßgeschneiderte asynchrone Protokollierung (engl. logging) vorgesehen, welche auf den Erkenntnissen aus log-strukturierten Dateisystemen aufbaut. Damit das Recovery schnell ablaufen kann, muss der Zustand eines Knotens verteilt auf vielen Backup-Knoten protokolliert werden, um im Fehlerfall die Wiederherstellung parallel ablaufen lassen zu können. Zusätzlich muss das Protokoll repliziert verteilt gespeichert werden, um permanente Knotenausfälle maskieren zu können. In diesem Zusammenhang ist zu beachten, dass die zufällige Platzierung von Backup-Replikaten des Protokolls in großen Clustern häufig zu Datenverlusten führt, sofern simultan mehrere Knoten ausfallen. Aufbauend auf dem kürzlich vorgeschlagenen Copyset-Verfahren, welches Replikate explizit platziert, sollen effiziente Verfahren erarbeitet werden, welche insbesondere Datenverluste minimieren und dennoch ein möglichst schnelles Recovery erlauben. Die Backup-Verwaltung soll durch ein Super-Peer-Overlay adaptiv gesteuert werden, unter Beachtung verschiedener Metriken, wie die aktuelle Last, laufende Wiederherstellungsprozesse sowie Re-Replikation.
DFG-Verfahren
Sachbeihilfen