Detailseite
Projekt Druckansicht

ASTEROID - Ein analysierbares , fehlertolerantes, eingebettetes Echtzeit Betriebssystem Design

Fachliche Zuordnung Rechnerarchitektur, eingebettete und massiv parallele Systeme
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2010 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 181374413
 
Das Betriebssystem (OS) übernimmt eine Schlüsselrolle in jedem komplexen Computer-System. Ein aktuelles OS mit Speicherverwaltung und Virtualisierung beinhaltet verschiedene Kernfunktionen, die sich auf eine fehlerfreie Hardware (HW) verlassen. Unerkannte Fehler in diesen Funktionen propagieren schnell und irreversibel durch das System und machen eine Systemwiederherstellung dadurch praktisch unmöglich. Jedoch können andere Betriebssystemfunktionen mittels adäquater Mechanismen nach einem Fehler wiederhergestellt werden. Diese Funktionen erben die Zuverlässigkeitsanforderungen der Anwendungen, von denen sie benutzt werden. Funktionen erben die Zuverlässigkeitsanforderungen der Anwendungen, von denen sie benutzt werden. Die Projektidee besteht darin, OS- und HW-Mechanismen zu entwickeln, welche die HW- und Kommunikationsressourcen eines Many-CoreßSystems effizient ausnutzen um die gewünschte Zuverlässigkeit zu garantieren. In den ersten beiden Projektphasen haben wir kritische Kernfunktionalität im Betriebssystem und der Hardware identifiziert. Darauf basierend haben wir Fehlererkennungs und -korrektur-Mechanismen enwtickelt, welche die inhärente Parallelität moderner Multicore-Architekturen ausnutzen. Das daraus resultierende System kann moderne, inhärent parallele Anwendungen mit Hilfe von Redundant Multithreading schützen und gewährleistet Echtzeit-Garantien für diese Anwendungen. Im weiteren untersuchten wir Fehler, die in der Kooperation mehrerer Prozessoren und im darunter liegenden Network-on-Chip entstehen. Wir charakterisierten die Reliable Computing Base, eine Menge von Hardware- und Software-Komponenten, welche jederzeit korrekt funktionieren müssen, um Echtzeit- und Zuverlässigkeits-Garantien geben zu können und untersuchten, wie Fehler in diesen Komponenten das Gesamtsystem beeinflussen. In der 3. Projektphase werden wir die in den ersten zwei Phasen entwickelten Methoden und Mechanismen zu einem System kombinieren, welches über mehrere Schichten hinweg gegen transiente Hardware-Fehler gesichert ist. Hierzu werden wir Fehlerabdeckung, Ressourcenbedarf und Laufzeit-Kosten optimieren und die verbleibenden Lücken zwischen den Methoden durch weitere Forschung schliessen. Dies beinhaltet die Untersuchung von Ende- zu-Ende-Absicherung der NoC-Kommunikation und Replikation von Gerätetreibern.
DFG-Verfahren Schwerpunktprogramme
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung