Detailseite
Projekt Druckansicht

DEFECTS - Vergleichbare und extern valide Software Fehlervorhersage

Fachliche Zuordnung Softwaretechnik und Programmiersprachen
Förderung Förderung von 2018 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 402774445
 
Erstellungsjahr 2023

Zusammenfassung der Projektergebnisse

Das Ziel des DEFECTS Projekts war es, die interne und externe Validität der Forschung im Bereich der Softwarefehlervorhersage zu verbessern, indem insbesondere die Art und Weise wie Experimente durchgeführt werden, verbessert wird. Im Laufe des Projekts hat sich herausgestellt, dass die Datenqualität hierbei eine wesentliche Rolle spielt. Die Rauschquellen in den Daten waren so stark, dass in der Regel über die Hälfte der als Fehler gelabelten Daten in Wirklichkeit nicht fehlerhaft waren. Daher wurde in großen Umfang Daten gesammelt und aufwändig händisch aufbereitet und der Forschungscommunity zur Verfügung gestellt. Dennoch hat sich herausgestellt, dass es in der Forschungscommunity den Wunsch nach einer noch besseren Datenqualität gibt, in der weitere Fehlerquellen ausgeschlossen werden. Ein solche bisher noch nicht betrachtete Fehlerquelle sind die sogenannten „Tangled Changes“, also Änderungen mit verschiedenen Zwecken, die gleichzeitig durchgeführt werden. Ein Beispiel hierfür ist die Durchführung eines Refactorings parallel zur Korrektur eines Fehlers. In einer groß angelegten Studie wurden unsere Daten weiter aufbereitet, in dem durch manuelle Annotation jeder Zeile von Fehlerkorrekturen genau bestimmt wurde, welche Teile einer Änderung wirklich zur Fehlerkorrektur beitrugen. Die Ergebnisse zeigen, dass nur etwa die Hälfte der Änderungen am Quelltext des Produktivsystems (also z.B. keine Tests) zur Fehlerkorrektur beitragen, der Rest sind sonstige Änderungen wie andere funktionale Änderungen oder Dokumentation. Insgesamt wurden damit in diesem Projekt die Ziele zur Datenqualität übertroffen und für der Forschungscommunity wertvolle Daten zur Verfügung gestellt, die nicht nur für valide Fehlervorhersage relevant sind, sondern auch für andere Forschungsbereiche wie der automatischen Fehlerkorrektur (engl. program repair) oder der Fehlerlokalisation (engl. bug localization). Ein weiteres aktuelles Problem mit der Validität von Forschungsergebnissen sind die verwendeten Gütemaße, mit denen die Qualität von Fehlervorhersagemodellen bewertet wird. Verschiedene Forschergruppen haben auf unterschiedliche Art und Weise in Frage gestellt, inwiefern Gütemaße wie F-measure und AUC praktische relevant sind und mit den durch den Einsatz von Fehlervorhersagen entstehenden Kosten, bzw. Kosteneinsparungen zusammenhängen. Daher wurde ein Experiment aufgesetzt, welches sich in allen Belangen am aktuellen Stand der Forschung orientiert hat und somit gleichzeitig als Template für weitere Experimente den Fehlervorhersageszenarien „within-project“, „cross-version“ und „crossproject“ dient. Es wurde aufgezeigt, dass für eine valide Betrachtung der Güte in Bezug auf das Potenzial mit Fehlervorhersagen Kosten zu sparen eine Betrachtung mit den üblicherweise verwendeten Gütemaßen nicht ausreichend ist. Hierfür konnte auch ein kausaler Zusammenhang gefunden werden, der sich aus der empirischen Beobachtung ergibt, dass die Größe von Softwareartefakten (z.B. Dateien oder Änderungen) einer exponentiellen Verteilung folgt. Diese Ungleichheit bei den Größen führt dazu, dass einzelne Artefakte ein besonders hohes Gewicht in der Kostenfunktion haben, was von den meisten Fehlermaßen aber nicht berücksichtigt wird. Eine weitere Erkenntnis dieser Studie war, dass obwohl aktuelle Methoden aus dem Stand der Forschung verwendet wurden, die Güte der Modelle insgesamt mangelhaft war, so dass in etwa der Hälfte der Experimente eine Kosteneinsparung nicht möglich gewesen wäre. Insgesamt hat das Projekt damit sein Ziel erreicht und die Validität der Forschung in der Fehlervorhersage verbessert, indem hochqualitative Daten erstellt wurden, die Auswahl und Anwendung von geeigneten statistischen Methoden vereinfacht wurde (erste Förderperiode), geeignete Gütemaße zur Bewertung von Studien bestimmt wurden, und ein Template für eine moderne Studie zur Fehlervorsage die aktuellen Erkenntnisse zum Studiendesign berücksichtigt.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung