Detailseite
Projekt Druckansicht

Analyse von Dataset Shifts in mobiler Schadsoftware

Antragsteller Dr.-Ing. Daniel Arp
Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2021 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 456292433
 
Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

Mobilgeräte haben sich in den vergangenen Jahren zu einem lukrativen Angriffsziel für Autor:innen von Schadsoftware entwickelt, sodass ein stetiger Anstieg neuer Varianten mobiler Schadsoftware beobachtet werden konnte. Leider bieten traditionelle Lösungen zur Erkennung von Schadsoftware keinen ausreichenden Schutz, da sie in der Regel auf Erkennungsmuster basieren, deren Erstellung einen hohen manuellen Aufwand erfordert. In den vergangenen Jahren wurde daher vermehrt an Lösungen geforscht, die effektive Erkennungsmuster aus großen Datenmengen mit Hilfe von Techniken des maschinellen Lernens automatisch ableiten können. Aus diesem Forschungszweig ist bereits eine Vielzahl lernbasierter Ansätze hervorgegangen, mit denen Forschende vielversprechende Ergebnisse erzielen konnten. Aktuelle Forschung konnte allerdings zeigen, dass die Leistung lernbasierter Ansätze zur Erkennung mobiler Schadsoftware häufig überschätzt wird. Ein wesentlicher Grund für die Überschätzung der Erkennungsleistung ist hierbei, dass bei der Evaluation lernbasierter Ansätze häufig davon ausgegangen wird, dass sich die Verteilung der Daten über die Zeit nicht signifikant ändert. Diese Grundannahme ist bei mobiler Schadsoftware jedoch in der Regel nicht gegeben. Stattdessen ist die zugrundeliegende Datenverteilung kontinuierlichen Änderungen unterworfen – ein Phänomen, das in der Lerntheorie als „Dataset Shift“ bekannt ist. Hierdurch nimmt die Erkennungsleistung aktueller Lernansätze zum Teil drastisch über die Zeit ab. Auch wenn bereits einige Faktoren bekannt sind, die zur Entstehung von Dataset Shifts in diesem Problemfeld beitragen, sind die genauen Ursachen bislang nur unzureichend geklärt. In diesem Projekt wurden daher Techniken erforscht, um die Ursachen von Dataset Shifts in mobilen Anwendungen zu analysieren, um mit Hilfe der daraus gewonnenen Erkenntnisse lernbasierte Erkennungssysteme verbessern zu können. Hieraus ist in Zusammenarbeit mit Forschenden des University College London (UCL), des King’s College London (KCL) sowie der Technischen Universität Berlin (TUB) ein Framework entstanden, das mittels Techniken des erklärbaren Lernens Dataset Shifts in Datensätzen identifizieren und erklären kann. Die daraus entstandenen Erkenntnisse können genutzt werden, um die Erkennungsleistung von lernbasierten Methoden zu verbessern und mögliche Verzerrungen in Evaluationsdaten zu erkennen. Zudem konnten im Rahmen dieses Projekts weitere Fallstricke identifiziert werden, die zu einer Überschätzung der Leistung von lernbasierten Ansätzen in der Computersicherheit führen können. Ein Papier, das diese Fallstricke systematisch aufzeigt und mögliche Lösungsansätze diskutiert, wurde 2022 auf der renommierten Sicherheitskonferenz USENIX Security vorgestellt und mit einem Distinguished Paper Award ausgezeichnet.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung