Detailseite
Analyse von Dataset Shifts in mobiler Schadsoftware
Antragsteller
Dr.-Ing. Daniel Arp
Fachliche Zuordnung
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Theoretische Informatik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Theoretische Informatik
Förderung
Förderung von 2021 bis 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 456292463
Mobile Geräte, wie Smartphones und Tablets, sind in den vergangenen Jahren sehr populär geworden und werden mittlerweile von mehreren Milliarden Menschen weltweit genutzt. Allerdings haben sich diese Geräte dadurch auch in kurzer Zeit zu einem lukrativen Ziel für Autoren von Schadsoftware entwickelt, sodass die Zahl neu entdeckter Varianten mobiler Schadanwendungen in den letzten Jahren stark zugenommen hat.Durch die rasante Entwicklung mobiler Schadanwendungen haben bisher eingesetzte Erkennungstechniken jedoch häufig Schwierigkeiten, neue Schadsoftware zuverlässig zu erkennen. In jüngster Zeit haben sich daher maschinelle Lernverfahren als aussichtsreiche Alternative herauskristallisiert und konnten in verschiedenen Szenarien bereits gute Ergebnisse erzielen. Mit Hilfe dieser Methoden ist es möglich, große Datenbestände in kurzer Zeit zu analysieren und Erkennungsmuster für aufkeimende Schadsoftware automatisch zu extrahieren.Im Allgemeinen basieren Lernmethoden allerdings auf der Annahme, dass die zugrundeliegenden Verteilungen der Daten stationär sind, sich also über die Zeit nicht ändern. In verschiedenen Studien konnte jedoch gezeigt werden, dass dies bei mobiler Schadsoftware in der Regel nicht der Fall ist, sondern die Verteilungen stattdessen kontinuierlichen Änderungen unterworfen sind. Dieses in der maschinellen Lerntheorie als "Dataset Shift" bekannte Phänomen hat wiederum zur Folge, dass die Erkennungsleistung aktueller Lernansätze zum Teil drastisch über die Zeit abnimmt.Auch wenn bereits einige Faktoren bekannt sind, die zur Entstehung von Dataset Shifts in diesem Problemfeld beitragen, sind die genauen Ursachen bislang nur unzureichend geklärt. In diesem Forschungsprojekt sollen daher die Ursachen für Dataset Shifts in mobilen Daten im Detail erforscht werden und anhand der gewonnenen Erkenntnisse neue lernbasierte Erkennungssysteme entwickelt werden, die im Gegensatz zu bisher eingesetzten Verfahren eine robustere Identifikation von Schadsoftware über die Zeit erlauben.Um dieses Ziel zu erreichen, soll zunächst der Leistungsabfall bestehender Erkennungsmethoden systematisch analysiert werden. Hierzu sollen Techniken zur Interpretation verschiedener Lernmodelle eingesetzt werden, um Faktoren zu identifizieren, die zu einem Abfall der Erkennungsleistung dieser Systeme beitragen. Die aus dieser Analyse gewonnenen Erkenntnisse sollen schließlich genutzt werden, um neue Erkennungssysteme zu entwickeln, die eine robustere Erkennung von mobiler Schadsoftware über die Zeit erlauben. Darüber hinaus soll untersucht werden, inwieweit bereits aus anderen Bereichen bekannte Techniken zur Kompensation von Dataset Shifts auf den Bereich der mobilen Schadcodeerkennung übertragen werden können.
DFG-Verfahren
WBP Stipendium
Internationaler Bezug
Großbritannien
Gastgeber
Professor Lorenzo Cavallaro