Detailseite
Projekt Druckansicht

REFOCUS: Robuste Schätzung für zell- und fallweise Kontaminierung in dünnbesetzten Regressionsmodellen

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung Förderung von 2019 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 425884435
 
Mit den rasanten Fortschritten in der Datenwissenschaft und der Signalverarbeitung steigt der Bedarf an zuverlässiger und robuster Informationsextraktion und -verarbeitung. Die Regressionsanalyse ist eine der am weitesten verbreiteten Techniken zur Untersuchung und Modellierung der Beziehungen zwischen Variablen mit unzähligen Anwendungen, nicht nur in den Ingenieurswissenschaften. Dieses Projekt entwickelt fortgeschrittene robuste Regressionsmethoden, die nicht wesentlich von Ausreißern oder kleinen Modellabweichungen beeinflusst werden.Die robuste statistische Signalverarbeitung steht derzeit vor neuen Herausforderungen. Ein neuer Forschungsansatz ist aufgrund der Komplexität der heutigen Daten, die latente Low-Rank-Strukturen, Sparsity, impulsives Rauschen, Ausreißer und fehlende Werte enthalten, dringend erforderlich. Herausforderungen sind die hohe Dimensionalität der Daten, sowie Szenarien, bei denen der Stichprobenumfang kleiner oder nicht viel größer als die Datendimension ist. Traditionelle robuste Methoden, die auf asymptotischer Theorie basieren, schneiden in solchen Situationen schlecht ab, und robuste, regularisierte Methoden, die dünnbesetzte Lösungen finden, sind gefragt. Um den heutigen Robustheitsanforderungen gerecht zu werden, muss jedoch nicht nur das Signalmodell, sondern auch das Ausreißermodell realistisch sein. In der robusten Signalverarbeitung ist das mit Abstand verbreitetste Ausreißermodell das Turkey-Huber Kontaminationsmodell, das davon ausgeht, dass eine Minderheit der Zeilen der Regressionsmatrix, kontaminiert ist. In jüngster Zeit ist die Forschung zu dem Schluss gekommen, dass das Paradigma der ausreißenden Zeilen für moderne hochdimensionale Datensätze nicht mehr ausreicht. Dies ist, weil für höhere Dimensionen die Wahrscheinlichkeit groß ist, dass die meisten Beobachtungen zumindest in einer ihrer Komponenten kontaminiert sind. Diese Überlegungen haben ein allgemeineres Kontaminationsmodell motiviert, das Independent Contamination Model (ICM), das auch die Modellierung von zell- und spaltenweisen Ausreißern ermöglicht. Traditionelle robuste Schätzer brechen im ICM schnell zusammen, und selbst wenn man nichtsparse Ansätze einschließt, wurden nur sehr wenige ICM-robuste Ansätze vorgeschlagen. Das Hauptziel von REFOCuS ist es daher, eine ICM-robuste Variablenselektion und Parameterschätzung unter der Annahme dünnbesetzter und hochdimensionaler Regressionsmodelle durchzuführen. Um unser Ziel zu erreichen, entwickeln wir eine grundlegend neue Methologie, die auf Sparsity und Robustheit induzierenden Polytopen basiert. Parallelen zu bestehenden penalisierten robusten Schätzern werden untersucht, und es werden statistische und Robustheitsanalysen durchgeführt. Eine biomedizinische Anwendung dient der Validierung unserer Methoden. Bei erfolgreichem Abschluss liefert REFOCuS schnell zu berechnende und analysierbare Methoden, die der hochdimensionalen Datenwissenschaft Robustheit verleihen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung