REFOCUS: Robuste Schätzung für zell- und fallweise Kontaminierung in dünnbesetzten Regressionsmodellen
Zusammenfassung der Projektergebnisse
Die raschen Fortschritte im Bereich Data Science und in der Signalverarbeitung führen zu einem stetig steigenden Bedarf an zuverlässiger und robuster Informationsextraktion und -verarbeitung. Die Regressionsanalyse ist eine der am weitesten verbreiteten Techniken zur Untersuchung und Modellierung der Beziehungen zwischen Variablen und findet zahlreiche Anwendungen, zum Beispiel, in den Bereichen Technik, Wirtschaft, Biomedizin, Sozialwissenschaften. In den letzten Jahren hat der Bereich Data Science jedoch die Grenzen der Signalverarbeitung und des statistischen Lernens über ihre gewohnten Bereiche hinaus erweitert. Das DFG-Projekt REFOCuS entwickelt fortgeschrittene robuste Regressionsmethoden, die statistische Garantien selbst für den schwierigen Fall hochdimensionaler und mit Ausreißern kontaminierter Daten bieten. Die Kombination von kleinen Stichprobengrößen und hochdimensionalen Daten ist der Worst-Case-Fall, sowohl für klassische robuste Methoden, die auf asymptotischen Argumenten beruhen (d.h. die Stichprobengröße geht gegen unendlich), als auch für datengetriebene Methoden (z.B. Deep-Learning), die eine Fülle von Trainingsdaten voraussetzen. Kommende Revolutionen, z.B. in der Biotechnologie, verlangen jedoch nach neuen Lernmethoden, die effizient in einem hochdimensionalen Regime zu berechnen sind und nicht-asymptotische statistische Robustheitsgarantien bieten. Das wichtigste Ergebnis dieses Projekts ist die Entwicklung des Terminating-Random Experiments (T-Rex)-Selektors, einer schnellen Variablenauswahlmethode für hochdimensionale Daten. Der T-Rex-Selektor kontrolliert eine benutzerdefinierte Falschentdeckungsrate (FDR), während er die Anzahl der ausgewählten Variablen maximiert und somit eine hohe Wahr-Positiv-Rate (TPR) erreicht. Es wurde ein völlig neues Framework entwickelt, das die Lösungen mehrerer früh beendeter Zufallsexperimente zusammenführt. Die Experimente werden mit einer Kombination aus den ursprünglichen Prädiktoren und mehreren Sätzen von zufällig generierten Dummy-Prädiktoren durchgeführt. Es wurde ein auf der Martingaltheorie basierender Beweis für die FDR-Kontrolleigenschaft für endliche Stichproben erbracht. Wir konnten unter milden Annahmen beweisen, dass die Dummies aus einer beliebigen univariaten Wahrscheinlichkeitsverteilung mit endlicher Erwartung und Varianz gezogen werden können. Die Berechnungskomplexität der vorgeschlagenen Methode ist linear in der Anzahl der Variablen. Der T-Rex-Selektor übertrifft die Performanz der modernsten Methoden zur FDR-Kontrolle in einer simulierten genomweiten Assoziationsstudie (GWAS), während seine sequenzielle Berechnungszeit um mehr als zwei Größenordnungen niedriger ist als die der stärksten Benchmark-Methoden. Zwei Open-Source-R-Softwarepakete wurden in REFOCuS entwickelt und auf CRAN veröffentlicht. Die Ergebnisse dieses DFG Projekts haben zu drei Forschungsförderungen geführt (dem ERC Starting Grant ScReeningData, dem Projekt curAIsig, das Teil des BMBF-Clusters für Zukunft curATime ist und einem Innovationsprojekt innerhalb des LOEWE-Zentrums emergenCITY), die alle auf den T-Rex-Methoden aufbauen welche in diesem DFG-Projekt entwickelt wurden. Anwendungen des T-Rex-Frameworks in der Biomedizin, der Robotik und dem Finanzwesen werden derzeit erforscht.
Projektbezogene Publikationen (Auswahl)
-
A robust adaptive Lasso estimator for the independent contamination model. Signal Processing, 174, 107608.
Machkour, Jasin; Muma, Michael; Alt, Bastian & Zoubir, Abdelhak M.
-
False Discovery Rate Control for Grouped Variable Selection in High-Dimensional Linear Models Using the T-Knock Filter. 2022 30th European Signal Processing Conference (EUSIPCO) (2022, 8, 29), 892-896. American Geophysical Union (AGU).
Machkour, Jasin; Muma, Michael & Palomar, Daniel P.
-
tlars: The T-LARS Algorithm: Early-Terminated Forward Variable Selection. CRAN: Contributed Packages (2022, 7, 15). American Geophysical Union (AGU).
Machkour, Jasin; Tien, Simon; Palomar, Daniel P. & Muma, Michael
-
TRexSelector: T-Rex Selector: High-Dimensional Variable Selection & FDR Control. CRAN: Contributed Packages (2022, 8, 17). American Geophysical Union (AGU).
Machkour, Jasin; Tien, Simon; Palomar, Daniel P. & Muma, Michael
-
The terminating-random experiments selector: Fast high-dimensional variable selection with false discovery rate control. Signal Processing, 231, 109894.
Machkour, Jasin; Muma, Michael & Palomar, Daniel P.
