Schätz- und Resamplingverfahren zur Beurteilung multipler Tests für hochdimensionale Daten
Zusammenfassung der Projektergebnisse
Statistiker sind immer häufiger konfrontiert mit hochdimensionalen Daten und den daraus resultierenden Fragestellung. Die folgenden Zwei wurden in unserem Projekt genauer untersucht: 1. Güteverhalten von Signalerkennungstests 2. Konsistenz von adaptiven multiplen Tests (Signalidentifikation). Eine zunehmend an Bedeutung gewinnende Aufgabe des Statistikers ist, zum Beispiel in der Genomanalyse, zu entscheiden, ob keine oder wenige (und meist schwache) Signale in großen Datensatzen vorliegen. Erste Ergebnisse zu diesem Thema wurden von Ingster (1997) sowie Donoho und Jin (2004) jeweils unter Normalverteilungsannahme erzielt. Eine Parameterisierung der Signalstarke und -anteils erlaubt eine Charakterisierung dreier Erkennungsbereiche durch eine Erkennungsgrenze. Oberhalb der Erkennungsgrenze kann der beste Test, der Likelihood-Quotienten-Test (LQT), Signale asymptotisch stets erkennen. Unterhalb der Erkennungsgrenze kann LQT die Signale nicht erkennen und somit kann kein anderer Test dies. Tukey’s Higher Criticism Test (HCT) hängt im Gegensatz zum LQT nicht von der unbekannten Signalstärke und -anteil ab. Donoho und Jin (2004) zeigten, dass HCT ebenfalls oberhalb der Erkennungsgrenze asymptotisch stets die Signale erkennen kann. Diese Optimalität führte zur zunehmenden Popularität von HCT in den letzten Jahren. Sie wurde später auch unter anderen, hauptsachlich parametrischen, Modellannahmen nachgewiesen. Wir weisen die Optimalität für ein nichtparametrischen Modell basierend auf p-Werten nach. Zudem beschäftigen wir uns ausführlich mit dem dritten Erkennungsbereich, der Erkennungsgrenze selbst. Hierzu gab es in der Literatur bisher nur Ergebnisse unter Normalverteilungsannahme für LQT und sogar keine Resultate für HCT. Wir zeigen, dass HCT auf der Grenze keine asymptotische Güte hat, wohingegen die asymptotischte Güte von LQT nichtrivial ist. Zusammenfassend entsteht ein kompletes Bild über das asymptotische Güteverhalten von LQT und HCT. Alle Ergebnisse bezüglich HCT werden im Papier Ditzhaus (2018) auf eine ganze Klasse von Test basierend auf sogenannten Phi-divergences (engl.), welche HCT und den berühmten Berk-Jones Test beinhalten, erweitert. Diese Klasse wurde von Jager und Wellner (2007) vorgeschlagen, allerdings nur unter Normalverteilungsannahme untersucht. Zudem löst Ditzhaus (2018) ein offenes Problem von Cai und Wu bezüglich der Optimalität von HCT unter deren Modellannahme, wenn die Normalverteilungsannahme nicht erfüllt ist. Das simultane Testen von mehr als einer Nullhypothese gewinnt ebenso immer mehr an Bedeutung, auch hier kann die Genomanalyse als Beispiel angeführt werden. Ein wichtiges Kriterium für die Entscheidung, welche Nullhypothesen verworfen werden sollen, ist die FDR (false discovery rate). Die FDR ist der Erwartungswert der FDP (false discovery proportion), dem Anteil der fälschlich verworfenen Nullhypothesen im Bezug zu allen verworfenen Nullhypothesen. Um die FDR besser auszuschöpfen, werden sogenannte adaptive Verfahren benutzt, die auf Schätzern für die unbekannte Anzahl an wahren Nullhypothesen basieren. Wir beschäftigten uns mit der Fragestellung, wann die Variabilität und Fluktuation der FDR von adaptiven Verfahren verschwindend klein wird bei steigender Anzahl an Nullhypothesen. Wir geben äquivalente Bedingungen dafür an und untersuchen insbesondere adaptive Verfahren basierend auf generalisierten Storey-Schätzern, welche von Heesen und Janssen (2015, 2016) vorgeschlagen wurden. Es stellt sich heraus, dass die adaptiven Verfahren hinsichtlich der asymptotischen FDR sowie der Fluktuation eine tatsächliche Verbesserung des klassischen Benjamini-Hochberg-Verfahren sind.
Projektbezogene Publikationen (Auswahl)
-
(2017). On the consistency of adaptive tests
Ditzhaus, M. and Janssen, A.
-
(2017). The power of big data sparse signal detection tests on nonparametric detection boundaries
Ditzhaus, M. and Janssen, A.
-
(2017). The power of tests for signal detection in high-dimensional data. Dissertation, Heinrich-Heine-Universität Düsseldorf
Ditzhaus, M.
-
(2018). Signal detection via Phi-divergences for general mixtures
Ditzhaus, M.