Detailseite
Projekt Druckansicht

Inferenzmethoden für multivariate und hochdimensionale Daten

Fachliche Zuordnung Mathematik
Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2016 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 282140603
 
Aufgabenbereiche der Statistik umfassen heutzutage angesichts weit entwickelter Computerressourcen zahlreiche neue Anwendungsgebiete. Dies gilt insbesondere für moderne Inferenzmethoden für multivariate und hochdimensionale Daten, deren Entwicklung jedoch auf zahlreiche Herausforderungen trifft, u.a. durch die typscherweise komplexen Abhängigkeitsstrukturen zwischen involvierten Größen. Außerdem sind Endpunkte oft auf unterschiedlichen Skalen gemessen, so dass die Annahme bestimmter Kovarianzstrukturen unangemessen ist. Valide Inferenz ist besonders schwierig, wenn einer oder mehrere Endpunkte ordinal sind, da dann Methoden, die multivariate Normalität voraussetzen, nicht verwendbar sind. Aber auch schiefe oder diskret metrische Daten lassen sich nicht in angemessener Weise durch ein multivariates Normalverteilungsmodell beschreiben. Weiters entstammen Beobachtungen in der Praxis oft komplizierten faktoriellen Studiendesigns, und die Komplexität steigt weiter, wenn die Anzahl der Endpunkte größer ist als die Zahl der unabhängigen Versuchseinheiten (hochdimensionale Daten). Hauptfragestellungen derartiger Untersuchungen umfassen das Aufdecken von Endpunkten, Gruppen oder Kombinationen derselben, die eine statistische Signifikanz verursachen. Zu diesem Zwecke benötigt man trennscharfe Verfahren, die ohne restriktive Modellannahmen auskommen. Folgende Ansätze werden im eingereichten Projekt betrachtet.1. Asymptotisch valide Tests basierend auf einem semiparametrischen Lokationsmodell ohne Normalverteilungsannahme2. Rangbasierte Inferenz bei rein nichtparametrischer Modellformulierung3. Approximationen zu 1.-2 f ür kleine Stichproben oder hohe Dimension, basierend auf verschiedenenBootstrap-, Randomisierungs-, oder Momentenverfahren4. Multiple Testmethoden zur Beantwortung "lokaler" Fragestellungen, anschließend an die "globalen" Tests;für 2. auch5. Erweiterung der genannten Methoden auf zensierte Daten und6. Erweiterung der genannten Methoden auf die Aufdeckung gemusterter Alternativen.Im ersten Punkt werden sinnvolle und trennscharfer Analysemethoden für multivariate und ggf. hochdimensionale Daten, basierend auf Erwartungswerten, entwickelt, während der zweite Punkt Verallgemeinerungen des Wilcoxon Tests auf multivariate Anlagen unter Verwendung einer anderen Hypothesenformulierung beinhaltet. Im dritten Punkt geht es um die Entwicklung von approximativen Lösungen unter Verwendung von Resampling und anderen Techniken. Der logische nächste Schritt von globalen Entscheidungen hin zum Aufdecken der Variablen oder Faktorstufenkombinationen, die für signifikante Ergebnisse verantwortlich sind, wird im vierten Punkt behandelt. Der fünfte Punkt beschäftigt sich mit Methoden für Daten, die durch Zensierung nur unvollständig beobachtet wurden. Schließlich werden im sechsten Punkt Inferenzmethoden entwickelt, die eine größere Güte zur Aufdeckung bestimmter Alternativenmuster besitzen. Die zu erwartenden Resultate haben breite Anwendungen.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Österreich
Mitverantwortlich Professor Dr. Arne Bathke
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung