Statistical Methods and Models for Interdependent Categorical, particularly Ordinal Data
Final Report Abstract
Für die Analyse hochdimensionaler voneinander abhängiger Variablen existieren unterschiedlichste statistische Methoden, wie etwa die Hauptkomponentenanalyse (Principal Component Analysis, PCA). Diese erfordern in ihrer Grundform jedoch oft stetige bzw. metrisch-skalierte Daten. Entsprechende Methoden für hochdimensionale kategoriale, insbesondere ordinale Daten stehen dagegen weit weniger zur Verfügung, obwohl man diese Art von Daten häufig und in verschiedensten Anwendungen findet. Das Ziel des Projektes war es daher, diese Lücke in der statistischen Methodik zu schließen, indem geeignete Verfahren zu entwickeln waren, insbesondere regularisierte Regressionsmodelle mit ordinal-skalierten Daten sowohl auf Seiten des Response wie auch der Prädiktoren, sowie eine penalisierte Form der Hauptkomponentenanalyse für ordinale Variablen. Letztere wurde durch sog. Optimal Scaling mit diskreter Glättungspenalty realisiert, welches als adaptiver und datengesteuerter Kompromiss zwischen gewöhnlicher (linearer) PCA unter Verwendung der durchnummerierten Levels einerseits und naivem Optimal Scaling mit der Gefahr des Overfittings andererseits verstanden werden kann. Für Regressionsmodelle mit ordinalem Response sowie ordinalen Prädiktoren wurde eine geeignete Group wie auch Fused Lasso Bestrafung implementiert und erfolgreich bei der Item-on-Item(s) Regression eingesetzt. Durch besagte Penalties können die ordinalen Prädiktoren datengesteuert/automatisiert über die Levels hinweg geglättet bzw. fusioniert sowie selektiert werden. Darüber hinaus wurde im Rahmen des Projekts eine spezielle Glättungspenalty für kumulative Logit-Modelle ohne Annahme proportionaler Odds vorgeschlagen und evaluiert, sowie einige Ergebnisse bzgl. weitergehender Inferenz (statistische Tests, Konfidenzintervalle) bei Vorliegen ordinaler Prädiktoren erzielt.
Publications
-
ordPens: An R package for Selection, Smoothing and Principal Components Analysis for Ordinal Variables. Journal of Open Source Software, 6(68), 3828.
Hoshiyar, Aisouda
-
ordPens: Selection, Fusion, Smoothing and Principal Components Analysis for Ordinal Variables. R package version 1.0.0
J. Gertheiss; A. Hoshiyar
-
Smoothing in Ordinal Regression: An Application to Sensory Data. Stats, 4(3), 616-633.
Ugba, Ejike R.; Mörlein, Daniel & Gertheiss, Jan
-
Penalized Non-Linear Canonical Correlation Analysis for Ordinal Data with Application to the International Classification of Functioning, Disability and Health. Proceedings of the 2023 SIAM International Conference on Data Mining (SDM) (2023, 1), 532-540. American Geophysical Union (AGU).
Gertheiss, Jan & Shinohara, Russell
-
Penalized optimal scaling for ordinal variables with an application to international classification of functioning core sets. British Journal of Mathematical and Statistical Psychology, 76(2), 353-371.
Hoshiyar, Aisouda; Kiers, Henk A. L. & Gertheiss, Jan
-
Regularization and Predictor Selection for Ordinal and Categorical Data. Statistics for Social and Behavioral Sciences (2023), 199-232. American Geophysical Union (AGU).
Gertheiss, Jan & Tutz, Gerhard
