Detailseite
Projekt Druckansicht

Robust and efficient multiple imputation of complex data sets

Fachliche Zuordnung Empirische Sozialforschung
Förderung Förderung von 2012 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 220421560
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Ein persistentes Problem in den empirischen orientierten Wissenschaften ist die Tatsache, dass in der Regel aus einer Zufallsstichprobe von Personen nicht alle erhobenen Daten vollständig zur Verfügung stehen. Dies bedeutet einerseits, dass einzelne Teile der eingesetzten Instrumente (Fragen, Items, Skalen) aus unterschiedlichen Gründen nicht vollständig (item nonresponse) oder dass von ausgewählten Personen überhaupt keine Angaben vorliegen (unit nonresponse). Eine Vielzahl von sogenannten ad-hoc Methoden (fallweiser oder listenweiser Ausschluss von fehlenden Werten) sind in den statistischen Programmpaketen implementiert und weit verbreitet. Da diese aber einen vollständig zufälligen Ausfallprozess annehmen (missing completely at random), sind bei Anwendung dieser ad-hoc Methoden verzerrte Ergebnisse zu erwarten. Einfache Ersetzungsverfahren wie beispielsweise die Mittelwertersetzung können ebenso nicht empfohlen werden, da sie in den inhaltlichen Modellen zu systematischen Verzerrungen der Parameterschätzer und dessen Standardfehler führen. Seit den grundlegenden Arbeiten von Rubin (1987) und Little und Rubin (2002) hat sich die Technik der mehrfachen Ersetzung fehlender Werte (multiple imputation of missing data) als Verfahren zur Behandlung fehlender Werte in empirischen Datensätzen weitgehend durchgesetzt. Die im Forschungsprojekt zugrundegelegte statistische Modellierung des fully conditional specification ist in der Lage, nach dem Skalenniveau angemessene Imputationsmodelle zur Verfügung zu stellen. Die praktische Umsetzung dieses Ansatzes erfolgte im R-Paket mice. Allerdings konnten die Modelle bis dato komplexe Clusterstrukturen (z.B. bei Paneldatensätzen) und Verteilungen für Zähldaten nicht berücksichtigen. Zudem standen Imputationstechniken, die gültige Inferenzen erlauben, lediglich für sehr restriktive Situationen zur Verfügung, die strenge Annahmen erfordern. Auf Basis des R-Paketes mice konnten im Forschungsprojekt zwei weitere R-Pakete entwickelt werden, die diese Defizite der multiplen Imputationsmodelle beseitigen und eine effiziente sowie robuste multiple Imputation komplexer Datensätze mit validen und genaueren Inferenzen ermöglichen. Zum einen wurde das R-Paket ImputeRobust entwickelt, welches verschiedene, flexible Imputationsmodelle enthält, die Mittelwert, Varianz, Schiefe und Kurtosis der konditionalen Verteilung der zu imputierenden Variablen berücksichtigt. Zum anderen wurde das R-Paket countimp entwickelt, welches verschiedene Typen von Zähldaten und deren zugrundeliegenden Verteilungsannahmen (z.B. Poisson-Verteilung, negative Binomialverteilung) bei der multiplen Imputation berücksichtigt. Besondere Aufmerksamkeit wurde auf die Implementation von Zähldatenmodellen gelegt, die seltene Ereignisse berücksichtigen und daher eine Verteilung mit einem überproportionalen Anteil von nicht aufgetretenen Ereignissen (zero-inflation) besser abbilden können. Aber nicht nur das Skalenniveau der Variablen sondern auch die Clusterstruktur der Daten (multilevel) wurde auf Basis des von Rubin (1987) diskutierten Bayesianischen Regressionsverfahren berücksichtigt. Die Pakete wurden umfangreichen Simulationsstudien unterzogen. Die praktische Umsetzung für angewandte empirische Forscherinnen und Forscher wird in einem Buch demnächst veröffentlicht.

Projektbezogene Publikationen (Auswahl)

  • (2018) Generalized Additive Model Multiple Imputation by Chained Equations With Package ImputeRobust. The R Journal 10 (1) 61
    Salfran, Daniel; Spiess, Martin
    (Siehe online unter https://doi.org/10.32614/RJ-2018-014)
  • (2010). Der Umgang mit fehlenden Werten, in: C. Wolf und H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse (pp. 117-142). Wiesbaden: VS Verlag
    Spiess, M.
    (Siehe online unter https://doi.org/10.1007/978-3-531-92038-2_6)
  • (2011). Efficient ways to impute incomplete panel data. Advances in Statistical Analysis, 95 (4), 351-373
    Kleinke, K., Stemmler, M., Reinecke, J. & Lösel, F.
    (Siehe online unter https://dx.doi.org/10.1007/s10182-011-0179-9)
  • (2013). Countimp 1.0 – A Multiple Imputation Package for Incomplete Count Data (Technical Report). Bielefeld: University of Bielefeld, Faculty of Sociology
    Kleinke, K. & Reinecke, J.
  • (2013). Multiple Imputation of Incomplete Zero-Inflated Count Data. Statistica Neerlandica, 67 (3), 311-336
    Kleinke, K. & Reinecke, J.
    (Siehe online unter https://doi.org/10.1111/stan.12009)
  • (2015). A Comparison of Multiple Imputation Techniques. Hamburg: Institute of Psychology
    Salfrán, D. & Spiess, M.
  • (2015). Handling Missing Data. Overview and Introduction, in: U. Engel, B. Jann, P. Lynn, A. Scherpenzeel & P. Sturgis (Eds.), Improving Survey Methods (pp. 365- 367). New York: Routledge
    Spiess, M.
  • (2015). Handling of Missing Data in Statistical Analyses, in: U. Engel (Ed.), Survey Measurements. Techniques, Data Quality and Sources of Error. (pp. 192-208). Frankfurt a.M.: Campus
    Salfrán, D. & Spiess, M.
  • (2015). Multiple Imputation of Multilevel Count Data, in: U. Engel, B. Jann, P. Lynn, A. Scherpenzeel & P. Sturgis (Eds.), Improving Survey Methods. (pp. 381-396). New York/London: Routledge
    Kleinke, K. & Reinecke, J.
  • (2015). Multiple Imputation of Overdispersed Multilevel Count Data, in: U. Engel (Ed.), Survey Measurements. Techniques, Data Quality and Sources of Error. (pp. 209-226). Frankfurt a.M.: Campus
    Kleinke, K. & Reinecke, J.
  • (2015). Robust Multiple Imputation, in: U. Engel, B. Jann, P. Lynn, A. Scherpenzeel & P. Sturgis (Eds.), Improving Survey Methods (pp. 397-411). New York: Routledge
    De Jong, R. & Spiess, M.
  • (2016). Missing Data: On Criteria to Evaluate Imputation Methods. Hamburg: Institute of Psychology
    Salfrán, D., Jordan, P. & Spiess, M.
  • (2016). Multiple Imputation of Predictor Variables Using Generalized Additive Models. Communication in Statistics – Simulation and Computation, 45 (3), 968-985
    De Jong, R., van Buuren, S. & Spiess, M.
    (Siehe online unter https://doi.org/10.1080/03610918.2014.911894)
  • (2017). ImputeRobust – Robust Multiple Imputation with Generalized Additive Models for Location Scale and Shape. Hamburg: Institute of Psychology
    Salfrán, D. & Spiess, M.
  • (2020): Applied Multiple Imputation. Cham: Springer International Publishing. xi, 292 S.
    Kleinke, K., Reinecke, J., Salfrán, D. & Spiess, M.
    (Siehe online unter https://doi.org/10.1007/978-3-030-38164-6)
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung