Multiple imputation of missing data in multilevel research
Dr. Simon Grund➚, Wissenschaftlicher Mitarbeiter IPN
Die Mehrebenenanalyse gehört zu den am häufigsten verwendeten Verfahren zur Analyse von hierarchischen Daten. Solche hierarchischen Daten sind in der Psychologie und der empirischen Sozialforschung häufig anzutreffen, wenn Beobachtungen (Ebene 1) in übergeordneten Einheiten (Ebene 2) organisiert sind, zum Beispiel in querschnittlichen Studien mit Schüler*innen in Schulen oder Angestellten in Unternehmen sowie in längsschnittlichen Studien mit wiederholten Beobachtungen von Personen. In der Praxis enthalten hierarchische Daten häufig fehlende Werte, zum Beispiel wenn Personen einen Fragebogen nicht vollständig ausfüllen oder ihre Teilnahme an einer Studie vorzeitig beenden. Die aus den unvollständigen Daten gezogenen Schlussfolgerungen können dabei stark verzerrt werden, wenn fehlende Werte nicht angemessen behandelt werden. Darum werden zur Behandlung fehlender Werte vor allem moderne statistische Verfahren wie die multiple Imputation (ML) und die Schätzung mit der „maximum likelihood“-Methode (ML) empfohlen. Diese Verfahren erlauben es, die Daten vollständig zu nutzen, und ermöglichen damit genauere Schlussfolgerungen auf Grundlage der unvollständigen Daten.
In meiner Dissertation habe ich mich mit der Behandlung fehlender Werte in hierarchischen Daten auseinandergesetzt. Ein besonderes Augenmerk lag hierbei auf der MI, da deren Nutzung in hierarchischen Daten es erfordert, dass die hierarchische Datenstruktur und die geplanten Mehrebenenanalysen angemessen berücksichtigt werden. Wie genau diese Aspekte bei der MI zu berücksichtigen sind, ist jedoch eine noch kaum untersuchte Fragestellung. Daher habe ich in meiner Dissertation und in Form mehrerer Studien untersucht, wie fehlende Werte in verschiedenen Arten von Mehrebenanalysen angemessen behandelt werden können, zum Beispiel in Analysen mit festen, zufälligen und nichtlinearen Effekten sowie mit fehlenden Werten in kontinuierlichen und kategorialen Variablen oder auf verschiedenen Ebenen.
Ein weiterer Schwerpunkt meiner Dissertation lag auf der Analyse multipel imputierter Daten, die in der Regel ein Pooling der Analyseergebnisse über die multipel imputierten Datensätze erfordert. In diesem Zusammenhang habe ich mich mit verschiedenen Verfahren beschäftigt, die zum Pooling sogenannter Multiparametertests oder Modellvergleiche verwendet werden können, die in der Analyse vieler klassischer Forschungsdesigns (z. B. in der ANOVA) und in der Mehrebenenanalyse häufig verwendet werden (z. B. zum Testen fester oder zufälliger Effekte). Schließlich habe ich im Rahmen meiner Dissertation auch das R-Paket „mitml➚“ entwickelt, das neben verschiedenen Möglichkeiten zur Spezifikation der MI in hierarchischen Daten auch Methoden zum Pooling von Analyseergebnissen, zur Diagnose von Konvergenzeigenschaften und zur Organisation und Bearbeitung imputierter Daten bereitstellt. Die Anwendung dieses Pakets habe ich darüber hinaus in einem anwendungsorientierten Artikel genauer veranschaulicht.
Referenz: Grund, S. (2017). Multiple imputation of missing data in multilevel research [Christian-Albrechts-Universität zu Kiel]. https://macau.uni-kiel.de/receive/diss_mods_00022800➚
Betreuer: Prof. Dr. Oliver Lüdtke➚