Use of population data bases with double sampling for choice-based sample surveys and time-to-event data
Final Report Abstract
Zwei-Phasen oder Double-Sampling Methoden wurden in der Epidemiologie für Studien mit fehlender oder unpräziser Kovariableninformation entwickelt. Zwei-Phasen Methoden werden angewendet, wenn für eine große Anzahl Probanden Information zum Ereignisstatus sowie orientierende Information zum Expositionsstatus vorliegen (Phase 1), während komplette Expositions-Information allein für eine stratifizierte Teilstichprobe (Phase 2) erhoben wurde. Die Stratifizierung wird auf Basis der Phase 1 Information gebildet und spielt eine wichtige Rolle bei der gemeinsamen Nutzung beider Datenquellen in der finalen Regressionsanalyse. Ziel des Projekts war die Herleitung empirisch gestützter Regeln für das Design von Zwei-Phasen Studien im Hinblick auf effiziente Nutzung von Phase 1 Information aus großen administrativen Datenbanken. Basierend auf Abrechnungsdaten einer gesetzlichen Krankenversicherung (Phase 1, n=26208) und Daten einer Gesundheitsbefragung (Phase 2, n=498) wurde eine Zwei-Phasen Studie zum Einfluss der Einnahme von Phenprocoumon auf das Risiko schwerer Blutungen durchgeführt. Eine Responseanalyse ergab, dass die Teilnahme am Gesundheitssurvey von Geschlecht und Alter abhing. In einem epidemiologischen Kontext sind diese Faktoren oft auch Determinanten des Zielereignisses und müssen daher in die Stratifizierung aufgenommen werden, um die stratumsweise Repräsentativität der Phase 2 Daten zu sichern. Erste Analysen zeigten außerdem, dass sich viele Stratifizierungen zwar dazu eignen, den Parameter von Interesse (Phenprocoumon) unverzerrt und effizient zu schätzen, dass der Effekt bestimmter Kovariablen aber nur mit ausreichender Präzision geschätzt werden kann, wenn die Stratifizierung die jeweilige Kovariable berücksichtigte. Insgesamt wurden für diese Studie 29 verschiedene Strafifizierungen konstruiert, die entweder auf Kreuzklassifikafion von einigen wenigen Kovariablen beruhten oder auf Basis eines Scores, z.B. eines Disease-Scores, definiert wurden, der Information einer Vielzahl von Kovariablen einschließt. Da der Vergleich der Stratifizierungen bezüglich Bias und Effizienz der Parameterschätzer keine robusten Ergebnisse lieferte, wurde eine Simulationsstudie durchgeführt, deren Kovariablenverteilung und Umfang der obigen Phase 1 Studie entsprach, wobei jedoch der Umfang der Phase 2 Stichproben (n= 500, 1000, 2000, 10000) variierte. Bei der Suche nach effizienten Stratifizierungen zeigte sich, dass die im Projektantrag formulierte Idee, Perzentile eines auf Phase 1 Variablen basierenden Scores zu nutzen, keinen Vorteil gegenüber einfacheren Verfahren bietet, in denen wenige entscheidende Determinanten des Zielereignisses via Kreuzklassifikation genutzt werden. In der vorliegenden, epidemiologischen Anwendung ist eine solche Kovariable das Alter: Weil Art und Umfang von Komedikation und Komorbiditäten stark mit Alter assoziiert ist, überträgt eine Stratifizierung nach Alter auch Information über Komedikation und Komorbiditäten aus Phase 1 in die Zwei-Phasen Analyse. Das in einem früheren Projekt entwickelte SAS Softwarepaket zur Analyse zwei-phasiger Fall-Kontroll-Studien wurde im Rahmen dieses Projekts im Hinblick auf Nutzerfreundlichkeit überarbeitet und die Validität und Effizienz durch Verwendung validierter Prozeduren verbessert.