Anwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen

Workshop der AG Statistische Methoden in der Medizin Magdeburg, 22.11.2007 Anwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen Ulrich Gehrmann 1, Oliver Kuß 2, Jürgen Wellmann 3, Ralf Bender 1,4 1 Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Köln 2 Institut für medizinische Epidemiologie, Biometrie und Informatik der Universität Halle-Wittenberg 3 Institut für Epidemiologie und Sozialmedizin der Universität Münster 4 Medizinische Fakultät der Universität Köln

Übersicht NNEs und Risikodifferenzen Regressionsmodelle für Risikodifferenzen: - Linear Probability Model (mit Nebenbedingungen) - Klassische lineare Regression - Logistische Regression mit Average Risk Difference Approach Simulationsstudie der verschiedenen Modelle Einbezug von Interaktion ins lineare Modell 2 Fazit

NNEs und Risikodifferenzen Daten: Binäre Zielgröße Y (0/1, z.b. Herzinfarkt) Binäre Exposition E (0/1, z.b. Rauchen) 3 Ggf. weitere stetige Einflussgrößen X j (z.b. Alter, hier Beschränkung auf eine Kovariable X) Ziel: Geeignetes Effektmaß: Welchen Einfluss hat die Exposition auf die Zielgröße? Klassisches Effektmaß: Odds Ratio (OR), jedoch nicht leicht zu interpretieren. Anschaulichere Alternative: Risikodifferenz (RD = P(Y=1 E=1) P(Y=1 E=0))

NNEs und Risikodifferenzen Noch anschaulicher sind die Impact numbers, z.b. Number needed to be exposed (NNE) NNE = 1/RD 4 Interpretation des NNE z.b.: Unter durchschnittlich wie vielen Rauchern hat einer einen Herzinfarkt aufgrund des Rauchens bekommen? Das Konfidenzintervall für das NNE kann man aus den Konfidenzgrenzen für die RD herleiten: [NNE u ;NNE o ] = [1/RD o ;1/RD u ] Der statistische Test (p-wert) für das NNE ist äquivalent zum Test für die RD.

Risikodifferenzen im wahren Modell Neben den Regressionsmodellen wird ein wahres Modell angenommen, bei dem es für jedes e und x definierte Wahrscheinlichkeiten P(Y=1 E=e, X=x) gibt. Damit sind für jedes x auch RDs definiert: RD(x) = P(Y=1 E=1, X=x) P(Y=1 E=0, X=x) 6 Def: Die RD einer Gruppe (z.b. die Exponierten) ist der Mittelwert der RD(x) über alle x, die in dieser Gruppe vorkommen. Bei einem wahren logistischen Modell unterscheiden sich die RDs in der Regel zwischen den Gruppen. Bei einem wahren linearen Modell gibt es nur eine RD, und diese ist durch den Abstand der beiden Regressionsgeraden bestimmt.

Linear Probability Model (LPM) Def.: Ein LPM ist ein GLM mit: Y i ~ Bi(1,π i ) E(Y i ) = π i = α + e i β + x i γ NB: π i [0;1] i {1,,n} 7 Bem.: Abgrenzung zur linearen Regression: Binomialverteilung Abgrenzung zur logistischen Regression: Identische Linkfunktion RD = β

Linear Probability Model (LPM) Algorithmus: Maximiere die Log-Likelihood: n log(l( α, β, γ)) y log( α+ e β+ x γ ) + (1 y )log(1 ( α+ e β+ x γ)) i= 1 Unter der Nebenbedingung: 6 6 ( α+ eiβ+ x iγ) 10 ;1 10 i {1,..., n} i i i i i i Das geringfügige Verkleinern des Intervalls für die NB bewirkt, dass log(0) in der Berechnung vermieden wird. 8 Implementierung in SAS: Mit PROC IML und CALL NLPNRA (Nichtlineare Optimierung mit der Newton-Raphson- Methode und Nebenbedingungen)

Klassische lineare Regression (LM) Def.: Ein LM ist ein GLM mit: Y i ~ N(π i, σ 2 ) E(Y i ) = π i = α + e i β + x i γ Motivation: Zwar können dadurch die Schätzungen ŷ i für die Ränder des Kovariablen-Bereichs aus [0;1] herauslaufen. 9 Interessiert man sich jedoch nur für den Effekt der Exposition (RD bzw. NNE), kann man dies evtl. ignorieren (falls der Effektschätzer gut ist!).

Average Risk Difference Approach (ARDA) Def.: Das Modell des ARDA ist die logistische Regression: Y i ~ Bi(1,π i ) E(Y i ) = π i = π(α + e i β + x i γ) mit π(a) = exp(a) / (1 + exp(a)); a (logistische Funktion) Wähle eine Gruppe aus, z.b. die Nicht-Exponierten. Bestimme die RD(x i ) = π(α + β + x i γ) - π(α + x i γ) für alle x i, die in dieser Gruppe vorkommen. Der Mittelwert dieser RD(x i ) ist die gesuchte RD. 10 Hier gibt es 2 unterschiedliche RDs für Nicht-Exponierte, wenn sie exponiert gewesen wären Exponierte, wenn sie nicht exponiert gewesen wären Sinnvoll bei unterschiedlichen Kovariablen-Verteilungen der Exponierten und Nicht-Exponierten (Confounding).

Rohes Vergleichsmodell Def.: Das rohe Modell ist definiert: Y i ~ Bi(1,π i ) E(Y i ) = π i = α + e i β Die RD ist einfach die Differenz der beobachteten Risiken in den beiden Gruppen. 11

Simulationsstudie der verschiedenen Modelle Wahres logistisches Modell: Intercept = -10, OR e = 3, OR x = 1.2 1000 Exponierte (e i =1), 1000 Nicht-Exponierte (e i =0) X i ~ N(μ 0 ;σ 2 ) bzw. N(μ 1 ;σ 2 ), je nach Expositionsstatus 2 Situationen: μ 1 = μ 0 = 45 μ 1 = 40; μ 0 = 45 (Confounding) (RDs werden immer für Nicht-Exponierte berechnet.) In jeder Situation 5 Standardabweichungen σ (1, 2, 3, 5, 8). 12 Somit 10 Simulationsmodelle mit vorgegebenen e i und x i. Jeweils 1000 Simulationsläufe (Simulationen der y i ).

Simulationsstudie der verschiedenen Modelle Entsprechend: Wahres lineares Modell : Intercept = 0, RD e = 0.18, RD x = 0.01 Parameter hier so gewählt, dass: RD e die gleiche Größenordnung hat wie die durchschnittliche RD im wahren logistischen Modell die simulierten y i nicht aus [0;1] herauslaufen. 13

Simulationsstudie der verschiedenen Modelle Bemerkungen zu den Ergebnissen: Es wurden Wald sche Konfidenzintervalle berechnet. Es werden jeweils die Überdeckungswahrscheinlichkeit und der relative Bias (RD) dargestellt (alles in Prozent). Die Überdeckungswahrscheinlichkeit bezieht sich sowohl auf die RD als auch auf das NNE. 14 Der relative Bias des NNE unterscheidet sich grundsätzlich von dem der RD. In dieser Studie waren die Unterschiede jedoch gering, daher wird hier in der Regel nur der RD-Bias dargestellt. Bei gravierenden Abweichungen wird der relative Bias des NNE gesondert dargestellt, s. weiter unten.

Simulation logistischer Modelle ohne Confounding (μ 1 = μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 15 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Simulation logistischer Modelle mit Confounding (μ 1 = 40; μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 16 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Simulation linearer Modelle ohne Confounding (μ 1 = μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 17 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Simulation linearer Modelle mit Confounding (μ 1 = 40; μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 18 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Erste Zusammenfassung Im wahren linearen Modell sind LPM, LM und ARDA gleich gut. Für das wahre logistische Modell gilt: Das LPM hat erhebliche Probleme, insbesondere bei großen Varianzen der x-variablen. Wenn kein Confounding vorliegt, sind LM und ARDA gleich gut (!), und dabei vergleichbar mit dem rohen Modell, welches allerdings etwas breitere Konfidenzintervalle liefert. 19 Bei Confounding liefert nur der ARDA gute Ergebnisse.

Einbezug von Interaktion ins LM Ansatzpunkt zur Verbesserung des LM: Beim ARDA werden zwei unterschiedliche RDs für die Exponierten bzw. Nicht-Exponierten geschätzt, abhängig von der Kovariablen-Verteilung in der jeweiligen Gruppe. Vorteil des ARDA, falls das wahre Modell logistisch (oder zumindest nichtlinear) ist. Problem beim LM: Es wird eine einheitliche RD geschätzt. Abhilfe: Einführung eines Interaktions-Terms δ zwischen Expositionsstatus und Kovariable ins Modell: 20 E(y i ) = π i = α + e i β + x i γ + e i x i δ

Einbezug von Interaktion ins LM Berechnung einer RD analog zum ARDA: Wähle eine Gruppe aus, z.b. die Nicht-Exponierten. Für alle x i, die in dieser Gruppe vorkommen, gilt: RD(x i ) = β + x i δ Gesuchte RD dann einfacher zu bestimmen als im ARDA: Sei x NE der Mittelwert der x i der Nicht-Exponierten. Dann gilt für die Risikodifferenz RD NE der Nicht- Exponierten: RD NE = β + x NE δ 21 Einfache Implementierung in SAS: 1.) Berechnung von x NE, z.b. Einzeiler in PROC SQL. 2.) PROC GENMOD oder GLM mit ESTIMATE-Statement unter Angabe des berechneten x NE. Keine weiteren Berechnungen erforderlich!

Einbezug von Interaktion ins LM: Ergebnisse bei Simulation logistischer Modelle mit Confounding (μ 1 = 40; μ 0 = 45) LM ARDA LM+Interaktion LM ARDA LM+Interaktion 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 22 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Einbezug von Interaktion ins LM: NNE-Bias bei Simulation logistischer Modelle mit Confounding (μ 1 = 40; μ 0 = 45) 23 NNE-Bias zeigt hier für σ=1 eine andere Tendenz als sonst. Grund liegt in RD-Schätzungen nahe bei 0, was sehr große NNE-Schätzungen ergibt. Vier RD-Schätzungen waren sogar < 0 und mussten daher bei der Berechnung des NNE-Bias weggelassen werden. Für größere σ: Bestätigung der bisherigen Resultate. Relativer Bias des NNE 100 90 80 70 60 50 40 30 20 10 0-10 -20-30 -40-50 LM ARDA LM+Interaktion 1 2 3 4 5 6 7 8 Standardabweichung

Fazit Die logistische Regression mit ARDA hat sich als stabilster Ansatz zur RD- bzw. NNE-Schätzung erwiesen. Falls kein Confounding vorliegt, ist das klassische LM eine vollwertige Alternative. Im Confounding-Fall fällt auch das LM ab. Es kann zwar durch den Einbezug von Interaktionen verbessert werden, ist aber dem ARDA auch dann nicht ebenbürtig. Das LPM hat insgesamt deutlich schlechter abgeschnitten. 24 Ausblick: Simulationen mit mehr als einer stetigen Variablen. Transformation der Kovariablen im LM mit Interaktionen, z.b. durch fraktionale Polynome (um Unabhängigkeit von der Linkfunktion zu erreichen).

Literatur 1. Wacholder S, 1986. Binomial Regression in GLIM: Estimating Risk Ratios and Risk Differences. Am J Epidemiol 123: 174-184. 2. Bender R, Kuß O, Hildebrandt M, Gehrmann U, 2007. Estimating adjusted NNT measures in logistic regression analysis. Stat Med (accepted for publication). 25 3. Gehrmann U, Bender R, Kuß O, Wellmann J, 2007. Vergleich von logistischen und linearen Regressionsmodellen zur Berechnung von adjustierten NNEs (number needed to be exposed). Abstract-Band der ersten gemeinsamen Tagung der Deutschen Arbeitsgemeinschaft Statistik: 113.