Anwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen

Ähnliche Dokumente
Logistische Regression in SAS

Die Berechnung adjustierter NNTs in randomisierten kontrollierten Studien

Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann

Berechnung von Konfidenzintervallen für Impact Numbers aus Fall-Kontroll und Kohorten-Studien

Musterlösung. Modulklausur Multivariate Verfahren

Prognoseintervalle für y 0 gegeben x 0

Seminar zur Energiewirtschaft:

Logistische Regression

Punkt- und Intervallschätzung adjustierter NNT-Maße im Cox-Modell mit Hilfe von SAS

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Logistische Regression

Vorschläge und Ansätze zur Darstellung von Studienergebnissen mithilfe des Effektmaßes Number Needed to Treat (NNT) Arbeitspapier

Anhang 4. Bias durch Überdiagnose von papillären Mikrokarzinomen

Ein SAS -Makro zur Schätzung des Stereotype Regressionsmodells

Kategorielle Zielgrössen

After Work Statistics

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft

Lineare Regression. Kapitel Regressionsgerade

Beispiel: Multiples Modell/Omitted Variable Bias I

1 Beispiel zur Methode der kleinsten Quadrate

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

2.3 Intervallschätzung

Datenabhängiges, modellbasiertes Gruppieren von binären longitudinalen Verläufen am Beispiel der Neurodermitis

Übung V Lineares Regressionsmodell

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Einführung in die Induktive Statistik: Regressionsanalyse

19 Punkte. Aufgabe 1. Einkommen niedrig mittel hoch Männer Frauen Geschlecht. a) Bestimmen Sie die fehlenden Werte!

Beispiel: Multiples Modell/Omitted Variable Bias I

After Work Statistics

8 Allgemeine Modelle & Robuste Regression

VO Biostatistik im WS 2006/2007

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

limhatewerzeoelhiniii

Ein Vergleich von 2-Stichproben-Verfahren mit Berücksichtigung von Baselinewerten bei ordinalen Zielvariablen

Deskriptive Beschreibung linearer Zusammenhänge

Inferenz im multiplen Regressionsmodell

Mathematische und statistische Methoden II

Multivariate Verfahren

Wahrscheinlichkeitsverteilungen

Einfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Multiple Regression III

Stochastik Praktikum Lineare Modelle

Logistische Regression

Was bedeutet p<0.05?

Klassen diskreter Variablen

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Einführung in die Induktive Statistik: Testen von Hypothesen

Treatment-Evaluationsproblematik

2.5 Lineare Regressionsmodelle

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Forschungsstatistik I

Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS

Biometrie und Statistik

Ein relatives Überlebenszeitmodell für korrelierte Beobachtungen. Oliver Kuß

2.3 Intervallschätzung

Multivariate Verfahren

Biometrie. Regressionsmodelle

Lösung Übungsblatt 5

Zusammenhänge zwischen metrischen Merkmalen

Maximum-Likelihood Schätzung

Berechnung von Konfidenzintervallen für die Population Impact Number (PIN)

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Der Gefoulte soll niemals selber schießen Empirische Untersuchung einer alten deutschen Fußballerweisheit

So berechnen Sie einen Schätzer für einen Punkt

Ordinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Fortgeschrittene Ökonometrie: Maximum Likelihood

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Willkommen zur Vorlesung Statistik (Master)

Hypothesenbewertungen: Übersicht

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

2.Tutorium Generalisierte Regression

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Statistik II für Betriebswirte Vorlesung 11

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/

Alternative Darstellung attributabler Risiken mit Hilfe von Impact Numbers

Wichtige Definitionen und Aussagen

U N I V E R S I T Ä T S M E D I Z I N B E R L I N. After Work Statistics

Statistisches Testen

Stichproben und statistische Fehler

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Poisson Regression & Verallgemeinerte lineare Modelle

Statistik I für Betriebswirte Vorlesung 14

Prüfung im Fach Mikroökonometrie im Wintersemester 2012/13 Aufgaben

Schätzung im multiplen linearen Modell VI

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Statistik I für Betriebswirte Vorlesung 13

Statistics, Data Analysis, and Simulation SS 2017

D-CHAB Frühlingssemester 2017 T =

Transkript:

Workshop der AG Statistische Methoden in der Medizin Magdeburg, 22.11.2007 Anwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen Ulrich Gehrmann 1, Oliver Kuß 2, Jürgen Wellmann 3, Ralf Bender 1,4 1 Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Köln 2 Institut für medizinische Epidemiologie, Biometrie und Informatik der Universität Halle-Wittenberg 3 Institut für Epidemiologie und Sozialmedizin der Universität Münster 4 Medizinische Fakultät der Universität Köln

Übersicht NNEs und Risikodifferenzen Regressionsmodelle für Risikodifferenzen: - Linear Probability Model (mit Nebenbedingungen) - Klassische lineare Regression - Logistische Regression mit Average Risk Difference Approach Simulationsstudie der verschiedenen Modelle Einbezug von Interaktion ins lineare Modell 2 Fazit

NNEs und Risikodifferenzen Daten: Binäre Zielgröße Y (0/1, z.b. Herzinfarkt) Binäre Exposition E (0/1, z.b. Rauchen) 3 Ggf. weitere stetige Einflussgrößen X j (z.b. Alter, hier Beschränkung auf eine Kovariable X) Ziel: Geeignetes Effektmaß: Welchen Einfluss hat die Exposition auf die Zielgröße? Klassisches Effektmaß: Odds Ratio (OR), jedoch nicht leicht zu interpretieren. Anschaulichere Alternative: Risikodifferenz (RD = P(Y=1 E=1) P(Y=1 E=0))

NNEs und Risikodifferenzen Noch anschaulicher sind die Impact numbers, z.b. Number needed to be exposed (NNE) NNE = 1/RD 4 Interpretation des NNE z.b.: Unter durchschnittlich wie vielen Rauchern hat einer einen Herzinfarkt aufgrund des Rauchens bekommen? Das Konfidenzintervall für das NNE kann man aus den Konfidenzgrenzen für die RD herleiten: [NNE u ;NNE o ] = [1/RD o ;1/RD u ] Der statistische Test (p-wert) für das NNE ist äquivalent zum Test für die RD.

Risikodifferenzen im wahren Modell Neben den Regressionsmodellen wird ein wahres Modell angenommen, bei dem es für jedes e und x definierte Wahrscheinlichkeiten P(Y=1 E=e, X=x) gibt. Damit sind für jedes x auch RDs definiert: RD(x) = P(Y=1 E=1, X=x) P(Y=1 E=0, X=x) 6 Def: Die RD einer Gruppe (z.b. die Exponierten) ist der Mittelwert der RD(x) über alle x, die in dieser Gruppe vorkommen. Bei einem wahren logistischen Modell unterscheiden sich die RDs in der Regel zwischen den Gruppen. Bei einem wahren linearen Modell gibt es nur eine RD, und diese ist durch den Abstand der beiden Regressionsgeraden bestimmt.

Linear Probability Model (LPM) Def.: Ein LPM ist ein GLM mit: Y i ~ Bi(1,π i ) E(Y i ) = π i = α + e i β + x i γ NB: π i [0;1] i {1,,n} 7 Bem.: Abgrenzung zur linearen Regression: Binomialverteilung Abgrenzung zur logistischen Regression: Identische Linkfunktion RD = β

Linear Probability Model (LPM) Algorithmus: Maximiere die Log-Likelihood: n log(l( α, β, γ)) y log( α+ e β+ x γ ) + (1 y )log(1 ( α+ e β+ x γ)) i= 1 Unter der Nebenbedingung: 6 6 ( α+ eiβ+ x iγ) 10 ;1 10 i {1,..., n} i i i i i i Das geringfügige Verkleinern des Intervalls für die NB bewirkt, dass log(0) in der Berechnung vermieden wird. 8 Implementierung in SAS: Mit PROC IML und CALL NLPNRA (Nichtlineare Optimierung mit der Newton-Raphson- Methode und Nebenbedingungen)

Klassische lineare Regression (LM) Def.: Ein LM ist ein GLM mit: Y i ~ N(π i, σ 2 ) E(Y i ) = π i = α + e i β + x i γ Motivation: Zwar können dadurch die Schätzungen ŷ i für die Ränder des Kovariablen-Bereichs aus [0;1] herauslaufen. 9 Interessiert man sich jedoch nur für den Effekt der Exposition (RD bzw. NNE), kann man dies evtl. ignorieren (falls der Effektschätzer gut ist!).

Average Risk Difference Approach (ARDA) Def.: Das Modell des ARDA ist die logistische Regression: Y i ~ Bi(1,π i ) E(Y i ) = π i = π(α + e i β + x i γ) mit π(a) = exp(a) / (1 + exp(a)); a (logistische Funktion) Wähle eine Gruppe aus, z.b. die Nicht-Exponierten. Bestimme die RD(x i ) = π(α + β + x i γ) - π(α + x i γ) für alle x i, die in dieser Gruppe vorkommen. Der Mittelwert dieser RD(x i ) ist die gesuchte RD. 10 Hier gibt es 2 unterschiedliche RDs für Nicht-Exponierte, wenn sie exponiert gewesen wären Exponierte, wenn sie nicht exponiert gewesen wären Sinnvoll bei unterschiedlichen Kovariablen-Verteilungen der Exponierten und Nicht-Exponierten (Confounding).

Rohes Vergleichsmodell Def.: Das rohe Modell ist definiert: Y i ~ Bi(1,π i ) E(Y i ) = π i = α + e i β Die RD ist einfach die Differenz der beobachteten Risiken in den beiden Gruppen. 11

Simulationsstudie der verschiedenen Modelle Wahres logistisches Modell: Intercept = -10, OR e = 3, OR x = 1.2 1000 Exponierte (e i =1), 1000 Nicht-Exponierte (e i =0) X i ~ N(μ 0 ;σ 2 ) bzw. N(μ 1 ;σ 2 ), je nach Expositionsstatus 2 Situationen: μ 1 = μ 0 = 45 μ 1 = 40; μ 0 = 45 (Confounding) (RDs werden immer für Nicht-Exponierte berechnet.) In jeder Situation 5 Standardabweichungen σ (1, 2, 3, 5, 8). 12 Somit 10 Simulationsmodelle mit vorgegebenen e i und x i. Jeweils 1000 Simulationsläufe (Simulationen der y i ).

Simulationsstudie der verschiedenen Modelle Entsprechend: Wahres lineares Modell : Intercept = 0, RD e = 0.18, RD x = 0.01 Parameter hier so gewählt, dass: RD e die gleiche Größenordnung hat wie die durchschnittliche RD im wahren logistischen Modell die simulierten y i nicht aus [0;1] herauslaufen. 13

Simulationsstudie der verschiedenen Modelle Bemerkungen zu den Ergebnissen: Es wurden Wald sche Konfidenzintervalle berechnet. Es werden jeweils die Überdeckungswahrscheinlichkeit und der relative Bias (RD) dargestellt (alles in Prozent). Die Überdeckungswahrscheinlichkeit bezieht sich sowohl auf die RD als auch auf das NNE. 14 Der relative Bias des NNE unterscheidet sich grundsätzlich von dem der RD. In dieser Studie waren die Unterschiede jedoch gering, daher wird hier in der Regel nur der RD-Bias dargestellt. Bei gravierenden Abweichungen wird der relative Bias des NNE gesondert dargestellt, s. weiter unten.

Simulation logistischer Modelle ohne Confounding (μ 1 = μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 15 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Simulation logistischer Modelle mit Confounding (μ 1 = 40; μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 16 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Simulation linearer Modelle ohne Confounding (μ 1 = μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 17 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Simulation linearer Modelle mit Confounding (μ 1 = 40; μ 0 = 45): LPM LM ARDA Roh LPM LM ARDA Roh 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 18 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Erste Zusammenfassung Im wahren linearen Modell sind LPM, LM und ARDA gleich gut. Für das wahre logistische Modell gilt: Das LPM hat erhebliche Probleme, insbesondere bei großen Varianzen der x-variablen. Wenn kein Confounding vorliegt, sind LM und ARDA gleich gut (!), und dabei vergleichbar mit dem rohen Modell, welches allerdings etwas breitere Konfidenzintervalle liefert. 19 Bei Confounding liefert nur der ARDA gute Ergebnisse.

Einbezug von Interaktion ins LM Ansatzpunkt zur Verbesserung des LM: Beim ARDA werden zwei unterschiedliche RDs für die Exponierten bzw. Nicht-Exponierten geschätzt, abhängig von der Kovariablen-Verteilung in der jeweiligen Gruppe. Vorteil des ARDA, falls das wahre Modell logistisch (oder zumindest nichtlinear) ist. Problem beim LM: Es wird eine einheitliche RD geschätzt. Abhilfe: Einführung eines Interaktions-Terms δ zwischen Expositionsstatus und Kovariable ins Modell: 20 E(y i ) = π i = α + e i β + x i γ + e i x i δ

Einbezug von Interaktion ins LM Berechnung einer RD analog zum ARDA: Wähle eine Gruppe aus, z.b. die Nicht-Exponierten. Für alle x i, die in dieser Gruppe vorkommen, gilt: RD(x i ) = β + x i δ Gesuchte RD dann einfacher zu bestimmen als im ARDA: Sei x NE der Mittelwert der x i der Nicht-Exponierten. Dann gilt für die Risikodifferenz RD NE der Nicht- Exponierten: RD NE = β + x NE δ 21 Einfache Implementierung in SAS: 1.) Berechnung von x NE, z.b. Einzeiler in PROC SQL. 2.) PROC GENMOD oder GLM mit ESTIMATE-Statement unter Angabe des berechneten x NE. Keine weiteren Berechnungen erforderlich!

Einbezug von Interaktion ins LM: Ergebnisse bei Simulation logistischer Modelle mit Confounding (μ 1 = 40; μ 0 = 45) LM ARDA LM+Interaktion LM ARDA LM+Interaktion 100 90 50 40 30 Überdeckungsw'keit 80 70 60 50 40 30 20 Relativer Bias der RD 20 10 0-10 -20-30 -40-50 -60-70 22 10 0 1 2 3 4 5 6 7 8 Standardabweichung -80-90 -100 1 2 3 4 5 6 7 8 Standardabweichung

Einbezug von Interaktion ins LM: NNE-Bias bei Simulation logistischer Modelle mit Confounding (μ 1 = 40; μ 0 = 45) 23 NNE-Bias zeigt hier für σ=1 eine andere Tendenz als sonst. Grund liegt in RD-Schätzungen nahe bei 0, was sehr große NNE-Schätzungen ergibt. Vier RD-Schätzungen waren sogar < 0 und mussten daher bei der Berechnung des NNE-Bias weggelassen werden. Für größere σ: Bestätigung der bisherigen Resultate. Relativer Bias des NNE 100 90 80 70 60 50 40 30 20 10 0-10 -20-30 -40-50 LM ARDA LM+Interaktion 1 2 3 4 5 6 7 8 Standardabweichung

Fazit Die logistische Regression mit ARDA hat sich als stabilster Ansatz zur RD- bzw. NNE-Schätzung erwiesen. Falls kein Confounding vorliegt, ist das klassische LM eine vollwertige Alternative. Im Confounding-Fall fällt auch das LM ab. Es kann zwar durch den Einbezug von Interaktionen verbessert werden, ist aber dem ARDA auch dann nicht ebenbürtig. Das LPM hat insgesamt deutlich schlechter abgeschnitten. 24 Ausblick: Simulationen mit mehr als einer stetigen Variablen. Transformation der Kovariablen im LM mit Interaktionen, z.b. durch fraktionale Polynome (um Unabhängigkeit von der Linkfunktion zu erreichen).

Literatur 1. Wacholder S, 1986. Binomial Regression in GLIM: Estimating Risk Ratios and Risk Differences. Am J Epidemiol 123: 174-184. 2. Bender R, Kuß O, Hildebrandt M, Gehrmann U, 2007. Estimating adjusted NNT measures in logistic regression analysis. Stat Med (accepted for publication). 25 3. Gehrmann U, Bender R, Kuß O, Wellmann J, 2007. Vergleich von logistischen und linearen Regressionsmodellen zur Berechnung von adjustierten NNEs (number needed to be exposed). Abstract-Band der ersten gemeinsamen Tagung der Deutschen Arbeitsgemeinschaft Statistik: 113.