Epidemiologie / Biometrie

Ähnliche Dokumente
Statistisches Testen

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Statistische Tests (Signifikanztests)

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Kapitel 3 Schließende Statistik

Klausur in "Biomathematik" WS 2007 / 2008 Montag, den 28. Januar 2008

Kapitel 3 Schließende Statistik

Biomathematik für Mediziner, Klausur WS 2003/2004 Seite 1

Biomathematik für Mediziner

5. Seminar Statistik

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistische Tests für unbekannte Parameter

3 Grundlagen statistischer Tests (Kap. 8 IS)

Wichtige Definitionen und Aussagen

Biomathematik für Mediziner

Bereiche der Statistik

Lösungen zur Biomathe-Klausur Gruppe A Montag, den 16. Juli 2001

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Klassifikation von Signifikanztests

Inhaltsverzeichnis. 0 Einleitung 1

Klassifikation von Signifikanztests

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

Statistische Tests für unbekannte Parameter

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Einfaktorielle Varianzanalyse

Statistik II für Betriebswirte Vorlesung 1

Statistik II. Weitere Statistische Tests. Statistik II

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

r=0.666 Number of people who drowned by falling into a pool correlates with Films Nicolas Cage appeared in 140 drownings 6 films 4 films 120 drownings

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Schließende Statistik

Auswertung und Lösung

Die mit * gekennzeichneten Abschnitte beinhalten Themen, die über die Anforderungen des Gegenstandskatalogs hinausgehen.

Grundbegriffe. Allgemein. Merkmale. Verschiedene Variablen

KLAUSUR IN BIOMATHEMATIK WS 2007/08 MONTAG, DEN 28. JANUAR 2008

Musterlösung. Modulklausur Multivariate Verfahren

Test auf den Erwartungswert

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Jost Reinecke. 7. Juni 2005

Klausur zur Vorlesung

Wahrscheinlichkeitsrechnung und Statistik

Fit for Abi & Study Stochastik

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Statistik und Wahrscheinlichkeitsrechnung

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

8. Konfidenzintervalle und Hypothesentests

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in die Induktive Statistik: Testen von Hypothesen

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Einführung in Quantitative Methoden

Statistik II. Statistische Tests. Statistik II

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Vergleich von Gruppen I

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

GRUNDPRINZIPIEN statistischen Testens

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Wiederholung. Statistik I. Sommersemester 2009

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Statistische Methoden in den Umweltwissenschaften

Biomathematik für Mediziner, Klausur SS 2000 Seite 1

Statistical Coaching. Thomas Forstner

Mathematik für Biologen

Glossar Biometrie / Statistik. Auszug für Fragebogen Fallzahlberechnung/-begründung

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Statistik II. IV. Hypothesentests. Martin Huber

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Vorlesung: Statistik II für Wirtschaftswissenschaft

Beurteilende Statistik

Software oder Tabellen (nicht Thema dieser Veranstaltung).

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Regression und Korrelation

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Grundlagen der Biometrie in Agrarwissenschaften / Ernährungswissenschaften

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Testen von Hypothesen:

Nachklausur zur Vorlesung

Allgemeines zu Tests. Statistische Hypothesentests

Ablaufschema beim Testen

Statistische Methoden in den Umweltwissenschaften

1 EINLEITUNG Allgemeines Kapitelübersicht Gebrauch dieses Buches Verwenden zusätzlicher Literatur...

Statistische Methoden in den Umweltwissenschaften

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Modul 141 Statistik. 1. Studienjahr 11. Sitzung Signifikanztests

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Mathematische Statistik Aufgaben zum Üben. Schätzer

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Sie wissen noch, dass 18.99% der Surfer, die kein Smartphone haben, pro Monat weniger als 20 Stunden das Internet nutzen, d.h. f(y 1 X 2 ) =

Diagnose und Prognose: Kurzfassung 4

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

2. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Medizinische Biometrie (L5)

Transkript:

Wintersemester 2004 / 2005 Epidemiologie / Biometrie Robert Hochstrat 14. März 2005 Zusammenschrift der Übung zur Vorlesung aus dem WS 04/05 Rückfragen, Ergänzungen und Korrekturen an robert hochstrat@web.de Natürlich übernehme ich keine Gewähr für Richtig- und Vollständigkeit! 1

Kenngrößen Lagemaße geben in geeigneter Weise ein Zentrum der Häufigkeitsverteilung an Streuungsmaße kennzeichnen die Variabilität der Häufigkeitsverteilung Zulässige Lagemaße Zulässige Streuungsmaße Nominal Modus keine Ordinal Modus Spannweite Quantile Interquartilabstand Metrisch Modus Spannweite Quantile Interquartilabstand Mittelwert Standardabweichung Varianz Variationskoeffizient Modus: Die Merkmalsausprägung, die am häufigsten beobachtet wird Quantile: Q p = X p n für p n N und Q p = 1 2 (X p n + X (p n)+1 ) für p n / N Das p 100% Quantil teilt die Daten im Verhältnis p 100% : (1 p) 100% Mittelwert: S. Regressionsrechnung Median: 50% - Quantil Spannweite: x max x min Interquartilabstand: Q 3 4 Q 1 4 Boxplott: Wiskers ( Antennen ) bis 1,5-facher Interquartilabstand, Box von Q 1 bis Q 3, Median wird durch 4 4 Querlinie und Mittelwert durch Punkt gekennzeichnet. Varianz s. Rechnung zur Regressionsgeraden Standardabweichung Die Standardabweichung ist die Wurzel aus der Varianz. Kovarianz Die Kovarianz beschreibt gemeinsame Streuung zweier Merkmale Analog zur Varianz (S xx bzw. S yy ): S xy = 1 n (x i x)(y i ȳ) = 1 n x i y i n xȳ n 1 n 1 Korrelation Korrelation ist ein Maß für die Stärke des Linearen Zusammenhangs zweier Merkmale. 2

Korrelationskoeffizient r xy = Lineare Regression S xy Sxx S yy = (x i x)(y i ȳ) x i y i n xȳ s = s (x i x) 2 (y i ȳ) 2 (x i x) 2 (y i ȳ) 2 Wenn Größen Y linear von Größen X abhängen, kann man eine Regressionsgerade Y = a X + b aufstellen. a: Regressionskoeffizient b: Achsenabschnitt. Jeder Punkt (x i, y i ) hat von der Geraden dem Abstand d i = (y i (a x i + b)) Idee: Bilde alle Differenzen, quadriere und minimiere ihre Summe bezüglich a und b. Die dadurch eindeutig bestimmte Gerade ist die Regressionsgerade von Y auf X. Achtung: Nicht über Beobachtungsgrenzen hinaus Extrapolieren! Rechnung zur Regression: Mittelwerte: x = 1 n ȳ = 1 n n x i n y i Varianzen: Kovarianz: (s. auch oben) S xx = 1 S yy = 1 S xy = S yx = 1 Steigung der Regressionsgeraden: x 2 i 1 n ( n y 2 i 1 n ( n x i y i 1 n ( n x i ) ( n x i ) 2 ] = 1 b yx = Syx S xx Achsenabschnitt (Intercept) der Regressionsgeraden: Regressionsgerade: y i ) 2 ] = 1 a yx = ȳ b yx x x 2 i n x] y 2 i n ȳ] y i )] = 1 x i y i n xȳ] Güte der Regression: Y = b yx X + a yx B = r 2 xy 0 B 1 mit r xy Korellationskoeffizient r 2 xy% der Varianz von Y ist durch X erklärbar. 3

Konfidenzintervalle Ein KI ist ein Zufallsintervall, das mit einer vorgegebenen Wahrscheinlichkeit (1 α) einen festen, aber unbekannten Parameter enthält. (1 α) : Konfidenzniveau α : Irrtumswahrscheinlichkeit Konfidenzintervall für p approximatives KI für für den Parameter p einer Binomialverteilung ist gegeben durch [p 1, p 2 ] mit p 1/2 = k n ± u (1 α 2 ) k n (1 k n ) n Konfidenzintervall für µ µ ist Erwartungswert einer Normalverteilung. bekannte Varianz: µ 1/2 = x ± u (1 α 2 ) σ n geschätzte Varianz: µ 1/2 = x ± t (n 1,1 α 2 ) s n mit s Standardabweichung Statistische Tests mit u, dem Quantil der Standardnormalverteilung. Ein statistischer Test soll herausfinden, ob ein bestimmtes Modell gelten kann. Das zu prüfende Modell wird Nullhypothese genannt. Das Modell soll abgelehnt, wenn ein ein externes Ereignis beobachtet wird, das im Modell eine genügend kleine Wahrscheinlichkeit hat. Der Test ist eine Regel, die festlegt, wann diese Frage mit plausibel bzw. unplausibel beantwortet wird. Signifikanztests Ziel eines Signifikanztests: Etablierung einer neuen Hypothese, Nachweis eines Unterschieds zu einer bestehenden Hypothese. Daher: H 0 : Nullhypothese, Basis der Entscheidung H 1 : Alternativhypothese Vorgehen Annahme: H 1 unterscheidet sich nicht von H 0. Liegt dann jedoch die Beobachtung im unplausiblen Bereich, gilt das als Widerspruch und statistischer Beweis für den Unterschied zwischen H 0 und H 1. H 0 H 1 H 0 Richtige Entscheidung Fehler 2. Art Wahscheinlichkeit β H 1 Fehler 1. Art Wahrscheinlichkeit α Richtige Entscheidung 1 - β : Power = Wahrscheinlichkeit, mit der ein vorhandener Unterschied aufgedeckt wird. 4

Fehler 1. und 2. Art Wahrscheinlichkeit für α kann frei gewählt werden. Üblich sind 5%, 1% und 0, 1% Wahl α = 0, 05 bedeutet, dass man bereit ist, 5% der richtigen H 0 zu Gunsten von H 1 zu verwerfen. α heißt auch Signifikanzniveau bzw. Irrtumswahrscheinlichkeit. β Fehler läßt sich nicht abschätzen, da Verteilung unter H 1 unbekannt ist. Wird H 0 zugunsten der Alternativhypothese verworfen, so ist das Testergebnis, dass der Unterschied signifikant ist. Ablaufschema Statistische Signifikanztests 1. Formulierung der Hypothese 2. Festlegung des Signifikanzniveaus α 3. Zusammenfassung der Stichproben zu einem Wert T = T (x 1, x 2,.., x n ) 4. Ablesen eines Schwellenwertes c aus einer Tabelle (Quantil) 5. Entscheidung: χ 2 Test falls T > c bzw. p α : H 1 falls T c bzw. p < α : Nichtablehnung von H 0 Überprüfung der (Un-)Abhängigkeit von zwei Merkmalen H 0 :Unabhängig H 1 :Abhängig Ablauf: 1. beobachtete Häufigkeiten X = 0 X = 1 H = 0 n 11 n 12 n 1 G = 1 n 21 n 22 n 2 2. Erwartungen unter H 0 : n11 = n1 n n 1 n 11 = n 1 n1 n 3. erwartete Häufigkeiten: 4. bestimme für jede Zelle i: q i = 5. Bestimme Teststatistik Q = n 1 n 2 n X = 0 X = 1 H = 0 m 11 m 12 n 1 n mit m G = 1 m 21 m 22 n ij = j n j 2 n n 1 n 2 n (Beobachteter W ert Erwarteter W ert)2 Erwarteter W ert q i Zellen 6. Entscheidung: Q > χ 2 (z 1)(s 1);(1 α) H 0 ablehnen. Mit z = Anzahl der Zeilen und s = Anzahl der Spalten in der zugehörigen Kontingenztafel (ohne Summen!) und (1 α) Signifikanzniveau. 5

t-test Zwei Stichproben heißen unverbunden, wenn sowohl die Daten innerhalb einer Stichprobe als auch die Daten aus beiden Stichproben zusammen alle unabhängig voneinander sind. Zwei Stichproben heißen verbunden, wenn es zu jedem x aus der einen Stichprobe genau ein y aus der anderen Stichprobe gibt, mit dem es inhaltlich ein Paar bildet. Verbundene Stichproben müssen daher stets den gleichen Stichprobenumfang haben. Man nennt zwei verbundene Stichproben auch paarige Stichproben. t-test für unverbundene Stichproben: Zwei unabhängige Stichproben, die Realisationen von normalverteilten Zufallsvariablen mit unbekannter Varianz darstellen. Hypothese H 0 : µ 1 = µ 2 gegen H 1 : µ 1 µ 2 Teststatistik: T = x ȳ q s 2 n + s2 m mit der gepoolten Varianz s 2 = 1 n+m 2 [(n 1) S xx + (m 1) S yy ] Entscheidungsregel: H 1 annehmen, falls T > t (n+m 2;1 α 2 ) t-test für verbundene Stichproben: Zwei Stichproben von Meßwertpaaren (x i, y i ), die aus Grundgesamtheiten mit den Erwartungswerten µ 1 und µ 2 mit gleichen Varianzen stammen. Die Differenzen d i = x i y i sind Realisationen einer normalverteilten Zufallsvariablen D mit unbekannter Varianz Hypothesen: H 0 : µ 1 = µ 2 gegen H 1 : µ 1 µ 2 Teststatistik: T = n d Sdd Entscheidungsregel: H 1 annehmen, falls T > t (n 1;1 α 2 ) Diagnostische Tests Realität Testentscheidung lautet: krank gesund positiv (krank) richtige Entscheidung falsch-positiv: Fehler 1. Art negativ (gesund) falsch-negativ: Fehler 2. Art richtige Entscheidung bekannt sind: Prävalenz: P(krank) = P(Diagnose positiv), kurz: P(D + ) = Sensitivität( %-Zahl der Kranken, die als krank erkannt wird ): P(T + D + ) = Anzahl der Erkrankten mit positivem T est Gesamtzahl der Erkrankten Spezifität( %-Zahl der Gesunden, die als gesund erkannt wird ): P(T D ) = Anzahl der Gesunden mit negativem T est Gesamtzahl der Gesunden Bedingung ist, dass die Diagnose bekannt ist. Vorhersagewerte: Positiver Vorhersagewert: P(D + T + ) = Negativer Vorhersagewert P(D T ) = P ositiv getestete kranke Gesamt positiv getestete Negtiv getestete Gesunde Gesamt negativ getestete 6 Summe der Erkrankten Gesamtzahl aller V ersuchsobjekte

Hier ist der positive Test die Bedingung. Von Interesse sind auch: A-priori-Odds = P raevalenz 1 P raevalenz A-posteriori-odds = a-priori-odds LR + Likelihood Quotienten LR + = Sensitivitaet 1 Spezifitaet Ein positives Testergebnis ist LR + mal wahrscheinlicher, wenn eine Erkrankung vorliegt, als wenn keine vorliegt. LR = 1 Sensitivitaet Spezifitaet In prospektiven Studien ist das Risiko bzw. das relative Risiko auch interessant: So ist zum Beispiel das Risiko interessant, Krank zu werden, wenn man einer Gefahr ausgesetzt Krank und Exposition wurde. R 1 = Expositiongesamt oder das Risiko, krank zu werden, ohne Exposition: R 2 = Krank und keine Exposition keine Exposition gesamt Das relative Risiko ( R1 R 2 ) sagt aus, wie viel wahrscheinlicher es ist, zu erkranken, wenn man der Exposition ausgesetzt ist/war. Odds (=Chancen): O 1 = Odds-Ratio: O1 O 2 ROC-Kurven Krank und Exposition Gesund und Exposition O 2 = Krank und keine Exposition Gesund und keine Exposition Receiver Operation Characteristic - Kurven helfen bei der Wahl eines Schwellenwertes für das Testverfahren, das zwischen krank und gesund entscheidet. Bei der ROC-Kurve werden auf der X-Achse die Werte von (1-Spezifität) und auf der Y-Achse die zugehörigen Werte der Sensitivität für alle zu betrachtenden Variationen des Schwellenwertes. Diese Punkte verbindet man nun untereinander und die äußeren jeweils mit dem Ursprung bzw. dem Punkt (1,1). Der Schwellenwert ist als der Punkt auf dieser Kurve zu wählen, der am weitesten von der Winkelhalbierenden des Koordinatensystems entfernt ist. Studientypen Fall-Kontroll-Studie Unter einer Fall-Kontroll-Studie versteht man eine retrospektive Erhebung. Aus einer definierten Grundgesamtheit wird eine Stichprobe von Personen mit der interessierenden Erkrankung (Fälle) gezogen. Aus der gleichen Grundgesamtheit wird eine Stichprobe von Personen ohne diese Erkrankung (Kontrollen) gezogen. Die Exposition in der Vergangenheit gegenüber potentiellen Risikofaktoren wird ermittelt. Das wichtigste Risikomaß in Fall-Kontroll-Studien ist die Odds Ratio. Unter einer Kohortenstudie versteht man eine prospektive Erhebung. Aus einer definierten Grundgesamtheit wird eine Stichprobe (Kohorte) gezogen, in der Risikofaktoren erhoben und Krankheiten erfaßt werden. Risikomaße in Kohortenstudien sind die Inzidenz, das Relative Risiko und die Risikodifferenz. 7