"Korrelation" bei Nominaldaten: Kontingenz

Größe: px

Ab Seite anzeigen:

Download ""Korrelation" bei Nominaldaten: Kontingenz"

Johanna Siegel
vor 5 Jahren
Abrufe

1 "Korrelation" bei Nominaldaten: Kontingenz j beobachtete Häufigkeiten (KSV Tabelle 6.3): i Augenfar be Haarfarb e blau braun grün 1 blond braun schwarz rot

2 i j Summe Randverteil ung Z i /N Augenfar be blau braun grün Haarfarb e 1 blond /128= braun /128= schwarz /128= rot /128=

3 i j Summ e Augenf arbe Haarfar be blau braun grün Randvert eilung Z i /N 1 blond /128= braun /128= schwar z /128= rot /128= 0.09 Summe Randve rteilung S j /N 62/128 = /128 = /128 =

4 Deshalb: erwartete Häufigkeiten E ij in Kontingenztafel mit p i = Z i /N und p j = S j /N : pˆ ij =p i p j wenn p i und p j unabhängig pˆ ij so daß E ij = *N oder: E ij = Z i S j /N dann gilt, falls Merkmale i und j unabhängig: B ij = E ij (Probe bei der Berechnung der E ij : E ij = B ij ) 178

5 i j Summ e Augenf arbe blau braun grün Randvert eilung Z i /N bei erwartete (vorausgesagte) Häufigkeiten Unabhängigkeit: Haarfar be 1 blond 0.38*0. 48*128 = braun 3 schwar z /128= /128= /128= rot /128= 0.09 Summe Randve rteilung S j /N 62/128 = /128 = /128 =

6 Definiere 2 i, j ( B ij E E ij ij ) 2 ( i, j B E 2 ij ij ) N mit: B ij, E ij = beobachtete, erwartete Häufigkeiten N = Gesamt-Stichprobenumfang Hier: 2 =42 2 / = = Kontingenzkoeffizient C C 2 2 N ; 0C<1 180

7 es gilt jedoch: C max m m 1 wir definieren daher einen korrigierten Kontingenzkoeffizienten für Nominaldaten: C korr C C max ( m 2 m 1)( 2 N) mit 0C korr 1 181

8 n=m=2: Matthews'scher Korrelationskoeffizient MCC Für eine 2x2 Matrix aus tatsächlichen und vorausgesagten Werten: TP = true positives FP = false positives FN = false negatives TN = true negatives Falls einer der Faktoren im Nenner Null ist, ist MCC:=0 Damit gilt: -1 MCC

9 Zusammenfassung: Korrelations-/Kontingenzkoeffizienten Voraussetzung Ratiodaten/ Intervalldaten linear r Koeffizient Ordinaldaten monoton R Nominaldaten C/C korr, MCC 183

10 Regressionsrechnung Düngermenge [kg/ha] Ertrag [dt/ha] Regressionsgerade ŷ = a + b x wie??? - per Auge freihändig einzeichnen - Gauss (1809): allgemein - Methode der kleinsten Quadrate 184

11 graphisch ŷ = a + b x : a ist der Schnittpunkt der Gerade mit der y-achse, bei x=0 b : 2 beliebige Punkte 1,2 auf der Geraden nehmen und Differenzenquotient (y 2 -y 1 )/(x 2 -x 1 ) berechnen b heißt Regressionskoeffizient 185

12 least-squares (Ausgleichs-)Gerade ŷ = a + b x : Minimierung von ( yi a bxi 2 ) hat die Lösung: b x i y x i 2 i 1/ n 1/ n( xi xi ) 2 y i a= y i b x i n Achtung: ŷ kann nur innerhalb des Wertebereiches von x berechnet werden (Interpolation); ob Extrapolation möglich ist, muß geprüft werden. 186

13 Tabelle mit Auswertung (Skizze für Excel!) 3,00 3,00 4,00 4,50 4,50 5,00 5,00 6,00 4,375 x, Summe 32,00 38,00 39,00 40,00 44,00 47,00 50,00 49,00 42,375 y, Summe -1,38-1,38-0,38 0,13 0,13 0,63 0,63 1,63 x, Differenzen -10,38-4,38-3,38-2,38 1,63 4,63 7,63 6,63 y, Differenzen 14,27 6,02 1,27-0,30 0,20 2,89 4,77 10,77 39,875 Zeile 3*Zeile 4 1,89 1,89 0,14 0,02 0,02 0,39 0,39 2,64 7,375 5,407 18,720-2,94 3,06-1,35-3,05 0,95 1,25 4,25-2,16 107,64 19,14 11,39 5,64 2,64 21,39 58,14 43,89 269,88 0,148-1,

14 Plot der Residuen r i = y i ŷ i : 5,00 4,00 3,00 2,00 1,00 0,00-1,00-2,00-3,00-4, Bewertung des Residuenplots: Residuen sind um 0 normalverteilt 188

15 Klausurergebnis - Tutorienbesuch in Klausur erzielte Punkte Regressionsgerad e; r= besuchte Tutorien 189

16 190

17 Schließende Statistik Test-Theorie Hypothesen Fehler 1. und 2. Art Wahrscheinlichkeitstheorie, Bayes'sche Formel einige Teststatistiken (χ 2, t, F-Test), Anwendungen 191

18 Test-Theorie - schließen von Stichprobe auf Grundgesamtheit - wie zuverlässig sind die Kennzahlen? - überprüfen, ob Stichprobe aus Grundgesamtheit stammt - Kennzahlen aus Stichprobe mit Dach: z.b. xˆ, sˆ - Kennzahlen aus Grundgesamtheit als griech. Buchstaben μ, λ, σ - Hypothesen H0 und H1 - beziehen sich i.a. auf Grundgesamtheit - z.b. H0(μ =18) oder H0(μ = μ T ) "Nullhypothese" - z.b. H1(μ 18) oder H1(μ μ T ) Alternativhypothese - der Test entscheidet zwischen H0 und H1 192

19 Klausur Fr :15-9:45 Studentenausweis und z,t,f, χ2,-tabellen mitbringen! Kein Rücktritt nach der Klausur Durchstreichen vor Abgabe ergibt 0 Punkte. 1 Buch, 1 Ordner R512 (niedrige M-Nr) und R513 (hohe M-Nr) Sitzordnung nach Matrikel-Nummer, deshalb bis 8:05 ankommen und Platz suchen!

20 Beispiel: Palette mit Äpfeln ganze Palette "schlecht", wenn > 15% mit braunen Stellen Grundgesamtheit = Äpfel einer Palette Stichprobe = 10 Äpfel davon H0 = "die Palette ist gut" Prüfgröße T = Anzahl schlechter Äpfel was ist die Häufigkeitsverteilung der Anzahl schlechter Äpfel aus 10 Äpfeln, wenn wir einen bestimmten Prozentsatz schlechter Äpfel voraussetzen? Antwort: B(n,p;k) mit n=10, p=0.15, k=

21 Binomialverteilung mit n=10, p=0.15 (ungünstigster Fall) Anzahl schlecht er Äpfel k B(n, p=0.15; k) B(n,p;l) mit l k Wahrscheinlichkeit, höchstens k schlechte Äpfel zu finden Wahrscheinlichkeit, höchstens 3 schlechte Äpfel zu finden k=3 ist die 5%-Grenze

22 Annahme von H0: T K Ablehnung von H0: T > K (im Beispiel: rechter Ausläufer der Verteilung "einseitig") in vielen anderen Fällen gilt, dass T im Intervall zwischen K 1 und K 2 liegen muss : Annahme von H0: K 1 T K 2 Ablehnung von H0: T < K 1 oder T > K 2 linker oder rechter Ausläufer der Verteilung von T "zweiseitig" wichtig für Tabellen! 196

23 Feststellung 1: wenn ich bei einer guten Palette die schlechten Äpfel meiner Stichprobe zähle, dann ist die Wahrscheinlichkeit, daß es mehr als 3 sind, 5%. Feststellung 2: wenn ich Paletten, bei denen von 10 Äpfeln einer Stichprobe mehr als 3 schlecht sind, als "schlecht" bezeichne, dann mache ich in 5% aller Fälle einen Fehler. Definition: Wenn ich die Hypothese H0 ablehne, obwohl sie in Wirklichkeit richtig ist, mache ich einen Fehler 1. Art, oder α-fehler. False negative Die Wahrscheinlichkeit des Fehlers 1. Art nennt man α -Risiko oder Irrtumswahrscheinlichkeit α. α wird unglücklicherweise auch als Signifikanzniveau oder Signifikanz bezeichnet. 197

24 Feststellung 3: im Beispiel ist die Irrtumswahrscheinlichkeit 5%, wenn ich k=3 als Grenze K verwende. (bei K=4 wäre die Irrtumswahrscheinlichkeit α =1%) Feststellung 4: je kleiner die Irrtumswahrscheinlichkeit α, desto größer die Wahrscheinlichkeit, daß ich schlechte Paletten als gut ansehe. Definition: Wenn ich H0 annehme, obwohl diese in Wirklichkeit falsch ist, begehe ich einen Fehler 2. Art oder β-fehler. False positive Die Wahrscheinlichkeit des β -Fehlers ist der Zahlenwert β. 1- β heißt Power/Teststärke/Güte. Je kleiner der α -Fehler, desto größer der β -Fehler (und umgekehrt). 198

25 was kann man über den Fehler 2. Art sagen? Annahme: schlechte Paletten haben 50% schlechte Äpfel B(10,0.5;k) (das ist noch nicht der ungünstigste Fall!) Anzahl schlecht er Äpfel k B(n,p;k) B(n,p;l) mit l k Wahrscheinlichkeit, höchstens 3 schlechte Äpfel zu finden

26 Feststellung 1: Die Wahrscheinlichkeit ist 17.2 %, eine schlechte Palette (mit 50% schlechter Äpfel) als gut zu befinden (bei K=3 von 10) Feststellung 2: Um den β-fehler zu berechnen, brauchen wir den wahren Wert von p! Dieser ist aber meistens nicht bekannt... Was passiert, wenn wir 20 anstelle von 10 Äpfeln untersuchen? p=0.15: B(n,p;l) mit l 6 ist 0.978, also α =2.2% (l 5; 0.933, α=6.7%) p=0.5: B(n,p;l) mit l 6 ist , also β =5.8% (l 5; 0.021, β=2.1%) Feststellung 3: Um den α- und β- Fehler zu verringern, können wir den Umfang der Stichprobe vergrößern. Dies kostet aber im Allgemeinen Geld/Arbeit/Zeit! 200

27 wahrer Sachverhalt "gute Palette" "schlechte Palette" Entscheidung des Tests T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein Wahrscheinlichkeit α: falsche Entscheidung - H0 wäre richtig, aber Testergebnis führt zu H1 (Fehler 1. Art) false negative Wahrscheinlichkeit β: falsche Entscheidung - H1 wäre richtig, aber Testergebnis führt zu H0 (Fehler 2. Art) false positive Wahrscheinlichkeit 1-β: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein 201

Ähnliche Dokumente

r=0.666 Number of people who drowned by falling into a pool correlates with Films Nicolas Cage appeared in 140 drownings 6 films 4 films 120 drownings

r=0.666 Number of people who drowned by falling into a pool correlates with Films Nicolas Cage appeared in 140 drownings 6 films 4 films 120 drownings r=.666 Number of people who drowned by falling into a pool correlates with Films Nicolas Cage appeared in 5 6 7 8 9 6 films drownings films drownings films 8 drownings Nicholas Cage Swimming pool drownings