Wie kann ich überprüfen, welche Verteilung meinen Daten zu Grunde liegt? Chi-Quadrat-Test auf Normalverteilung T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-1
Chi-Quadrat-Test: Test auf Normal-Verteilung Konkretes Beispiel (im Geiste R. Schlittgen Einführung in die Statistik (Oldenbourg), 1998.): Studentische Wohnungsuche: Vergleich der Kaltmieten einer -Raum Wohnung. Gewissenhafte Recherche ergibt folgende Liste an Angeboten in EUR: 385 795 550 705 740 540 740 480 350 749 93 470 358 300 695 390 750 700 540 840 570 400 80 400 790 395 170 400 475 390 400 59 350 495 345 70 490 4 560 350 460 180 350 780 Unser Student fragt sich: Ist das völlige Willkür? Sind vorliegende Daten auf eine bestimmte Art verteilt? Normalverteilt? Festlegen der Irrtumswahrscheinlichkeit: Testen auf 5 % T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-
Chi-Quadrat-Test: Test auf Normal-Verteilung Erster Schritt: Sortieren der Urliste: Mietpreise in EUR 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 Zweiter Schritt: Einteilung nach Klassen: Anzahl der Klassen k? Faustregel: k = 5*log(Spannweite) In unserem Beispiel: k = 5*log(670) 14 Das ist keine harte Regel, die Wahl wird im Rahmen unseres Hypothesentest zu überprüfen sein! Programme wie Excel oder Origin verwenden k =, mit n Anzahl Datenpunkte. Das führt ohne kritische Betrachtung schnell zu Problemen mit der Gleichverteilung der Merkmalsausprägung T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-3
Chi-Quadrat-Test: Test auf Normal-Verteilung Zweiter Schritt: Einteilung nach Klassen in EUR: Klassen Nr. Mietpreisklasse Absolute Häufigkeit Relative Häufigkeit 1 150 bis 00 0,0455 00 bis 50 0 0,0000 3 50 bis 300 4 0,0909 4 300 bis 350 5 0,1136 5 350 bis 400 9 0,045 6 400 bis 450 1 0,07 7 450 bis 500 6 0,1364 8 500 bis 550 3 0,068 9 550 bis 600 0,0455 10 600 bis 650 0 0,0000 11 650 bis 700 0,0455 1 700 bis 750 6 0,1364 13 750 bis 800 3 0,068 14 800 bis 850 1 0,07 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-4
Chi-Quadrat-Test: Test auf Normal-Verteilung Zweiter Schritt: Einteilung nach Klassen in EUR: Klassen Nr. Mietpreisklasse Absolute Häufigkeit Relative Häufigkeit 10 Qualitativer Test: Graphische Darstellung Kaltmiete -Raum Wohnung 1 150 bis 00 0,0455 00 bis 50 0 0,0000 3 50 bis 300 4 0,0909 4 300 bis 350 5 0,1136 5 350 bis 400 9 0,045 6 400 bis 450 1 0,07 7 460 bis 500 6 0,1364 Absolute Häufigkeit 8 6 4 0 0 50 100 150 00 50 300 350 400 450 500 550 600 650 700 750 800 850 900 Mietpreis (EUR) Ist das eine Normalverteilung? 8 500 bis 550 3 0,068 9 550 bis 600 0,0455 10 600 bis 650 0 0,0000 11 650 bis 700 0,0455 1 700 bis 750 6 0,1364 13 750 bis 800 3 0,068 14 800 bis 850 1 0,07 Annahme: Es ist eine! Bestimme Mittelwert und Stichprobenstandardabweichung = 495,48 = 181,70 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-5
Chi-Quadrat-Test: Test auf Normal-Verteilung Zweiter Schritt: Einteilung nach Klassen in EUR: Klassen Nr. Mietpreisklasse Absolute Häufigkeit Relative Häufigkeit Qualitativer Test: Graphische Darstellung Kaltmiete -Raum Wohnung 1 150 bis 00 0,0455 00 bis 50 0 0,0000 3 50 bis 300 4 0,0909 4 300 bis 350 5 0,1136 5 350 bis 400 9 0,045 Absolute Häufigkeit 10 8 6 4 0 0 50 100 150 00 50 300 350 400 450 500 550 600 650 700 750 800 850 900 Mietpreis (EUR) Ist das eine Normalverteilung? 6 400 bis 450 1 0,07 7 460 bis 500 6 0,1364 8 500 bis 550 3 0,068 9 550 bis 600 0,0455 10 600 bis 650 0 0,0000 11 650 bis 700 0,0455 1 700 bis 750 6 0,1364 13 750 bis 800 3 0,068 14 800 bis 850 1 0,07 Annahme: Es ist eine! Bestimme Mittelwert und Stichprobenstandardabweichung = 495,48 = 181,70 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-6
Die Fehlerfunktion allgemeine Form Jetzt benötigen wir die Anwort auf die Frage: Wie viel % der Messwerte liegen oberhalb (unterhalb) eines bestimmten Messwertes? Wie groß ist das Integral bis zu einem bestimmten Wert? z 1 zwischen und t σ e dz mit t ( xx) / t T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-7
Chi-Quadrat-Test: Test auf Normal-Verteilung Dritter Schritt: Bestimme theoretische Häufigkeit der Klassen bei Normalverteilung Klassen Nr. Merkmalsgrenze t 1 00 1,66 50 1,3510 3 300 1,0758 4 350 0,8007 5 400 0,555 6 450 0,503 7 500 0,049 8 550 0,3001 9 600 0,5753 10 650 0,8504 11 700 1,156 1 750 1,4008 13 800 1,6760 14 850 1,951 Nun: Bestimme Wahrscheinlichkeit T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-8
Chi-Quadrat-Test: Test auf Normal-Verteilung Erf () t P( x X t ) Px ( X1,66 ) 0,5 0, 4484 0, 0516 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-9
Chi-Quadrat-Test: Test auf Normal-Verteilung Dritter Schritt: Bestimme theoretische Häufigkeit der Klassen bei Normalverteilung Klassen Nr. Merkmalsgrenze t Erf(t) 1 00 1,66 0,0516 50 1,3510 0,0885 3 300 1,0758 0,1401 4 350 0,8007 0,119 5 400 0,555 0,990 6 450 0,503 0,4013 7 500 0,049 0,510 8 550 0,3001 0,6179 9 600 0,5753 0,7190 10 650 0,8504 0,803 11 700 1,156 0,8708 1 750 1,4008 0,919 13 800 1,6760 0,9535 14 850 1,951 0,9744 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-10
Chi-Quadrat-Test: Test auf Normal-Verteilung Damit bestimmen wir jetzt die Wahrscheinlichkeit für die einzelnen Klassen: Klassen Nr. Merkmalsgrenze t Erf(t) 1 00 1,66 0,0516 50 1,3510 0,0885 Die Wahrscheinlichkeit einen Wert zwischen 00 und 50 zu erhalten ist gegeben durch: PX ( 1, 66 x X1,3510 ) 0, 0885 0, 0516 0, 0369 Wir hatten insgesamt 44 Werte. Wir würden also folgende Anzahl Werte in dieser Klasse erwarten: np( X 1, 66 x X 1,3510 ) 440, 0369 1, 64 Damit können wir nun unsere theoretische Häufigkeit bestimmen T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-11
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Wahrscheinlichkeit Theoretische Häufigkeit 1 150 bis 00 0,035 1,034 00 bis 50 0,0369 1,636 3 50 bis 300 0,0516,704 4 300 bis 350 0,0718 3,159 5 350 bis 400 0,0871 3,834 6 400 bis 450 0,103 4,501 7 450 bis 500 0,1107 4,8708 8 500 bis 550 0,1059 4,6596 9 550 bis 600 0,1011 4,4484 10 600 bis 650 0,0833 3,665 11 650 bis 700 0,0685 3,014 1 700 bis 750 0,0484,196 13 750 bis 800 0,0343 1,509 14 800 bis 850 0,009 0,9196 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-1
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Wahrscheinlichkeit Theoretische Häufigkeit 1 150 bis 00 0,035 1,034 00 bis 50 0,0369 1,636 3 50 bis 300 0,0516,704 8,087 4 300 bis 350 0,0718 3,159 5 350 bis 400 0,0871 3,834 6 400 bis 450 0,103 4,501 7 450 bis 500 0,1107 4,8708 8 500 bis 550 0,1059 4,6596 9 550 bis 600 0,1011 4,4484 10 600 bis 650 0,0833 3,665 8,3386 9,5304 8,1136 11 650 bis 700 0,0685 3,014 1 700 bis 750 0,0484,196 13 750 bis 800 0,0343 1,509 7,574 14 800 bis 850 0,009 0,9196 Hier zeigt sich nun, dass für den Chi-Quadrat-Test die ursprüngliche Klasseneinteilung ungeeignet ist! Der Test darf nur angewandt werden, wenn die theoretische Häufigkeit einer Klasse 5 ist T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-13
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 350 bis 450 8,3386 3 450 bis 550 9,5304 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-14
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 3 450 bis 550 9,5304 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-15
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-16
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-17
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-18
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 1 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 Damit testen wir nun auf eine Irrtumswahrscheinlichkeit von 5% E T n n k k Qk k1 Tk k1 8, 6073 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-19
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 1 Damit testen wir nun auf eine Irrtumswahrscheinlichkeit von 5% E T n n k k Qk k1 Tk k1 Wie viele Freiheitsgrade? 5 Klassen 3 Zwangsbedingungen 8, 6073 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-0
Chi-Quadrat-Test Sicherheitsschwellen: T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-1
Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 1 Damit testen wir nun auf eine Irrtumswahrscheinlichkeit von 5% E T n n k k Qk k1 Tk k1 Wie viele Freiheitsgrade? 5 Klassen 3 Zwangsbedingungen 8, 6073 Bei Annahme einer Irrtumswahrscheinlichkeit von 5 % entsprechen die Daten keiner Normal-Verteilung T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-
Linearer Korrelationskoeffizient T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-3
Fragestellung (Wiederholung) Wir führen eine Messung durch und erhalten folgende Werte 75,0 X i Y i 0,0 5,4 1,17 54,6 1,96 57,7,98 59,5 4,05 6,7 5,1 65,6 5,93 67,0 7,01 69,0 8,4 7,8 Y 70,0 65,0 60,0 55,0 50,0 Testmessung zur linearen Regression 0,00,00 4,00 6,00 8,00 X 1.) Angenommen die Beziehung zwischen x und y ist linear, welche Gerade passt am besten zu den Messwerten?.) Wie können wir objektiv beurteilen, inwieweit die Daten unsere Annahme erfüllen und wirklich einer bestimmten Funktion (hier einer Gerade) folgen? T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-4
Vorüberlegungen Wir messen zur Bestimmung einer Größe q(x, Y) die Größen X und Y jeweils mit einer Messreihe und erhalten N Datenpaare (x i,y i ). Aus den (x 1,,x n ) und (y 1,,y n ) bestimmen wir die Mittelwerte x und y sowie deren Standardfehler s x und s y. Weiterhin bestimmen wir aus den N Messwertepaaren N Werte der gesuchten Größe q q( x, y ) mit ( i 1,..., N) i i i Daraus bestimmen wir q sowie q. Übliche Annahme: Die Fehler seien klein und normalverteilt. Dann hält: q q qi q( xi, yi) q( x, y) ( xi x) ( yi y). x y T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-5
Vorüberlegungen q q qi q( xi, yi) q( x, y) ( xi x) ( yi y). x y Mittelwert: n n 1 1 q q q qi q( x, y) ( xi x) ( yi y) ; N i 1 N i1 x y und damit q q( x, y). Daraus Standardabweichung: 1 n q qi q N i1 ( ), 1 q q ( x x) ( y y), n q i i N i1 x y n n n q 1 q 1 q q 1 q i i i i x N i1 y N i1 x y N i1 ( x x) ( y y) ( x x)( y y). T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-6
Vorüberlegungen n n n q 1 q 1 q q 1 q i i i i x N i1 y N i1 x y N i1 ( x x) ( y y) ( x x)( y y). x y xy Zusammengefasst: q q q q q x y xy. x y x y Bei unendlich vielen Messungen wird xy = 0, falls x und y unabhängig sind. Nach einer endlichen Zahl von Messungen ist es sehr unwahrscheinlich, dass xy exakt gleich Null wird. Wann dürfen wir die xy ignorieren und die Gauß sche Fehlerrechnung anwerfen? T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-7
Kovarianz Der Term: n 1 ( x x)( y y) xy i i N i1 wird als Kovarianz von x und y bezeichnet. Falls x und y voneinander abhängig sind wird xy auch bei unendlich vielen Messungen nie null. Die Kovarianz ist daher ein Maß für die Abhängigkeit von Daten, man spricht dann von Korrelation. Beispiel: Gleichzeitige Messung von Spannung und Strom zur Ermittlung der Leistung mit dem selben Gerät. Die Kovarianz gibt zwar Richtung der Korrelation an, über die Stärke des Zusammenhangs besteht aber keine Aussage. Wir benötigen leistungsfähigere Indikatoren T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-8
Definition des linearen Korrelationskoeffizienten r xy x y y r xi xyi y 1 x x y y i i x Der Korrelationskoeffizient ist ein Indikator dafür, wie gut die Punkte (Xi,Yi) zu einer Geraden passen. Sein Wert liegt zwischen -1 und +1. Ist r nahe bei ±1, dann befinden sich die Punkte dicht bei einer Geraden. Ist r dagegen nahe bei 0, dann zeigen die Punkte wenig oder keine Neigung, auf einer Geraden zu liegen. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-9
T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-30 Annahme alle Punkte (X i,y i ) lägen auf einer Geraden Y = A + BX In diesem Fall ist Y i = A + B X i für alle X i und Y A B X Somit gilt für jedes X i : X X B Y Y i i Setzt man dies in die Definitionsgleichung für r ein, ergibt sich: 1 1 B B x x B x x x x B r i i i [r = +1 bei positivem B; r = - 1 bei negativem B.] Quantitative Bedeutung von r? Linearer Korrelationskoeffizient
Linearer Korrelationskoeffizient Selbst wenn wir einen linearen Zusammenhang zwischen X und Y annehmen, ist aufgrund von Messfehlern nicht zu erwarten, dass r = 1 ist. Wir werden erwarten, dass r "hinreichend nahe" bei 1 liegt Was heißt hinreichend nahe? Ist 0,8 hinreichend nahe? Ist 0,6 nicht mehr nahe? Ist r = 0,6 bei 5 Messwerten anders zu bewerten als bei 100? Was wir benötigen, ist eine objektive Entscheidung darüber, was "hinreichend nahe" bei eins heißt. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-31
Quantitative Bedeutung des linearen Korrelationskoeffizienten Nehmen wir an die zwei Variablen X und Y seien unkorreliert. Bei unendlich vielen Messungen wird r = 0. Nach einer endlichen Zahl von Messungen ist es sehr unwahrscheinlich, dass r exakt gleich Null wird. r = 0,495 r = 1,000 r = 0,995 r = 0,951 r = 0,906 r = 0,70 r = 0,9 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-3
Quantitative Bedeutung des linearen Korrelationskoeffizienten Nehmen wir an die zwei Variablen X und Y seien unkorreliert. Bei unendlich vielen Messungen wird r = 0. Nach einer endlichen Zahl von Messungen ist es sehr unwahrscheinlich, dass r exakt gleich Null wird. Man kann die Wahrscheinlichkeit dafür berechnen, dass r einen bestimmten Wert r o übersteigt. P( r r o ) bezeichnet die Wahrscheinlichkeit, dass N Messungen von zwei unkorrelierten Variablen X und Y einen Koeffizienten r liefern, der größer ist als irgendein bestimmtes r o. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-33
Quantitative Bedeutung des linearen Korrelationskoeffizienten Hier sind die Wahrscheinlichkeiten dargestellt, bei N unkorrelierten Paaren (X i, Y i ) ein r einer gewissen Größe zu erhalten. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-34
Zusammenhang: Lineare Regression - linearer Korrelationskoeffizient Willkürliche Annahme X sei fehlerfrei und Y fehlerbehaftet. X 35, 48 Y 110,15 r = 0,4945 bei N = 0 Y 1,3366 X 6,78 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-35
Zusammenhang: Lineare Regression - linearer Korrelationskoeffizient Ebenfalls gerechtfertigte und genauso willkürliche Annahme Y sei fehlerfrei und X fehlerbehaftet. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-36
Quantitative Bedeutung des linearen Korrelationskoeffizienten T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-37
Quantitative Bedeutung des linearen Korrelationskoeffizienten Hier sind die Wahrscheinlichkeiten dargestellt, bei N unkorrelierten Paaren (X i, Y i ) ein r einer gewissen Größe zu erhalten. Bei N=0 unkorrelierten Werten tritt ein r = 0,444 in 5% der Fälle auf; ein r = 0,516 nur in,0% der Fälle. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-38
Quantitative Bedeutung des linearen Korrelationskoeffizienten In unserem Beispiel ist r = 0,4945 und N = 0 Die Wahrscheinlichkeit, bei 0 unkorrelierten Paaren (X i, Y i ) ein r von 0,4945 zu erhalten, ist etwa,5 % Wenn diese Wahrscheinlichkeit "hinreichend klein" ist, können wir den Schluss ziehen, dass es sehr unwahrscheinlich ist, dass X und Y unkorreliert sind, oder anders Es ist sehr wahrscheinlich, dass die Daten korreliert sind. Ist,5 % eine "hinreichend kleine" Wahrscheinlichkeit? T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-39
Quantitative Bedeutung des linearen Korrelationskoeffizienten Häufig wird eine beobachtete Korrelation r b als signifikant bezeichnet, wenn die Wahrscheinlichkeit bei unkorrelierten Variablen einen Wert größer als r b zu erhalten, der 5 % Schwelle entspricht. Eine Korrelation wird als hochsignifikant bezeichnet, wenn die entsprechende Wahrscheinlichkeit kleiner als 1 % ist. In unserem Beispiel ist die Korrelation (r =0,4945) bei 0 Wertepaaren signifikant (auf 5% Niveau r b = 0,444 ). Sie ist nicht hochsignifikant (1%, r b = 0,561). T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-40
WICHTIG Korrelation bedeutet nicht Kausalität. Wussten Sie, dass..die Handschrift umso lesbarer ist, je größer die Schuhgröße ist?.der Weizenpreis sinkt, je mehr Symptome für Weizenpollenallergie (umgspr. Heuschnupfen) auftreten?.der Kalziumgehalt in den Knochen umso geringer ist, je mehr unverheiratete Tanten jemand hat? Vorsicht es gibt "Scheinkorrelationen" T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-41
Linearer Korrelationskoeffizient: Beispiele Gibt es eine Korrelation zwischen den Ergebnissen der Fehlerrechnung und den Ergebnissen im schriftlichen Vordiplom? Es gibt eine große Anzahl Studierender, die an der Fehlerrechnung teilgenommen haben, aber nicht zum Vordiplom angetreten sind. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-4
Linearer Korrelationskoeffizient: Beispiele Berücksichtigung von Studierenden, die beide Veranstaltungen absolviert haben. Gestrichelte Linien bedeuten die Punktegrenzen zum Bestehen der Veranstaltung. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-43
Linearer Korrelationskoeffizient: Beispiele Einzeichnen einer Regressionsgeraden Es liegt eine sehr geringe Korrelation vor, die obendrein durch einen Ausreißer verstärkt wird. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-44
Linearer Korrelationskoeffizient: Beispiele Vernachlässigung des AUSREIßERS Es liegt eine nahezu kreisförmige Punktwolke vor, was auf eine geringe Korrelation schließen lässt. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-45
Linearer Korrelationskoeffizient: Beispiele Vernachlässigung des AUSREIßERS führt zu einem noch kleineren Korrelationskoeffizienten. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-46
Linearer Korrelationskoeffizient: Beispiele Beide REGRESSIONSGERADEN STEHEN NAHEZU SENKRECHT AUFEINANDER. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-47
Linearer Korrelationskoeffizient: Beispiele N = 140 r = 0, Die Korrelation ist hochsignifikant! T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-48