Wie kann ich überprüfen, welche Verteilung meinen Daten zu Grunde liegt? Chi-Quadrat-Test auf Normalverteilung

Ähnliche Dokumente
Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Regression und Korrelation

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Eine zweidimensionale Stichprobe

Statistische Methoden

Deskriptive Beschreibung linearer Zusammenhänge

Statistik. Ronald Balestra CH St. Peter

Statistische Methoden in den Umweltwissenschaften

Erstabgabe Übung nicht abgegeben

Didaktisches Seminar über Stochastik. Themen: ffl Korrelation von zwei Zufallsvariablen

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

5. Seminar Statistik

Einführung Fehlerrechnung

Forschungsstatistik I

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Statistik und Wahrscheinlichkeitsrechnung

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik und Wahrscheinlichkeitsrechnung

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Vorlesung 12a. Kann das Zufall sein? Beispiele von statistischen Tests

Begleitmaterial zur Vorlesung. Fehlerrechnung und Fehlerabschätzung bei physikalischen Messungen

Fehler- und Ausgleichsrechnung

Statistik... formeln für Dummies

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Wichtige Definitionen und Aussagen

Statistische Tests funktionieren generell nach obigem Schema; der einzige Unterschied besteht in der unterschiedlichen Berechnung der Testgröße.

Anwendungen der Differentialrechnung

Kapitel XI - Korrelationsrechnung

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

Arbeitsbuch zur deskriptiven und induktiven Statistik

Einführung 17. Teil I Kopfüber eintauchen in die Statistik 23. Kapitel 1 Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente 25

Statistische Messdatenauswertung

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Statistik K urs SS 2004

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Mathematik für Biologen

Brückenkurs Statistik für Wirtschaftswissenschaften

5. Spezielle stetige Verteilungen

Mittelwert, Standardabweichung, Median und Bereich für alle durchgeführten Messungen (in Prozent)

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Einführung. Fehlerarten

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Mehrdimensionale Zufallsvariablen

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

10. Medizinische Statistik

Statistik I für Betriebswirte Vorlesung 14

Messunsicherheit und Fehlerrechnung

MATHEMATIK 3 STUNDEN

Modul G.1 WS 07/08: Statistik

Übungen (HS-2010): Urteilsfehler. Autor: Siegfried Macho

Der Umgang mit Unsicherheiten

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

Statistik II. IV. Hypothesentests. Martin Huber

7.5 Erwartungswert, Varianz

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Statistik II: Signifikanztests /2

Mathematik 2 für Naturwissenschaften

Bivariate Regressionsanalyse

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Vorlesung 7b. Kovarianz und Korrelation

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Statistik Prüfung 24. Jänner 2008

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Mathematik 2 für Naturwissenschaften

MSP Musterlösung. Name, Nummer: Datum: 12. Juli Energie eines Super-Kondensators 2Y6HUB

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Mathematik für Naturwissenschaften, Teil 2

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Wahrscheinlichkeitstheorie und Statistik vom

Inhaltsverzeichnis. Vorwort

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Biomathematik für Mediziner

Zusammenhänge zwischen metrischen Merkmalen

Wahrscheinlichkeitsrechnung und Statistik

Schätzung im multiplen linearen Modell VI

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Anpassungstests VORGEHENSWEISE

D-CHAB Frühlingssemester 2017 T =

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Biostatistik 101 Korrelation - Regressionsanalysen

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

Transkript:

Wie kann ich überprüfen, welche Verteilung meinen Daten zu Grunde liegt? Chi-Quadrat-Test auf Normalverteilung T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-1

Chi-Quadrat-Test: Test auf Normal-Verteilung Konkretes Beispiel (im Geiste R. Schlittgen Einführung in die Statistik (Oldenbourg), 1998.): Studentische Wohnungsuche: Vergleich der Kaltmieten einer -Raum Wohnung. Gewissenhafte Recherche ergibt folgende Liste an Angeboten in EUR: 385 795 550 705 740 540 740 480 350 749 93 470 358 300 695 390 750 700 540 840 570 400 80 400 790 395 170 400 475 390 400 59 350 495 345 70 490 4 560 350 460 180 350 780 Unser Student fragt sich: Ist das völlige Willkür? Sind vorliegende Daten auf eine bestimmte Art verteilt? Normalverteilt? Festlegen der Irrtumswahrscheinlichkeit: Testen auf 5 % T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-

Chi-Quadrat-Test: Test auf Normal-Verteilung Erster Schritt: Sortieren der Urliste: Mietpreise in EUR 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 Zweiter Schritt: Einteilung nach Klassen: Anzahl der Klassen k? Faustregel: k = 5*log(Spannweite) In unserem Beispiel: k = 5*log(670) 14 Das ist keine harte Regel, die Wahl wird im Rahmen unseres Hypothesentest zu überprüfen sein! Programme wie Excel oder Origin verwenden k =, mit n Anzahl Datenpunkte. Das führt ohne kritische Betrachtung schnell zu Problemen mit der Gleichverteilung der Merkmalsausprägung T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-3

Chi-Quadrat-Test: Test auf Normal-Verteilung Zweiter Schritt: Einteilung nach Klassen in EUR: Klassen Nr. Mietpreisklasse Absolute Häufigkeit Relative Häufigkeit 1 150 bis 00 0,0455 00 bis 50 0 0,0000 3 50 bis 300 4 0,0909 4 300 bis 350 5 0,1136 5 350 bis 400 9 0,045 6 400 bis 450 1 0,07 7 450 bis 500 6 0,1364 8 500 bis 550 3 0,068 9 550 bis 600 0,0455 10 600 bis 650 0 0,0000 11 650 bis 700 0,0455 1 700 bis 750 6 0,1364 13 750 bis 800 3 0,068 14 800 bis 850 1 0,07 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-4

Chi-Quadrat-Test: Test auf Normal-Verteilung Zweiter Schritt: Einteilung nach Klassen in EUR: Klassen Nr. Mietpreisklasse Absolute Häufigkeit Relative Häufigkeit 10 Qualitativer Test: Graphische Darstellung Kaltmiete -Raum Wohnung 1 150 bis 00 0,0455 00 bis 50 0 0,0000 3 50 bis 300 4 0,0909 4 300 bis 350 5 0,1136 5 350 bis 400 9 0,045 6 400 bis 450 1 0,07 7 460 bis 500 6 0,1364 Absolute Häufigkeit 8 6 4 0 0 50 100 150 00 50 300 350 400 450 500 550 600 650 700 750 800 850 900 Mietpreis (EUR) Ist das eine Normalverteilung? 8 500 bis 550 3 0,068 9 550 bis 600 0,0455 10 600 bis 650 0 0,0000 11 650 bis 700 0,0455 1 700 bis 750 6 0,1364 13 750 bis 800 3 0,068 14 800 bis 850 1 0,07 Annahme: Es ist eine! Bestimme Mittelwert und Stichprobenstandardabweichung = 495,48 = 181,70 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-5

Chi-Quadrat-Test: Test auf Normal-Verteilung Zweiter Schritt: Einteilung nach Klassen in EUR: Klassen Nr. Mietpreisklasse Absolute Häufigkeit Relative Häufigkeit Qualitativer Test: Graphische Darstellung Kaltmiete -Raum Wohnung 1 150 bis 00 0,0455 00 bis 50 0 0,0000 3 50 bis 300 4 0,0909 4 300 bis 350 5 0,1136 5 350 bis 400 9 0,045 Absolute Häufigkeit 10 8 6 4 0 0 50 100 150 00 50 300 350 400 450 500 550 600 650 700 750 800 850 900 Mietpreis (EUR) Ist das eine Normalverteilung? 6 400 bis 450 1 0,07 7 460 bis 500 6 0,1364 8 500 bis 550 3 0,068 9 550 bis 600 0,0455 10 600 bis 650 0 0,0000 11 650 bis 700 0,0455 1 700 bis 750 6 0,1364 13 750 bis 800 3 0,068 14 800 bis 850 1 0,07 Annahme: Es ist eine! Bestimme Mittelwert und Stichprobenstandardabweichung = 495,48 = 181,70 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-6

Die Fehlerfunktion allgemeine Form Jetzt benötigen wir die Anwort auf die Frage: Wie viel % der Messwerte liegen oberhalb (unterhalb) eines bestimmten Messwertes? Wie groß ist das Integral bis zu einem bestimmten Wert? z 1 zwischen und t σ e dz mit t ( xx) / t T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-7

Chi-Quadrat-Test: Test auf Normal-Verteilung Dritter Schritt: Bestimme theoretische Häufigkeit der Klassen bei Normalverteilung Klassen Nr. Merkmalsgrenze t 1 00 1,66 50 1,3510 3 300 1,0758 4 350 0,8007 5 400 0,555 6 450 0,503 7 500 0,049 8 550 0,3001 9 600 0,5753 10 650 0,8504 11 700 1,156 1 750 1,4008 13 800 1,6760 14 850 1,951 Nun: Bestimme Wahrscheinlichkeit T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-8

Chi-Quadrat-Test: Test auf Normal-Verteilung Erf () t P( x X t ) Px ( X1,66 ) 0,5 0, 4484 0, 0516 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-9

Chi-Quadrat-Test: Test auf Normal-Verteilung Dritter Schritt: Bestimme theoretische Häufigkeit der Klassen bei Normalverteilung Klassen Nr. Merkmalsgrenze t Erf(t) 1 00 1,66 0,0516 50 1,3510 0,0885 3 300 1,0758 0,1401 4 350 0,8007 0,119 5 400 0,555 0,990 6 450 0,503 0,4013 7 500 0,049 0,510 8 550 0,3001 0,6179 9 600 0,5753 0,7190 10 650 0,8504 0,803 11 700 1,156 0,8708 1 750 1,4008 0,919 13 800 1,6760 0,9535 14 850 1,951 0,9744 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-10

Chi-Quadrat-Test: Test auf Normal-Verteilung Damit bestimmen wir jetzt die Wahrscheinlichkeit für die einzelnen Klassen: Klassen Nr. Merkmalsgrenze t Erf(t) 1 00 1,66 0,0516 50 1,3510 0,0885 Die Wahrscheinlichkeit einen Wert zwischen 00 und 50 zu erhalten ist gegeben durch: PX ( 1, 66 x X1,3510 ) 0, 0885 0, 0516 0, 0369 Wir hatten insgesamt 44 Werte. Wir würden also folgende Anzahl Werte in dieser Klasse erwarten: np( X 1, 66 x X 1,3510 ) 440, 0369 1, 64 Damit können wir nun unsere theoretische Häufigkeit bestimmen T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-11

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Wahrscheinlichkeit Theoretische Häufigkeit 1 150 bis 00 0,035 1,034 00 bis 50 0,0369 1,636 3 50 bis 300 0,0516,704 4 300 bis 350 0,0718 3,159 5 350 bis 400 0,0871 3,834 6 400 bis 450 0,103 4,501 7 450 bis 500 0,1107 4,8708 8 500 bis 550 0,1059 4,6596 9 550 bis 600 0,1011 4,4484 10 600 bis 650 0,0833 3,665 11 650 bis 700 0,0685 3,014 1 700 bis 750 0,0484,196 13 750 bis 800 0,0343 1,509 14 800 bis 850 0,009 0,9196 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-1

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Wahrscheinlichkeit Theoretische Häufigkeit 1 150 bis 00 0,035 1,034 00 bis 50 0,0369 1,636 3 50 bis 300 0,0516,704 8,087 4 300 bis 350 0,0718 3,159 5 350 bis 400 0,0871 3,834 6 400 bis 450 0,103 4,501 7 450 bis 500 0,1107 4,8708 8 500 bis 550 0,1059 4,6596 9 550 bis 600 0,1011 4,4484 10 600 bis 650 0,0833 3,665 8,3386 9,5304 8,1136 11 650 bis 700 0,0685 3,014 1 700 bis 750 0,0484,196 13 750 bis 800 0,0343 1,509 7,574 14 800 bis 850 0,009 0,9196 Hier zeigt sich nun, dass für den Chi-Quadrat-Test die ursprüngliche Klasseneinteilung ungeeignet ist! Der Test darf nur angewandt werden, wenn die theoretische Häufigkeit einer Klasse 5 ist T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-13

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 350 bis 450 8,3386 3 450 bis 550 9,5304 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-14

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 3 450 bis 550 9,5304 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-15

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-16

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-17

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-18

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 1 Sortierte Mietpreise in EUR: 170 93 350 385 400 4 480 540 695 740 780 180 300 350 390 400 460 490 550 700 740 790 59 345 350 390 400 470 495 560 705 749 795 80 350 358 395 400 475 540 570 70 750 840 Damit testen wir nun auf eine Irrtumswahrscheinlichkeit von 5% E T n n k k Qk k1 Tk k1 8, 6073 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-19

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 1 Damit testen wir nun auf eine Irrtumswahrscheinlichkeit von 5% E T n n k k Qk k1 Tk k1 Wie viele Freiheitsgrade? 5 Klassen 3 Zwangsbedingungen 8, 6073 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-0

Chi-Quadrat-Test Sicherheitsschwellen: T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-1

Chi-Quadrat-Test: Test auf Normal-Verteilung Klassen Nr. Mietpreisklasse Theoretische Häufigkeit Gemessene Häufigkeit 1 150 bis 350 8,087 11 350 bis 450 8,3386 10 3 450 bis 550 9,5304 9 4 550 bis 650 8,1136 5 650 bis 850 7,574 1 Damit testen wir nun auf eine Irrtumswahrscheinlichkeit von 5% E T n n k k Qk k1 Tk k1 Wie viele Freiheitsgrade? 5 Klassen 3 Zwangsbedingungen 8, 6073 Bei Annahme einer Irrtumswahrscheinlichkeit von 5 % entsprechen die Daten keiner Normal-Verteilung T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-

Linearer Korrelationskoeffizient T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-3

Fragestellung (Wiederholung) Wir führen eine Messung durch und erhalten folgende Werte 75,0 X i Y i 0,0 5,4 1,17 54,6 1,96 57,7,98 59,5 4,05 6,7 5,1 65,6 5,93 67,0 7,01 69,0 8,4 7,8 Y 70,0 65,0 60,0 55,0 50,0 Testmessung zur linearen Regression 0,00,00 4,00 6,00 8,00 X 1.) Angenommen die Beziehung zwischen x und y ist linear, welche Gerade passt am besten zu den Messwerten?.) Wie können wir objektiv beurteilen, inwieweit die Daten unsere Annahme erfüllen und wirklich einer bestimmten Funktion (hier einer Gerade) folgen? T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-4

Vorüberlegungen Wir messen zur Bestimmung einer Größe q(x, Y) die Größen X und Y jeweils mit einer Messreihe und erhalten N Datenpaare (x i,y i ). Aus den (x 1,,x n ) und (y 1,,y n ) bestimmen wir die Mittelwerte x und y sowie deren Standardfehler s x und s y. Weiterhin bestimmen wir aus den N Messwertepaaren N Werte der gesuchten Größe q q( x, y ) mit ( i 1,..., N) i i i Daraus bestimmen wir q sowie q. Übliche Annahme: Die Fehler seien klein und normalverteilt. Dann hält: q q qi q( xi, yi) q( x, y) ( xi x) ( yi y). x y T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-5

Vorüberlegungen q q qi q( xi, yi) q( x, y) ( xi x) ( yi y). x y Mittelwert: n n 1 1 q q q qi q( x, y) ( xi x) ( yi y) ; N i 1 N i1 x y und damit q q( x, y). Daraus Standardabweichung: 1 n q qi q N i1 ( ), 1 q q ( x x) ( y y), n q i i N i1 x y n n n q 1 q 1 q q 1 q i i i i x N i1 y N i1 x y N i1 ( x x) ( y y) ( x x)( y y). T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-6

Vorüberlegungen n n n q 1 q 1 q q 1 q i i i i x N i1 y N i1 x y N i1 ( x x) ( y y) ( x x)( y y). x y xy Zusammengefasst: q q q q q x y xy. x y x y Bei unendlich vielen Messungen wird xy = 0, falls x und y unabhängig sind. Nach einer endlichen Zahl von Messungen ist es sehr unwahrscheinlich, dass xy exakt gleich Null wird. Wann dürfen wir die xy ignorieren und die Gauß sche Fehlerrechnung anwerfen? T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-7

Kovarianz Der Term: n 1 ( x x)( y y) xy i i N i1 wird als Kovarianz von x und y bezeichnet. Falls x und y voneinander abhängig sind wird xy auch bei unendlich vielen Messungen nie null. Die Kovarianz ist daher ein Maß für die Abhängigkeit von Daten, man spricht dann von Korrelation. Beispiel: Gleichzeitige Messung von Spannung und Strom zur Ermittlung der Leistung mit dem selben Gerät. Die Kovarianz gibt zwar Richtung der Korrelation an, über die Stärke des Zusammenhangs besteht aber keine Aussage. Wir benötigen leistungsfähigere Indikatoren T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-8

Definition des linearen Korrelationskoeffizienten r xy x y y r xi xyi y 1 x x y y i i x Der Korrelationskoeffizient ist ein Indikator dafür, wie gut die Punkte (Xi,Yi) zu einer Geraden passen. Sein Wert liegt zwischen -1 und +1. Ist r nahe bei ±1, dann befinden sich die Punkte dicht bei einer Geraden. Ist r dagegen nahe bei 0, dann zeigen die Punkte wenig oder keine Neigung, auf einer Geraden zu liegen. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-9

T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-30 Annahme alle Punkte (X i,y i ) lägen auf einer Geraden Y = A + BX In diesem Fall ist Y i = A + B X i für alle X i und Y A B X Somit gilt für jedes X i : X X B Y Y i i Setzt man dies in die Definitionsgleichung für r ein, ergibt sich: 1 1 B B x x B x x x x B r i i i [r = +1 bei positivem B; r = - 1 bei negativem B.] Quantitative Bedeutung von r? Linearer Korrelationskoeffizient

Linearer Korrelationskoeffizient Selbst wenn wir einen linearen Zusammenhang zwischen X und Y annehmen, ist aufgrund von Messfehlern nicht zu erwarten, dass r = 1 ist. Wir werden erwarten, dass r "hinreichend nahe" bei 1 liegt Was heißt hinreichend nahe? Ist 0,8 hinreichend nahe? Ist 0,6 nicht mehr nahe? Ist r = 0,6 bei 5 Messwerten anders zu bewerten als bei 100? Was wir benötigen, ist eine objektive Entscheidung darüber, was "hinreichend nahe" bei eins heißt. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-31

Quantitative Bedeutung des linearen Korrelationskoeffizienten Nehmen wir an die zwei Variablen X und Y seien unkorreliert. Bei unendlich vielen Messungen wird r = 0. Nach einer endlichen Zahl von Messungen ist es sehr unwahrscheinlich, dass r exakt gleich Null wird. r = 0,495 r = 1,000 r = 0,995 r = 0,951 r = 0,906 r = 0,70 r = 0,9 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-3

Quantitative Bedeutung des linearen Korrelationskoeffizienten Nehmen wir an die zwei Variablen X und Y seien unkorreliert. Bei unendlich vielen Messungen wird r = 0. Nach einer endlichen Zahl von Messungen ist es sehr unwahrscheinlich, dass r exakt gleich Null wird. Man kann die Wahrscheinlichkeit dafür berechnen, dass r einen bestimmten Wert r o übersteigt. P( r r o ) bezeichnet die Wahrscheinlichkeit, dass N Messungen von zwei unkorrelierten Variablen X und Y einen Koeffizienten r liefern, der größer ist als irgendein bestimmtes r o. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-33

Quantitative Bedeutung des linearen Korrelationskoeffizienten Hier sind die Wahrscheinlichkeiten dargestellt, bei N unkorrelierten Paaren (X i, Y i ) ein r einer gewissen Größe zu erhalten. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-34

Zusammenhang: Lineare Regression - linearer Korrelationskoeffizient Willkürliche Annahme X sei fehlerfrei und Y fehlerbehaftet. X 35, 48 Y 110,15 r = 0,4945 bei N = 0 Y 1,3366 X 6,78 T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-35

Zusammenhang: Lineare Regression - linearer Korrelationskoeffizient Ebenfalls gerechtfertigte und genauso willkürliche Annahme Y sei fehlerfrei und X fehlerbehaftet. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-36

Quantitative Bedeutung des linearen Korrelationskoeffizienten T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-37

Quantitative Bedeutung des linearen Korrelationskoeffizienten Hier sind die Wahrscheinlichkeiten dargestellt, bei N unkorrelierten Paaren (X i, Y i ) ein r einer gewissen Größe zu erhalten. Bei N=0 unkorrelierten Werten tritt ein r = 0,444 in 5% der Fälle auf; ein r = 0,516 nur in,0% der Fälle. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-38

Quantitative Bedeutung des linearen Korrelationskoeffizienten In unserem Beispiel ist r = 0,4945 und N = 0 Die Wahrscheinlichkeit, bei 0 unkorrelierten Paaren (X i, Y i ) ein r von 0,4945 zu erhalten, ist etwa,5 % Wenn diese Wahrscheinlichkeit "hinreichend klein" ist, können wir den Schluss ziehen, dass es sehr unwahrscheinlich ist, dass X und Y unkorreliert sind, oder anders Es ist sehr wahrscheinlich, dass die Daten korreliert sind. Ist,5 % eine "hinreichend kleine" Wahrscheinlichkeit? T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-39

Quantitative Bedeutung des linearen Korrelationskoeffizienten Häufig wird eine beobachtete Korrelation r b als signifikant bezeichnet, wenn die Wahrscheinlichkeit bei unkorrelierten Variablen einen Wert größer als r b zu erhalten, der 5 % Schwelle entspricht. Eine Korrelation wird als hochsignifikant bezeichnet, wenn die entsprechende Wahrscheinlichkeit kleiner als 1 % ist. In unserem Beispiel ist die Korrelation (r =0,4945) bei 0 Wertepaaren signifikant (auf 5% Niveau r b = 0,444 ). Sie ist nicht hochsignifikant (1%, r b = 0,561). T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-40

WICHTIG Korrelation bedeutet nicht Kausalität. Wussten Sie, dass..die Handschrift umso lesbarer ist, je größer die Schuhgröße ist?.der Weizenpreis sinkt, je mehr Symptome für Weizenpollenallergie (umgspr. Heuschnupfen) auftreten?.der Kalziumgehalt in den Knochen umso geringer ist, je mehr unverheiratete Tanten jemand hat? Vorsicht es gibt "Scheinkorrelationen" T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-41

Linearer Korrelationskoeffizient: Beispiele Gibt es eine Korrelation zwischen den Ergebnissen der Fehlerrechnung und den Ergebnissen im schriftlichen Vordiplom? Es gibt eine große Anzahl Studierender, die an der Fehlerrechnung teilgenommen haben, aber nicht zum Vordiplom angetreten sind. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-4

Linearer Korrelationskoeffizient: Beispiele Berücksichtigung von Studierenden, die beide Veranstaltungen absolviert haben. Gestrichelte Linien bedeuten die Punktegrenzen zum Bestehen der Veranstaltung. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-43

Linearer Korrelationskoeffizient: Beispiele Einzeichnen einer Regressionsgeraden Es liegt eine sehr geringe Korrelation vor, die obendrein durch einen Ausreißer verstärkt wird. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-44

Linearer Korrelationskoeffizient: Beispiele Vernachlässigung des AUSREIßERS Es liegt eine nahezu kreisförmige Punktwolke vor, was auf eine geringe Korrelation schließen lässt. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-45

Linearer Korrelationskoeffizient: Beispiele Vernachlässigung des AUSREIßERS führt zu einem noch kleineren Korrelationskoeffizienten. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-46

Linearer Korrelationskoeffizient: Beispiele Beide REGRESSIONSGERADEN STEHEN NAHEZU SENKRECHT AUFEINANDER. T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-47

Linearer Korrelationskoeffizient: Beispiele N = 140 r = 0, Die Korrelation ist hochsignifikant! T. Kießling: Fortgeschrittene Fehlerrechnung - Korrelation 5.04.018 Vorlesung 03-48