Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Transkript

1 3 Beschreibende Statistik 3.1. Daten, Datentypen, Skalen Daten Datum, Daten (data) das Gegebene Fragen über Daten Datenerhebung: Was wurde gemessen, erfragt? Warum? Wie wurden die Daten erhalten? Versuchsplanung: Wieviele Messungen (Befragungen)? Wo messen? (Wen befragen?) Repräsentanz, Randomisierung Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)? Art der Daten (Skalen) Anzahl der möglichen Werte einer Variablen Anzahl der gleichzeitig untersuchten Variablen (univariate, multivariate Verfahren) 1

2 Skalenniveaus, Datentypen Nominalskala: qualitative Merkmale z.b. Eigenschaften wie krank - gesund, Raucher - Nichtraucher, Geschlecht (dichotom), Farben, Berufsgruppe, Tierart, Apfelsorte jede Beobachtung einer Merkmalsausprägung wird genau einer bestimmten Klasse (Kategorie) zugeordnet, Klassen können nicht geordnet sondern nur unterschieden werden, Klassen z.b. durch natürliche Zahlen oder Buchstaben charakterisiert, Invarianz gegenüber Permutationen Ordinalskala: sinnvolles Ordnen der Beobachtungen möglich z.b. Bewertung durch Noten 1-5, Antwortmuster: stark ablehnend - ablehnend - unentschieden - zustimmend - stark zustimmend, Platzierungen, Güteklassen, Ratingskalen Präferenzstruktur, Unterschiede zwischen den Werten bzw. Klassen nicht vergleichbar (keine Abstände), wenn Klassen, dann üblicherweise durch natürliche Zahlen charakterisiert, Invarianz gegenüber monotonen (isotonen) Transformationen 2

3 Intervallskala: quantitative Merkmale, metrische Daten physikalische Größen wie Temperatur in Grad Celsius, Abstände zwischen den Werten der Skala besitzen eine Bedeutung; Berechnung von Differenzen sinnvoll, kein absoluter Nullpunkt, deshalb z.b. Aussage: 20 o C sind doppelt so warm wie 10 o C unsinnig, Invarianz gegenüber linearen Transformationen y = ax + b Absolut- oder Verhältnisskala: wie Intervallskala, aber mit absolutem Nullpunkt z.b. Temperatur in Grad Kelvin, aber auch Einkommen, Invarianz gegenüber Ähnlichkeitstransformationen y = ax Die Skalen sind nach steigendem Informationsgehalt aufgeführt (Nominalskala besitzt niedrigsten Gehalt). Die Überführung von einem Datenniveau in ein anderes ist abwärts stets möglich. 3

4 Die Wahl der geeigneten statistischen Verfahren zur Auswertung von Daten richtet sich nach der Art der Fragestellung dem vorliegenden Datentyp und der Anzahl der eingehenden Variablen. Bsp.: Analyse von Abhängigkeiten in gemischtskalierten, multivariaten Datensätzen Die Festlegung des Datentyps hängt stets von der Art der Messung (Erfassung) der Daten ab, nicht nur von den tatsächlichen Eigenschaften der Daten. Wird z.b. der Aflatoxingehalt von Maispflanzen nur in Klassen ( , , ,... [ppb]) erfasst, liegt diese Variable nur als ordinale Variable vor (eigentlich Absolutskala). 4

5 3.2. Univariate Verteilungen, grafische Darstellungen und Kenngrößen Ausgangspunkt: Urliste x 1, x 2,..., x n Häufigkeiten: H i... Anzahl oder absolute Häufigkeit des Auftretens der Merkmalsausprägung a i, i = 1,..., l Darstellung in Strichlisten, Häufigkeitstabellen, Balkenoder Stabdiagrammen bei zu vielen Ausprägungen (und ordinalen Daten): Klasseneinteilung; subjektiv, Manipulationsmöglichkeit! Faustregel: Anzahl der Klassen etwa n h i = H i /n... relative Häufigkeit von a i, i = 1,..., l. Darstellung in Kreisdiagrammen bei ordinalen Daten: kumulierte absolute und relative Häufigkeiten: K i = i H j, k i = i h j j=1 j=1 Darstellung in Summenkurven (Summenpolygon) 5

6 Kenngrößen eindimensionaler Verteilungen Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften (Zentrum, Ausbreitung, Form) der Verteilung widerspiegeln wichtigste Maßzahlen sind Lage- und Streuungsparameter Wichtig: Skalierungsniveau beachten Lageparameter: Der Modalwert = die am häufigsten auftretende Merkmalsausprägung = die Klasse (Klassenmitte) mit der größten Häufigkeit bei gruppierten Daten (Klassen) Mehrere Maxima: kein Modalwert Eigenschaften und Interpretation: Wert, der am ehesten zu beobachten ist (sprachl. Formulierungen wie: Diese Krankheit dauert normalerweise 3 Tage., Die Fahrzeit beträgt normalerweise 2 Stunden. ) unempfindlich gegenüber Ausreißern (extremen Werten) 6

7 Median mindestens ordinale Daten Median heißt jede Merkmalsausprägung a, für die gilt: i : x i a h i 1/2, i : x i a h i 1/2 oberhalb und unterhalb der Mediane befinden sich gleichviele Elemente der Stichprobe Bei metrischen Daten wird häufig der Mittelwert der Mediane als Median angegeben. Eigenschaften und Interpretation: zentraler Wert bei ordinalen Merkmalen unempfindlich gegenüber Ausreißern Das arithmetische Mittel metrische Daten x = 1 n x i = l j=1 a j h j Eigenschaften und Interpretation: Schwerpunkt der Verteilung, empfindlich gegenüber Ausreißern (vgl. Median), Minimaleigenschaft bezüglich quadratischer Abweichungen: hat die Lösung z = x (x i z) 2 min (Beweis: Übung). 7

8 Streuungsparameter (Variabilitätsparameter) Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen vom Mittelwert Ziel von Analysen: Zerlegung der Variabilität der Messwerte nach verschiedenen Ursachen (Faktoren, Fehler des Messgerätes usw.), Analyse der Wirkung des Zufalls Streuungsparameter für metrische Daten Spannweite: x max x min empirische Varianz: s 2 s 2 = 1 n 1 (x i x) 2 = 1 ( n n 1 x 2 i n x 2 ) mittlere quadratische Abweichung 1 n 1 2 ( ) Dimension von s 2 : ist z.b. x i eine Konzentration, dann mg 2 /l 2 Eigentlich müsste durch n geteilt werden. Grund für die Division durch n 1 ist die Anwendung der so erhaltenen Größe in der schließenden Statistik. Standardabweichung: s = s 2 gleiche Dimension wie x i Variationskoeffizient: s x 100% dimensionslos 8

9 3.3. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele: Material Festigkeit Höhe einer Maispflanze Masse des Kolbens Düngermenge Ertrag Wetter Anzahl der Kunden Variablen mit verschiedenem Skalenniveau können zusammengestellt werden (Problem!) Fragen: Zusammenhang ja / nein Stärke des Zusammenhanges evtl. Richtung, Typ des Zusammenhanges Kausalität muss Fachwissenschaft klären verschiedene grafische Methoden und viele Maßzahlen zur Bewertung von Zusammenhängen 9

10 Bestimmung der absoluten Häufigkeiten für alle möglichen Beobachtungspaare/Kombinationen (für metrische Variable evtl. Klasseneinteilung vornehmen) Beispiel: Schulabschluss monatliches Nettoeinkommen des Haushaltes Tabelle heißt Kontingenztafel, Kreuztabelle, (Kreuztafel) grafische Veranschaulichung dieser Tabelle: bivariates Histogramm, gestapeltes Histogramm für relative Häufigkeiten bei stetigen (metrischen) Variablen: häufig Klasseneinteilung (sonst Tabelle unsinnig), Informationsverlust, bei stetigen Daten oft besser: Streudiagramm oder Scatterplot (Punktwolke) Beobachtungen (x, y) als Punkte in der Zahlenebene darstellen zum Erahnen funktionaler Abhängigkeiten z.b. y = ax + b y = ax 2 + bx + c y = a sin(bx) + c y = f(x) 10

11 lineare Abhängigkeit (metrischer Variabler) wird als Korrelation bezeichnet (Unterschied zur Umgangssprache! Interpretation der Linearität!) Beispiele: a) Variablen extrem korreliert, Korrelation positiv b) Variablen stark korreliert, Korrelation positiv c) Variablen schwach korreliert, Korrelation positiv d) Variablen nahezu unkorreliert e) Variablen negativ korreliert f) Variablen extrem korreliert, Korrelation negativ g) Variablen nahezu unkorreliert, jedoch starker funktionaler Zusammenhang Quantifizierung der Stärke der Korrelation empirischer Korrelationskoeffizient Abhängigkeitsmaße bivariater Verteilungen Zusammenhang zwischen zwei Variablen soll durch numerische Größen, Kenngrößen, beschrieben werden breites Spektrum solcher Kenngrößen Abhängig vom Skalenniveau: nominal Kontingenzkoeffizient ordinal Rangkorrelationskoeffizient metrisch Korrelationskoeffizient 11

12 Metrische Daten Gegeben: n Beobachtungen zweier Merkmale X und Y : (x i, y i ), i = 1, 2,..., n. empirische Kovarianz cov(x, Y ) = 1 n 1 (x i x)(y i ȳ) empirischer Korrelationskoeffizient (auch: Produkt-Moment-Korrelationskoeffizient nach Pearson und Bravais) r XY = cov(x, Y ) s X s Y = 1 n 1 ( n x i y i n xȳ ) s X s Y x, ȳ... Mittelwerte der Merkmale X bzw. Y s X, s Y... Standardabweichung der Merkmale X, Y Unabhängig von der Maßeinheit Interpretation: Gehören zu kleinen x i häufig kleine (große) y i, so ist das Vorzeichen von (x i x)(y i ȳ) häufig + ( ) und die Summe wird groß, positiv (klein, negativ), bei Unabhängigkeit ergibt sich ein Wert nahe 0. 12

13 Es gilt 1 r XY 1. Besteht zwischen den Merkmalen X und Y ein deterministischer linearer Zusammenhang Y = a + bx ( y i = a + b x i, i = 1,..., n ), so ist ( ) r XY = 1, wenn b > 0 1, wenn b < 0 r XY = 0 empirische Unkorreliertheit r XY (nur) Maß für die Stärke eines linearen Zusammenhanges liefert Anhaltspunkt, ob Ausgleichsgerade sinnvoll Beispiel: Düngermenge [kg/ha] Ertrag [dt/ha] ([KSV S. 60]) r XY = 0,

14 Ordinale Daten Frage nach dem Grad einer monotonen Abhängigkeit (Zusammenhanges) zweier Merkmale X und Y (d.h. X wächst/fällt gleichzeitig mit Y ) Es sei: R i = Rg(x i ) Rang von x i unter den x-werten R i = Rg(y i ) Rang von y i unter den y-werten d i = R i R i Differenz der Ränge treten Rangplätze mehrfach auf = Bindungen: Literatur Rangkorrelationskoeffizient nach Spearman und Krueger für ordinale Daten ohne Bindungen R = 1 6 n d 2 i n(n 2 1) Summe klein bei etwa gleichlaufenden Reihen (d i 0 also R 1), Summe groß bei gegenläufigen Reihen, Normierung so, dass dann R = 1. Es gilt : Werte zwischen 1 und 1, mit Interpretation gegenläufig gleichläufig 14

15 Beispiel: Kundenbefragung durch einen Baumarkt Zusammenhang zwischen der Häufigkeit der Benutzung eines bestimmten Gerätes und der Zufriedenheit mit diesem Gerät (n=8) Kunde i Benutzung pro Jahr Note 1,3 6,0 4,1 3,7 2,1 1,6 4,5 3,0 Rang R i Rang R i d i d i = 12 Damit ist R = (64 1) = 0, 857 Die Rangreihen sind stark gleichlaufend. Kunden, die das Gerät häufiger benutzten, waren häufiger auch zufriedenere Kunden. Je häufiger die Kunden das Gerät benutzten, desto zufriedener waren sie damit. Kunden, die mit dem Gerät zufrieden waren, nutzten es auch häufiger. 15

16 3.4. Regressionsanalyse Untersuchung und Beschreibung der Abhängigkeit zwischen einer messbaren Zielgröße (Regressand) Y und einer (einstellbaren) Einflussgröße (Regressor) X in Form einer (linearen) Funktion (lineare Regression). X, Y metrisch! Konkrete Stichprobe: Messwertpaare (x i, y i ), i = 1,..., n Beispiele: Dosis (Medikament, Futterzusätze, Dünger,... ) Wirkung (phys. Werte, Massezunahme, Milchleistung, Ertrag,... ) Alter, Dauer (Zeit) Einkommen, phys. Werte X... Düngermenge in kg/ha Y... Ertrag in dt/ha Scatterplot, Korrelationskoeffizient: r XY = 0, 894 Darstellung der Beziehung zwischen den beiden Variablen durch eine Gerade der Form scheint sinnvoll. Ertrag = b 0 + b 1 Düngermenge Was sind b 0 und b 1? b 0... Ertrag in dt/ha ohne Dünger b 1... Ertragssteigerung in dt/ha pro zusätzlichem kg Dünger je ha 16

17 Modell: y i = b 0 + b 1 x i + r i r i... Residuen. Wie b 0 und b 1 sinnvoll bestimmen? Methode der kleinsten Quadrate (MkQ), d.h. Lösung des Problems: ri 2 min: SQR = n ( y i (b 0 + b 1 x i ) ) 2 min Messwert zu x i (SQR... residual sum of squares) Extremwertaufgabe Formeln für optimale b 0, b 1: Funktionswert ŷ i der Geraden bei x i b 0 = ȳ b 1 x b 1 = x iy i n xȳ x2 i n x 2 = cov(x, Y ) s 2 X Beachte: Das Resultat hängt davon ab, welche der Variablen als abhängig und welche als unabhängig gewählt wurde. 17

18 Das Bestimmtheitsmaß Ausgangspunkt: Betrachtung der y i -Werte (Erträge). Diese schwanken um den Mittelwert ȳ = 42, 38 dt ha. Dieser ist ebenfalls optimal nach der MkQ: (y i ȳ) 2 = min z n und das Maß für die Varianz um ȳ ist s 2 y = 1 n 1 (y i z) 2, (y i ȳ) 2 = 38, 55. Das entsprechende Maß für die (mittlere) Varianz um die Ausgleichsgerade ist die (mittlere) Reststreuung 1 n 1 SQR = 1 n 1 Der Quotient aus beiden: (y i ŷ) 2. 1 n 1 SQR s 2 y = (y i ŷ) 2 Streuung um beste Gerade = 0, 201 = 2 (y i ȳ) Streuung um beste Zahl erklärt, welcher Anteil der ursprünglichen Varianz nach der Anpassung der Geraden noch übrig ist. Die Größe B = 1 (y i ŷ) 2 = 0, (y i ȳ) heißt Bestimmtheitsmaß und beschreibt, welcher Anteil der ursprünglichen Varianz der y i (der Erträge) durch die (linear modellierte) Abhängigkeit von den x i (Düngermengen) erklärt worden ist. 18

19 Es gilt: B = r 2 XY... Quadrat des Korrelationskoeffizienten zwischen X und Y, und so werden wir B bei Handrechnung auch stets berechnen! In SPSS: r 2 XY = Rsq Im Beispiel: r 2 XY = 0, 799 0, 8 80% der Streuung der Erträge auf den unterschiedlichen Versuchsflächen lassen sich (bei Unterstellung eines linearen Zusammenhanges) dadurch erklären, dass unterschiedliche Düngermengen eingesetzt wurden. grafische Methode: Residualplots r i = y i ŷ i Literatur: multiple Regression (mehrere Einflussgrößen), nichtlineare Regression,... 19