Deskriptive Statistik. Statistik mit R Heike Zinsmeister

Transkript

1 Deskriptive Statistik Statistik mit R Heike Zinsmeister

2 Abgrenzung: deskriptive vs. analytische Statistik (1) Deskriptive Statistik = beschreibende Statistik Aufgabe Zustände und Vorgänge beschreiben Methoden Tabelle, grafische Darstellungen, Verhältniszahlen, typische Kenngrößen wie Lagema (z. B. arithmetischer Mittelwert) und Streuungsmaße (z. B. Varianz und Standardabweichung) Ursprung von Herrschern benötigte Daten über die Bevölkerung, z B. die Zahl der wehrfähigen Männer durch den Spieltrieb angeregte Überlegungen über Wettchancen beim Würfelspiel 1

3 Abgrenzung: deskriptive vs. analytische Statistik (2) Analytische Statistik = beurteilende Statistik Aufgabe anhand von geeigneten Daten auf allgemeine Gesetzmäßigkeiten schließen, die über den Beobachtungsraum hinaus gültig sind Methoden anhand von Zufallsstichproben auf die Grundgesamtheit schließen; Prüfen von Hypothesen über die Grundgesamtheit; statistische Kenngröße: (Zufalls-)Fehler Ursprung in der politischen Arithmetik, die sich mit Tauf, Heirats- und Sterberegistern beschäftigte, um Geschlechtsverhältnisse, Fruchtbarkeit, Altersaufbau und Sterblichkeit der Bevölkerung abzuschätzen basiert auf der Wahrscheinlichkeitsrechnung, die mathematische Methoden zur Erfassung stochastischer Experimente beschreibt. 2

4 Maße der zentralen Tendenz Charakterisieren eine Verteilung durch eine einzelne Zahl Modalwert (mode) Häufigster Wert einer Verteilung Median (median) Zentralwert Geeignet für ordinale Daten Arithmetisches Mittel (arithmetic mean) Summe aller Werte eines Vektors geteilt durch Anzahl der Werte Geometrisches Mittel (geometric mean) Bei relativen Änderungen (z.b. Wachstum, Zuwachsraten, Produktionssteigung) 3

5 Maße der zentralen Tendenz Modalwert (mode) Häufigster Wert einer Verteilung bei allen Datentypen einsetzbar, einschließlich nominalen/kategorialen Daten In R (nach Gries 2008: 113) > x <-c("kalt", "lau", "kalt", "kalt", "warm", "heiß", "warm", "lau") > which.max(sort(table(x))) kalt 4 Die Zahl gibt nur den Index an, nicht die Häufigkeit! Vgl. table (x) 4

6 Beispiel Durchschnittliche Temperaturen Jan Feb Mär Apr Mai Jun Jul Aug Sep Okt Nov Dez S S (Gries 2008: 117f.) 5

7 Maße der zentralen Tendenz Median (median) Zentralwert die Werte nach ihrer Größe sortieren und den Mittleren wählen bei einer geradzahligen Menge von Elementen das arithmetische Mittel der beiden Mittelwerte geeignet für Ordinal-, Intervall- und Verhältnisvariablen In R: > Stadt1= c(-5,-12,5,12,15,18,22,23,20,16,8,1) > median(stadt1) [1] 13.5 > Stadt2= c(6,7,8,9,10,12,16,15,11,9,8,7) > median(stadt2) [1] 9 6

8 Maße der zentralen Tendenz Arithmetisches Mittel (arithmetic mean) Summe aller Werte geteilt durch die Anzahl n aller Werte angemessen nur für metrische Variablen (Intervall- und Verhältnisvariablen) > sum(stadt1)/length(stadt1) [1] > mean(stadt1) [1] > mean(stadt2) [1] > round(mean(stadt2),2) [1] 9.83 µ = n i=1 n x i x 7

9 Streuungsmaße: Motivation > mean(stadt1) [1] > mean(stadt2) [1] > plot(stadt1, type="b", xlab="monate", ylab="temperatur", col="darkgreen") > lines(c(rep(0,12)), col="lightgrey") > lines(stadt2, type="b", col="darkblue") 8

10 Dispersion und Streuung Bei Mittelwertangaben immer auch ein Dispersions- oder Streuungsmaß angeben. Extremeres Beispiel: > Verteilung_1! [1] ! > Verteilung_2! [1] ! mean(verteilung_1)! [1] 5! mean(verteilung_2)! [1] 5! median(verteilung_1)! [1] 5! median(verteilung_2)! [1] 5 par(mfrow=c(2,1)); plot(verteilung_1, type="b"); plot(verteilung_2, 9 type="b")

11 Streuungsmaße Relativer Informationsgehalt / relative Entropie (relative entropy) z.b. Häufigkeitsverteilung von kategorialen Daten H=1, wenn die Werte maximal gleichmäßig über alle Ausprägungen verteilt sind H=0, wenn alle Werte die selbe Ausprägung annehmen (Zentralwert) H rel = n i=1 ( p i ln p i ) lnn Bsp.: 300 NPs, davon 164 ohne Artikel, 33 mit indefinitem, 103 mit definitem Artikel (Gries 2008:119) > artikel<-c(164, 33, 103) > prozente<-artikel/sum(artikel) > hrel<--sum(prozente*log(prozente))/log(length(prozente)); hrel [1]

12 Streuungsmaße Spannweite / Variationsbreite (range) Verhältnisskalierte Daten Differenz des höchsten und niedrigsten Wertes Einfach, aber empfindlich gegenüber Ausreißern > range(stadt1) [1] > diff(range(stadt1)) # diff bildet paarweise Differenzen [1] 35 > max(stadt1)-min(stadt1) # alternative Berechnung [1] 35 > range(stadt1)[2]-range(stadt1)[1] # zweite Alternative [1] 35 > range(stadt2) [1] 6 16 > diff(range(stadt2)) # diff bildet paarweise Differenzen [1] 10 11

13 Streuungsmaße Quantile Aufsteigend sortierte Werte Angabe, welcher Wert die niedrigsten x%, y% usw. abgrenzt > quantile(a, probs=c(0.05, 0.1, 0.5, 0.9, 0.95), type=1) 5% 10% 50% 90% 95% Sonderfall: Quartile (= Default des Aufrufs von quantile()) > quantile(stadt1) 0% 25% 50% 75% 100% > IQR(Stadt1) # die Funktion fuer den Interquartilsabstand [1] 14.5 > quantile(stadt2) 0% 25% 50% 75% 100% > IQR(Stadt2) [1] 3.5 Spannbreite zwischen dem Wert der 25%- Quartile und der 75%-Quartile, d.h. die Spannbreite in denen sich die Werte der mittleren 50% der Datenpunkte befinden. 12

14 Durchschnittliche Abweichung average deviation Für jeden Datenpunkt wird die Abweichung zum Mittelwert µ angegeben Die absoluten Abweichungen werden summiert und gemittelt (d.h. durch die Anzahl n der Datenpunkte geteilt). AD = n i=1 ( x i µ) n 13

15 Durchschnittliche Abweichung Beispiel > Stadt1 [1] > Stadt1-mean(Stadt1) [1] [10] > abs(stadt1-mean(stadt1)) # Absolutbeträge [1] [12] 9.25 > mean(abs(stadt1-mean(stadt1))) [1] > mean(abs(stadt2-mean(stadt2))) [1]

16 Streuungsmaße Varianz Summe der quadratischen Abweichungen vom Mittelwert µ > var(stadt1) [1] > var(stadt2) [1] var = n i=1 (x i µ) 2 n 15

17 Standardabweichung Wurzel der Varianz ist das meist verbreitete Streuungsmaß Nachteil Ist abhängig von der Höhe des Mittelwerts Schlechter Vergleich von Verteilungen mit unterschiedlichen Mittelwerten > sd(stadt1) [1] > sd(stadt2) [1] sd = n i=1 (x i µ) 2 n 16

18 Standardfehler Abweichung eines Mittelwerts von gleich großen Stichproben aus einer Population / Gesamtheit je größer der Stanardfehler, desto schlechter schätzt ein beobachteter Mittelwert einer Stichprobe den Mittelwert der Gesamtheit SE Mittelwert = var n = sd n SE Pr ozentwert = p (1 p) n Sinnvoll bei: n 30, normalverteilt 17

19 Variationskoeffizient Normalisiert die Standardabweichung in Bezug auf die Größe des Mittelwerts Division der Standardabweichung durch den Mittelwert > sd(stadt1) [1] > sd(stadt1*10) [1] # Vergleich nicht möglich > sd(stadt1)/mean(stadt1) [1] > sd(stadt1*10)/mean(stadt1*10) # nun erhalten wir den gleichen Wert [1] > sd(stadt2)/mean(stadt2) [1]

20 Zusammenfassende Funktion > summary(stadt1) Min. 1st Qu. Median Mean 3rd Qu. Max > summary(stadt2) Min. 1st Qu. Median Mean 3rd Qu. Max

21 Zusammenfassende Darstellung Boxplot (siehe Gries 2008: 125) > boxplot(stadt1, Stadt2, notch=t) > text(1:2, c(mean(stadt1), mean(stadt2)), c("+", "+")) > summary(stadt1) Min. 1st Qu. Median Mean 3rd Qu. Max > summary(stadt2) Min. 1st Qu. Median Mean 3rd Qu. Max

22 Zusammenfassende Darstellung Boxplot horizontale fette Linie = Median horizontale Linie, die obere und untere Grenze der Box darstellen = obere und untere Hinges (ca. der 75%- und 25%-Quartil) die gestrichelte vertikale Linien mit den horizontalen Begrenzungen (Whiskers) markieren den höchsten und niedrigsten Werte, die nicht mehr als 1.5 Interquartilsabstände von der Box entfernt sind Ausreißer außerhalb der Whiskers werden mit einzelnem Punkt dargestellt die durch notch=true erzeugten Einschnürungen erstrecken sich über den Bereich ±1.58*IQR/sqrt(n): wenn sich die Einschnürungen nicht überlappen (sondern eine die andere einschließt), unterscheiden sich die Mediane wahrscheinlich nicht signifikant. 21

23 Standardisierung (z-werte) Notwendig beim Vergleich von unterschiedlichen Skalen Bsp.: Noten aus unterschiedlichen Klassenarbeiten Güte zweier Noten, die zu zwei Verteilungen mit unterschiedlichen Durchschnitten (mean) gehören. Transformation der Abstände zum jeweiligen Mittelwert in die Anzahl der jeweiligen Standardabweichungen, die der Wert abweicht. Z-transformierte Werte besitzen einen Mittelwert von 0 und eine Standardabweichung von 1 22

24 Standardisierung (z-werte) > a<-1:5 # Beispielverteilung > z.werte<-(a-mean(a))/sd(a); z.werte #"zu Fuß" [1] > mean(z.werte) # standardisierter Mittelwert [1] 0 > sd(z.werte)# standardisierte Standardabweichung [1] 1 > scale(a) # Standardisierungsfunktion in R [,1] [1,] [2,] [3,] [4,] [5,] attr(,"scaled:center") # Mittelwert der Eingabedaten [1] 3 attr(,"scaled:scale") # Standardabweichung der Eingabedaten [1]

25 Standardisierung (z-werte) Beispiel nach Gries (2008:127) Frage: Wenn Schüler X in Kurs A eine 2 erhalten hat und Schüler Y in Kurs B eine 3, ist Schüler X dann wirklich besser als Schüler Y? > Noten.vom.Kurs.A<-rep(1:6, 6:1); Noten.vom.Kurs.A > Noten.vom.Kurs.B<-rep(1:6, 1:6); Noten.vom.Kurs.B > scale(noten.vom.kurs.a) > scale(noten.vom.kurs.b) Note 2 in Kurs A: z-wert = [7,] Note 3 in Kurs B: z-wert = [2,]

26 Konfidenzintervalle Bisher: Häufigkeiten einer Variablenausprägung / Mittelwerte etc. einer Variable in einer Stichprobe Neu: Wie gut charakterisiert der Kennwert der Stichprobe die Gesamtheit? Wie lang sind (wahrscheinlich) die Vorfelder aller Texte des L2-Lernenden / aller L2-Lernenden (in Buchstaben)? Wie häufig steht (wahrscheinlich) eine Nominalphrase im Vorfeld aller Sätze des L2-Lernenden / aller L2- Lernenden? Standard: 95%ige Konfidenz 25

27 Konfidenzintervall: Mittelwert mean(buchstaben,na.rm=t)! [1] ! Welche wahren Populationsmittelwerte könnten den Stichprobenmittelwert von ca mit einer 95%igen Wahrscheinlichkeit erzeugt haben?! t.test(buchstaben, conf.level=0.95)$conf.int! [1] ! attr(,"conf.level")! [1] 0.95! Relevanz: Vergleich von zwei Mittelwerten. Überlappen die Konfidenzintervalle nicht Signifikanter Unterschied der Mittelwerte Sinnvoll bei: n 30, normalverteilt Mittelwert: 7,86 (95%-K.I.: 5,24 10,47) Die Umkehrung gilt nicht zwingend! Vgl. Crawley 2005: 169f. nach Gries 2008:

28 Konfidenzintervall: Häufigkeit Häufigkeiten von Kategorien im Vorfeld > table(kategorie)! Kategorie! AdvP NP PP Satz! ! 95%-Konfidenzintervall für den Prozentanteil von 55,17% für NP (16/29 = )! > prop.test(16,29, conf.level=0.95)$conf.int! [1] ! attr(,"conf.level")! [1] 0.95! In 55,17% der Vorfelder steht eine NP (95%-K.I.: 35,98% - 73,05%) 27

29 Visualisierung von Häufigkeiten Punkt-/Streu- und Liniendiagramme Abbildung individueller Datenpunkte eines Vektors Bsp. Vektor (1, 3, 5, 2, 4) plot(c(1,3,5,2,4))! plot(c(1,3,5,2,4), type="l")! plot(c(1,3,5,2,4), type= b")! 28

30 Visualisierung von Häufigkeiten Kreis- und Säulendiagramme Nominal-/Kategorialvariablen Bsp. Häufigkeiten von Pausenelementen pie(table(filler))! barplot(table(filler), col=c("grey20", "grey40", "grey60"), names.arg=c("aeh", "Aehm", "Stille")) 29

31 Visualisierung von Häufigkeiten Histogramme Klassenbildung über Verhältnisdaten Bsp. Häufigkeiten der Längen von Planungspausen abgebildet auf Längenklassen hist(laenge, main="", xlab="laenge in ms", ylab="haeufigkeit", xlim=c(0, 2000), ylim=c(0, 100), col="grey80")

32 Referenzen Stefan Th. Gries Statistik für Sprachwissenschaftler. Vandenhoeck & Ruprecht. Kapitel 1 und 3. Andere: K. Backhaus, W. Plinke und B. Erichson Multivariate Analysemethoden Eine anwendungsorientierte Einführung, Berlin: Springer. Ellen F. Prince Toward a taxonomy of given-new information. In Peter Cole (Hrsg.) Radical Pragmatics. New York: Academic Press Ellen F. Prince How not to mark topics: Topicalization in English and Yiddish. 8 Texas Linguistics Forum. Lothar Sachs und Jürgen Hedderich Angewandte Statistik, Berlin: Springer. 1-2 Michael Strube und Udo Hahn Functional Centering Grounding Referential Coherence in Information Structure. Computational Linguistics, Volume 25, Number 3, September