Deskriptive Statistik II Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09
Übersicht Wiederholung Maße der zentralen Tendenz Streuungsmaße Zusammenfassung einer Verteilung tabellarisch graphisch 13. 11. 2008 2
Maße der zentralen Tendenz Modalwert (mode) Häufigster Wert einer Verteilung bei allen Datentypen einsetzbar, einschließlich nominalen/kategorialen Daten In R (nach Gries 2008: 113) > x <-c("kalt", "lau", "kalt", "kalt", "warm", "heiß", "warm", "kalt") > which.max(sort(table(x))) kalt 4 13. 11. 2008 3
Beispiel Durchschnittliche Temperaturen (in C ) in zwei Städten Jan Feb Mär Apr Mai Jun Jul Aug Sep Okt Nov Dez Stadt1-5 -12 5 12 15 18 22 23 20 16 8 1 Stadt2 6 7 8 9 10 12 16 15 11 9 8 7 (Gries 2008: 117f.) 13. 11. 2008 4
Maße der zentralen Tendenz Median (median) Zentralwert die Werte nach ihrer Größe sortieren und den Mittleren wählen bei einer geradzahligen Menge von Elementen das arithmetische Mittel der beiden Mittelwerte geeignet für Ordinal-, Intervall- und Verhältnisvariablen In R: > Stadt1= c(-5,-12,5,12,15,18,22,23,20,16,8,1) > median(stadt1) [1] 13.5 > Stadt2= c(6,7,8,9,10,12,16,15,11,9,8,7) > median(stadt2) [1] 9 13. 11. 2008 5
Maße der zentralen Tendenz Arithmetisches Mittel (arithmetic mean) Summe aller Werte geteilt durch die Anzahl n aller Werte angemessen nur für metrische Variablen (Intervall- und Verhältnisvariablen) > sum(stadt1)/length(stadt1) [1] 10.25 > mean(stadt1) [1] 10.25 > mean(stadt2) [1] 9.833333 > round(mean(stadt2),2) [1] 9.83 µ = n " x i i=1 n Eine alternative Notation für µ ("my") ist: x 13. 11. 2008 6
Streuungsmaße: Motivation > mean(stadt1) [1] 10.25 > mean(stadt2) [1] 9.833333 > plot(stadt1, type="b", xlab="monate", ylab="temperatur", col="darkgreen") > lines(c(rep(0,12)), col="lightgrey") > lines(stadt2, type="b", col="darkblue") 13. 11. 2008 7
Streuungsmaße Relativer Informationsgehalt / relative Entropie (relative entropy) z.b. Häufigkeitsverteilung von kategorialen Daten H=1, wenn die Werte maximal gleichmäßig über alle Ausprägungen verteilt sind n H=0, wenn alle Werte die selbe Ausprägung annehmen $ ( p (Zentralwert) i # ln p i ) Bsp.: 300 NPs, davon 164 ohne Artikel, 33 mit indefinitem, 103 mit definitem Artikel (Gries 2008:119) > artikel<-c(164, 33, 103) > prozente<-artikel/sum(artikel) > hrel<--sum(prozente*log(prozente))/log(length(prozente)); hrel [1] 0.8556091 H rel = " i=1 lnn 13. 11. 2008 8
Streuungsmaße Spannweite / Variationsbreite (range) Verhältnisskalierte Daten Differenz des höchsten und niedrigsten Wertes Einfach, aber empfindlich gegenüber Ausreißern > range(stadt1) [1] -12 23 > diff(range(stadt1)) # diff bildet paarweise Differenzen [1] 35 > max(stadt1)-min(stadt1) # alternative Berechnung [1] 35 > range(stadt1)[2]-range(stadt1)[1] # zweite Alternative [1] 35 > range(stadt2) [1] 6 16 > diff(range(stadt2)) # diff bildet paarweise Differenzen [1] 10 13. 11. 2008 9
Streuungsmaße Quantile Aufsteigend sortierte Werte Angabe, welcher Wert die niedrigsten x%, y% usw. abgrenzt > quantile(a, probs=c(0.05, 0.1, 0.5, 0.9, 0.95), type=1) 5% 10% 50% 90% 95% 5 10 50 90 95 Sonderfall: Quartile (= Default von quantile()) > quantile(stadt1) 0% 25% 50% 75% 100% -12.0 4.0 13.5 18.5 23.0 > IQR(Stadt1) # die Funktion fuer den Interquartilsabstand [1] 14.5 > quantile(stadt2) 0% 25% 50% 75% 100% 6.00 7.75 9.00 11.25 16.00 > IQR(Stadt2) [1] 3.5 13. 11. 2008 10
Durchschnittliche Abweichung averate deviation Für jeden Datenpunkt wird die Abweichung zum Mittelwert µ angegeben Die absoluten Abweichungen werden summiert und gemittelt (d.h. durch die Anzahl n der Datenpunkte geteilt). AD = n # i=1 ( x i " µ) n 13. 11. 2008 11
Durchschnittliche Abweichung Beispiel > Stadt1 [1] -5-12 5 12 15 18 22 23 20 16 8 1 > Stadt1-mean(Stadt1) [1] -15.25-22.25-5.25 1.75 4.75 7.75 11.75 12.75 9.75 [10] 5.75-2.25-9.25 > abs(stadt1-mean(stadt1)) # Absolutbeträge [1] 15.25 22.25 5.25 1.75 4.75 7.75 11.75 12.75 9.75 5.75 2.25 [12] 9.25 > mean(abs(stadt1-mean(stadt1))) [1] 9.041667 > mean(abs(stadt2-mean(stadt2))) [1] 2.472222 13. 11. 2008 12
Streuungsmaße Varianz Summe der quadratischen Abweichungen vom Mittelwert µ > var(stadt1) [1] 123.6591 > var(stadt2) [1] 9.969697 var = n # i=1 (x i " µ) 2 n 13. 11. 2008 13
Standardabweichung Wurzel der Varianz ist das meist verbreitete Streuungsmaß Nachteil Ist abhängig von der Höhe des Mittelwerts Schlechter Vergleich von Verteilungen mit unterschiedlichen Mittelwerten > sd(stadt1) [1] 11.12021 > sd(stadt2) [1] 3.157483 sd = n # i=1 (x i " µ) 2 n 13. 11. 2008 14
Variationskoeffizient Normalisiert die Standardabweichung in Bezug auf die Größe des Mittelwerts Division der Standardabweichung durch den Mittelwert > sd(stadt1) [1] 11.12021 > sd(stadt1*10) [1] 111.2021 # Vergleich nicht möglich > sd(stadt1)/mean(stadt1) [1] 1.084899 > sd(stadt1*10)/mean(stadt1*10) # nun erhalten wir den gleichen Wert [1] 1.084899 > sd(stadt2)/mean(stadt2) [1] 0.3210999 13. 11. 2008 15
Zusammenfassende Funktion > summary(stadt1) Min. 1st Qu. Median Mean 3rd Qu. Max. -12.00 4.00 13.50 10.25 18.50 23.00 > summary(stadt2) Min. 1st Qu. Median Mean 3rd Qu. Max. 6.000 7.750 9.000 9.833 11.250 16.000 13. 11. 2008 16
Zusammenfassende Darstellung Boxplot (siehe Gries 2008: 125) > boxplot(stadt1, Stadt2, notch=t) > text(1:2, c(mean(stadt1), mean(stadt2)), c("+", "+")) > summary(stadt1) Min. 1st Qu. Median Mean 3rd Qu. Max. -12.00 4.00 13.50 10.25 18.50 23.00 > summary(stadt2) Min. 1st Qu. Median Mean 3rd Qu. Max. 6.000 7.750 9.000 9.833 11.250 16.000 13. 11. 2008 17
Zusammenfassende Darstellung Boxplot horizontale fette Linie = Median horizontale Linie, die obere und untere Grenze der Box darstellen = obere und untere Hinges (ca. der 75%- und 25%-Quartil) die gestrichelte vertikale Linien mit den horizontalen Begrenzungen (Whiskers) markieren den höchsten und niedrigsten Werte, die nicht mehr als 1.5 Interquartilsabstände von der Box entfernt sind Ausreißer außerhalb der Whiskers werden mit einzelnem Punkt dargestellt die durch notch=true erzeugten Einschnürungen erstrecken sich über den Bereich ±1.58*IQR/sqrt(n): wenn sich die Einschnürungen nicht überlappen (sondern eine die andere einschließt), unterscheiden sich die Mediane wahrscheinlich nicht signifikant. 13. 11. 2008 18
Standardisierung (z-werte) Notwendig beim Vergleich von unterschiedlichen Skalen Bsp.: Noten aus unterschiedlichen Klassenarbeiten Güte zweier Noten, die zu zwei Verteilungen mit unterschiedlichen Durchschnitten (mean) gehören. Transformation der Abstände zum jeweiligen Mittelwert in die Anzahl der jeweiligen Standardabweichungen, die der Wert abweicht. Z-transformierte Werte besitzen einen Mittelwert von 0 und eine Standardabweichung von 1 Von ordinalskalierten Daten wie Schulnoten darf mathematisch gesehen eigentlich nur der Median gebildet werden. Im Alltag wird auch hier oft der Mittelwert verwendet. 13. 11. 2008 19
Standardisierung (z-werte) > a<-1:5 # Beispielverteilung > z.werte<-(a-mean(a))/sd(a); z.werte #"zu Fuß" [1] -1.2649111-0.6324555 0.0000000 0.6324555 1.2649111 > mean(z.werte) # standardisierter Mittelwert [1] 0 > sd(z.werte)# standardisierte Standardabweichung [1] 1 > scale(a) # Standardisierungsfunktion in R [,1] [1,] -1.2649111 [2,] -0.6324555 [3,] 0.0000000 [4,] 0.6324555 [5,] 1.2649111 attr(,"scaled:center") # Mittelwert der Eingabedaten [1] 3 attr(,"scaled:scale") # Standardabweichung der Eingabedaten [1] 1.581139 13. 11. 2008 20
Standardisierung (z-werte) Beispiel nach Gries (2008:127) Frage: Wenn Schüler X in Kurs A eine 2 erhalten hat und Schüler Y in Kurs B eine 3, ist Schüler X dann wirklich besser als Schüler Y? > Noten.vom.Kurs.A<-rep(1:6, 6:1); Noten.vom.Kurs.A > Noten.vom.Kurs.B<-rep(1:6, 1:6); Noten.vom.Kurs.B > scale(noten.vom.kurs.von.a) > scale(noten.vom.kurs.von.b) 13. 11. 2008 21