STATISIK LV Nr.: 0021 WS 2005/06 11.Oktober 2005 1
Literatur Bleymüller, Gehlert, Gülicher: Statistik für Wirtschaftswissenschaftler, Verlag Vahlen Hartung: Statistik. Lehr- und Handbuch der angewandten Statistik, Oldenburg Verlag München Wien 2
Lernplattform https://learn.wu-wien.ac.at/ Common body of Knowledge: Statistik Kontrollfragen Musterklausuren 3
Einführung Statistik : Abgeleitet vom neulateinischen Begriff status (Bed.: Staat, Zustand ) 18. und 19. Jhdt: Lehre von der Zustandsbeschreibung des Staates (Sammeln und verbales oder numerisches Beschreiben von Daten) Heute: im doppelten Sinne gebraucht Quantitative Informationen (z.b. Bevölkerungsstatistik) Formale Wissenschaft 4
Statistik Statistik befasst sich mit Erhebung (Sammeln von Daten. Wie kommt man zu der benötigten Information?) Aufbereitung (Präsentation; Reduktion von Daten, wobei ein Großteil der Information erhalten bleiben soll; wenige Kenngrößen; einfache Grafiken) Analyse (Welche Schlüsse kann man ziehen? Allgemeine Aussagen basierend auf Stichproben?) von (numerischen) Daten. 5
Warum? Warum Statistik? Entscheidungshilfe z.b. 2 verschiedene Produkte welches soll am Markt eingeführt werden? Tieferes Verständnis bei Problemen z.b. Welche Faktoren beeinflussen die Kaufentscheidung? Richtung des Einflusses? 6
Wie? Wie Statistik? Planung (Untersuchungsziel, Organisation,...) Erhebung Befragung (schriftlich, mündlich, telefonisch) Beobachtung (in Wirtschaftswissenschaften selten) Experiment (v.a. in Naturwissenschaften) Automatische Erfassung (z.b. Scannerkassen) Aufbereitung (Verdichtung der Daten) Analyse (deskriptive u. induktive Methoden) Interpretation 7
Fragestellung Klarer Aufbau / Struktur Offene oder geschlossene Frage? Fragen exakt und neutral formulieren Antwortalternativen: klar und ausgewogen Reihenfolge der Antwortalternativen Suggestive Fragestellungen vermeiden Kontrolle: sinngemäß gleiche Fragen 8
Befragungen Schriftliche Befragung - Befragungssituation nicht kontrollierbar - Keine Zusatzauskünfte, Erklärungen usw. - Antworten nicht spontan - Reihenfolge der Fragenbeantwortung? - Rücklaufquote oft gering Mündliche Befragung - Aufhebung der Anonymität - Interviewereffekt - Zeitlicher Antwortdruck 9
Deskriptiv - Induktiv Deskriptive Statistik beschreibende Statistik Beschreibung und Zusammenfassung Darstellung von Daten (Tabellen u. Grafiken) Kennzahlen (z.b. Mittelwerte, Streuungsmaße) Induktive Statistik schließende Statistik Von Stichproben auf Grundgesamtheiten Schätzer Tests Entscheidungstheorie 10
Statistische Daten Von Interesse sind nie einzelne elementare Objekte (statistische Einheiten, Elemente) sondern immer Mengen von Elementen (statistische Gesamtheiten, statistische Massen). Reale und hypothetische Gesamtheiten z.b. Bevölkerung eines Staates, Menge der Ergebnisse eines theoretisch fortlaufend ausgespielten Würfels Endliche und unendliche Gesamtheiten 11
Statistische Massen Bestandsmassen (Streckenmassen): Objekte mit Lebensdauer Werden zu einem Zeitpunkt erfasst z.b. Einwohner Österreichs am 1.1.2005, Lagerbestand am 31.12.2004 Bewegungs- oder Ereignismassen (Punktmassen) Ereignisse Werden innerhalb einer Zeitspanne erfasst z.b. Geburten in Österreich im Jahr 2004, bei einer Bank eingegangene Schecks im April 2004 12
Statistische Massen Beziehung Bestands- und Bewegungsmasse: Für jedes Element einer Bestandsmasse stellt der Beginn und das Ende der Existenz ein Ereignis dar Fortschreibungsformel: Anfangsbestand + Zugang Abgang = Endbestand Bestandsmasse Bewegungsmasse 13
Statistische Daten Angehörige der Massen: Merkmalsträger / Beobachtungseinheit (Personen, Objekte) Erhoben werden Werte von Merkmalen / Variablen (Merkmalsausprägungen) der Merkmalsträger (statistische) Population: Gesamtheit aller Beobachtungseinheiten Bsp: Haarfarbe = Merkmal, Person X = Merkmalsträger, blond = Merkmalsausprägung des Merkmals Haarfarbe des Merkmalsträgers X 14
Datenerhebung Vollerhebung Es werden Daten von allen Elementen der Population erhoben. Stichprobenerhebung Es werden Daten von einer Teilmenge (Stichprobe) der Population erhoben. 15
Stichprobenerhebung Aufgabe: Aussagen über Grundgesamtheit Stichprobe (Kosten, Zeit, Möglichkeit) Zufallsstichprobe (theoretisch fundierte Aussagen über Zuverlässigkeit der Ergebnisse sind möglich) Quotenstichprobe (keine theoretisch fundierten Aussagen über die Zuverlässigkeit der Ergebnisse) Stpr. heißt repräsentativ, wenn ein Schluss auf Grundgesamtheit erlaubt ist Stichprobe verkleinertes Abbild der Grundgesamtheit. 16
Datenerhebung Messen von Merkmalsausprägungen Kriterien für Messungen: Objektivität das zu ermittelnde Merkmal wird eindeutig festgestellt, Ergebnis ist unabhängig von der Person die misst Validität (Gültigkeit) Messinstrument misst, was es messen soll Reliabilität (Zuverlässigkeit) Ergebnis der Messung wird exakt festgestellt, bei mehrmaligem Messen (approximativ) gleiches Ergebnis 17
Statistische Merkmale Qualitative Merkmale Messen durch Klassifikation (z.b. Geschlecht) Quantitative Merkmale Messen durch Zählen (z.b. Alter, Körpergröße) Diskrete Merkmale Messen mit ganzen Zahlen (z.b. Anzahl Familienmitglieder) Stetige Merkmale Messen mit reellen Zahlen (z.b. Körpergröße) 18
Merkmalsskalen Nominalskala Werte unterliegen keiner Rangfolge und sind nicht vergleichbar (z.b. Farbe, Geschlecht,...) Ordinalskala Werte unterliegen einer Rangfolge, Abstände zw. verschiedenen Ausprägungen lassen sich nicht interpretieren (z.b. Schulnoten, Güteklassen,...) Intervallskala Rangfolge, Abstände zw. verschiedenen Ausprägungen sind interpretierbar (z.b. Temperatur in Grad Celsius, Kalenderzeitrechung,...) Verhältnisskala Rangfolge, interpretierbare Abstände, absoluter Nullpunkt (z.b. Körpergröße, Alter) 19
Merkmalsskalen Zulässige Transformationen (informationserhaltend) Nominalskala: symmetrische Transformationen nur Änderung der Klassenbezeichnungen Ordinalskala: streng monotone Transformationen x * =f(x) so dass für x 1 < x 2 auch x 1* < x * 2 Intervallskala: lineare Transformationen x * =ax + b (a > 0) Verhältnisskala: Ähnlichkeitstransformationen x * =ax (a > 0) 20
Empirische Verteilungen Häufigkeitsverteilung Beobachtete Daten, n Untersuchungseinheiten, Merkmal X k Merkmalsausprägungen (x 1,..., x k ) j-te Untersuchungseinheit (j=1,...,n), Ausprägung x i (i=1,...,k) Liste der beobachteten Merkmalsausprägungen: Beobachtungsreihe oder Urliste 21
Empirische Verteilungen Absolute Häufigkeiten: h i = Anzahl der Elemente, welche Merkmalsausprägung x i besitzen, i=1,...,k h i [0,n] und S i h i = n (i=1,...,k) Relative Häufigkeit: f i = 1/n h i f i [0,1] und S i f i = 1 (i=1,...,k) Vorsicht: Anzahl der möglichen Werte oft Anzahl der tatsächlichen Werte 22
Empirische Verteilungen Diskrete Merkmale: Einzelwerte Stetige Merkmale: Klasseneinteilung In beiden Fällen werden Häufigkeiten gezählt. Sind x i Zahlen, werden sie ansteigend geordnet. 23
Darstellungsformen Stetige Merkmale: Klassen bilden Klassengrenzen: x 0, x 1,..., x k Häufigkeiten h i : Anzahl der Werte zwischen x i-1 und x i. Liegt ein Wert genau auf der Klassengrenze, wird er üblicherweise der unteren Klasse zugerechnet 24
Darstellungsformen Tabelle Häufigkeitsverteilung Ausprägung x i Anzahl Fam.mitglieder; h i Anteil Fam.mitglieder; f i 1 1 0,02 2 3 0,07 3 12 0,29 4 20 0,48 5 6 0,14 S 42 1 25
Darstellungsformen Grafik: Balkendiagramm für absolute und relative Häufigkeiten gleich Skalierung der y-achse Anzahl Familienmitglieder Anzahl Familienmitglieder 25 0,50 0,45 Absolute Häufigkeit h 20 15 10 5 Relative Häufigkeit f 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0 1 2 3 4 5 0,00 1 2 3 4 5 Merkmalsausprägung xi Merkmalsausprägung xi 26
Darstellungsformen Grafik: Histogramm Körpergröße in cm 14 12 10 8 6 4 2 0 141-160 161-170 171-180 181-200 27
Darstellungsformen Balkendiagramm: Abstand zwischen den Balken. Die Höhe stellt die Häufigkeit dar. Histogramm: Kein Abstand zwischen den Balken. Bei ungleich breiten Klassen ist die Fläche nicht die Höhe Maß für die Häufigkeit. Die Balkenhöhe entsteht durch Division von Häufigkeit und Klassenbreite (Höhe=h i /b i ). 28
Darstellungsformen Tortendiagramm Anzahl Familienmitglieder 5 14% 1 2% 2 7% 3 29% 4 48% 29
Darstellungsformen Liniendiagramm: Familienmitglieder 25 20 Häufigkeit 15 10 5 0 0 1 2 3 4 5 6 Anzahl der Familienmitglieder 30
Summenhäufigkeitsfunktion Absoluten Summenhäufigkeiten H i : Fortlaufende Summierung (Kumulierung) der absoluten Häufigkeiten. H i Anzahl der Elemente mit Merkmalswert x i. H i = h 1 +h 2 +...+h i = S j h j für j=1,...,i und i=1,...,k Relative Summenhäufigkeiten F i : Fortlaufende Summierung der relativen Häufigkeiten. F i = f 1 +f 2 +...+f i = S j f j für j=1,...,i und i=1,...,k F i = H i /n für i=1,...,k 31
Summenhäufigkeitsfunktion Häufigkeiten aus Summenhäufigkeiten berechnen: h i = H i H i-1 (i=1,...,k) f i = F i F i-1 (i=1,...,k) wobei H 0 = F 0 = 0 Ausprägung x i Anzahl Fam.mitglieder; h i Anteil Fam.mitglieder; f i Anzahl höchstens x i Fam.mitglieder Anteil höchstens x i Fam.mitglieder 1 1 0,02 1 0,02 2 3 0,07 4 0,10 3 12 0,29 16 0,38 4 20 0,48 36 0,86 5 6 0,14 42 1 S 42 1 32
Summenhäufigkeitsfunktion Summenhäufigkeitsfunktion - empirische Verteilungsfunktion F(x) - wird aus Summenhäufigkeiten bestimmt. F(x) gibt den Anteil der Elemente mit einem Merkmalswert x an. 0 für x < x 1 F(x) = F i für x i x < x i+1 (i=1,...,k-1) 1 für x x k 33
Summenhäufigkeitsfunktion Diskrete Merkmale Summenhäufigkeitsfunktion 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 1 2 3 4 5 6 34
Summenhäufigkeitsfunktion Stetige Merkmale Summenhäufigkeitsfunktion - empirische Verteilungsfunktion 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 145 155 165 175 185 195 35
Maßzahlen Parameter, Kollektivmaßzahlen Lageparameter (Mittelwerte) Streuungsparameter (Variabilitätsmaße, Variationsmaße) Schiefe Wölbung 36
Lagemaße und Mittelwerte Eigenschaften: Liegen zwischen Minimum und Maximum der Daten Wenn alle Daten derselben linearen Transformation unterworfen werden, macht auch das Lagemaß diese Transformation mit 37
Lagemaße und Mittelwerte Arithmetisches Mittel Median Modus Geometrisches Mittel Harmonisches Mittel Quantile 38
39 Arithmetisches Mittel Mittelwert, durchschnittlicher Wert. Für metrisch skalierte Merkmale. a 1,...,a n beobachtete Merkmalswerte eines Merkmals X = = = = k 1 i i i k 1 i i i f x h x n 1 x = = n 1 i a i n 1 a
Arithmetisches Mittel Bsp. Merkmal X: Körpergröße in cm Merkmalswerte (a 1,...,a n, n = 5): 162, 170, 155, 187, 179 a = 1/5 (162+170+155+187+179) = 170,6 40
Arithmetisches Mittel Eigenschaften (Betrachte Einzelwerte a i, i=1,...,n): Summe der Abweichungen der Einzelwerte von ihrem arithmetischen Mittel = 0 n i= 1 (a i a) = 0 Summe der quadrierten Abweichungen der Einzelwerte von ihrem arithmetischen Mittel ist kleiner als von einem beliebigen anderen Wert n n 2 (a i a) < i= 1 i= 1 (a i M) 2 (M a) 41
Arithmetisches Mittel Das arithmetische Mittel unterliegt der gleichen linearen Transformation wie die Einzelwerte Lineare Transformation: a * = a + ßa * a i = a + ßai (i = 1,...,n) Bsp. Körpergröße: a i * = 0,01 a i Transformierte Werte: 1,62; 1,70; 1,55; 1,87; 1,79 a* = 1/5 (1,62+1,70+1,55+1,87+1,79) = 1,706 a* = 0,01 = 0,01 170,6 = 1,706 42
Arithmetisches Mittel Arithmetische Mittel von zwei oder mehr Teilgesamtheiten: a n 1 n1 n2 1 1 2 a1i a 2i 1 n + = + 2 i= 1 n1 + n 2 = Bsp. Körpergröße: 2 Stpr. mit n 1 =n 2 =5 Stpr. 1: 162, 170, 155, 187, 179 mit a 1 = 170,6 Stpr. 2: 172, 159, 193, 184, 168 mit a 2 175,2 a = 1/(5+5) (853+876) = 172,9 = (5 170,6+5 175,2) / (5+5) = 172,9 n a + n a 2 43
Arithmetisches Mittel Gewogenes (gewichtetes) arithmetische Mittel Gewichte w 1,..., w n mit 0 w i 1 und S i w i =1 a w = n i= 1 w i a i Für w 1 =... = w n = 1/n ergibt sich das gewöhnliche arithmetische Mittel 44
Median Median (Zentralwert): mindestens 50% der Beobachtungen a i nehmen eine Wert größer oder gleich bzw. kleiner oder gleich dem Median an. Sind x 1... x n der Größe nach geordnet, ist der Median x? 0,5 : x ((n+1)/2) n ungerade x? 0,5 = ½(x (n/2) +x (n/2+1) ) n gerade 45
Median Häufigkeitsverteilung: Median ist diejenige Merkmalsausprägung, bei der die Summenhäufigkeitsfunktion den Wert 0,5 überschreitet. Klassifizierte Daten: Der Median liegt in der Klasse, in der die Summenhäufigkeitsfunktion den Wert 0,5 erreicht. 46
Median Bsp. Körpergröße in cm: n = 10, Merkmalswerte der Größe nach geordnet: 155, 159, 162, 168, 170, 172, 179, 184, 187, 193 Median: x? 0,5 = ½(x (n/2) +x (n/2+1) ) = ½(x 5 +x 6 ) = ½(170+172) = 171 Bsp. Körpergröße in cm: n = 9, Merkmalswerte der Größe nach geordnet: 155, 159, 162, 168, 170, 172, 179, 184, 187 Median: x? 0,5 = x ((n+1)/2) = x 5 = 170 47
Quantile Geordnete Beobachtungsreihe x (1)... x (n) a-quantil x (k) falls n?a keine ganze Zahl (k ist die auf n?a folgende ganze Zahl) [? a = 1/2 (x (k) +x (k+1) ) falls n?a ganze Zahl k=n?a Spezielle Quantile: Median = 0,5-Quantil Unteres Quartil = 0,25-Quantil Oberes Quartil = 0,75-Quantil 48
Quantile Bsp. Körpergröße in cm: Merkmalswerte der Größe nach geordnet (n=10): 155, 159, 162, 168, 170, 172, 179, 184, 187, 193 Unteres Quartil = 0,25-Quantil, n?0,25 = 2,5 also: [? 0,25 = x (k) = x (3) = 162 Oberes Quartil = 0,75-Quantil, n?0,75 = 7,5 also: [? 0,75 = x (k) = x (8) = 184 49
Modalwert Modalwert (Modus, häufigster Wert, dichtester Wert): Gibt die Ausprägung an, die die größte Häufigkeit in der Beobachtungsreihe besitzt. Für nominal skalierte Daten geeignet. Es gilt: h(x mod ) h(x i ) für alle Merkmalsausprägungen x i,...,x k. Klassifizierte Daten: Modalwert ist definiert als Klassenmitte der am dichtesten besetzten Klasse. 50
Geometrisches Mittel Voraussetzung: Daten verhältnisskaliert n Einzelwerte a 1,..., a n Merkmalsausprägungen relative Änderungen (z.b. Lohnerhöhung in %) Geometrisches Mittel: a g = n a 1 a 2... a n 51
Geometrisches Mittel Bsp. Produktionssteigerung eines Betriebes pro Jahr 4 Jahre mit Produktionssteigerungen von: 2%, 11%, 4%, 7% Durchschnittliche Steigerung: 4 4 a g = 1,02 1,11 1,04 1,07 = 1,26 = 1,06 Durchschnittliche Produktionssteigerung: 6% 52
Geometrisches Mittel Gewogenes (gewichtetes) geometrische Mittel Gewichte w 1,..., w n mit 0 w i 1 und S i w i =1 a w g = a w 1 1 w 2 w n a 2... a n Für w 1 =...= w n =1/n ergibt sich das gewöhnliche geometrische Mittel 53
Harmonisches Mittel Nur positive od. negative Beobachtungswerte a 1,...,a n a h = n i= 1 n 1 a i Gewogenes harmonisches Mittel: Gewichte w 1,...,w n mit 0 w i 1 und S i w i =1 a w h = n i= 1 1 w a i i Für w 1 =...= w n =1/n ergibt sich das gewöhnliche harmonische Mittel 54
Harmonisches Mittel Bsp. Hat man etwa die Beziehung U = P M und gilt u i = x i m i und ist u i = U und m i = M, ergibt sich P = U / M U u i u i 1 P = = = =, mit w = i ui u i M m x ) (w x ) i (u i i P ist das mit w i gewogene harmonische Mittel der x i U = Gesamtumsatz, u i = Einzelumsatz des i-ten Gutes P = durchschnittlicher Preis pro Mengeneinheit, x i = Einzelpreis pro Mengeneinheit des i-ten Gutes M = Gesamtmenge, m i = umgesetzte Menge des i-ten Gutes i i 55
Mittel Vergleich arithmetische- geometrischesund harmonisches Mittel: Bei positiven Beobachtungswerten a 1,...,a n gilt stets die Beziehung a a a h g Bei identischen Beobachtungen a 1 =...=a n sind die Mittel gleich. 56