Deskriptive Statistik

Ähnliche Dokumente
D E S K R I P T I V E S T A T I S T I K

Deskriptive Statistik

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Beschreibende Statistik

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

Deskriptive Statistik

3. Deskriptive Statistik

Musterlösung zur Übungsklausur Statistik

Lösung zu Aufgabe 1. Lösung zu Aufgabe 2:

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Statistische Methoden in den Umweltwissenschaften

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Kapitel 1 Beschreibende Statistik

Deskriptive Beschreibung linearer Zusammenhänge

Statistik - Übungsaufgaben

Klausur: Statistik. Jürgen Meisel. Zugelassene Hilfsmittel: Taschenrechner; Formelsammlung. 1.) Mittelwerte und Streumaße

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Eine zweidimensionale Stichprobe

Statistik I für Betriebswirte Vorlesung 9

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Christoph Schöffel, Deskriptive Statistik. 1. Kapitel: Eindimensionale Häufigkeitsverteilungen 1. Thema 1: Darstellungsweise von Merkmalen 1

Einführung in die computergestützte Datenanalyse

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Statistik. Ronald Balestra CH St. Peter

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

1 Einleitung und Grundlagen 1

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Übung 1: Einführung, grafische Darstellung univariater Datensätze

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Weitere Lagemaße: Quantile/Perzentile I

0 Einführung: Was ist Statistik

Deskriptive Statistik Auswertung durch Informationsreduktion

W-Rechnung und Statistik für Ingenieure Übung 5

Grundlagen der Statistik

Grundlagen der Statistik I

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Musterlösung zur Übungsklausur Statistik

b = = 122.

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

Kapitel 1 Beschreibende Statistik

1 Stochastik deskriptive Statistik und Wahrscheinlichkeitsrechnung. Statistik und Wahrscheinlichkeitsrechnung

Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle

Lösungen zur Klausur zur Statistik Übung am

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Der Korrelationskoezient nach Pearson

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Grundlagen der Statistik Übung FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

5 Beschreibung und Analyse empirischer Zusammenhänge

Auswertung statistischer Daten 1

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

JosefPuhani. Kleine Formelsammlung zur Statistik. 10. Auflage. averiag i

Skalenniveaus =,!=, >, <, +, -

13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung)

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Angewandte Statistik 3. Semester

Zusammenhänge zwischen metrischen Merkmalen

Gefahrene km Anzahl der. eine Summenlinie beziehungsweise Summentreppe zur graphischen Darstellung einer Häufigkeitsverteilung geeignet? 3.

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

Lösungen zur deskriptiven Statistik

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Einführung in Quantitative Methoden

Transkript:

Dr. T. Deutler Seminar für Statistik UIVERSITÄT MAHEIM Beispiele, Tabellen, Grafiken und Formeln zur Veranstaltung Deskriptive Statistik

Übersichtsschema Merkmalarten Merkmalart qualitativ quantitativ ohne mit diskret stetig Rangordnung (nominal) (ordinal) (metrisch) Feststellen Vergleichen Zählen Messen Zuordnungen grafischer Darstellungen zu Merkmalarten Merkmalart Grafische Darstellung qualitativ quantitativ nominal ordinal diskret stetig Stabdiagramm : j ; j / X X X ( X ) Histogramm : j ; j / ( X ) X Summentreppe: K j ; K j / X X ( X ) Summenlinie : K j ; K j / ( X ) X X Darstellung möglich und sinnvoll ( X ) Darstellung unter Einschränkungen bzw. unter Zusatzbedingungen möglich

Tabellarische und graphische Darstellungen () nominales Merkmal (Beispiel: Familienstand ) (a) tabellarische Darstellung : Häufigkeitstabelle Häufigkeit Merkmal Ausprägung absolut relativ Familienstand r. j j j / ledig 80 0,0 verheiratet 0 0,55 verwitwet 3 40 0,0 geschieden 4 ( J) 60 0,5 Summe 400,00 (b) graphische Darstellung : Stabdiagramm absolute Häufigkeit 40 0 00 80 60 40 0 00 80 60 40 0 0 ledig verheiratet verwitwet geschieden

(c) grafische Darstellung: Kreisdiagramm geschieden 5% ledig 0% verwitwet 0% verheiratet 55%

() Ordinales Merkmal (a) Tabellarische Darstellung : Tabelle mit Häufigkeiten (absolut und/oder relativ) kumulierten Häufigkeiten (absolut und/oder relativ) Beispiel : otenverteilung bei einer Klausur Merkmal Häufigkeit Kumulierte Häufigkeit ote absolut relativ absolut relativ j j j / K j K j / Sehr Gut 30 0,5 30 0,5 Gut 50 0,5 80 0,40 Befriedigend 3 60 0,30 40 0,70 Ausreichend 4 40 0,0 80 0,90 Ungenügend 5 0 0,0 00,00 Summe 00,00

(b) grafisch: Stabdiagramm zur Darstellung von Häufigkeiten Stabdiagramm "otenverteilung" 70 absolute Häufigkeit 60 50 40 30 0 0 0 3 4 5 ote Summentreppe zur Darstellung kumulierter Häufigkeiten Summentreppe "otenverteilung" Kumulierte Häufigkeit 0 00 80 60 40 0 00 80 60 40 0 0 0 3 4 5 6 ote

(3) diskretes Merkmal: Auswertung wie bei ordinalen Merkmalen (3a) tabellarisch: Tabellenstruktur wie bei ordinalen Merkmalen Beispiel: Erzielte Punktzahlen bei 40min-Statistik-Klausur Punktzahl j j / K j K j / 0... 3 3 Summe,0 (3b) grafisch: Stabdiagramm zur Darstellung der absoluten Häufigkeiten j bzw. relativen Häufigkeiten j / Summentreppe zur Darstellung von kumulierten absoluten Häufigkeiten K j bzw. kumulierten relativen Häufigkeiten K j /

Klassenbildung bei metrischen Merkmalen Klasse r. j g j g j m j g j g j+ x b j Bezeichnungen (jeweils für Klasse j ; j,..., J): Klassenobergrenze Klassenbreite : g j : b j g j g j Klassenmitte : m j ( g j + g j ) / Klassen links abgeschlossen : Klassen rechts abgeschlossen: g j x < g j g j < x g j Rechte Randklasse r. J unbeschränkt : g J < x Linke Randklasse r. unbeschränkt : x < g

(4) stetiges Merkmal Beispiel Grundgesamtheit: Landwirtschaftliche Betriebe in einem Dorf Merkmalsträger: Einzelner Betrieb Merkmal : Betriebsfläche (in Hektar) 6 erfasste Hektarzahlen (der Größe nach sortiert): 3 5 7 8 8 9 0 0 5 5 8 9 4 6 (4a) tabellarisch: Klassifizierung (Gruppierung) der Daten in drei Klassen: Kl. r. Klassen- Breite j einteilung bj j j / j / bj j/( bj) Kj Kj / bis 0 0 8 0,500 0,8 0,0500 8 0,500 über 0 bis 0 0 6 0,375 0,6 0,0375 4 0,875 3 über 0 bis 30 0 0,5 0, 0,05 6,000 Summe 6,000 Im Histogramm bedeute für die Säule r. j b j Säulenbreite, h j Säulenhöhe, F j Säulenfläche b j h j. Fordert man im Histogramm F j j, so ist h j j / b j zu wählen. bzw. F j j /, so ist h j ( j () / b j Dabei heißt j / bj absolute Häufigkeitsdichte Anzahl von Daten pro Merkmalseinheit innerhalb von Klasse j (j / ) / bj relative Häufigkeitsdichte Anteil der Daten pro Merkmalseinheit innerhalb von Klasse j

(4b) grafisch : Darstellung von abs. Häufigkeiten j im Säulendiagramm (Histogramm) als Säulenflächen F j h j b j mit h j j / b j absolute Häufigkeitsdichte 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0 0 5 0 5 0 5 30 35 Betriebsfläche in Hektar Darstellung der kumulierten Häufigkeiten in Form der Summenlinie (Summenkurve) 6 Kumulierte absolute Häufigkeit 4 0 8 6 4 0 0 5 0 5 0 5 30 Betriebsfläche in Hektar

Vergröberte Klasseneinteilung Reihe : gleich breite Klassen Reihe : --- --- verschieden breite Klassen Kl. r. Klassen- Breite j einteilung bj j j / j / bj j/( bj) Kj Kj / bis 0 0 8 0,500 0,8 0,0500 8 0,500 über 0 bis 30 0 8 0,500 0,4 0,050 6,000 Summe 6,000 absolute Häufigkeitsdichte 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0 Histogramm Reihe Reihe 0 5 0 5 0 5 30 35 Hektar Kumulierte absolute Häufigkeit 8 6 4 0 8 6 4 0 Summenlinie Reihe Reihe 0 5 0 5 0 5 30 Hektar

Konzentrationsmessung: Relative Konzentration Beispiel: 6 Hektarzahlen (aufsteigend sortiert): 3 5 7 8 8 9 0 0 5 5 8 9 4 6 a) Tabellarische Darstellung Kl. r. Klassen- kum. j einteilung j j / Kj / Bj Bj / B Bj / B bis 0 8 0,500 0,500 60 0,30 0,30 über 0 bis 0 6 0,375 0,875 90 0,45 0,75 3 über 0 bis 30 0,5,000 50 0,5,00 Summe 6,000 B 00,00 b) grafische Darstellung : Lorenzkurve Kumulierte relative Merkmalsbeträge 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0 Lorenzkurve 0 0, 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Kumulierte relative Häufigkeit

Konzentrationsmessung: Absolute Konzentration a) Tabellarische Darstellung Beispiel: Hektarzahlen von 6 landwirtschaftlichen Betrieben, (sortiert vom größten zum kleinsten) r. i 3 4 5 6 7 8 x i 6 4 9 8 5 5 kum. x i 6 50 69 87 0 7 9 40 kum. x i /B 0,30 0,50 0,345 0,435 0,50 0,585 0,645 0,700 r. i 9 0 3 4 5 6 x i 0 0 9 8 8 7 5 3 kum. x i 50 60 69 77 85 9 97 00 B kum. x i /B 0,750 0,800 0,845 0,885 0,95 0,960 0,985,000 b) grafische Darstellung: kumulierte relative Merkmalsbeträge,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0,0 Linie der absoluten Konzentration 0 3 4 5 6 7 8 9 0 3 4 5 6 Rang-ummer

Lagemaße (Mittelwerte) und Streumaße Zusammenstellung der Formeln für Mittelwert und Varianz Kenngröße arithmetisches Mittel µ Schwerpunktseigenschaft von µ Mittlere quadrierte Abweichung Q c vom Bezugspunkt c Varianz σ Q µ ( Definitionsformel ) Varianz σ ( Rechenformel ) Für c µ gilt : Q c σ σ Urliste mit Werten x,..., x Häufigkeitstabelle mit Ausprägungen m j bzw. Klassenmitten m j µ x J i µ i m j j j J (xi µ ) 0 (m µ ) 0 i j j j (x i i c) x cµ + i i (xi i i µ ) c J c (m j c) Q j σ J m cµ + j j j J (m j j µ ) J x µ σ m µ i j j j σ Q µ Varianz j c j Standardabweichung σ + Q µ Für alle Bezugspunkte c gilt: Q c Q µ + (c µ) σ + (c µ). Daraus folgt wegen (c µ) 0 für alle Bezugspunkte c : Q c Q µ σ ( Minimaleigenschaft des arithmetischen Mittels )

Zahlenbeispiele zur Berechnung von Mittelwert und Varianz Beispiel : Semesterzahlen von 0 Studierenden Fall a) Urliste mit Werten x i ; i,..., 0 r. i 3 4 5 6 7 8 9 0 Σ x i 5 0 5 0 5 7 50B Mittelwert µ B 50 xi 5 0 i 0 Varianz σ (x µ ) [( 5) +... + (7 5) ] 9 i i i 0 340 0 oder σ x µ [ +... + 7 ] 5 5 9 i Standardabweichung σ + 9 3. 90 0 Fall b) Häufigkeitstabelle mit Ausprägungen m j ; j,..., J r. j 3 4 Ausprägung m j 5 7 0 Σ absolute Häufigkeit j 4 3 0 relative Häufigkeit j / 0,4 0,3 0, 0,,0 Mittelwert 50 µ J m j j [ 4 +... + 0 ] 5 j 0 0 oder J j µ m j j 0,4 +... + 0 0, 5 Varianz J j σ (m j µ ) ( 5) 0,4 +... + (0 5) 0, 9 j oder J j σ m j µ j [ 0,4 +... + 0 0,] 5 34 5 9.

Beispiel : 6 landwirtschaftliche Betriebe Fall a) Originaldaten: Hektarzahlen x i ; i,...,6 3, 5, 7, 8, 8, 9, 0, 0,,, 5, 5, 8, 9, 4, 6 B 00 Mittelwert: µ x, i 6 i 5 Varianz : σ xi µ + i 6 344 [ 3 +... 6 ],5,5 40, 5 Standardabweichung: σ 40, 5 6,34 6 Fall b) Gruppierte Daten mit Klassenmitten m j ; j,..., J Kl. r. j Klasseneinteilung m j j bis 0 5 8 über 0 bis 0 5 6 3 über 0 bis 30 5 J 6 80 6 Mittelwert: m [ 5 8 + 5 6 + 5 ], 5 µ j j j Varianz: σ J j m j j µ [ 6 5 8 + 5 6 + 5 800 / 6,5 48,44 ],5 Standardabweichung : σ 48, 44 6,96

Verhalten von Mittelwerten und Streumaßen bei Transformationen der Daten x i zu y i f(x i ) Bezeichnungen: µ x bzw. µ y arithmetisches Mittel für Merkmal x bzw. y σ x bzw. σ y Standardabweichung für Merkmal x bzw. y Z x bzw. Z y Zentralwert für Merkmal x bzw. y v x bzw. v x Variationskoeffizient für Merkmal x bzw. y Lineare Funktion y i a + b x i Hierfür gilt : µ y a + b µ x Z y a + b Z x (σ y ) b (σ x ) σ y b σ x v y v x, falls a0 ist. Beispiel ichtlineare Funktion y i f(x i ) y i ( x i ) Hier ist i.a. µ y f(µ x ) µ y ( µ x ) Z y f(z x ) Z y ( Z x ) Spezialfall: ichtlineare monotone Funktion y i f(x i ): Beispiel y i / x i Hierfür ist i.a. µ y f(µ x ), µ y / µ x aber es gilt Z y f(z x ) Z y / Z x

Zusammenstellung der Formeln für die mittlere absolute Abweichung E c vom Bezugspunkt c ( geometrische Durchschnittsentfernung der Daten von c ) Datenform Kenngröße Urliste Häufigkeitstabelle Mittlere absolute Abweichung E c vom Bezugspunkt c Mittlere absolute Abweichung E µ von µ Mittlere absolute Abweichung E Me vom M e (M e Median) i i i x i c x i µ x i M e J j J j J j m c j j m j µ j m j M e j Bemerkung: Rechenformel Definitionsformel Es gilt: E Me E c für alle Bezugspunkte c (Minimaleigenschaft des Medians) Außerdem gilt: E Me E µ σ.

I D I Z E S Bezeichnungen: 0 Basiszeit bzw. Basisperiode t Berichtszeit bzw. Berichtsperiode (z.b. laufender Monat); t,,... ME Mengeneinheit p 0i bzw. p ti Preis [Euro/ME] von Ware i in 0 bzw. t ; i,..., q 0i bzw. q ti Menge [ME] von Ware i in 0 bzw. t ; i,..., U 0 q Gesamtausgaben (Gesamtumsatz) zur Basiszeit 0 i 0i p0i U t q Gesamtausgaben (Gesamtumsatz) zur Berichtszeit t i ti p ti Messung der Preisänderung von der Basiszeit 0 zur Berichtszeit t p ti p 0i absolute Preisänderung von Ware i (p ti p 0i ) / p 0i p ti / p 0i relative Preisänderung von Ware i ( Wachstumsrate ) p ti / p 0i Preismessziffer für Ware i ( Wachstumsfaktor ) Konkretes Beispiel: (entnommen aus nachfolgender Tabelle) Ware r. : Brot mit p 0,50 und p t 3,00 [Euro / kg] absolute Preisänderung : p t p 0 3,00,50 0,50 [Euro / kg] relative Preisänderung : (p t p 0 ) / p 0 0,50/,50 0, 0% Preismessziffer : p t / p 0 3,00 /,50,

Zahlenbeispiel zu den Indizes Preis [Euro / ME] Menge [ME] Ausgaben (Umsätze, Werte ) [Euro] Ware r. i p 0i p ti q 0i q ti q 0i p 0i q ti p ti q 0i p ti q ti p 0i Milch,00,30 6 4 6,00 5,0 7,80 4,00 Brot,50 3,00 3 5,00 9,00 6,00 7,50 Eier 3 0,5 0,30 4 4,00,0,0,00,00 5,40 5,00,50 : U 0 : U t Preisindex nach Zahlenbeispiel: Laspeyres: L P 0t Σ q 0i p ti / Σ q 0i p 0i Σ q 0i p ti / U 0 LP 0t 5,00 /,00,50 Paasche: PP 0t Σ q ti p ti / Σ q ti p 0i U t / Σ q ti p 0i PP 0t 5,40 /,50,3 Mengenindex nach Laspeyres: L Q 0t Σ q ti p 0i / Σ q 0i p 0i LQ 0t,50 /,00,04 Paasche: PQ 0t Σ q ti p ti / Σ q 0i p ti PQ 0t 5,40 / 5,00,07 Wertindex (Umsatzindex): W 0t U t / U 0 Σ q ti p ti / Σ q 0i p 0i W 0t U t / U 0 5,40 /,00,83 Zusammenhang zwischen den Indizes: W 0t LP 0t P Q 0t W 0t,50,07,83 W 0 PP 0t L Q 0t W 0t,3,04,83 Preisindex nach Laspeyres als gewogenes Mittel der Preismessziffern mit den Umsatzanteilen g i q 0i p 0i /U 0 der Basisperiode als Gewichte: ( ) LP 0t Σ g i (p ti / p 0i ) Berechnung dieses gewogenen Mittels für das obige Zahlenbeispiel: Ware r. i g i : (q 0i p 0i ) / U 0 p ti / p 0i g i (p ti / p 0i ) 6/ 0,500,3 0,65 5/ 0,47, 0,50 3 / 0,083, 0,0 Summe LP 0t,5 Vertauscht man in ( ) die Rolle von Preis und Menge, so erhält man den Mengenindex nach Laspeyres als gewogenes Mittel der Mengenmessziffern mit den Umsatzanteilen g i q 0i p 0i /U 0 der Basisperiode als Gewichte: LQ 0t Σ g i (q ti / q 0i ).

Abhängigkeitsmaß Kovarianz σ xy bzw. Pearson scher Korrelationskoeffizient ρ xy ρ zwischen zwei metrischen Merkmalen x und y. Kovarianz σ xy Definitionsformel für Urliste ( x i ; y i ) ; i,..., : σxy (x µ ) (y µ ). i i x i y Rechenformel für Urliste ( x i ; y i ) ; i,..., : σxy x i y i µ xµ y. i Pearson scher Korrelationskoeffizient σ xi yi µ x µ y xy ρ xy σ x σ y xi µ x yi µ y x x i i y i µ µ x x y i µ y µ y Eigenschaften von ρ xy : () Wertebereich: ρ xy +, wobei ρ xy + y i a + b x i, i,,, mit b > 0 ρ xy y i a + b x i, i,,, mit b < 0 () ρ xy ist dimensionslos. ( Änderungen der Maßeinheiten oder Wechsel des Maßsystems beeinflussen also den Wert von ρ xy nicht! ) (3) ρ xy misst die Stärke des linearen Zusammenhanges zwischen den beiden Merkmalen x und y.

Zahlenbeispiel zur Korrelation Grundgesamtheit: 0 Unternehmen Merkmal x Beschäftigtenzahl ; Merkmal y Umsatz r. i 3 4 5 6 7 8 9 0 Mittel x i 3 4 5 8 7 5 3 4 y i 30 0 60 70 00 80 50 40 30 0 50 r i Rang(x i ) s i Rang(y i ) 0 Varianzen : σ (xi 4) 4, 0 i x 6 0 ; σy (yi 50) 660 0 i Stand.abw.: σ x 4,6, 45 ; σ y 660 5, 690 0 530 Kovarianz : σ (xi µ x ) (yi µ y ) 0 i 0 xy 53 0 530 bzw. σ xi yi µ x µ y 4 50 0 i 0 xy 53 (Pearson scher) Korrelationskoeffizient σ xy 53 ρ xy 0, 96 σ σ 4,6 660 x y. Umsatz y 0 00 90 80 70 60 50 40 30 0 0 0 0 3 4 5 6 7 8 9 Beschäftigtenzahl x

Ausgleichsgerade nach der Methode der kleinsten Quadrate Gegeben Zahlenpaare ( x i ; y i ), i,,...,, für die beiden metrischen Merkmale x und y. Linearer Ansatz für den Zusammenhang zwischen x und y : y(x) b 0 + b x ( Ausgleichsgerade, empirische Regressionsgerade mit Achsabschnitt b 0 und Steigung b ) An der Ausgleichsgeraden b 0 + b x soll zu vorgegebenem x-wert der zugehörige durchschnittliche y-wert abgelesen werden. (Schlussrichtung von x nach y!) Problemstellung: b 0 und b so gesucht, dass sich die Gerade b 0 + b x möglichst gut an die Punktwolke ( x i ; y i ) anpasst. Für die Methode der kleinsten Quadrate lautet das Optimalitätskriterium zur Schlussrichtung von x nach y : Minimiere die Quadratsumme Q( b 0 ; b ) [ y i (b + b x i 0 i) ] der vertikalen Abstände yi (b0 + b xi) der Punkte ( x i ; y i ) zu den Punkten ( x i ; b 0 + b x i ) auf der Ausgleichsgeraden! Dieses Optimierungsproblem ist eindeutig lösbar mit der Lösung () σxy xi yi µ x µ y b und () b σ x µ 0 µ y b µ x. x i x Aus () folgt: µ y b 0 + b µ x, d.h. der Schwerpunkt (µ x ; µ y ) der Daten ( x i ; y i ) liegt auf der Ausgleichsgeraden b 0 + b x. Beispiel Korrelation zwischen x Beschäftigtenzahl und y Umsatz r. i 3 4 5 6 7 8 9 0 Mittel x i 3 4 5 8 7 5 3 4 y i 30 0 60 70 00 80 50 40 30 0 50

Hieraus folgt mit µ x 4 ; µ y 50 ; σ xy 53 ; σ x 4, 6 anhand von () und (): b 53, 5 und 4,6 b0 50,5 4 3,9 Ausgleichsgerade b 0 + b x 3,9 +,5 x.! Achtung! : Ablesungen an dieser Geraden sind nur zulässig für die Schlussrichtung von der Beschäftigtenzahl x zum zugehörigen durchschnittlichen Umsatz y. Will man vom Umsatz y auf die zugehörige durchschnittliche Beschäftigtenzahl x(y) schließen, hat man die Ausgleichsgerade x(y) c 0 + c y durch die Punkte (y i ; x i ) zu bestimmen. Diese unterscheidet sich von der Geraden y(x) b 0 + b x! Streubild ( Punktwolke ) der Zahlenpaare ( x i ; y i ) mit Ausgleichsgerade b 0 + b x Umsatz y 0 00 90 80 70 60 50 40 30 0 0 0 0 3 4 5 6 7 8 9 0 Beschäftigtenzahl x

Spearman scher Rangkorrelationskoeffizient ρ S für Rangzahlpaare ( r i ; s i ) ; i,..., ρ S Korrelationskoeffizient der Rangzahlpaare (r i ; s i ) Definitionsformel: σrs ρ S σr σs (immer anwendbar!) Rechenformel (nur anwendbar unter der Voraussetzung, dass gilt: r i,,..., und s i,,..., ): ρ S 6 (r i i ( s i ) ). Für metrische Daten x i und y i ist diese Voraussetzung für die Rechenformel nur erfüllt, wenn alle x i bzw. alle y i voneinander verschieden sind, anderenfalls liegen sogenannte Bindungen vor. Im Fall von Bindungen sind die zu gleichwertigen x i bzw. y i gehörigen Rangplätze zu mitteln. Beispiel: Rangzuweisung bei metrischen Merkmalen r. i 3 4 5 6 7 8 9 0 Mittel x i 3 4 5 8 7 5 3 4 r i Rang(x i ) 4,5,5 6 7,5 0 9 7,5 4,5,5 5,5 y i 30 0 60 70 00 80 50 40 30 0 50 s i Rang(y i ) 3,5,5 7 8 0 9 6 5 3,5,5 5,5 Da hier Bindungen vorliegen, ist nur die Definitionsformel nutzbar: Aus µ r 5,5 und µ s 5,5, sowie aus r i 383, 5, s i 384, 0 und ri si 380, 5 folgt σ 8, 0, σ 8, 5 und σ rs 7,775 und daraus weiter ρ r 7,775 8, s S 8,5 0,957.

Mittlere quadratische Kontingenz für eine Kontingenztabelle Grundgesamtheit: 00 Hörer einer Vorlesung Merkmal X : Fachrichtung mit I Ausprägungen (VWL und BWL) Merkmal Y : Semesterzahl mit J 3 Ausprägungen (,, 3 ), also I J 3 6 Ausprägungskombinationen (x i ; y j ) mit Häufigkeiten ij : ij i j / y Semesterzahl y y 3 3 i J ij j x VWL 0 0 0 40 x BWL 0 0 30 60 I j ij 30 30 40 00 í Definition : Zwei Merkmale heißen unabhängig, wenn für alle (i,j) gilt : ij ( i j / ) ( ij / i ) ( j / ) ( ij / j ) ( i / ) ( ij / ) ( i / ) ( j / ) Mittlere quadratische Kontingenz K (als Abhängigkeitsmaß verwendbar bei allen Merkmalarten) I J I J i j i j ij j j K i i ij i j i j Wertebereich: 0 K K Max Min ( I, J ). Dabei gilt: Unabhängigkeit K 0 ij ( i j / ) vollständige Abhängigkeit K K Max Min{ I,J } Interpretation: K erkennt jede Art und Form der Abhängigkeit. Beispiel für vollständige Abhängigkeit mit I und J 3 und damit K K Max Min( ; 3 ) : ij y y y 3 3 i x VWL 0 0 40 40 x BWL 30 30 0 60 j 30 30 40 00 Allgemein gilt: Für sind X und Y genau dann vollständig abhängig, wenn I < J in jeder Spalte j genau ein ij 0 I > J in jeder Zeile i genau ein ij 0 I J in jeder Zeile und Spalte genau ein ij 0 steht.

Beziehungen zwischen Abhängigkeitsmaßen K 0 ρ 0 (Unabhängigkeit) (keine lineare Abhängigkeit) K 0 ρ 0 K > 0 ρ 0 (Abhängigkeit) (lineare Abhängigkeit) K > 0 ρ 0 ρ 0 ρ S 0 ρ 0 ρ S 0 ( Es besteht also keine Beziehung zwischen den beiden eutralitätspunkten ρ 0 und ρ S 0. ) ρ + bzw. ρ K K max ( funkt. lineare Abh.) (vollständige Abh.) ρ + bzw. ρ K K max ρ S + bzw. ρ S K K max ( strenge Monotonie) (vollständige Abh.) ρ S + bzw. ρ S K K max ρ + bzw. ρ ρ S + bzw. ρ S ( funkt. lineare Abh.) (strenge Monotonie) ρ + bzw. ρ ρ S + bzw. ρ S

ZEITREIHE Beispiel zur Bestimmung der Saisonkomponente und der saisonbereinigten Reihe im multiplikativen Modell Tag Schicht r. y t / y * t y t i j t y t y t j I j II j III y t /s j I, II 0,0 0,833,5 III 3 4 3,0,077 3,4 I 4 5 4,0,07 4,0 II 5 3 5,0 0,867 5,0 III 6 7 6,3,043 6,3 I 7 9 8,0,056 7,7 3 II 8 8 9,3 0,933 0,7 III 9 0,7,04 0, I 0 3,0,095,4 4 II 9,7 0,837,9 III 6 4,9 Summe 3, 3,470 3,43 Mittel -,074 0,868,045 wert S I S II S III

30 5 0 5 0 Reihe Reihe 5 0 0 3 4 5 6 7 8 9 0 3 4 5 t Reihe : beobachtete Originalwerte y t Reihe : gleitende Durchschnitte y t zur Gliederzahl k 3 Allgemeine Formeln zur Berechnung eines gleitenden Durchschnitts y t für den Zeitpunkt t zur Gliederzahl k : Fall : k ist ungerade Zahl, d.h. k m + y (yt m +... + yt + yt + yt+ +... + yt k t + m ) Fall : k ist gerade Zahl, d.h. k m y t yt m + yt m+ +... + yt +... + yt+ m + yt+ k m