(VU) Übungen zur Einführung in die statistische Datenanalyse II. Inhalte Statistik I. Inhalte Statistik I Deskriptive Statistik



Ähnliche Dokumente
Standardab er des. Testwert = % Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere

Einfache statistische Auswertungen mit dem Programm SPSS

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Einführung in die statistische Datenanalyse I

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Statistik für Studenten der Sportwissenschaften SS 2008

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Business Value Launch 2006

Überblick über die Verfahren für Ordinaldaten

Überblick über die Tests

Grundlagen der Inferenzstatistik

Statistische Auswertung:

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Statistik im Versicherungs- und Finanzwesen

Einfache Varianzanalyse für abhängige

QM: Prüfen -1- KN

Forschungsstatistik I

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Willkommen zur Vorlesung Statistik (Master)

W-Rechnung und Statistik für Ingenieure Übung 11

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

Tutorial: Homogenitätstest

4. Erstellen von Klassen

Willkommen zur Vorlesung Statistik

Erfahrungen mit Hartz IV- Empfängern

Eine Einführung in R: Statistische Tests

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Statistik I für Betriebswirte Vorlesung 11

STATISTIK. Erinnere dich

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Statistik II für Betriebswirte Vorlesung 2

Korrelation - Regression. Berghold, IMI

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Fachhochschule Düsseldorf Wintersemester 2008/09

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Auswertung mit dem Statistikprogramm SPSS:

Stichprobenauslegung. für stetige und binäre Datentypen

9. Schätzen und Testen bei unbekannter Varianz

3. Der t-test. Der t-test

B. Heger / R. Prust: Quantitative Methoden der empirischen Sozialforschung (Master Modul 1.3)

Statistische Thermodynamik I Lösungen zur Serie 1

Marktforschung I. Marktforschung I 2

Studiendesign/ Evaluierungsdesign

1 Darstellen von Daten

Einführung in statistische Analysen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

AUTOMATISIERTE HANDELSSYSTEME

Korrelation (II) Korrelation und Kausalität

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Datenaufbereitung in SPSS. Daten zusammenfügen

1.3 Die Beurteilung von Testleistungen

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Übersicht zur Veranstaltung

R ist freie Software und kann von der Website.

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Mathematische und statistische Methoden II

Pflegedossier für die kreisfreie Stadt Frankfurt (Oder)

Fortgeschrittene Statistik Logistische Regression

Übersicht: Modul 2. Methoden der empirischen Sozialforschung, Statistik und computergestützte Datenanalyse. Dr. H.-G. Sonnenberg

Anhang A: Fragebögen und sonstige Unterlagen

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Grundlagen der Theoretischen Informatik, SoSe 2008

Meinungen zum Sterben Emnid-Umfrage 2001

Auswertung und Darstellung wissenschaftlicher Daten (1)

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Zeichen bei Zahlen entschlüsseln

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

in Zusammenarbeit mit dem Finanzmarketing-Verband Österreich Versicherungsmakler

Ein möglicher Unterrichtsgang

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Histogramm und Wahrscheinlichkeitsnetz 1/16

Varianzanalyse (ANOVA: analysis of variance)

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

AQL. 9. Statistisches Qualitätsmanagement 9.3 Statistische Methoden der Warenannahme (AQL)

Webalizer HOWTO. Stand:

WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG. Prof. Dr. Nadine Spörer

Webergänzung zu Kapitel 10

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Schleswig-Holstein Kernfach Mathematik

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

12.1 Wie funktioniert ein Signifikanztest?

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Quadratische Gleichungen

Schnellanleitung: Verbuchung von Studien- und Prüfungsleistungen

Transkript:

II Übungen zur II Organisatorische Hinweise Keine Anwesenheitspflicht (aber empfehlenswert) Einführung in die statistische Datenanalyse II (VU) Lehrinhalte (.ppt Folien): elearning.univie.ac.at 3 Prüfungstermine: Ende SoSe Anfang WiSe Mitte/Ende WiSe Prüfungsanmeldung: elearning.univie.ac.at Prüfungswiederholung: bei negativem Abschluß -> Wiederholung der LVA Termine: Kalender in elaerning Inhalte Statistik I Deskriptive Statistik Inhalte Statistik I Analytische / Schliessende Statistik univariate Datenanalyse Häufigkeitsanalyse Zentralitätsmaße Streuungsmaße Datenniveaus: ominal Ordinal bivariate Datenanalyse Kreuztabelle Datenniveaus: ominal Ordinal univariate Datenanalyse Vergleich von Verteilungen CHI-Quadrat-Einfach-Ordnung Datenniveaus ominal Ordinal bivariate Datenanalyse CHI-Quadrat Assoziationsmaße Datenniveaus: ominal Ordinal Intervall Rational

II Prinzipien schliessenden / analytische Statistik -Logik immer gleich: Inhalte Statistik II Analytische / Schliessende Statistik Formulierung einer ullhypothese (H 0 ) und einer Alternativhypothese (H A ) Abweichung einer beobachteten Verteilung von einer Prüfverteilung Prüfverteilung = erwartete Verteilung: Abhängig von der Fragestellung!! Bestimmung der Irrtumswahrscheinlichkeit (=Signifikanz) Was sagt die Irrtumswahrscheinlichkeit (Signifikanz)? Wahrscheinlichkeit des Irrtums wenn H 0 abgelehnt und Alternativhypothese angenommen wird Merke: p<=0,05 -> signifikant auf dem 95% - iveau p>0,05 -> nicht signifikant auf dem 95% - iveau univariate Datenanalyse Vergleich von Verteilungen Datenniveaus Metrisch (Intervallskaliert) bivariate Datenanalyse Zusammenhang von zwei Merkmalen Datenniveaus: Metrisch (Intervallskaliert) multivariate Datenanalyse Zusammenhang von mehr als zwei Merkmalen II Inhalte Statistik II univariate Datenanalyse Vergleich von Verteilungen Datenniveaus Metrisch (Intervallskaliert) TESTSTATISTIK: Prüft den UTERSCHIED von Verteilungen Analytische / Schliessende Statistik Vergleich von intervallskalierten Stichproben/Verteilungen hinsichtlich ihrer zentralen Tendenz Beim Vergleich von Verteilungen z.b.: hinsichtlich ihrer e bzw. Mediane (allgemein: zentrale Tendenz) werden drei Differenzierungen relevant: (a) une - e Verteilungen (b) Vergleich zweier oder mehrerer Verteilungen (c) normal - beliebig verteilte Werte

Übersicht verfahren für intervallskalierte Daten TEST AUF ORMALERTEILUG Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Verteilungsformen ORMALVERTEILUG Verteilungsformen ORMALVERTEILUG verteilung: Verteilungsform die - ceteris paribus - unter optimalen Zufallsbedingungen zu erwarten wärew verteilung: Verteilungsform die - ceteris paribus - unter optimalen Zufallsbedingungen zu erwarten wäre 3

300 50 00 50 00 50 0 300 50 00 50 00 50 0 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 300 50 00 50 00 50 0 300 50 00 50 00 50 0 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 Verteilungsformen - verteilung Verteilungsformen - verteilung Die verteilung kennzeichnet eine Verteilung von Merkmalen die sich aus zufälligen Einflüssen ergibt verteilung: Verteilung von Merkmalen unter optimalen Zufallsbedingungen für metrische Merkmale Generelle Kennzeichen einer verteilung: = Medianwert = Modalwert 95% der Werte befinden sich in einem Intervall von +/- Standardabweichungen symetrisch +/- Standardabweichungen (95% der Werte) = Median = Modalwert +/- Standardabweichungen (95% der Werte) = Median = Modalwert Schiefe (skewness) = 0 Steilheit (kurtosis) = 0 eingipfelig Verteilungsformen - verteilung Ermittlung der theoretischen Zufallsverteilung / verteilung Zu jeder Verteilung kann mittels und Streuungsparameter eine - theoretische - verteilung berechnet werden f x μ σ ( x) = e σ π Verteilungsformen - verteilung Ermittlung der theoretischen Zufallsverteilung / verteilung Die theoretische verteilung gibt an, wie die Werte unter gegebenen Rahmenbedingungen - Rahmenbedingungen definiert durch und Standardabweichung - verteilt wären, wenn die Verteilung unter zufälligen Bedingungen zustande gekommen wäre x μ σ f ( x) = e σ π μ... μ... +/- Standardabweichungen (95% der Werte) = Median = Modalwert ORMALVERTEILUG glockenförmige Verteilung Extremwerte selten mittlere Meßwerte häufig Zufallsverteilung symetrisch σ...s tan dardabweic hung π... KreiszahlPi(3,46...) e...eulersche Zahl (,783...) +/- Standardabweichungen (95% der Werte) = Median = Modalwert ORMALVERTEILUG glockenförmige Verteilung Extremwerte selten mittlere Meßwerte häufig Zufallsverteilung symetrisch σ...s tan dardabweic hung π... KreiszahlPi(3,46...) e...eulersche Zahl (,783...) 4

Verteilungsformen - verteilung Räumliche Verteilung der High School students in der Vienna Metropolitan Region Verteilungsformen - verteilung Räumliche Verteilung der High School students in der Vienna Metropolitan Region Statistiken ahsbhs59_0p Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Gültig 45 6 4,8856 4,346 30,77 a,85935,33,8,40,36 a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Frage: entspricht die Verteilung einer Zufallsverteilung = verteilung? auf verteilung auf verteilung Statistiken Möglichkeiten der Überprüfung: Überprüfung mit Hilfe der Zentralitäts ts- und Streuungsmaße: = Median = Modus, Schiefe = 0 Kurtosis = 0 ahsbhs59_0p Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Gültig a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. 45 6 4,8856 4,346 30,77 a,85935,33,8,40,36 Ergebnis: Abweichungen der beobachteten Verteilung von theoretischer optimaler verteilung feststellbar: Median Modus, Schiefe 0, Kurtosis 0 Frage: Wie groß dürfen diese Abweichungen sein? 5

auf verteilung Verteilungsformen - verteilung Für jedes x (hier für jedes Anteil der high school students) ergibt sich eine erwartete Häufigkeit - wie sie unter Zufallsbedingungen zu erwarten wäre Möglichkeiten der Überprüfung: Graphische Überprüfung. Histogramm mit verteilungskurve (in SPSS Häufigkeiten) H Statistiken Anteil high school students an Wohnbevölkerung 5-9 Jahre Gültig 45 6 4,8856 Median 4,346 Modus 30,77 a Standardabweichung,85935 Schiefe,33 Standardfehler der Schiefe,8 Kurtosis,40 Standardfehler der Kurtosis,36 a Mehrere Modi vorhanden Der kleinste Wert wird x μ σ f ( x) = e σ π μ... σ...s tan dardabweic hung π... KreiszahlPi(3,46...) e...eulersche Zahl (,783...) Berechnung der theoretischen Zufallsverteilung = verteilung? Verteilungsformen - verteilung auf verteilung Erwartete Verteilung des Anteil der high school students, wenn unter zufälligen Bedingungen (standard) normal - verteilt ahsbhs59_0p Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Statistiken Gültig 45 6 4,8856 4,346 30,77 a,85935,33,8,40,36 a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Ergebnis: Abweichungen der beobachteten Verteilung von theoretischer verteilung feststellbar Frage: Wie groß dürfen diese Abweichungen sein? 6

auf verteilung Kolmogorov-Smirnov Smirnov- Möglichkeiten der Überprüfung: Überprüfung mit Hilfe der Zentralitäts ts- und Streuungsmaße: = Median = Modus, Schiefe = 0 Graphische Überprüfung. Histogramm mit verteilungskurve ( ( SPSS Häufigkeiten) Statistische Signifikanzprüfung der Abweichung der beobachteten von der Erwarteten optimalen theoretischen verteilung Kolmogorov-Smirnov- Kolmogorov-Smirnov- Prüft ob Verteilung von Werten einer theoretischen Verteilung entspricht In diesem Fall: ORMALVERTEILUG ullhypothese H0: Verteilung entspricht einer zufälligen Verteilung = verteilung Alternativhypothese: Verteilung ist ICHT normalverteilt Kolmogorov-Smirnov- Kolmogorov-Smirnov Smirnov- Ergebnis: p > 0.05 nicht signifikant Alternativhypothese: Verteilung ist ICHT normalverteilt verwerfen ullhypothese: Verteilung ist normalverteilt annehmen Kolmogorov-Smirnov-Anpassungstest Verteilungsformen - verteilung Räumliche Verteilung der Arbeitslosen Vienna Metropolitan Region Parameter der verteilung a,b Standardabweichung Extremste Differenzen Absolut Positiv egativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (-seitig) Anteil high school students an Wohnbevölk erung 5-9 Jahre 45 4,8856,85935,054,054 -,054,3,68 a. Die zu testende Verteilung ist eine verteilung. b. Aus den Daten berechnet. 7

auf verteilung Kolmogorov-Smirnov Smirnov- Statistiken Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Ergebnis: Abweichungen der beobachteten Verteilung von theoretischer verteilung feststellbar Frage: Wie groß dürfen diese Abweichungen sein? 46 5 7,867 6,908,00 a 4,544,940,8 0,876,36 Kolmogorov-Smirnov- Ergebnis: p < 0.05 signifikant Alternativhypothese: Verteilung ist ICHT normalverteilt annehmen ullhypothese: Verteilung ist normalverteilt ablehnen Parameter der verteilung a,b Kolmogorov-Smirnov-Anpassungstest Standardabweichung Extremste Differenzen Absolut Positiv egativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (-seitig) a. Die zu testende Verteilung ist eine verteilung. b. Aus den Daten berechnet. Arbeitslose an Erwerbsper sonen WB 00 in % 46 7,867 4,544,0,0 -,086,08,000 Kolmogorov-Smirnov- Kolmogorov-Smirnov Smirnov- Ergebnis: p < 0.05 signifikant Alternativhypothese: Verteilung ist ICHT normalverteilt annehmen ullhypothese: Verteilung ist normalverteilt ablehnen Lösungsmöglichkeit: Datenmodifikation z.b.: logarithmieren Anteil der Arbeitslosen an Erwerbspersonen 00 in % Dekadischer Logarithmus des Anteils der Arbeitslosen an Erwerbspersonen 00 in % auf verteilung Statistiken LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis 44 7,849,8396,65 a,56 -,067,9 -,6,37 a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Ergebnis: Verteilung ähnlicher einer verteilung Dennoch: Abweichungen der beobachteten Verteilung von theoretischer her verteilung feststellbar Frage: Wie groß dürfen diese Abweichungen sein? 8

Kolmogorov-Smirnov Smirnov- Kolmogorov-Smirnov Smirnov- Kolmogorov-Smirnov- Ergebnis: p > 0.05 nicht signifikant Alternativhypothese: Verteilung ist ICHT normalverteilt ablehnen ullhypothese: Verteilung ist normalverteilt annehmen Parameter der verteilung a,b Kolmogorov-Smirnov-Anpassungstest Standardabweichung Extremste Differenzen Absolut Positiv egativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (-seitig) LG0_ Arbeitslose an Erwerbsper sonen WB 00 in % 44,849,56,045,040 -,045,95,359 Kolmogorov-Smirnov- Ergebnis: Verteilungen von intervallskallierten Daten die einer verteilung entsprechen: Paramtergebundene verfahren» Anteil der high school students» Logarithmierter Anteil der Arbeitslosen Verteilungen von intervallskallierten Daten die keiner verteilung entsprechen: Parameterfreie verfahren a. Die zu testende Verteilung ist eine verteilung. b. Aus den Daten berechnet. 9

II II Einführung in die statistische Datenanalyse II (VU) Vergleich von intervallskalierten Stichproben/Verteilungen hinsichtlich ihrer zentralen Tendenz Beim Vergleich von Verteilungen z.b.: hinsichtlich ihrer e bzw. Mediane (allgemein: zentrale Tendenz) werden drei Differenzierungen relevant: (a) une - e Verteilungen (b) Vergleich zweier oder mehrerer Verteilungen (c) normal - beliebig verteilte Werte Beispiel Unterschied Arbeitslose Wien vs. Umland Übersicht verfahren für intervallskalierte Daten FRAGESTELLUG: Gibt es einen signifikanten Unterschied in der Verteilung des (logarithmierten) Anteils der Arbeitslosen Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben > un einfache Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- zwischen Wien und den Umlandgemeinden?

Beispiel Unterschied Arbeitslose Wien vs. Umland. Schritt: Feststellung der Verteilungsform Beispiel Unterschied Arbeitslose Wien vs. Umland. Schritt Wieviele Verteilungen werden miteinander verglichen? Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Logarithmierter Anteil der Arbeitslosen ist normalverteilt (siehe K-S K S ) Zahl der Verteilungen: :, Verteilung der Arbeitslosen in Wien -. Verteilung der Arbeitslosen im Umland Beispiel Unterschied Arbeitslose Wien vs. Umland. Schritt Wieviele Verteilungen werden miteinander verglichen? Beispiel Unterschied Arbeitslose Wien vs. Umland 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Zahl der Verteilungen: :, Verteilung der Arbeitslosen in Wien -. Verteilung der Arbeitslosen im Umland

vs. un: Un: Verteilungen (Stichproben) stammen von verschiedenen Gruppen = verschiedenen FällenF Der unterschied der Verteilung EIES Merkmales zwischen verschiedenen Gruppen ( Fällen )) wird geprüft Abhängig: Verteilungen (Stichproben) stammen aus EIER Gruppe (Grundgesamtheit) =gleiche FälleF Der unterschied der Verteilung MEHRERER Merkmale innerhalb ein- und derselben Gruppe (Grundgesamtheit) wird geprüft ULLHYPOTHESE: Es besteht KEI Unterschied zwischen den Verteilungen 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Verteilung Beispiel Unterschied Arbeitslose Wien vs. Umland Zahl der Verteilungen > > > > Abhängigkeit un un un un t- nach Student t- für e Stichproben einfache Varianzanalyse doppelte Varianzanalyse U- von MA und Whitney WILCOXO- für Paardifferenzen H- KRUSKAL und WALLIS, Median- FRIEDMA- Unterschied der Verteilung einer Variable ( Arbeitslose( Arbeitslose ) zwischen Gruppen (Stadt und Umland) wird verglichen -> Verteilungen: unahbhängig ngig Beispiel Unterschied Arbeitslose Wien vs. Umland 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Beispiel Unterschied Arbeitslose Wien vs. Umland 4. Schritt: Auswahl des verfahrens Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Unterschied der Verteilung einer Variable ( Arbeitslose( Arbeitslose ) zwischen Gruppen (Stadt und Umland) wird verglichen -> Verteilungen: unahbhängig ngig 3

t- Beispiel Unterschied Arbeitslose Wien vs. Umland. t- nach STUDET Der t- nach STUDET dient zum Vergleich zweier uner Stichproben hinsichtlich ihrer e FRAGESTELLUG: Gibt es einen signifikanten Unterschied in der Verteilung des (logarithmierten) Anteils der Arbeitslosen zwischen Wien und den Umlandgemeinden? Beispiel Unterschied Arbeitslose Wien vs. Umland t- Grundüberlegung FRAGESTELLUG: Gibt es einen signifikanten Unterschied in der Statistiken Verteilung des (logarithmierten) Anteils der Arbeitslosen LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. 44 7,849,8396,65 a,56 -,067,9 -,6,37 Häufigkeiten 5% Stichprobe Häufigkeiten 35% Stichprobe Häufigkeiten 50% Stichprobe Statistiken LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis a. Mehrere Modi vorhanden. Der kleinste Wert wird Häufigkeiten angezeigt. 50% Stichprobe 44 7,849,8396,65 a,56 -,067,9 -,6,37 zwischen Wien und den Umlandgemeinden? Grundüberlegung Aus jeder Grundgesamtheit können k beliebig viele Zufallsstichproben ausgewählt werden Auswahl von Fällen F nach Zufallskriterien = Zufallstichprobe 4

Anteil der Arbeitslosen (logarithmiert) Anteil der Arbeitslosen (logarithmiert) - Stichproben-e Häufigkeiten 5% Statistiken Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz Häufigkeiten 35% Statistiken Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz Häufigkeiten 50% Statistiken Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz 3,845,057,04 33,8394,43,049 6 4,843,0967,044 Statistiken LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis 44 7,849,8396,65 a,56 -,067,9 -,6,37 a. Mehrere Modi vorhanden. Statistiken Der kleinste Wert wird Häufigkeiten angezeigt. 50% Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz Grundüberlegung In jeder Zufallsstichprobe werden die e unterschiedlich h sein obwohl sie aus der selben Grundgesamtheit stammen 3 6,8687,8,045 Statistiken Grundgesamtheit LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Sind die Werte in der Grundgesamtheit normalverteilt, So sind auch die e aus den Stichproben (Gruppen) normalverteilt der Verteilung der Gruppenmittelwerte = -Grundgesamtheit 44 7,849,8396,65 a,56 -,067 Statistiken a. Mehrere Modi vorhanden. Der kleinste Wert wird Stichproben-e angezeigt. Gültig 0 0,843880,9 -,6,37 Anteil der Arbeitslosen (logarithmiert) - Stichproben-e Streuung der Gruppenmittelwerte und Stichprobengröße e 0.9 0.85 0.8 0.75 0.7 - Grundgesamtheit Stichprobe 50% Grundgesamtheit Stichprobe 5% Stichprobe 35% Stichprobe 50% e streuen mehr oder weniger um den der Grundgesamtheit Streuung der Stichprobenmittelwerte von Streuung der Werte in der Grundgesamtheit Je größer die Streuung der Werte in der Grundgesamtheit Umso größer wird die Streuung der Stichprobenmittelwerte sein Größ öße e der Stichprobe Extremfälle Größ öße e der Stichprobe =» = der jeweils einzelne Wert» e der Gruppen streuen gleich wie Grundgesamtheit Größ öße e der Stichproben = jeweils alle Fälle F der Grundgesamtheit Streuung der e = 0 Mit abnehmender Streuung der Werte in der Grundgesamtheit Mit steigendem/r Umfang/Größe der Stichprobe wird die Streuung der Gruppenmittelwerte um den der Grundgesamtheit abnehmen 5

Anteil der Arbeitslosen (logarithmiert) Anteil der Arbeitslosen (logarithmiert) Häufigkeiten 5% Statistiken Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz Häufigkeiten 35% Statistiken Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz 3,845,057,04 33,8394,43,049 Statistiken LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis 44 7,849,8396,65 a,56 -,067,9 -,6,37 Stichprobe Wien a. Mehrere Modi vorhanden. Statistiken Der kleinste Wert wird angezeigt. LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Häufigkeiten 50% Statistiken Stichprobe Häufigkeiten 50% Stichprobe LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz 6 4,843,0967,044 Standardabweichung Varianz 3 6,8687,8,045 Stichprobe Umland Problemstellung: Handelt es sich bei den Verteilungen Anteil der Arbeitslosen um Zufallsstichproben aus einer Grundgesamtheit (Vienna Metropolitan Region)? Anteil der Arbeitslosen (logarithmiert) Anteil der Arbeitslosen (logarithmiert) Statistiken Statistiken Stichprobe Wien Statistiken a LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz a. region = wien 44 6,9667,685,08 LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis 44 7,849,8396,65 a,56 -,067,9 -,6,37 Stichprobe Wien Statistiken a LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz a. region = wien 44 6,9667,685,08 LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis 44 7,849,8396,65 a,56 -,067,9 -,6,37 Stichprobe Umland Statistiken a LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz a. region = umland 80,675,4868,0 a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Problemstellung: Handelt es sich bei den Verteilungen Anteil der Arbeitslosen um Zufallsstichproben aus einer Grundgesamtheit (Vienna Metropolitan Region)? Stichprobe Umland Statistiken a LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz a. region = umland 80,675,4868,0 a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Differenz der e bedingt durch: A) Differenz der Stichprobenmittelwerte durch das Wirken zufälliger Einflüsse von zwei unen ngigen (Zufalls)Stichproben( aus einer Grundgesamtheit 6

Anteil der Arbeitslosen (logarithmiert) t- Stichprobe Wien Statistiken a LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz a. region = umland Statistiken a LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Standardabweichung Varianz a. region = wien Stichprobe Umland 44 6,9667,685,08 80,675,4868,0 Statistiken LG0_Arbeitslose an Erwerbspersonen WB 00 in % Gültig Median Modus Standardabweichung Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis a. Mehrere Modi vorhanden. Der kleinste Wert wird angezeigt. Differenz der e bedingt durch: B) Differenz der Stichprobenmittelwerte durch aus zwei Stichproben aus Grundgesamtheiten mit unterschiedlichen en 44 7,849,8396,65 a,56 -,067,9 -,6,37. t- nach STUDET Der t- nach STUDET dient zum Vergleich zweier uner Stichproben hinsichtlich ihrer e ullhypothese: Verteilungen unterscheiden sich nicht signifikant Alternativhypothese: Verteilungen unterscheiden sich signifikant = keine Zufallsstichproben aus ein- und derselben Grundgesamtheit = (Zufalls)Stichproben aus verschiedenen Grundgesamtheiten Berechnung der Prüfgr fgröße e t t- - Ausgangsüberlegung. t- nach STUDET Der t- nach STUDET dient zum Vergleich zweier uner Stichproben hinsichtlich ihrer e Berechnung der Prüfgr fgröße e t-wertes: t Sind die Gruppenmittelwerte gleich: t = 0 Bei Zufallsstichproben weder der Zufallsstichproben noch Varianz der Zufallsstichprobe durch Grundgesamtheit eindeutig determiniert (z.b.: von der Stichprobengröß öße e = Zahl der Fälle F in den Gruppen) jedoch nicht beliebig! t = x s x s + x Gruppe x Gruppe S Varianz (Standardabweichung) Gruppe S Varianz (Standardabweichung) Gruppe t-wert von: Empirischen en Standardabweichung (Varianzen) Umfang der Stichproben / Verteilungen t = x s x s + x Gruppe x Gruppe S Varianz (Standardabweichung) Gruppe S Varianz (Standardabweichung) Gruppe t-wert von: Empirischen en Standardabweichung (Varianz) Umfang der Stichproben / Verteilungen 7

t- - Ausgangsüberlegung In Abhängigkeit zur Stichprobengröß öße e gibt es für f r den t-wert t eine Zufallsverteilung Zufallsverteilung des t-wert t gibt an, mit welcher Wahrscheinlichkeit ein bestimmter t-wert t auftritt t- - Ausgangsüberlegung Mittels der Wahrscheinlichkeit des berechneten t-wertest prüft der t-, t ob: A) der Unterschied zwischen den Gruppen zufällig ist - Zufallsstichproben aus einer Grundgesamtheit Gauss sche verteilung t-verteilung nach Student (Freiheitsgrad größer) t-verteilung nach Student (Freiheitsgrad kleiner) t = x s x s + x Gruppe x Gruppe S Varianz (Standardabweichung) Gruppe S Varianz (Standardabweichung) Gruppe t-wert von: Empirischen en Varianzen Umfang der Stichproben / Verteilungen t = x s x s + x Gruppe x Gruppe S Varianz (Standardabweichung) Gruppe S Varianz (Standardabweichung) Gruppe t-wert von: Empirischen en Varianzen Umfang der Stichproben / Verteilungen t- - Ausgangsüberlegung Mittels der Wahrscheinlichkeit des berechneten t-wertest prüft der t-, t ob: B) Ob der Unterschied zwischen den Gruppen nicht zufällig ist Beispiel Unterschied Arbeitslose Wien vs. Umland FRAGESTELLUG: Gibt es einen signifikanten Unterschied in der Verteilung des (logarithmierten) Anteils der Arbeitslosen t = x s x s + x Gruppe x Gruppe S Varianz (Standardabweichung) Gruppe S Varianz (Standardabweichung) Gruppe t-wert von: Empirischen en Varianzen Umfang der Stichproben / Verteilungen zwischen Wien und den Umlandgemeinden? 8

Beispiel Unterschied Arbeitslose Wien vs. Umland Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland FRAGESTELLUG: Gibt es einen signifikanten Unterschied in der Verteilung des (logarithmierten) Anteils der Arbeitslosen Statistiken a LG0_Arbeitslose an Erwerbspersonen WB Gültig 44 6,9667 Standardabweichung Varianz,685,08 a. region = wien t = x x s s + Statistiken a LG0_Arbeitslose an Erwerbspersonen WB Gültig 44 6,9667 Standardabweichung Varianz,685,08 a. region = wien zwischen Wien und den Umlandgemeinden? Statistiken a LG0_Arbeitslose an Erwerbspersonen WB Gültig 80,675 Standardabweichung Varianz,4868,0 a. region = umland t = 0.9667 0.675 0.685² 0,4868² + 44 80 = 0.96 = 8.9 0.00039 Statistiken a LG0_Arbeitslose an Erwerbspersonen WB Gültig 80,675 Standardabweichung Varianz,4868,0 a. region = umland Beispiel Unterschied Arbeitslose Wien vs. Umland T--SPSS Gruppenstatistiken Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland Gruppenstatistiken t = x x s s + LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland 44,9667,685,0079 80,675,4868,008 Statistiken a LG0_Arbeitslose an Erwerbspersonen WB Gültig 44 6,9667 Standardabweichung Varianz,685,08 a. region = wien Standardab weichung Standardfe hler des es t = x x s s + LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland bei unen Stichproben Standardfe Standardab hler des weichung es 44,9667,685,0079 80,675,4868,008 t = 0.9667 0.675 0.685² 0,4868² + 44 80 = 0.96 = 8.9 0.00039 Statistiken a LG0_Arbeitslose an Erwerbspersonen WB Gültig 80,675 Standardabweichung Varianz,4868,0 a. region = umland LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 8,854 408,657,000,959,0547,69,399 T-Wert wird unter der Annahme Varianzen sind nicht gleich ausgewiesen 9

Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland t = x x s s + LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland Gruppenstatistiken Standardfe Standardab hler des weichung es 44,9667,685,0079 80,675,4868,008 LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland Gruppenstatistiken Standardfe Standardab hler des weichung es 44,9667,685,0079 80,675,4868,008 Unter der Annahme Varianzen sind gleich (= homogen homogen ) erfolgt eine etwas andere - genauere Berechung des t-wertes Entscheidung über Homogenität der Varianzen mittels F- F-: Berechnung des F-Wertes: s F = s major min or ² ² S major größere der beiden Standardabweichungen S minor kleinere der beiden Standardabweichungen LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 8,854 408,657,000,959,0547,69,399 LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 8,854 408,657,000,959,0547,69,399 Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland t = x x s s + LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland Gruppenstatistiken Standardfe Standardab hler des weichung es 44,9667,685,0079 80,675,4868,008 t = x x s s + LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland Gruppenstatistiken Standardfe Standardab hler des weichung es 44,9667,685,0079 80,675,4868,008 Levene-: prüft auf Signifikanz des F-WertesF F- - ullhypothese: Varianzen sind in der Grundgesamtheit homogen LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 F- - Ergebnis: Signifikanz < 0.05 Annahme der Alternativhypothes: Varianzen sind nicht gleich 8,854 408,657,000,959,0547,69,399 LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 8,854 408,657,000,959,0547,69,399 Signifikanzprüfung fung des T-Wert T unter der Annahme Varianzen sind nicht gleich 0

Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland t = x x s s + LG0_Arbeitslose an Erwerbspersonen WB 00 in % region wien umland Gruppenstatistiken Standardfe Standardab hler des weichung es 44,9667,685,0079 80,675,4868,008 Beispiel Unterschied Arbeitslose Wien vs. Umland T- Beispiel Unterschied Arbeitslose Wien vs. Umland LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 8,854 408,657,000,959,0547,69,399 LG0_Arbeitslose Erwerbspersonen WB 00 in % Varianzen sind gle Varianzen sind nic gleich bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 5% Konfidenzinterva Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere 4,0,04 8,50 4,000,959,0576,606,357 8,854 408,657,000,959,0547,69,399 Ergebnis: Signifikanz des T-WertesT <0.00 Ergebnis: Die Verteilungen des Anteils Arbeitslosen unterscheidet sich signifkant zwischen Wien und den Umlandgemeinden Beispiel Unterschied Schüler Höherer H Schulen Wien vs. Umland Beispiel Unterschied Schüler Höherer H Schulen Wien vs. Umland FRAGESTELLUG: Gibt es einen signifikanten Unterschied in der Verteilung des Anteils der Schüler Höherer Schulen Anteil high school students an Wohnbevölkerung 5-9 Jahre region wien umland Gruppenstatistiken Standardab weichung Standardfe hler des es 44 43,7 3,34389,8545 8 4,43 9,5596,7073 Anteil high school students an Wohnbevölkerung 5-9 Jahre bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 95% Konfidenzintervall Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere Varianzen sind gleic 4,858,000,680 43,497,7949,64 -,49669 3,07966 Varianzen sind nich gleich,74 4,389,476,7949,0907 -,38850,9748 zwischen Wien und den Umlandgemeinden? F- - Ergebnis: Signifikanz < 0.05 Annahme der Alternativhypothes: Varianzen sind nicht gleich

Beispiel Unterschied Schüler Höherer H Schulen Wien vs. Umland Beispiel Unterschied Schüler H ler Höherer Schulen Wien vs. Umland bei unen Stichproben Anteil high school students an Wohnbevölkerung 5-9 Jahre region wien umland Gruppenstatistiken Standardab weichung Standardfe hler des es 44 43,7 3,34389,8545 8 4,43 9,5596,7073 Anteil high school students an Wohnbevölkerung 5-9 Jahre Levene- der Varianzgleichheit T- für die gleichheit 95% Konfidenzintervall Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere Varianzen sind gleic 4,858,000,680 43,497,7949,64 -,49669 3,07966 Varianzen sind nich gleich,74 4,389,476,7949,0907 -,38850,9748 Anteil high school students an Wohnbevölkerung 5-9 Jahre bei unen Stichproben Levene- der Varianzgleichheit T- für die gleichheit 95% Konfidenzintervall Mittlere Standardfehle der Differenz F Signifikanz T df Sig. (-seitig) Differenz r der Differenz Untere Obere Varianzen sind gleic 4,858,000,680 43,497,7949,64 -,49669 3,07966 Varianzen sind nich gleich,74 4,389,476,7949,0907 -,38850,9748 Ergebnis: Signifikanz des T-WertesT >0.05 Ergebnis: Die Verteilungen des Anteils der Schüler an Höheren Schulen unterscheidet sich nicht signifkant zwischen Wien und den Umlandgemeinden

II Beispiel Unterschied Arbeitslose Wien vs. Umland FRAGESTELLUG: Gibt es einen Unterschied zwischen den Wohngebieten der wenig qualifizierten Inländer zwischen 97 und 00 Einführung in die statistische Datenanalyse II (VU) II Vergleich von intervallskalierten Stichproben/Verteilungen hinsichtlich ihrer zentralen Tendenz Beim Vergleich von Verteilungen z.b.: hinsichtlich ihrer e bzw. Mediane (allgemein: zentrale Tendenz) werden drei Differenzierungen relevant: Übersicht verfahren für intervallskalierte Daten Verteilung Zahl der Verteilungen > > Abhängigkeit un un t- nach Student t- für e Stichproben einfache Varianzanalyse doppelte Varianzanalyse (a) une - e Verteilungen (b) Vergleich zweier oder mehrerer Verteilungen (c) normal - beliebig verteilte Werte > > un un U- von MA und Whitney WILCOXO- für Paardifferenzen H- KRUSKAL und WALLIS, Median- FRIEDMA-

Beispiel Unterschied Arbeitslose Wien vs. Umland. Schritt: Feststellung der Verteilungsform Beispiel Unterschied Arbeitslose Wien vs. Umland. Schritt: Wie viele Verteilungen werden miteinander verglichen? Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Anteil der wenig Qualifizierten 97 und 00 verteilung zunächst angenommen (s.u( s.u.).) Zahl der Verteilungen: :, Verteilung wenig Qualifizierte 97 -. wenig Qualifizierte 00 Beispiel Unterschied Arbeitslose Wien vs. Umland. Schritt Wie viele Verteilungen werden miteinander verglichen? Beispiel Unterschied Arbeitslose Wien vs. Umland 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Zahl der Verteilungen: :, wenig Qualifizierte 97 -. wenig Qualifizierte 00

vs. un: Un: Verteilungen (Stichproben) stammen von verschiedenen Gruppen = verschiedenen FällenF Der unterschied der Verteilung EIES Merkmales zwischen verschiedenen Gruppen ( Fällen )) wird geprüft Abhängig: Verteilungen (Stichproben) stammen aus EIER Gruppe (Grundgesamtheit) =gleiche FälleF Der unterschied der Verteilung MEHRERER Merkmale innerhalb ein- und derselben Gruppe (Grundgesamtheit) wird geprüft 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Verteilung Beispiel Unterschied Arbeitslose Wien vs. Umland Zahl der Verteilungen > > Abhängigkeit un un un t- nach Student t- für e Stichproben einfache Varianzanalyse doppelte Varianzanalyse U- von MA und Whitney WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Unterschied der Verteilung von Variablen (wenig Qualifizierte 97 und 00) innerhalb Gruppe (Zählbezirke Wien) wird verglichen -> Verteilungen: Beispiel Unterschied Arbeitslose Wien vs. Umland 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Beispiel Unterschied Arbeitslose Wien vs. Umland 4. Schritt: Auswahl des verfahrens Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Unterschied der Verteilung von Variablen (wenig Qualifizierte 97 und 00) innerhalb Gruppe (Zählbezirke Wien) wird verglichen -> Verteilungen: ahbhängig 3

t- für f r e Verteilungen ngige Verteilungen ngige Verteilungen t- für f r e Verteilungen Der t- für e Stichproben vergleicht e von Verteilungen durch Berechung der gepoolten Varianzen (Paarvergleiche) Der t- für e Stichproben vergleicht e von Verteilungen durch Berechung der gepoolten Varianzen (Paarvergleiche) ullhypothese: Verteilungen unterscheiden sich nicht signifikant Alternativhypothese: Verteilungen unterscheiden sich signifikant = keine Zufallsstichproben aus ein- und derselben Grundgesamtheit = (Zufalls)Stichproben aus verschiedenen Grundgesamtheiten t t-wert ergibt sich aus Bildung der Differenz der gepaarten Werte Berechung des es dieser Differenzen ormierung durch» Standardabweichung der Differenzen» Zahl der Fälle F = d s n d zwischen den Differenzen zwischen den beiden Variablen in den einzelnen Fällen s n Standardabweichung der Differenzen der Variablen Zahl der gültigen Fälle t- für f r e Verteilungen t- für f r e Verteilungen Der t- für e Stichproben vergleicht e von Verteilungen durch Berechung der gepoolten Varianzen (Paarvergleiche) t-wert ergibt sich aus Bildung der Differenz der gepaarten Werte Berechung des es dieser Differenzen ormierung durch» Standardabweichung der Differenzen» Zahl der Fälle F Der t- für e Stichproben vergleicht e von Verteilungen durch Berechung der gepoolten Varianzen (Paarvergleiche) t-wert ergibt sich aus dif_low_skilled7_0 Bildung der Differenz der gepaarten Werte» Standardabweichung der Differenzen» Zahl der Fälle F Statistiken Gültig Berechung des es dieser Differenzen ormierung durch Standardabweichung 45 5 0,4083 6,67894 t = d s n d zwischen den Differenzen zwischen den beiden Variablen in den einzelnen Fällen s n Standardabweichung der Differenzen der Variablen Zahl der gültigen Fälle t = d s n d zwischen den Differenzen zwischen den beiden Variablen in den einzelnen Fällen s n Standardabweichung der Differenzen der Variablen Zahl der gültigen Fälle 4

t- für f r e Verteilungen t- für f r e Verteilungen Standardabweichung wobei: der Differenzen zwischen den Variablen in den einzelnen Fällen ist gleich der Differenz der e der beiden Variablen d Gültig Statistiken = x x 0.4083 = 44.4654 4,057 dif_low_skilled7_0 wenig wenig Qualifizierte Qualifizierte 97 00 45 45 Standardabweichung 5 5 44,4654 4,057 8,557 5,756 d zwischen den Differenzen zwischen den beiden Variablen in den einzelnen Fällen x der Variable x Statistiken Gültig der Variable 45 5 0,4083 6,67894 Voraussetzung: Differenzen zwischen den Variablen in den einzelnen Fällen Müssen aus einer verteilung entsprechen VARIATE A: Differenzen von zwei normalverteilten Verteilungen sind ebenfalls normalverteilt VARIATE B der Differenzen auf verteilung K-S Parameter der verteilung a,b Kolmogorov-Smirnov-Anpassungstest Standardabweichung Extremste Differenzen Absolut Positiv egativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (-seitig) a. Die zu testende Verteilung ist eine verteilung. b. Aus den Daten berechnet. dif_low_ skilled7_0 45 0,4083 6,67894,08,08 -,04,84,074 P > 0,05 Annahme der ullhypothese: Differenzen zwischen den Variablen sind normalverteilt t-wert für f r e Verteilungen - Berechnung Beispiel low-skilled 97-00 T--SPSS Statistik bei gepaarten Stichproben t = 0.4083 45 6.67894 = 47,8 T-TEST Ergebnis Paaren wenig Qualifizierte 97 wenig Qualifizierte 00 Standardfe Standardab hler des weichung es 44,4654 45 8,557,5440 4,057 45 5,756,33064 Statistiken dif_low_skilled7_0 Standardabweichung t = d s Gültig n d zwischen den Differenzen zwischen den beiden Variablen in den einzelnen Fällen s n 45 5 0,4083 6,67894 Standardabweichung der Differenzen der Variablen Zahl der gültigen Fälle Häufigkeitsanalyse der einzelnen Variablen Ergebnis Standardabweichung Gültig Statistiken wenig Qualifizierte wenig Qualifizierte 97 00 45 45 5 5 44,4654 4,057 8,557 5,756 5

Beispiel low-skilled 97-00 T--SPSS Beispiel low-skilled 97-00 T--SPSS Paaren wenig Qualifizierte 97 wenig Qualifizierte 00 Statistik bei gepaarten Stichproben Standardfe Standardab hler des weichung es 44,4654 45 8,557,5440 4,057 45 5,756,33064 Anhand der t-verteilung wird überprüft,, ob der Unterschied zwischen den Verteilungen zufällig oder nicht zufällig zustande gekommen ist t d s n 0.4083 45 = t = = 47, 8 6.67894 bei gepaarten Stichproben = die Wahrscheinlichkeit des ermittelten t-wertes wird anhand der t-veteilung ermittelt Signifikanzprüfung fung des T-WertesT Wertes: bei gepaarten Stichproben Gepaarte Differenzen Paaren Gepaarte Differenzen Standardfe5% Konfidenzinterva Standardab hler des der Differenz weichung es Untere Obere T df Sig. (-seitig) wenig Qualifizierte 9 0,4083 6,67894,4670 9,5678,4880 47,88 44,000 wenig Qualifizierte 0 Paaren Standardfe5% Konfidenzinterva Standardab hler des der Differenz weichung es Untere Obere T df Sig. (-seitig) wenig Qualifizierte 9 0,4083 6,67894,4670 9,5678,4880 47,88 44,000 wenig Qualifizierte 0 Beispiel low-skilled 97-00 T--SPSS SPSS SPSS Beispiel low-skilled 97-00 T--SPSS Ergebnis,, die Wahrschinlichkeit das der ermittelte t-wert zufällig zustande gekommen ist = p < 0.000 Ergebnis: Die Verteilungen der wenig Qualifizierten 97 und der wenig Qualifzierten 00unterscheiden sich signifikant = Annahme der Alternativhypothese bei gepaarten Stichproben Paaren Gepaarte Differenzen Standardfe5% Konfidenzinterva Standardab hler des der Differenz weichung es Untere Obere T df Sig. (-seitig) wenig Qualifizierte 9 0,4083 6,67894,4670 9,5678,4880 47,88 44,000 wenig Qualifizierte 0 Paaren bei gepaarten Stichproben Gepaarte Differenzen Standardfe5% Konfidenzinterva Standardab hler des der Differenz weichung es Untere Obere T df Sig. (-seitig) wenig Qualifizierte 9 0,4083 6,67894,4670 9,5678,4880 47,88 44,000 wenig Qualifizierte 0 6

Beispiel low-skilled 97-00 T--SPSS Fragestellung Die Verteilungen der wenig Qualifizierten 00 ergibt sich durch die Verteilung der Gemeindewohnungen 97 98 99 00 Social housing apartments, in % <=.. - 8.08 >= 8.08 vacant Inner city Inner districts Paaren Gemeindewohnungen 00 % - wenig Qualifizierte 00 bei gepaarten Stichproben Standardab weichung Gepaarte Differenzen Standardfe hler des 95% Konfidenzintervall der Differenz es Untere Obere T df Sig. (-seitig) -,48047 8,9749,6 -,8683,90737 -,396 44,69 7

II Beispiel Einkommensunterschied Wien vs. Umland FRAGESTELLUG: Gibt es einen signifikanten Einkommensunterschied zwischen Wien und den Umlandgemeinden? Einführung in die statistische Datenanalyse II (VU) Beispiel Einkommensunterschied Wien vs. Umland. Schritt: Feststellung der Verteilungsform Beispiel Einkommensunterschied Wien vs. Umland. Schritt: Feststellung der Verteilungsform K-S Kolmogorov-Smirnov-Anpassungstest Verteilung Zahl der Verteilungen > Abhängigkeit un un t- nach Student t- für e Stichproben einfache Varianzanalyse Parameter der verteilung a,b Standardabweichung income per capita 00/0et simated l_inc_cap 46 46,5358,0963,995,03968 > un doppelte Varianzanalyse U- von MA und Whitney WILCOXO- für Paardifferenzen Extremste Differenzen Absolut Positiv egativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (-seitig),5,34,5,34 -,099 -,086 3,9,775,000,000 > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- a. Die zu testende Verteilung ist eine verteilung. b. Aus den Daten berechnet. Ergebnis: K-S S sowohl fürf income per capita, als auch fürf logarithmiertes income per capita signifikant. Annahme der Alternativhypothese: : Verteilung ist ICHT normalverteilt

Kolmogorov-Smirnov Smirnov- Parametergebundene vs. Parameterfreie verfahren Kolmogorov-Smirnov Smirnov- Ergebnis: Verteilungen von intervallskallierten Daten die einer verteilung entsprechen: Parametergebundene verfahren»» Varianz Verteilung Art der Abhängigkeit Stichproben > > un un t- nach Student t- für e Stichproben einfache Varianzanalyse doppelte Varianzanalyse Verteilungen von intervallskalierten Daten die keiner verteilung eilung entsprechen: Parameterfreie verfahren» Rangordnung von Daten > > un un U- von MA und Whitney WILCOXO- für Paardifferenzen H- KRUSKAL und WALLIS, Median- FRIEDMA- Parametergebundene Prüfverfahren Parameterfreie Prüfverfahren Beispiel Einkommensunterschied Wien vs. Umland. Schritt: Feststellung der Verteilungsform K-S Beispiel Einkommensunterschied Wien vs. Umland. Schritt: Wie viele Verteilungen werden miteinander verglichen? Zahl der Verteilungen: Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA-. Verteilung income per capita in Wien. Verteilung income per capita im Umland

3. Schritt: Sind die Verteilungen (Stichproben) oder un? Verteilung Beispiel Einkommensunterschied Wien vs. Umland Zahl der Verteilungen > > > > Abhängigkeit un un un un t- nach Student t- für e Stichproben einfache Varianzanalyse doppelte Varianzanalyse U- von MA und Whitney WILCOXO- für Paardifferenzen H- KRUSKAL und WALLIS, Median- FRIEDMA- vs. un: Un: Verteilungen (Stichproben) stammen von verschiedenen Gruppen = verschiedenen FällenF Der Unterschied der Verteilung EIES Merkmales zwischen verschiedenen Gruppen ( Fällen )) wird geprüft Abhängig: Verteilungen (Stichproben) stammen aus EIER Gruppe (Grundgesamtheit) =gleiche FälleF Der Unterschied der Verteilung MEHRERER Merkmale innerhalb ein- und derselben Gruppe (Grundgesamtheit) wird geprüft ULLHYPOTHESE: Es besteht KEI Unterschied zwischen den Verteilungen Beispiel Einkommensunterschied Wien vs. Umland 3. Schritt: Sind die Verteilungen (Stichproben) oder un? Beispiel Einkommensunterschied Wien vs. Umland 4. Schritt: Auswahl des verfahrens Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student Verteilung Zahl der Verteilungen Abhängigkeit un t- nach Student t- für e Stichproben t- für e Stichproben > un einfache Varianzanalyse > un einfache Varianzanalyse > doppelte Varianzanalyse > doppelte Varianzanalyse un U- von MA und Whitney un U- von MA und Whitney WILCOXO- für Paardifferenzen WILCOXO- für Paardifferenzen > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- > > un H- KRUSKAL und WALLIS, Median- FRIEDMA- Unterschied der Verteilung einer Variable ( income per capita ) ) zwischen Gruppen (Stadt und Umland) wird verglichen -> Verteilungen: un ngig 3

Der U- U von MA und WHITEY Der U- U von MA und WHITEY Der U- von MA und WHITEY U- prüft auf Signifikanz des Unterschiedes von zwei unen Veteilungen / Stichproben die nicht die Voraussetzung der verteilung erfüllen müssen Das Prinzip des U-s ist die Ersetzung der gegebenen Variablenwerte durch Rangplätze Grundüberlegung Die Werte zweier Verteilungen (Stichproben) werden zu einer Folge zusammengefasst und nach aufsteigenden Werten geordnet und entsprechend der Rangordnung nach der Größ öße e der Werte mit Rangplätzen versehen Der U- U von MA und WHITEY Der U- U von MA und WHITEY Detail am Rande Die Rangplätze für f r gleiche Werte ergeben sich durch den der Rangplätze der gleichen Werte Wert.3;.3;.3 ;.3 Rangplätze 6; 7; 8; 9; =(6+7+8+9)/4 =7.5= Grundüberlegung ullhypothese Die Abfolge der nach aufsteigender Größ öße geordneten Werte ist zufällig z.b. ach Gruppe a (Wien) folgt ein Wert der Gruppe b (Umland), usw. Allgemein: Gruppe a, Gruppe b, Gruppe a, Gruppe b, 4