Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)

Ähnliche Dokumente
Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Von der Normalverteilung zu z-werten und Konfidenzintervallen

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Kapitel 2 Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsverteilungen

So berechnen Sie einen Schätzer für einen Punkt

Statistik für NichtStatistiker

Zusammenfassung PVK Statistik

Kapitel VI - Lage- und Streuungsparameter

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Wirtschaftswissenschaftliches Prüfungssekretariat Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2015

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

N

Stichwortverzeichnis. Symbole

Vorlesung: Statistik II für Wirtschaftswissenschaft

Ringvorlesung Einführung in die Methoden der empirischen Sozialforschung II

Klassifikation von Signifikanztests

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Statistik für Bachelorund Masterstudenten

Inferenzstatistik (=schließende Statistik)

Kapitel VII. Einige spezielle stetige Verteilungen

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Statistik K urs SS 2004

Teil I: Deskriptive Statistik

2.3 Intervallschätzung

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Einführung in die computergestützte Datenanalyse

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011.

Statistische Methoden in den Umweltwissenschaften

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Willkommen zur Vorlesung Statistik (Master)

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

Statistik I für Betriebswirte Vorlesung 14

Statistik und Wahrscheinlichkeitsrechnung

Verteilung von Summen

Biometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

2.3 Intervallschätzung

Prüfungstutorat: Angewandte Methoden der Politikwissenschaft. Polito Seminar Carl Schweinitz

Inhaltsverzeichnis DESKRIPTIVE STATISTIK. 1 Grundlagen Grundbegriffe Skalen... 15

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Mathematische Statistik. Zur Notation

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011

I. Deskriptive Statistik 1

Auswahl von Schätzfunktionen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

1 GRUNDLAGEN Grundbegriffe Skalen...15

Forschungsstatistik I

Empirische Wirtschaftsforschung

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2018/19

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Inhaltsverzeichnis Inhaltsverzeichnis VII Erst mal locker bleiben: Es f angt ganz einfach an! Keine Taten ohne Daten!

Stoffverteilungsplan Mathematik Leistungskurs. Lambacher Schweizer Stochastik ISBN Klassenarbeit

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Einführung in Quantitative Methoden

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Schließende Statistik

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden?

Über dieses Buch Die Anfänge Wichtige Begriffe... 21

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Kenngrößen von Zufallsvariablen

Verfahren für metrische Variable

Vorlesung: Statistik II für Wirtschaftswissenschaft

Univ.-Prof. Dr. Georg Wydra

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Klassifikation von Signifikanztests

Über den Autor 7. Teil Beschreibende Statistik 29

Statistik für Ökonomen

Statistik mit und ohne Zufall

Wolfgang Kohn Riza Öztürk. Statistik für Ökonomen. Datenanalyse mit R und SPSS. 3., überarbeitete Auflage. 4^ Springer Gabler

Mathematische und statistische Methoden II

Statistische Grundlagen I

1. Was ist eine Wahrscheinlichkeit P(A)?

Statistik. Jan Müller

Wichtige Definitionen und Aussagen

Zentraler Grenzwertsatz

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Der Trainer einer Fußballmannschaft stellt die Spieler seiner Mannschaft auf. Insgesamt besteht der Kader seiner Mannschaft aus 23 Spielern.

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2012/13

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Statistisches Testen

Willkommen zur Vorlesung Statistik (Master)

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Transkript:

Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!) - Arithmetisches Mittel o Das arithmetische Mittel (auch Durchschnitt) ist ein Mittelwert, der als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte definiert ist: Alternativ: = - Geometrisches Mittel o Das geometrische Mittel ist ein Mittelwert; es ist in der Statistik ein geeignetes Mittelmaß für Größen, von denen das Produkt anstelle der Summe interpretierbar ist, z. B. von Verhältnissen oder Wachstumsraten. o Durchschnittliche Änderung in % - Median Ein Wert m ist Median einer Stichprobe, wenn höchstens die Hälfte der Beobachtungen in der Stichprobe einen Wert < m und höchstens die Hälfte einen Wert > m hat. Sortiert man die Beobachtungswerte der Größe nach, geordnete Stichprobe oder Rang, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft. Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median einer geordneten Stichprobe also: von n Messwerten ist dann

- Varianz Wenn Beobachtungen gegeben sind: = 1 ( ) Wenn Verteilung f 1,, f k gegeben ist: - Standardabweichung Wenn Beobachtungen gegeben sind: = ( ) = 1 ( ) Wenn Verteilung f 1,, f k gegeben ist: = ( ) - Darstellung Häufigkeitsverteilung o Histogramm Wie konstruiert man ein Histogramm? Klasse der Intervalle bestimmen Klasse Häufigkeit h j Intervallbreite d j Absolute Häufigkeitsdichte h j /d j Relative Häufigkeitsdichte f j /d j Die Rechtecksfläche zeigt die Häufigkeit = Zeigt wie dicht die Werte im Intervall (sind) liegen o Boxplot Die Box beinhaltet die zentralen 50%, der untere und obere Whisker jeweils 25%, diese dürfen maximal 1,5 Boxlängen lang sein. Ausreißer werden mit Punkten markiert. Falls die Daten näherungsweise normalverteilt sind, ist der 3 Sigma Bereich analog zu den Whiskern und der Box o Baum-/Blattdiagramm Hier bedeutet 2 5 = 25 Sek.

o Balkendiagramm Relative Häufigkeit Für stetige Variablen ungeeignet - Sigma-Regeln Sofern die Daten näherungsweise normalverteilt sind, gilt: 68,27 % aller Messwerte haben eine Abweichung von höchstens 1σ vom Mittelwert 95,45 % aller Messwerte haben eine Abweichung von höchstens 2σ vom Mittelwert 99,73 % aller Messwerte haben eine Abweichung von höchstens 3σ vom Mittelwert - Schiefe (nur am Bild beurteilen) - Kurtosis Y 2 = 0 => meso-kurtisch Y 2 > 0 => lepto-kurtisch Y 2 < 0 => platy-kurtisch

Induktive Statistik Schließen von Daten (Beobachtungen) auf allgemeinere Prinzipien. Baut auf der deskriptiven Statistik auf. - Wahrscheinlichkeitsbaum - Konfidenzintervall für p o Ein Intervall von plausiblen Zahlen für p o Die Größe des Intervalls sollte indirekt proportional zur Anzahl der Befragten sein o Das Intervall sollte so konstruiert sein, dass wir VERTRAUEN haben können, dass der wahre Wert von p darin liegt o Der Vertrauensgrad (= Konfidenzniveau) sollte hoch sein o Berechnung: Standardisierung: ~,(1 ) ~, (1 ) 1.96 (1 ) 1,96= 0,95 P in die Mitte bringen: 1.96 (1 ) +1.96 (1 ) = 0,95 Approximatives 95% Konfidenzintervall für den unbekannten Anteil p ist: ±1.96 (1 ) Jeder Wert im Konfidenzintervall ist eine plausible Schätzung für den unbekannten Parameter. Wie groß sollte n sein, damit das KI durchschnittlich halb so groß ist, wie das gerade beobachtete? => Stichprobenumfang 4x so groß wie vorher

- Konfidenzniveau Konfidenzniveau ist meist 95% oder größer Es besagt, mit welcher Sicherheit man sagen kann, dass sich der Parameter in dem Intervall befindet. (100% wären 0-1, also unsinnig) - Signifikanztest Erklärung an einem Beispiel: In der Vergangenheit hatte ein TV-Programm typische Einschaltquoten von 10%, für einen bestimmten Tag wird ermittelt, dass 350 von 4000 Personen der Zufallsstichprobe das Programm gesehen haben. - War das ein typischer Tag? Falls es ein typischer Tag war: ~ (4000,0,1) ~ (400,360) = 1 4000 ~ 0,1, 0,1 0,9 4000 Falls es ein typischer Tag war, wie wahrscheinlich ist es dann, einen Anteil p zu beobachten, der mindestens so weit von den erwarteten 10% entfernt ist wie 8,75%? Diese Wahrscheinlichkeit nennt man den p-wert der Hypothese Es war ein typischer Tag Dies kann man leicht berechnen, wenn man p standardisiert. Der p-wert ist in der Tat sehr klein kleiner als 1%! Die Frage ist nun: War es ein typischer Tag, obwohl es sehr unwahrscheinlich ist, so einen extremen Anteil von p zu beobachten? Schlussfolgerung: Entweder war es ein typischer Tag und etwas sehr Seltenes hat sich ereignet oder es war kein typischer Tag! Kritischer Bereich: Der Gemessene Wert von p liegt außerhalb des erwarteten 3- Sigma-Bereichs o Diskussion zum Fehler 1. und 2. Art Fehler erster Art: Man lehnt die Hypothese H 0 ab, obwohl diese wahr ist Fehler zweiter Art: Man lehnt die Hypothese H 0 nicht ab, obwohl diese nicht wahr ist o Signifikanztests sind so konstruiert, dass die Wahrscheinlichkeit für einen Fehler erster Art klein und unter Kontrolle ist. Sie ist höchstens so groß wie Alpha. Allerdings ist die Wahrscheinlichkeit für einen Fehler zweiter Art nicht unter Kontrolle. Sie kann so groß sein wie 1-Alpha, also 95%. Da ist eine grundsätzliche Asymmetrie in einem Signifikanztest. Das bedeutet: Wir können nur dann darauf vertrauen, dass wir etwas entdeckt haben, wenn H 0 abgelehnt wird! Aus einer nicht Ablehnung von H 0 gewinnen wir keine neue Information.

- Worauf passen welche Verteilungen? o Binomialverteilung Bei jedem Versuch ist die Erfolgswahrscheinlichkeit p gleich groß Anzahl der Erfolge bei n unabhängigen Versuchen (i). Eine Zufallsvariable X mit (=)= (1 ),=0,, heißt binomialverteilt zu den Parametern n und p. Kurz: ~ (,) Dann gilt ()= ()= (1 ) o Poissonverteilung Findet Verwendung bei Zufallsvariablen, die Ereignisse zählen, welche jederzeit eintreten können, in einem kurzen Zeitintervall aber selten sind Erfolg bei sehr vielen Versuchen mit jeweils sehr kleiner Erfolgswahrscheinlichkeit n = nicht spezifizierbar p nahe 0 Aber Erfolge passieren! ~ () = lim (1 ) =! Dann gilt ()= ()= o Normalverteilung Theoretisches Modell Dichtefunktionen der Normalverteilungen (blau), (grün) und (rot) ~ (, )

()= ()= o Standardnormalverteilung ~ (0,1) NUR für Standardnormalverteilung gibt es eine Tabelle Standardisierung von ~ (, ): = ~ (0,1) o Sind X,,X ~ N(μ,σ ) und unabhängig, dann gilt: = 1 n X ~ N(μ, σ n ) - Faustregel o Spezialfall des zentralen Grenzwertsatzes Ist X ~ B(n,p),dann gilt für großes n: ~,(1 ) ~,(1 ) : (1 )>9 (Varianz der Zahl der Erfolge) o Verallgemeinerung: Sind X 1,, X n unabhängig und identisch verteilt (=selbes stochastisches Modell) mit Erwartungswert und Varianz, dann gilt für großes n: ~ (, ) = 1 ~ (, )

Begrifflichkeiten - Daten sind das Ergebnis von Beobachtungen: Zählvorgängen Messvorgängen Komplexeren Vorgängen - Population = Gesamtheit von Objekten, für die man sich interessiert - Variable = ein interessierendes Merkmal (oder ein Attribut) eines Objektes o Eine Variable kann verschiedene Werte annehmen o Skalierung Kategorial (Nominalskaliert), falls sich nur sagen lässt, ob jeweils zwei Werte gleich sind oder nicht Rangvariable (Ordinalskaliert), falls ihre Werte angeordnet werden können Metrisch (Quantitativ), falls ihre Werte Ergebnisse eines Mess- oder Zählvorgangs sind. Man unterscheidet: Verhältnisskaliert: Die Differenz und auch das Verhältnis zweier Werte sind sinnvoll Intervallskaliert: Nur die Differenz ist sinnvoll Diskret = Kann nur isolierte Werte annehmen Stetig = Kann (theoretisch) jeden beliebigen Wert in einem Intervall Annehmen o Häufigkeitsverteilung n-beobachtungen: x 1, x 2,, x n k unterschiedliche Werte: a 1,a 2,,a n h(a j ) = # Beobachtungen mit Wert a j = absolute Häufigkeit von a j f(a j ) = h(a j )/ n = relative Häufigkeit von a j - Semantisches Differential Das semantische Differential, auch Eindrucksdifferential oder Polaritätenprofil genannt, ist ein Verfahren, welches zum Zweck der Messung von Wortbedeutungen im Jahr 1952 von Osgood entwickelt worden ist. Eine Person muss anhand einer Reihe von Items ein Objekt beschreiben. Die Items sind siebenstellige bipolare Skalen, deren Extreme durch jeweils gegensätzliche Eigenschaftswörter wie dynamisch/statisch, jung/alt, beschrieben werden. Die numerische Unterteilung der Itemskala erlaubt es, eine Ausprägung intervallskaliert anzugeben, wobei die Richtung der angegebenen Ausprägung vom Nullpunkt für die Qualität, die Distanz zum Nullpunkt für die Intensität der assoziierten Eigenschaften stehen. Objekte Variable Werte Studierende Geschlecht M, W Körpergröße in cm,167,168, Dienstage Goldpreis (US$),1004,0,1004,2, Rendite (%),-2,5,-1,7, Kunden im Supermarkt Gesamtausgabe ( ),10,33, Hat preisreduzierten Güter gekauft? Ja, Nein Beurteilung d. Angebotes Unzufrieden,,Sehr zufrieden Zahl der Positionen 1,2,3, Erwachsene in den USA Wiederaufbau von NO Ja, Nein Wochentage Zahl der zur Reparatur gebrachten Autos 0,1,2,3,

- Datensammlung o Die erste Frage ist extrem wichtig, sog. Appetizer, wird oft nicht ausgewertet o Totalerhebung oder Zensus = Die Sammlung von Daten aus der gesamten Population o Teilerhebung oder Ziehung = Die Sammlung von Daten aus einer Teilpopulation - Length Sampling Bias => systematischer Fehler - Erwartungswert o Selbes Prinzip, wie beim arithmetischem Mittel, mit Wahrscheinlichkeiten anstatt der relativen Häufigkeiten ()= (=) - Wahrscheinlichkeitsdichte o Konzept der Wahrscheinlichkeitsfunktion ist für stetige Variablen unbrauchbar, man braucht eine Dichte! ( )= () Erwartungswert: ()= ()