Skript zur Vorlesung Statistik

Größe: px
Ab Seite anzeigen:

Download "Skript zur Vorlesung Statistik"

Transkript

1 Skript zur Vorlesung Statistik Dietrich Baumgarten «16. Januar 2014

2

3 Inhaltsverzeichnis 1 Grundlagen Übersicht und Lernziele Zum Begri Statistik Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik Gliederung einer statistischen Untersuchung Beispiele statistischer Untersuchungen Statistische Grundbegrie Bestands- und Bewegungsmassen Einteilung von Merkmalen Messen und Skalenniveaus Fragebögen Die Datenmatrix Aufgaben Darstellung univariater Daten Übersicht und Lernziele Zum Begri univariate Datenanalyse Die vier Grundformen von Datensätzen Absolute und relative Häugkeiten Kumulierte absolute und relative Häugkeiten Häugkeitstabellen Stab- Säulen- und Balkendiagramme Empirische Verteilungsfunktion Der Sonderfall nominaler Merkmale Kreis- und Säulendiagramm Aufgaben Maÿzahlen einer Verteilung Übersicht und Lernziele Denition und Einteilung Modus Median Der Median metrischer Merkmale Quantile Median und Quantile aus einer Häugkeitstabelle Spannweite und Interquartilsabstand iii

4 Inhaltsverzeichnis 3.6 Boxplots Eine Variante des Boxplots Das arithmetische Mittel Eigenschaften des arithmetischen Mittels Streuungsmaÿe mit Bezug auf den Mittelwert Die Varianz Stichprobenvarianz Die Standardabweichung Der Variationskoezient Arbeitstabelle zur Berechnung Mittlere absolute Abstände Transformationseigenschaften der Maÿzahlen Anforderungen an Maÿzahlen metrischer Merkmale Abschlieÿendes Beispiel Excel-Funktionen Aufgaben Klassenbildung Übersicht und Lernziele Klassen Häugkeitstabelle klassierter Daten Histogramme Approximierende empirische Verteilungsfunktion Maÿzahlen bei klassierten Daten Der Modus Median und Quantile Arithmetisches Mittel und Varianz Aufgaben Konzentration Übersicht und Lernziele Absolute und relative Konzentration Relative Konzentration Die Merkmalssumme und ihre Verteilung Die Lorenzkurve Der Gini-Koezient Der normierte Gini-Koezient Relative Daten Klassierte Daten Vorgehensweise mit Excel Absolute Konzentration Konzentrationskurve und Rosenbluth-Index Rosenbluth-Index Herndahl-Index iv

5 Inhaltsverzeichnis Relative Daten Zusammenfassung Aufgaben Einführung in die Wahrscheinlichkeitsrechnung Übersicht Diskrete Verteilungen Laplace-Experimente Allgemeine Zufalls-Experimente Wahrscheinlichkeit von Ereignissen Rechenregeln für Ereignisse Abhängige mehrstuge Zufallsexperimente Unabhängige mehrstuge Zufallsexperimente Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit Der Satz von Bayes Aufgaben Endliche Zufallsvariable Übersicht Einführung und Denition Das Model Zufallsvariablen Erwartungswert Varianz und der Standardabweichung Die Kovarianz Berechnung der Korrelationen Erwartungswert und Varianz einer Linearkombination Kovarianz- und Korrelationsmatrix Eigenschaften der Kovarianzmatrix Verteilung einer Zufallsvariablen Verteilungsfunktion Erwartungswert und Varianz Unabhängige Zufallsvariable Zusammenfassung Aufgaben Kombinatorik Übersicht Fakultät und Binomialkoezient Das Multiplikationsprinzip Permutationen Kombinationen und Variationen Die binomische Formel Kombinatorische Excel-Funktionen v

6 Inhaltsverzeichnis 8.8 Aufgaben Spezielle diskrete Verteilungen Übersicht Diskrete Zufallsvariable Diskrete Gleichverteilung Bernoulli-Verteilung Binomialverteilung Wahrscheinlichkeitsfunktion und Verteilungsfunktion Hypergeometrische Verteilung Poissonverteilung Die geometrische Verteilung Aufgaben Stetige Verteilungen Dichtefunktion Verteilungsfunktion Erwartungswert und Varianz Symmetrische Verteilungen Aufgaben Ausgewählte Lösungen Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel Zu Kapitel vi

7 Abbildungsverzeichnis 2.1 Häugkeitstabellen und Stabdiagramme Empirische Verteilungsfunktion Häugkeitstabelle und Säulendiagramm Kreis- und Säulendiagramm im Vergleich Einfacher Boxplot Eine weitere Form des Boxplots Arbeitstabelle für einige Maÿzahlen Arbeitstabelle für einige Maÿzahlen Diskrete Auswertung Histogramm und approximierende empirische Verteilungsfunktion Arbeitstabelle zum Beispiel Arbeitstabelle zum Beispiel Zusammenhang zwischen Lorenzkurve und Gini-Koezient Arbeitsblatt für Lorenzkurve mit klassierten Daten Arbeitsblatt für Lorenzkurve mit klassierten Daten Arbeitsblatt für Konzentrationskurve, Rosenbluth- und Herndahl-Index Arbeitsblatt für absolute Konzentration bei relativen Daten Zufallsgeräte Baumdiagramm zum Beispiel Baumdiagramm von Beispiel Baumdiagramm zum Beispiel Baumdiagramm zum Beispiel Der Satz von der totalen Wahrscheinlichkeit Arbeitstabelle zum Beispiel Arbeitstabelle für das Beispiel Arbeitsblatt zur Portfoliotheorie Abweichungen der Renditen vom Erwartungswert Arbeitstabelle einer endlichen Zufallsvariablen Gleichverteilte Zufallsvariable Das Pascalsche Dreieck Verteilung einer H(10, 6, 20)-verteilten Zufallsvariablen vii

8 Abbildungsverzeichnis 9.2 Verteilung einer Ps(1,5)-verteilten Zufallsvariablen Dichtefunktion einer stetigen Zufallsvariablen Dichte- und Verteilungsform Maÿzahlen der Aufgabe Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung Häugkeitstabelle, Diagramme und Maÿzahlen Häugkeitstabelle und Diagramme Boxplot zu den Daten des Beispiels Einfacher Boxplot Variante des Boxplots Lösung zur Aufgabe Klassierte Häugkeitstabelle und Diagramme Häugkeitstabelle und Lorenzkurve Konzentrationskurve und Rosenbluth- sowie Herndahl-Index Konzentrationskurve und Rosenbluth- sowie Herndahl-Index Häugkeitstabelle und Diagramme Häugkeitstabelle und Lorenzkurve Häugkeitstabelle und Lorenzkurve Häugkeitstabelle und Diagramme Baumdiagramme Baumdiagramm und Verteilung Arbeitstabelle für die Aufgabe Arbeitstabelle für den Satz von Bayes Verteilung von Chuck-a-luck Verteilung der Zufallsvariable der Aufgabe Verteilung der Zufallsvariable der Aufgabe Verteilung der Zufallsvariable der Aufgabe Verteilung der Zufallsvariable Verteilung einer Ps(1)-verteilten Zufallsvariablen viii

9 Tabellenverzeichnis 1.1 Eine Datenmatrix Liste der Weltmeister im Fuÿball Anzahl von Cocktails Benötigte Werte für den Boxplot Häugkeitstabelle klassierter Daten Häugkeitstabelle klassierter Daten Brumm, Brumm Daten zur Aufgabe Fiktive Einkommen Diskrete Wahrscheinlichkeitsverteilung Diskrete Wahrscheinlichkeitsverteilung von Beispiel Diskrete Wahrscheinlichkeitsverteilung von Beispiel Diskrete Wahrscheinlichkeitsverteilung von Beispiel Diskrete Wahrscheinlichkeitsverteilung von Beispiel Die Fakultäten von 0 bis Formeln der Kombinatorik Brumm, Brumm Fiktive Einkommen ix

10

11 1 Grundlagen 1.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt: - Der Unterschied zwischen schlieÿender und beschreibender Statistik; - Grundbegrie der Statistik wie Grundgesamtheit, Stichprobe und Merkmalsträger; - Die vier Arten von Merkmalen; - Darstellung der Antworten einer Befragung in einer Datenmatrix. 1.2 Zum Begri Statistik Statistik geht auf das neulateinische Wort status zurück, dessen Bedeutungen Staat und Zustand sind. Statistik betraf ursprünglich alle Daten, die der Verwaltung bei der Entscheidungsndung behilich sein konnten, etwa Daten über die Bevölkerung (Geburten, Eheschlieÿungen und Todesfälle), Handel und Gewerbe sowie Ein- und Ausgaben des Staates. Datensammlungen dieser Art werden heute als amtliche Statistik bezeichnet, wofür staatliche Organisationseinheiten wie etwa das Statistische Bundesamt zuständig sind. Inzwischen sammeln aber auch Unternehmen und andere Organisationen Daten über Kunden, Mitarbeiter oder Geschäftspartner. Die erste Bedeutung des Begris Statistik ist also die Zusammenstellung von Zahlen und Daten über bestimmte Gesamtheiten. Weiterhin versteht man unter Statistik alle Methoden zur Analyse von variierenden Eigenschaften von Objekten einer fest umrissenen Gesamtheit. Die Unterschiede bei den Ausprägungen der Eigenschaften müssen dabei zumindest teilweise zufälliger Natur sein. Dabei muss zunächst eine präzise Frage gestellt und in ein Modell verwandelt werden. Danach erfolgt die Erhebung von Daten und deren Auswertung bezüglich der Fragestellung. Halten wir fest: Der Begri Statistik bezeichnet sowohl Datenbestände und deren Erhebung wie Bevölkerungsstatistik als auch Methoden zur Untersuchung von Massenphänomenen, die unter Einuss des Zufalls entstanden sind, durch die Auswertung bestehender oder extra zu diesem Zweck erhobener Daten. 1

12 1 Grundlagen 1.3 Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik In der Statistik, geht es um das Problem, Beobachtungen, die unter Einuss des Zufalls entstanden sind, zu analysieren. Die beschreibende oder deskriptive Statistik erfasst und bereitet Daten auf und verdichtet sie in Form von Tabellen, graphischen Darstellungen und Kennzahlen wie Mittelwert und Varianz. Die beschreibende Statistik beschäftigt sich nur mit den vorliegenden Daten, daher beziehen sich alle Aussagen auch nur auf diese Daten. Die schlieÿende oder induktive Statistik stellt Methoden zur Verfügung, die einen Schluss von Teilerhebungen auf Grundgesamtheiten erlauben. Meinungsforschungsinstitute benötigen die schlieÿende Statistik, um die Ergebnisse von Umfragen auf die Gesamtheit zu übertragen. Da statistische Schlüsse auf den Daten einer Stichprobe genannten Auswahl beruhen, sind Schlussfolgerungen auf die Gesamtheit möglicherweise fehlerhaft. Zu einem Verfahren der schlieÿenden Statistik gehören Abschätzungen der Fehler. Diese liefert die Wahrscheinlichkeitstheorie, ein Spezialgebiet der Mathematik zur Beschreibung zufallsabhängiger Vorgänge. Die Wahrscheinlichkeitsrechnung entstand aus Untersuchungen von Glücksspielen und basierte zunächst auf rein kombinatorischen Methoden. Die moderne Wahrscheinlichkeitstheorie beruht auf einem für Nichtmathematiker kaum verständlichen axiomatischen Regelwerk des russischen Mathematikers Kolmogorov. 1.4 Gliederung einer statistischen Untersuchung Eine statistische Untersuchung besteht aus mehreren Schritten. (1) Festlegung der Fragestellung und der Grundgesamtheit Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.b. die Wahlberechtigten zur Bundestagswahl 2009, bilden die sogenannte Grundgesamtheit. (2) Voll- oder Teilerhebung Bei einer Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei einer Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine sogenannte Stichprobe. Vollerhebungen sind bei groÿen Grundgesamtheiten oft aus Kostengründen nicht sinnvoll, manchmal sogar prinzipiell unmöglich. Bei einer Teilerhebung hat die richtige Auswahl der Stichprobe eine groÿe Bedeutung für die Übertragung der gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel der Bundestagswahl muss eine Teilerhebung alle gesellschaftlichen Strömungen der wahlberechtigten Bevölkerung widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten Kriterien aussuchen, oder aber die Auswahl dem Zufall überlassen. Eine hinreichend groÿe Zufallsstichprobe wird in der Regel durchaus repräsentativ für die Grundgesamtheit sein. 2

13 1.5 Statistische Grundbegrie (3) Datenerhebung Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der Datenerhebung. Man kann Daten durch Beobachtung und durch Befragung gewinnen. Daten können durch schriftliche oder mündliche Befragung erhoben werden, wobei die mündliche Befragung persönlich oder über Telefon erfolgen kann. Die Auswahl sollte sich danach richten, was am besten für das Ziel der Untersuchung geeignet ist. (4) Die Datenaufbereitung und Datendarstellung Zunächst werden fehlerhafte Daten bereinigt und dann in einer Datenbank erfasst und von geeigneten Programmen wie SAS oder SPSS ausgewertet und dargestellt, etwa in Form von Tabellen, Diagrammen und Kennzahlen, also mit Verfahren der beschreibenden Statistik. (5) Datenanalyse Bei der Auswertung werden Methoden der schlieÿenden Statistik eingesetzt. Die schlieÿende Statistik ist stark mathematisch orientiert und beschäftigt sich damit, welche Schlüsse von einer Stichprobe auf die Grundgesamtheit möglich sind. Im Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die Stimmanteile der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe erfolgt meist in der Form von sogenannten Kondenzintervallen in der Form: mit einer Wahrscheinlichkeit von 99 % wird die CDU einen Stimmanteil zwischen 33 % und 36 % haben Beispiele statistischer Untersuchungen Ich gebe zur Verdeutlichung einige typische Fragen an, die mit statistischen Untersuchungen beantwortet werden können. Berechnung der Anteils von derzeitigen Wählern der FDP. Die Grundgesamtheit sind hier alle Wahlberechtigten in Deutschland. Da nur amtliche Stellen diese Grundgesamtheit kennen, ist diese Frage nur über eine Stichprobe zu beantworten, die Auswertung muss mit Methoden der schlieÿenden Statistik erfolgen und wird somit fehlerhaft sein. Wohnungszählung in Deutschland im Rahmen der Volkszählung Die Grundgesamtheit sind hier alle Gebäude in Deutschland. Da alle Eigentümer befragt werden und auskunftspichtig sind, liegt eine Vollerhebung vor. Bestimmung des Anteils fehlerhafter Glühbirnen an einem Produktionsstandort. Auch hier kann man nur eine Teilerhebung durchführen, es sei denn, die Glühbirnen werden innerhalb der Produktion sofort getestet. 1.5 Statistische Grundbegrie Zur Beschreibung statistischer Untersuchungen werden folgende Begrie benutzt: 3

14 1 Grundlagen Statistische Einheit oder Merkmalsträger Dieser Begri beinhaltet Personen oder Gegenstände, aber auch Ereignisse wie Geburten oder Sterbefälle. Grundgesamtheit So wird die Menge der statistischen Einheiten genannt. Bestandsmasse Besitzen die statistischen Einheiten der Grundgesamtheit einen längeren Bestand, so spricht man von einer Bestandsmasse. Die Erfassung erfolgt zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer Stadt sind typische Bestandsmassen, eine Befragung erfasst den Zustand in einem bestimmten Augenblick. Bewegungsmasse oder Ereignismasse Die statistischen Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum hinweg erfasst. Merkmale Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter oder Haarfarbe bei Personen, werden Merkmale genannt. Merkmalsausprägungen Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die beiden Ausprägungen weiblich und männlich und die Ausprägungen des Merkmals Alter einer Person sind die natürlichen Zahlen. 1.6 Bestands- und Bewegungsmassen Bei den Gesamtheiten wird zwischen Bestandsmassen und Bewegungsmassen unterschieden. Bestandsmassen werden an einem Zeitpunkt, Bewegungsmassen dagegen innerhalb einer Zeitspanne erfasst. Oft korrespondieren die beiden Gesamtheiten miteinander. Die Einwohner Heidelbergs werden am und dann wieder am gezählt, also jeweils an einem festen Zeitpunkt, daher handelt es sich um Bestandsmassen. Die Stadtverwaltung erfasst auch alle in einem Jahr erfolgten An- und Abmeldungen, sowie alle Geburten und Todesfälle. Das sind vier Bewegungsmassen, die den Unterschied zwischen den beiden Bestandsmassen erklären: Einw = Einw Geburten Todesfälle + Abmeldungen Anmeldungen 4

15 1.7 Einteilung von Merkmalen 1.7 Einteilung von Merkmalen Je nach Fragestellung können Personen, Unternehmen oder ganze Länder statistische Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die statistischen Einheiten oft auch als Merkmalsträger bezeichnet werden. Weitere Beispiele für Merkmale sind die Konfession mit den Ausprägungen wie RK (römisch katholisch), EKD (evangelische Kirche Deutschlands) oder andere. Bei einer Wohnung gibt es Merkmale wie Anzahl der Zimmer, Gröÿe im qm, Balkon usw. mit Ausprägungen wie 4, 80 qm und keiner. Merkmale werden mit groÿen lateinischen Buchstaben wie etwa X bezeichnet, die zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index verwendet wird, also x 1, x 2, x 3,..., x n. Merkmale lassen sich je nach Typ der Werte ihrer Ausprägung in vier Klassen einteilen. (1) Nominale Merkmale Nominal stammt vom lateinischen Wort nomen für Namen ab, weil die möglichen Werte der Ausprägungen nur benannt können werden, es gibt keine Maÿeinheit. Dies trit auf Merkmale wie Geschlecht mit den Ausprägungen w und m und auf Konfession mit den erwähnten Ausprägungen RK, EKD und andere zu. Bei der Erfassung werden nominale Merkmalsausprägungen meistens durch Zahlwerte kodiert, etwa 0 für w und 1 für m, das ändert aber nichts an der prinzipiell zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur in Kategorien einteilen kann, werden nominale Merkmale auch kategoriell genannt. Wenn es für die Ausprägung eines nominalen Merkmals nur zwei mögliche Werte gibt, spricht man von einem dichotomen, sonst von einem polytomen Merkmal. Das Merkmal Geschlecht ist somit dichotom, während das Merkmal Nationaltät polytom ist. (2) Ordinale Merkmale Hier lassen sich die Ausprägungen in eine Rangfolge bringen, aber man kann für die Werte und deren Abstände untereinander kein Maÿ angeben. Das trit z.b. auf Schulnoten zu, sehr gut ist besser als gut, gut besser als befriedigend, aber man kann nicht sagen, dass die Noten sehr gut und gut denselben Abstand wie die Noten gut und befriedigend haben. Auch die Werte ordinal skalierter Merkmale werden zur besseren Auswertung mit Zahlen codiert. (3) Metrische Merkmale Sind bei einem Merkmal die Ausprägungen Zahlen mit Einheiten, so spricht man von einem metrischen Merkmal. Hier können die Abstände zwischen den Werten sinnvoll bestimmt werden. Beispiele sind die Merkmale Gröÿe, Gewicht und Alter einer Person. Metrische Merkmale werden auch kardinal genannt. Metrische Merkmale werden noch weiter unterteilt, und zwar in diskret und stetig. Das Gewicht einer Person ist ein stetiges metrisches Merkmal, da die Werte stetig über 5

16 1 Grundlagen ein ganzes Intervall verteilt sind. Dagegen hat das Merkmal Anzahl der Kinder nur endlich viele Werte, was man als diskret bezeichnet. Die vier Merkmalsklassen sind also nominal, ordinal, metrisch diskret und metrisch stetig, wobei statt nominal auch kategoriell und statt metrisch auch kardinal verwendet werden. Nominale und ordinale Merkmale werden unter dem Oberbegri als qualitatativ zusammengefasst, die beiden metrischen Merkmale werden dagegen quantitativ genannt. Fassen wir zusammen: Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen und danach entscheiden, ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es ordinal und sonst nominal genannt. Bei einem quantitativen Merkmal ist zu untersuchen ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal als kategoriell bezeichnet. Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während bei ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit der Berechnung von Mittelwerten, aber auch anderer statistischer Maÿzahlen und Verfahren. Mittelwerte sowie andere statistische Maÿzahlen und deren Anwendbarkeit bei den drei Merkmalskategorien werden noch ausführlich behandelt. Abschlieÿend noch einige Beispiele. Geschlecht, Haarfarbe und Nationalität sind alles nominale Merkmale. Schulnoten, die Vergabe von Sternen, etwa 1 bis 5, an Hotels oder die Einteilung der Sympathie zu Politikern in die Ränge Mag ich, Na ja und Eher nicht sind ordinale Merkmale. Die folgenden Merkmale sind diskret und metrisch: Zahl der Eheschlieÿungen, Einwohnerzahl von Darmstadt, Anzahl von Studenten der Hochschule Darmstadt. Körpergröÿe und Gewicht einer Person sind stetige metrische Merkmale, deren mögliche Werte z.b. 1,80 m und 78,44 kg sein können. 1.8 Messen und Skalenniveaus Dieser Abschnitt ist zunächst nur für den hartgesottenen Leser. Den Ausprägungen eines Merkmals müssen bestimmte Werte zugeordnet werden. Die Wahl muss dabei so getroen werden, dass die Werte strukturtreu sind, sodass die Werte die realen Unterschiede auch korrekt wiedergeben. Das sei am Beispiel des Merkmals Religionszugehörigkeit verdeutlicht. Im Jahr 1950 waren in Deutschland die drei Werte evangelisch, römisch katholisch und andere oder keine ausreichend, während diese Einteilung heute sicher nicht mehr strukturtreu ist, es sei denn, dass es nur um die Abführung der Kirchensteuer geht. Die Ausprägungen eines Merkmals müssen messbar sein und einem sogenannten Skalenniveau zugeordnet werden können. Obwohl es unzählige Merkmale gibt, werden nur 6

17 1.9 Fragebögen vier Skalenniveaus benötigt und diese decken sich auch noch weitgehend mit der Einteilung der Merkmale. Jedem Skalenniveau entsprechen bestimmte Relationen, in der je zwei Messwerte zueinander stehen. Ich gebe jetzt die vier Skalenniveaus und ihre denierende Relation an. (1) Nominalskala Die Beziehung besteht in der Feststellung, ob zwei Messwerte gleich sind oder nicht, weitere Unterscheidungen sind nicht möglich. Die Nominalskala passt daher genau zu den nominalen Merkmalen wie Geschlecht oder Familienstand. (2) Ordinalskala Bei einer Ordinalskala lassen sich ebenfalls je zwei Messwerte auf Gleichheit untersuchen, aber zusätzlich ist ein Gröÿenvergleich möglich, die Messwerte lassen sich anordnen, aber man kann keine Abstände zwischen den Messwerten angeben. Die Merkmale mit einer Ordinalskala sind also genau die ordinalen Merkmale. (3) Intervallskala Bei einer Intervallskala ist der Abstand zwischen je zwei Messwerten deniert. Streng genommen ist das keine Relation, aber eine eindeutige Festlegung des Begris Intervallskala. Ein Abstand von 0 bedeutet Gleichheit, ein positiver Abstand entspricht der Beziehung Gröÿer, eine Intervallskala ist somit immer auch eine Ordinalskala. Intervallskalen gelten für metrische Merkmale, wofür Abstände zwischen den Ausprägungen aber nicht notwendig Verhältnisse gebildet werden können. Beispiel von Merkmalen mit einer Intervallskala sind die Temperatur, die Uhrzeit, das Datum sowie Längen- und Breitengrade von Orten auf der Erde. In jedem Fall ist der Abstand zwischen zwei Messwerten genau deniert, aber es können keine Verhältnisse gebildet werden. Mittag ist genau zwei Stunden vor 10:00, aber nicht um 20 % später, so wenig wie Rom 12 % südlicher als München liegt. (4) Verhaltnisskala (Ratioskala) Bei dieser Skala können zusätzlich zu den Abständen auch die Verhältnisse von Messwerten gebildet werden. Diese Messwerte besitzen einen natürlichen Nullpunkt. Beispiele von Merkmalen mit Verhältnisskala sind das Gewicht und die Gröÿe oder das Vermögen. Man kann hier Aussagen treen wie, Am Nachmittag kommen doppelt so viel Studenten in die Vorlesung wie am Morgen oder Mein Elefant nimmt pro Jahr 5 % zu. Die vier Skalenniveaus sind also geordnet, d.h. jede höhere Skala schlieÿt die niedrigeren Skalen ein. Verhältnisskala und Intervallskala werden auch als metrische Skalen bezeichnet; eine Vielzahl von statistischen Berechnungen benötigen metrisch skalierte Merkmale, um sie sinnvoll anwenden zu können. 1.9 Fragebögen Die Erhebung basiert in der Regel auf Fragen, die dem Untersuchungsziel angepasst sind. Die einzelnen Fragen werden zu einem Fragebogen zusammengefasst. Ein Dozent 7

18 1 Grundlagen befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Hobbies und Schulabschluss. Die Hobbies werden auf Sport und Reisen begrenzt und bilden eine sogenannte Mehrfachfrage. In diesem Fall wird jedem Hobby ein eigenes Merkmal zugeordnet, mit den zulässigen Antworten ja und nein. Abschlieÿend soll jeder Teilnehmer mit eigenen Worten die Mensa bewerten. Man unterscheidet oene und geschlossene Fragen. Bei geschlossenen Fragen muss eine Antwort aus einer Liste oder einem Zahlenbereich ausgewählt werden, das trit auf die Fragen nach Geschlecht, Alter, Schulabschluss und den Hobbies zu. Die Bewertung der Mensa ist eine oene Frage, die sicherlich zu sehr unterschiedlichen Antworten führt und deshalb statistisch schwierig auszuwerten ist Die Datenmatrix Die ausgefüllten Fragebögen werden in Form einer Tabelle zusammengefasst, der sogenannten Datenmatrix. Die Tabelle 1.1 zeigt die zu den erwähnten Fragen erstellte Datenmatrix. Tabelle 1.1: Eine Datenmatrix ID X (Sex) V (Alter) Y 1 (Sport) Y 2 (Reisen) Z (Schulabschluss) 1 1 männlich 27 1 Ja 1 Ja 3 Mittlere Reife 2 0 weiblich Nein 4 Abitur Nein 1 2 Hauptschule nichts In einer Zeile stehen die Antworten eines Befragten, also einer statistischen Einheit bzw. eines Merkmalsträgers, der durch eine eindeutige ID zu identizieren ist, in jeder Spalte sind die Werte der Merkmale zu nden. Jedem Merkmal wird eine Variable zugeordnet, hier das nominale Merkmal X für das Geschlecht, das ordinale Merkmal Z für den Schulabschluss und das metrische Merkmal V für das Alter. Die nominalen Merkmale Y 1 und Y 2 sind Teile einer Mehrfachfrage, hier nach dem Hobby, worauf der gemeinsame Buchstabe Y hinweist. Die Werte der Variablen Y 1 und Y 2 sind ja oder nein, also handelt es sich um dichotome Merkmale. Die Rohdaten einer Befragung werden meist auch für qualitative Merkmale durch Zahlen codiert, hier etwa 0 für weiblich und 1 für männlich. Oft zeigt man diese Codierung beim ersten Auftreten in der Datenmatrix an. Trotz der zahlenmäÿigen Erfassung sollte klar sein, dass das arithmetische Mittel des Geschlechts der Merkmalsträger nicht 0,4 ist. 8

19 1.11 Aufgaben 1.11 Aufgaben Aufgabe 1. Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung, das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an. Aufgabe 2. Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Geschlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an. Aufgabe 3. Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusammenhang zwischen Bestands- und Bewegungsmassen. 9

20

21 2 Darstellung univariater Daten 2.1 Übersicht und Lernziele In diesem Kapitel werden folgende Themen behandelt: - Darstellung univariater Daten durch eine Häugkeitstabelle; - Grasche Darstellung univariater Daten Stab-, Balken- und Säulendiagramm; - Die empirische Verteilungsfunktion. 2.2 Zum Begri univariate Datenanalyse Die univariate Datenanalyse bezeichnet alle Verfahren, die nur auf ein einzelnes Merkmal einer Grundgesamtheit angewendet werden. Die Ausprägungen werden zunächst in einer Häugkeitstabelle übersichtlich dargestellt. Die Häugkeitstabellen können durch verschiedene Arten von Diagrammen veranschaulicht werden. Die sogenannte empirische Verteilungsfunktion ist eine weitere Möglichkeit der Darstellung der Ausprägungen. Dabei bleibt der ursprüngliche Informationsgehalt weitgehend erhalten. Eine Informationsverdichtung liefern sogenannte Maÿzahlen wie arithmetischer Mittelwert und Varianz. 2.3 Die vier Grundformen von Datensätzen Bei der univariaten Datenanalyse verwendet man vier verschiedene, aber eng verwandte Listen von Daten. (1) Urliste Die Daten einer Erhebung werden in einer Datenmatrix festgehalten, bei der eine Zeile den vollständigen Datensatz einer statistischen Einheit, also eines Merkmalsträgers, beschreibt. In den Spalten stehen die Werte der einzelnen Merkmale. Bei der univariaten Datenauswertung wird nur ein Merkmal allein ausgewertet. Bei einer Grundgesamtheit mit n Merkmalsträgern besteht eine Spalte somit aus einer Folge x 1, x 2,..., x n, wobei x i die Merkmalsausprägung des i-ten Merkmalsträgers ist. Diese Werte werden als Urliste bezeichnet und stehen am Anfang jedes Verfahrens. 11

22 2 Darstellung univariater Daten (2) Aufsteigend geordnete Urliste Die Urliste ist unübersichtlich und wird deshalb der Gröÿe nach geordnet, um etwas Licht ins Dunkel zu bringen, und zwar in der Regel in aufsteigender Ordnung x (1) x (2)... x (n). Die seltsame Bezeichnung x (j) ist in der beschreibenden Statistik für die Elemente der aufsteigend geordneten Urliste üblich. (3) Absteigend geordnete Urliste Manchmal fängt die Ordnung auch beim gröÿten Einzelwert an und verläuft dann absteigend. Auch hierfür haben sich die Statistiker eine seltsame Bezeichnung einfallen lassen x (1) x (2)... x (n). Die Elemente der absteigend geordneten Liste werden also mit x (j) bezeichnet, (4) Ausprägungen Innerhalb einer Urliste treten in der Regel manche Werte mehrfach auf. Es gibt dann nur k wirklich verschiedene Werte, die ich wie Handl mit a i bezeichne, der Gröÿe nach anordne a 1 < a 2 < a 3 <... < a k 1 < a k und als Ausprägungen bezeichne. Ich bezeichne mit n immer die Anzahl der Daten und mit k die Anzahl der Ausprägungen. Nur wenn alle Werte verschieden sind, ist k = n, sonst ist k < n. Beispiel 2.1. Die folgende Liste zeigt die Studiendauer einer Gruppe von Studenten Hier sind n = 10 und x 4 = 10, denn der vierte Wert der Urliste ist 10. Die nach zunehmenden Werten geordnete Liste x (j) ist Aus dieser ergibt sich durch Weglassen der Wiederholungen die Liste a j der Ausprägungen Somit sind x (4) = 6 und a 4 = 9, denn in der aufsteigend geordneten Liste ist das vierte Element 6 und in der Liste der Ausprägungen ist das vierte Element 9. Da es nur fünf Ausprägungen gibt, ist k = 5. 12

23 2.4 Absolute und relative Häugkeiten 2.4 Absolute und relative Häugkeiten Bei der Datenanalyse wird gezählt, wie viele Merkmalsträger n i die Ausprägung a i hat. Man nennt diese Zahl die absolute Häugkeit der Ausprägung. Die Paare (a i, n i ) werden als Häugkeitsliste bezeichnet. Die absolute Häugkeit allein ist wenig aussagekräftig, dazu ist der Bezug zur Anzahl n der Merkmalsträger nötig, also die relative Häugkeit f i = n i /n. Da die absoluten Häugkeiten n i zwischen 1 und n liegen und zusammengezählt n ergeben, liegen die Werte der f i zwischen 0 und 1 und ihre Summe ist genau 1, in Formeln k n i = n 1 + n n k = n, (2.1) i=1 k f i = f 1 + f f k = 1. (2.2) i=1 Relative Häugkeiten werden oft auch in Prozent angegeben, dafür müssen die Werte mit 100 multipliziert werden, die Summe ergibt dann 100. In manchen Fällen liegt die Urliste der Daten nicht vor, weil bei der Datenerfassung bereits die möglichen Ausprägungen bekannt sind und nur noch die absoluten Häugkeiten ausgezählt werden müssen. Die Merkmale mit gleichem Wert bilden eine Gruppe, man spricht auch von gruppierten Daten. Die Anzahl von Gruppen werde ich immer mit k bezeichnen. Wenn alle Werte der Urliste verschieden sind, folgen k = n und x (j) = a j. Im Beispiel 2.1 gibt es k = 5 Gruppen mit den absoluten Häugkeiten n 1 = 1, n 2 = 3, n 3 = 3, n 3 = 2 sowie n 5 = 1 und den relativen Häugkeiten f 1 = 0, 1, f 2 = 0, 3, f 3 = 0, 3, f 4 = 0, 2 und f 5 = 0, 1. Die absoluten Häugkeiten n i summieren sich zu n = 10 und die relativen Häugkeiten zu Kumulierte absolute und relative Häugkeiten Bei mindestens ordinalen Merkmalen sind die Ausprägungen a 1, a 2,..., a k der Gröÿe nach geordnet. Deshalb ist eine stufenweise Ansammlung (Kumulation) bereits erreichter Anteile möglich, um etwa bei den Ergebnissen einer Klassenarbeit, den Prozentsatz von Schülern anzugeben, die mindestens eine vier erreicht haben. Sind n 1, n 2,..., n k die absoluten Häugkeiten der geordneten Merkmalsausprägungen, so werden die i-te kumulierte absolute bzw. relative Häugkeit durch N i = F i = k n j = n 1 + n n i, (2.3) j=1 k f j = f 1 + f f i (2.4) j=1 13

24 2 Darstellung univariater Daten berechnet. Bei den Daten des Beispiels 2.1 ergeben sich folgende Werte für die kumulierten absoluten Häugkeiten N 1 = 1, N 2 = 4, N 3 = 7, N 4 = 9 und N 5 = 10 und entsprechend nach Division dieser Werte durch n = 10 die kumulierten relativen Häugkeiten F 1 = 0, 1, F 2 = 0, 4, F 3 = 0, 7, F 5 = 0, 9 und F 5 = Häugkeitstabellen Die Ausprägungen und deren absoluten und relativen Häugkeiten sowie die entsprechenden kumulierten Werte werden in einer Tabelle zusammengefasst, die man Häugkeitstabelle nennt. Im Beispiel der Studiendauer ergibt sich die Häugkeitstabelle wie in der Tabelle der Abbildung 2.1 im Bereich A1:F6 dargestellt. Nach diesem Muster wird die Häugkeitstabelle eines jeden mindestens ordinalen Merkmals aufgebaut A B C D E F G H I J K L M N O P Q R S T U V W i a i n i N i f i F i x i x Rel. Stabdiagramm Abs. Stabdiagramm (i) ,1 0,1 fi ni ,3 0,4 0, ,3 0,7 0, ,2 0,9 0, ,1 1 0 ai 0 ai ,1 0 0,3 0 0,3 0 0,2 0 0, Abbildung 2.1: Häugkeitstabellen und Stabdiagramme In den Spalte V und W stehen die Werte der Urliste bzw. der geordneten Urliste. In der ersten Spalte steht der Index i der jeweiligen Zeile, in der zweiten stehen die Ausprägungen a i, in der dritten die absoluten Häugkeiten, in der vierten die kumulierten absoluten Häugkeiten, in der fünften die relativen Häugkeiten, in der letzten die kumulierten relativen Häugkeiten. Den kumulierten relativen Häugkeiten können wir unter anderem entnehmen, dass die Studiendauer bei 90 Prozent der untersuchten Studenten höchstens 9 Semester lang war. 2.7 Stab- Säulen- und Balkendiagramme. Absolute und relative Häugkeiten lassen sich durch Diagramme veranschaulichen. Bei Stab- und Säulendiagrammen werden die Werte der Häugkeiten n i bzw. f i in Längen von Stäben oder Höhen von Säulen umgerechnet und über den Werten von a i abgetragen. Deshalb kann man die Werte der Häugkeiten sehr gut vergleichen und sogar ablesen. 14

25 2.8 Empirische Verteilungsfunktion Die Abbildung 2.1 zeigt die Häugkeitstabelle sowie die Stabdiagramme der absoluten und relativen Häugkeiten. Für eine Stabverteilung wird über jeder Ausprägung a i eine senkrechte Strecke mit der Länge der relativen Häugkeit f i nach oben abgetragen, also die Strecke (a i, 0)(a i, f i ). Die Anfangs- und Endpunkte dieser k Strecken benden sich im Bereich B8:O9 des abgebildeten Arbeitsblatts. Jeder Stab ist eine Punkt-Grak für sich, der erste Stab wird durch den Bereich B8:C9 erzeugt, dann kommen die leeren Zellen D8:C9 und dann folgen die Koordinaten des zweiten Stabs, usw. bis zu den Koordinaten des letzten Stabs. Die Zeile 10 enthält die y-werte für das Stabdiagramm der absoluten Häugkeiten. Sie müssen die Koordinaten der Strecken unbedingt durch leere Zellen trennen, sonst würde Excel die Stäbe durch hässliche Zickzacklinien verbinden. Bei einem Balkendiagramm werden die Werte a i auf der y-achse eingetragen und die Werte der f i nach rechts, also waagrecht wie ein Balken. 2.8 Empirische Verteilungsfunktion Bis jetzt wurden nur die Häugkeiten grasch dargestellt. Es gibt aber auch eine grasche Darstellung der kumulierten relativen Häugkeiten als Graph einer Funktion, der sogenannten empirischen Verteilungsfunktion. Diese ist nur für die Merkmalsausprägungen mindestens ordinaler Merkmale deniert. Die empirische Verteilungsfunktion F : R [0, 1] einer Urliste von n Werten x 1, x 2,..., x n leitet sich aus der Forderung ab, dass F (x) für jede reelle Zahl x den relativen Anteil der Werte angibt, welche kleiner oder höchstens gleich x sind; die Funktion ist also für alle reellen Zahlen deniert und nicht nur für die eigentlichen Messwerte. Die formale Denition der empirischen Verteilungsfunktion lautet F (x) = Anzahl der Daten x i x. n Die empirische Verteilungsfunktion gibt die Summe der relativen Häugkeiten aller Daten an, die kleiner oder gleich x sind, daher ist sie zwischen zwei benachbarten Daten konstant, hat also die Form einer Treppe. Die Sprungstellen sind gerade die Daten x 1, x 2,..., x n. Die Gröÿe des Sprunges am Wert x i ist die relative Häugkeit von x i. Liegen n verschiedene Einzelbeobachtungen mit der aufsteigend geordneten Urliste x (1), x (2),..., x (n) vor, so hat jeder Sprung die Höhe 1/n und die empirische Verteilungsfunktion zwischen x (i) und x (i+1) den Wert i/n. Wenn nicht alle Beobachtungen verschieden sind, wird die empirische Verteilungsfunktion über die Ausprägungen bestimmt. Da diese eine der Gröÿe nach geordnete Reihe a 1 < a 2 < a 3... < a k 1 < a k bilden, ist die empirische Verteilungsfunktion in jedem Intervall a i 1 x < a i konstant, und zwar mit dem Wert F i 1 und springt an der nächsten Ausprägung a i um die relative Häugkeit f i nach oben auf den neuen Wert F i. Funktionen dieser Art werden als 15

26 2 Darstellung univariater Daten Treppenfunktion bezeichnet. Damit ergibt sich für die empirische Verteilungsfunktion: 0, wenn x < a 1 ; F (x) = F i, wenn a i x < a i+1 ; 1 i k 1; 1, wenn x a k. Die empirische Verteilungsfunktion beginnt ihren langen Weg von bis zur kleinsten Ausprägung a 1 beim Wert 0, macht dann an jedem der k Messwerte einen Sprung nach oben und erreicht am gröÿten Messwert a k den Endwert 1, und verharrt auf diesem Wert bis. Gezeichnet wird die empirische Verteilungsfunktion deshalb von einem Wert etwas links vom kleinsten bis zu einem Wert etwas rechts von der gröÿten Ausprägung. Die empirische Verteilungsfunktion des Merkmals X Anzahl der benötigten Semester ergibt sich aus der Häugkeitstabelle der Abbildung , wenn x < 5; 0, 1, wenn 5 x < 6; 0, 4, wenn 6 x < 7; F (x) = 0, 7, wenn 7 x < 9; 0, 9, wenn 9 x < 10; 1, wenn x 10. Mit der empirischen Verteilungsfunktion kann man den Anteil f(a < X b) der Merkmalsträger, deren Merkmalsausprägung im Intervall (a, b] liegt, bestimmen: f(a < X b) = F (b) F (a). Der Anteil an Studenten, die länger als 6 und höchstens 9 Semester bis zum Abschluss benötigten, ist also F (9) F (6) = 0, 9 0, 4 = 0, 5. Den Graph der empirischen Verteilungsfunktion habe ich ebenfalls mit Excel erstellt A B C D E F G H I J K L M N O P Q R i a i n i N i f i F i 5 0,1 Empirische Verteilungsfunktion ,1 0,1 Fi 6 0, ,3 0, ,7 0, ,3 0,7 0,6 9 0, ,2 0,9 0, ,1 1 0,2 0 ai ,1 0,1 0,4 0,4 0,7 0,7 0,9 0,9 1 1 Abbildung 2.2: Empirische Verteilungsfunktion In der Abbildung 2.2 ist der Graph dieser Funktion zu sehen. Die empirische Verteilungsfunktion ist rechtsstetig, d.h. die Treppenfunktion beginnt nach jedem Sprung 16

27 2.9 Der Sonderfall nominaler Merkmale gleich am Anfang, also an der Stelle a i mit dem neuen Wert F i. Man deutet dies grasch mit einer Klammer oder wie in der Abbildung mit einer Markierung am Anfang der Treppenstufen an. Formal bedeutet die Rechtsstetigkeit für 1 i k F (a i ) = lim ε 0+ F (a i + ε), wobei hier nur ε > 0 erlaubt ist, da die Annäherung von rechts erfolgt. An allen anderen Punkten ist die Funktion ohnehin stetig. Für die empirische Verteilungsfunktion F (x) müssen also für 1 i k die waagrechte Strecken (a i, F i )(a i+1, F i ) eingezeichnet werden. Vor dem kleinsten Wert a 1 ist die Funktion konstant 0, nach dem gröÿten Wert a k konstant 1. Ich habe die Koordinaten der jeweiligen Anfangs- und Endpunkte der Treppenstufen im Bereich A9:Q10 des Excel-Arbeitsblatts von Abbildung 2.2 aufgeführt. Auch hier ist jede Stufe der Treppenfunktion eine Punktgrak. Die Markierungen am Anfang der Treppen werden ebenfalls als Punktgrak erzeugt, die zugehörigen Koordinaten stehen im Bereich Q1:R5. Bemerkung 2.1. Der Begri empirisch bezieht sich immer auf Erfahrungen, Messungen oder Beobachtungen und wird oft im Gegensatz zum Begri theoretisch verwendet. Empirische Verteilungsfunktionen basieren auf beobachteten Daten, während theoretische Verteilungsfunktionen von einem Modell abgeleitet sind. Für weitere Auskünfte über den Unterschied zwischen theoretischen und empirischen Verteilungsfunktionen wenden Sie sich an den Hütchenspieler ihres Vertrauens oder lesen dessen Allgemeine Geschäftsbedingungen. 2.9 Der Sonderfall nominaler Merkmale Nominale Merkmale haben keine natürliche Rangordnung, man verwendet für die Anordnung die vorgenommene Kodierung oder eine Anordnung nach dem Alphabet, trotzdem ist keine Anhäufung möglich, daher entfallen in der Häugkeitstabelle die beiden Spalten für N i und F i. Beispiel 2.2. Seit 1930 werden alle vier Jahre mit Ausnahme von 1942 und 1946 Fuÿballweltmeisterschaften in wechselnden Ländern ausgetragen. Bisher gab es nur 9 Weltmeister und zwar in alphabetischer Reihenfolge Argentinien, Brasilien, Deutschland, England, Frankreich, Italien, Spanien und Uruguay. Die folgende Tabelle zeigt die Anfangsbuchstaben der Weltmeisternationen und die verkürzte Jahreszahl ihres Triumphs. Tabelle 2.1: Liste der Weltmeister im Fuÿball U I I U D B B E B D A I A D B F B I S Diese Datensammlung ist die Urliste, die in einer Datenmatrix eine Spalte wäre, hier aber aus Platzgründen in einer Zeile steht. Ich fasse die einmaligen Weltmeister England, Frankreich und Spanien zum Rest zusammen. 17

28 2 Darstellung univariater Daten Die ungeordnete und die in alphabetischer Reihenfolge der Anfangsbuchstaben geordnete Urliste sowie die Ausprägungen sind dann U I I U D B B R B D A I A D B F B I R A A B B B B B D D D I I I I R R R U U A B D I R U Somit sind x 3 = I, x (3) = B und a 3 = D, denn der Wert des dritten Merkmals der Urliste ist I, der dritte Wert der geordneten Urliste ist B und die dritte Ausprägung ist D. Weiterhin sind n = 19, k = 6 sowie n 1 = 2, n 2 = 5, n 3 = 3, n 4 = 4, n 5 = 3 und n 6 = 2. Die Ausprägungen und ihre Häugkeiten ergeben sich aus der geordneten Urliste. Die zugehörige Häugkeitstabelle ist in Abbildung 2.3 zu sehen, wobei ich die Ländernamen durch drei Buchstaben kodiert habe A B C D E F G i a i n i f i 6 1 Arg 2 10,53% # 5 2 Bra 5 26,32% W Deu 3 15,79% M Ita 4 21,05% 0 5 Uru 2 10,53% Arg Bra Deu Ita Uru Rst 6 Rst 3 15,79% Land Abbildung 2.3: Häugkeitstabelle und Säulendiagramm Hier sind a 2 = Bra, n 2 = 5 und f 2 = 5/19 = 26, 32 %. Das Säulendiagramm der Verteilung der Weltmeister ist in der Abbildung 2.3 zu sehen, wobei ich hier absolute Zahlen verwendet habe. Die Ergebnisse einer Wahl zum Bundestag werden dagegen besser mit relativen Häugkeiten dargeboten. Bei nominalen Merkmalen sind Säulen- und Balkendiagramme meist die richtige Wahl. Die Presse verwendet sehr gerne Kreisdiagramme, dafür müssen die Anteile in Flächeninhalte von Kreissektoren umgerechnet werden, oder man überlässt das Excel Kreis- und Säulendiagramm Die Ausprägungen nominaler Daten werden oft durch ein Kreis-, Säulen- oder Balkendiagramm dargestellt. Bei der Bundestagswahl 2002 erhielt die CDU/CSU 38,5, die SPD 38,5, die FDP 7,4 und die GRÜNEN 8,5 Prozent der Zweitstimmen. In der Abbildung 2.4 sehen Sie diese Daten im Bereich A1:E2 eines Arbeitsblatts als Liste und darunter als Säulen- und Kreisdiagramm. Bei einem Kreisdiagramm werden den relativen Anteilen f i Kreissektoren mit den Winkeln f i 360 zugeordnet. Bei einen Säulendiagramm werden die relativen Anteile als Säulen dargestellt. Der Vergleich zeigt, dass Säulendiagramme anschaulicher als Kreisdiagramme sind. 18

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: . Einführung und statistische Grundbegriffe Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: Quantitative Information Graphische oder tabellarische Darstellung von Datenmaterial

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik [descriptive statistics] Ziel der deskriptiven (beschreibenden) Statistik einschließlich der explorativen Datenanalyse [exploratory data analysis] ist zunächst die übersichtliche

Mehr

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Phasen des Forschungsprozesses Auswahl des Forschungsproblems Theoriebildung Theoretische Phase Konzeptspezifikation / Operationalisierung

Mehr

1. GEGENSTAND UND GRUNDBEGRIFFE DER STATISTIK

1. GEGENSTAND UND GRUNDBEGRIFFE DER STATISTIK 1 1. GEGENSTAND UND GRUNDBEGRIFFE DER STATISTIK 1.1 Gegenstand der Statistik Die Statistik stellt ein Instrumentarium bereit, um Informationen über die Realität oder Wirklichkeit verfügbar zu machen. Definition

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE INHALTS- VERZEICHNIS Vorwort 13 Schreiben Sie uns! 15 1 Statistische Untersuchungen 17 Wozu Statistik? 18

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Markt+Technik Vorwort Schreiben Sie uns! 13 15 Statistische Untersuchungen 17 Wozu Statistik? 18 Wirtschaftliche

Mehr

Felix Klug SS 2011. 2. Tutorium Deskriptive Statistik

Felix Klug SS 2011. 2. Tutorium Deskriptive Statistik 2. Tutorium Deskriptive Statistik Felix Klug SS 2011 Skalenniveus Weitere Beispiele für Skalenniveus (Entnommen aus Wiederholungsblatt 1.): Skalenniveu Nominalskala Ordinalskala Intervallskala Verhältnisskala

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen. 4. Analyse univariater Daten: Übersicht Mathematik ist die Wissenschaft der reinen Zahl, Statistik die der empirischen Zahl Von univariaten Daten spricht man, wenn bei der Datenerhebung nur ein Merkmal

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

Physica-Lehrbuch. Ein anwendungsorientiertes Lehr- und Arbeitsbuch. von Christine Duller

Physica-Lehrbuch. Ein anwendungsorientiertes Lehr- und Arbeitsbuch. von Christine Duller Physica-Lehrbuch Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch von Christine Duller Neuausgabe Einführung in die Statistik mit EXCEL und SPSS Duller schnell

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Grundlagen der Datenanalyse

Grundlagen der Datenanalyse Schematischer Überblick zur Behandlung quantitativer Daten Theorie und Modellbildung Untersuchungsdesign Codierung / Datenübertragung (Erstellung einer Datenmatrix) Datenerhebung Fehlerkontrolle / -behebung

Mehr

Statistik I für Betriebswirte Vorlesung 5

Statistik I für Betriebswirte Vorlesung 5 Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition

Mehr

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung:

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung: Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung: k ( np) np B( n, p; k) Poi( np, k) e k! falls gilt: p

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Skalenniveau Grundlegende Konzepte

Skalenniveau Grundlegende Konzepte Skalenniveau Grundlegende Konzepte M E R K M A L / V A R I A B L E, M E R K M A L S A U S P R Ä G U N G / W E R T, C O D I E R U N G, D A T E N - M A T R I X, Q U A N T I T A T I V E S M E R K M A L, Q

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Vorlesung: Statistik für Kommunikationswissenschaftler

Vorlesung: Statistik für Kommunikationswissenschaftler Vorlesung: Statistik für Kommunikationswissenschaftler Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München WiSe 2009/2010 Übungen zur Veranstaltung Mittwoch: 14.15-15.45 HG DZ007 Cornelia Oberhauser

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Einführung in die Statistik mit EXCEL und SPSS Ein

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Anwendung von Statistik in Excel Deskriptive Statistik und Wirtschaftsstatistik

Anwendung von Statistik in Excel Deskriptive Statistik und Wirtschaftsstatistik Anwendung von Statistik in Excel Deskriptive Statistik und Wirtschaftsstatistik Wintersemester 08/09 Kai Schaal Universität zu Köln Organisatorisches und Einleitung (1) Was, wann, wo? Anwendung von Statistik

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

1 Verteilungen und ihre Darstellung

1 Verteilungen und ihre Darstellung GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 2: Univariate Deskription von Daten 8.11.2004 Univariate (= eindimensionale) Daten bestehen aus Beobachtungen eines einzelnen Merkmals. 1 Verteilungen

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Planung und Auswertung klinischer und experimenteller Studien: Datenmanagement

Planung und Auswertung klinischer und experimenteller Studien: Datenmanagement Planung und Auswertung klinischer und experimenteller Studien: Datenmanagement Institut für Medizininformatik, Biometrie und Epidemiologie Universität Erlangen - Nürnberg 1 Einordnung in den Ablauf 1.

Mehr

Kapitel 2. Häufigkeitsverteilungen

Kapitel 2. Häufigkeitsverteilungen 6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Kapitel 3: Eindimensionale Häufigkeitsverteilungen

Kapitel 3: Eindimensionale Häufigkeitsverteilungen Kapitel 3: Eindimensionale Häufigkeitsverteilungen. Unklassierte Daten...29 a) Häufigkeitsverteilung...29 b) Tabellen und Graphiken...3 c) Summenhäufigkeiten...34 2. Klassierte Daten...38 a) Größenklassen...38

Mehr

Statistik im Versicherungs- und Finanzwesen

Statistik im Versicherungs- und Finanzwesen Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Grimmer Statistik im Versicherungs- und Finanzwesen Eine anwendungsorientierte Einführung 2014 1. Auflage Übungsaufgaben zu Kapitel

Mehr

Veranstaltung Statistik (BWL) an der FH Frankfurt/Main im WS 2004/05 (Dr. Faik) Klausur 09.02.2005 - GRUPPE A - BEARBEITER/IN (NAME, VORNAME):

Veranstaltung Statistik (BWL) an der FH Frankfurt/Main im WS 2004/05 (Dr. Faik) Klausur 09.02.2005 - GRUPPE A - BEARBEITER/IN (NAME, VORNAME): Veranstaltung Statistik (BWL) an der FH Frankfurt/Main im WS 2004/05 (Dr. Faik) Klausur 09.02.2005 - GRUPPE A - BEARBEITER/IN (NAME, VORNAME): MATRIKELNUMMER: Alte Prüfungsordnung/Neue Prüfungsordnung

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Die Poisson-Verteilung Jianmin Lu RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Ausarbeitung zum Vortrag im Seminar Stochastik (Wintersemester 2008/09, Leitung PD Dr. Gudrun Thäter) Zusammenfassung: In der Wahrscheinlichkeitstheorie

Mehr

Kai Schaal. Universität zu Köln

Kai Schaal. Universität zu Köln Deskriptive Statistik und Wirtschaftsstatistik Tutorium zur Anwendung von Statistik 1 in Excel Kai Schaal Universität zu Köln Organisatorisches und Einleitung (1) Was, wann, wo? Anwendung von Statistik

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Einführung. 2. Sie entstehen erst durch Beobachtung, Erhebung, Befragung, Experiment

Einführung. 2. Sie entstehen erst durch Beobachtung, Erhebung, Befragung, Experiment Einführung In vielen Gebieten des öffentlichen Lebens, in der Wirtschaft, der Verwaltung, der Industrie, der Forschung, in der Medizin etc. werden Entscheidungen auf der Grundlage von bestimmten Daten

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Statistik am PC. Lösungen mit Excel. Bearbeitet von Michael Monka, Werner Voß, Nadine M. Schöneck

Statistik am PC. Lösungen mit Excel. Bearbeitet von Michael Monka, Werner Voß, Nadine M. Schöneck Statistik am PC Lösungen mit Excel Bearbeitet von Michael Monka, Werner Voß, Nadine M. Schöneck 5., aktualisierte und erweiterte Auflage 2008. Buch. XVI, 528 S. Hardcover ISBN 978 3 446 41555 3 Format

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Datenanalyse und Statistik

Datenanalyse und Statistik Datenanalyse und Statistik Vorlesung 1 K.Gerald van den Boogaart http://www.stat.boogaart.de/ds0809 Datenanalyse und Statistik p.1/48 Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen

Mehr

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung) Epertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung) Im Folgenden wird mit Hilfe des Programms EXEL, Version 007, der Firma Microsoft gearbeitet. Die meisten

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)

Mehr

1. Einfuhrung zur Statistik

1. Einfuhrung zur Statistik Philipps-Universitat Marburg Was ist Statistik? Statistik = Wissenschaft vom Umgang mit Daten Phasen einer statistischen Studie 1 Studiendesign Welche Daten sollen erhoben werden? Wie sollen diese erhoben

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00.

Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00. 1 Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00. Bitte unbedingt beachten: a) Gewertet werden alle 9 gestellten Aufgaben. b) Lösungswege sind anzugeben. Die Angabe des Endergebnisses

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

1 Darstellen von Daten

1 Darstellen von Daten 1 Darstellen von Daten BesucherInnenzahlen der Bühnen Graz in der Spielzeit 2010/11 1 Opernhaus 156283 Hauptbühne 65055 Probebühne 7063 Ebene 3 2422 Next Liberty 26800 Säulen- bzw. Balkendiagramm erstellen

Mehr

Deskriptive Statistik Kapitel III - Merkmalsarten

Deskriptive Statistik Kapitel III - Merkmalsarten Deskriptive Statistik Kapitel III - Merkmalsarten Georg Bol bol@statistik.uni-karlsruhe.de hoechstoetter@statistik.uni-karlsruhe.de April 26, 2006 Typeset by FoilTEX Agenda 1. Merkmalsarten 2. Skalen 3.

Mehr

Deskriptive Statistik

Deskriptive Statistik Fakultät für Humanwissenschaften Sozialwissenschaftliche Methodenlehre Prof. Dr. Daniel Lois Deskriptive Statistik Stand: April 2015 (V2) Inhaltsverzeichnis 1. Notation 2 2. Messniveau 3 3. Häufigkeitsverteilungen

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Einführung in die statistische Datenanalyse I

Einführung in die statistische Datenanalyse I Einführung in die statistische Datenanalyse I Inhaltsverzeichnis 1. EINFÜHRUNG IN THEORIEGELEITETES WISSENSCHAFTLICHES ARBEITEN 2 2. KRITIERIEN ZUR AUSWAHL STATISTISCH METHODISCHER VERFAHREN 2 3. UNIVARIATE

Mehr

Medizinische Biometrie (L5)

Medizinische Biometrie (L5) Medizinische Biometrie (L5) Vorlesung II Daten Deskription Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie mansmann@ibe.med.uni-muenchen.de IBE,

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung:

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Datenanalyse und Statistik

Datenanalyse und Statistik Datenanalyse und Statistik Vorlesung 1 K.Gerald van den Boogaart http://www.stat.boogaart.de/ws0708/dn0708 Datenanalyse und Statistik p.1/42 Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Einführung in statistische Testmethoden

Einführung in statistische Testmethoden Einführung in statistische Testmethoden und die Bearbeitung von Messdaten mit Excel 1. Beispielhafte Einführung in den Gebrauch von Testmethoden 2. Typen von Messwerten, Verteilungen 3. Mittelwert, Varianz,

Mehr

Kursthemen 12. Sitzung. Spezielle Verteilungen: Warteprozesse. Spezielle Verteilungen: Warteprozesse

Kursthemen 12. Sitzung. Spezielle Verteilungen: Warteprozesse. Spezielle Verteilungen: Warteprozesse Kursthemen 12. Sitzung Folie I - 12-1 Spezielle Verteilungen: Warteprozesse Spezielle Verteilungen: Warteprozesse A) Die Geometrische Verteilung (Folien 2 bis 7) A) Die Geometrische Verteilung (Folien

Mehr

TÜV Service tested Prüfgrundlagen

TÜV Service tested Prüfgrundlagen TÜV Service tested Prüfgrundlagen 60 Grundsätzliche Prüfgrundlagen Für die Auszeichnung TÜV Service tested müssen drei Voraussetzungen erfüllt sein: 1. Die Gesamtzufriedenheit muss von den Kunden des Unternehmens

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Empirische Methoden PM-EMP-P12-040828

Empirische Methoden PM-EMP-P12-040828 Studiengang Pflegemanagement Fach Empirische Methoden Art der Leistung Prüfungsleistung Klausur-Knz. Datum 28.08.2004 Die Klausur besteht aus 5 Aufgaben, von denen alle zu lösen sind. Ihnen stehen 90 Minuten

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Statistische Grundlagen I

Statistische Grundlagen I Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.

Mehr

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05

Mehr

Statistische Datenauswertung. Andreas Stoll Kantonsschule Olten

Statistische Datenauswertung. Andreas Stoll Kantonsschule Olten Statistische Datenauswertung Andreas Stoll Beschreibende vs. schliessende Statistik Wir unterscheiden grundsätzlich zwischen beschreibender (deskriptiver) und schliessender (induktiver) Statistik. Bei

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Eigene MC-Fragen Grundbegriffe der Statistik (X aus 5)

Eigene MC-Fragen Grundbegriffe der Statistik (X aus 5) Eigene MC-Fragen Grundbegriffe der Statistik (X aus 5) 1. Welche Reihenfolge ist zutreffend auf den Ablauf einer statistischen Untersuchung laut SB? A B C D Aufbereitung Erhebung Planung Auswertung C-D-A-B

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Ablauf einer statistischen Analyse

Ablauf einer statistischen Analyse 2 Ablauf einer statistischen Analyse Dieses Kapitel skizziert die Schritte, die vor bzw. nach der eigentlichen statistischen Auswertung notwendig sind. NewcomerInnen in der Statistik kennen zwar die Methoden

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Name:... Matrikel-Nr.:... 3 Aufgabe Handyklingeln in der Vorlesung (9 Punkte) Angenommen, ein Student führt ein Handy mit sich, das mit einer Wahrscheinlichkeit von p während einer Vorlesung zumindest

Mehr

4. Auswertung eindimensionaler Daten

4. Auswertung eindimensionaler Daten 4. Auswertung eindimensionaler Daten Ziel dieses Kapitels: Präsentation von Methoden zur statistischen Auswertung eines einzelnen Merkmals 64 Bezeichnungen (Wiederholung): Merkmalsträger: e 1,..., e n

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr