Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.



Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Fachhochschule Düsseldorf Wintersemester 2008/09

Professionelle Seminare im Bereich MS-Office

1 Mathematische Grundlagen

STATISTIK. Erinnere dich

Statistik I für Betriebswirte Vorlesung 5

Felix Klug SS Tutorium Deskriptive Statistik

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Zeichen bei Zahlen entschlüsseln

Erfahrungen mit Hartz IV- Empfängern

Wurzeln als Potenzen mit gebrochenen Exponenten. Vorkurs, Mathematik

Primzahlen und RSA-Verschlüsselung

QM: Prüfen -1- KN

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

7 Rechnen mit Polynomen

Wir machen neue Politik für Baden-Württemberg

Was meinen die Leute eigentlich mit: Grexit?

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Grundbegriffe der Informatik

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Die Post hat eine Umfrage gemacht

Kapitalerhöhung - Verbuchung

A1.7: Entropie natürlicher Texte

Thermodynamik. Basics. Dietmar Pflumm: KSR/MSE. April 2008

2. Mai Geldtheorie und -politik. Die Risiko- und Terminstruktur von Zinsen (Mishkin, Kapitel 6)

(für Grund- und Leistungskurse Mathematik) 26W55DLQHU0DUWLQ(KUHQE UJ*\PQDVLXP)RUFKKHLP

Mathematischer Vorbereitungskurs für Ökonomen

4. Das neue Recht der GmbH ein Überblick

Korrelation (II) Korrelation und Kausalität

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Statistische Thermodynamik I Lösungen zur Serie 1

Media Teil III. Begriffe, Definitionen, Übungen

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

Lichtbrechung an Linsen

4. Erstellen von Klassen

Was ist das Budget für Arbeit?

Die Invaliden-Versicherung ändert sich

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Studieren- Erklärungen und Tipps

Data Mining: Einige Grundlagen aus der Stochastik

Statuten in leichter Sprache

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Drei Fragen zum Datenschutz im. Nico Reiners

einfache Rendite

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Aufgaben zur Flächenberechnung mit der Integralrechung

Wind- Energie Leichte Sprache

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

How to do? Projekte - Zeiterfassung

2 Evaluierung von Retrievalsystemen

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Was ist Sozial-Raum-Orientierung?

Viele Bilder auf der FA-Homepage

4 Aufzählungen und Listen erstellen

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Willkommen zur Vorlesung Statistik

Alle gehören dazu. Vorwort

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

1. Weniger Steuern zahlen

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Das Leitbild vom Verein WIR

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

Anleitung über den Umgang mit Schildern

Definition und Begriffe

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Der Klassenrat entscheidet

Psychologie im Arbeitsschutz

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

GEHEN SIE ZUR NÄCHSTEN SEITE.

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Situa?onsbeschreibung aus Sicht einer Gemeinde

Gemeinsam können die Länder der EU mehr erreichen

Lösung. Prüfungsteil 1: Aufgabe 1

Leichte-Sprache-Bilder

Die richtigen Partner finden, Ressourcen finden und zusammenführen

Physik & Musik. Stimmgabeln. 1 Auftrag

Lausanne, den XX yyyyy Sehr geehrte Frau/ Herr,

Die Übereckperspektive mit zwei Fluchtpunkten

Prozentrechnung. Klaus : = Karin : =

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Jeder in Deutschland soll ab Mitte 2016 ein Konto eröffnen können.

Beispiel Zusammengesetzte Zufallsvariablen

Statistik II für Betriebswirte Vorlesung 2

das usa team Ziegenberger Weg Ober-Mörlen Tel Fax: mail: lohoff@dasusateam.de web:

Lineare Gleichungssysteme

2. Schönheitsoperationen. Beauty S Lifestyle Lifestyle

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Transkript:

4. Analyse univariater Daten: Übersicht Mathematik ist die Wissenschaft der reinen Zahl, Statistik die der empirischen Zahl Von univariaten Daten spricht man, wenn bei der Datenerhebung nur ein Merkmal erfasst wurde bzw. man sich nur für ein Merkmal interessiert. ( die nächsten Wochen). Interessiert man sich für die Zusammenhänge zwischen mehreren Merkmalen (z.b. Verkehrsdichte und Geschwindigkeit), benötigt man die Mittel der multivariaten Datenanalyse ( gegen Ende dieser Vorlesung). Es gibt zwei grundsätzliche Analysemethoden: Analyse nichtklassierter Daten: Man nimmt die einzelne Elemente der statistischen Reihe direkt als Ausgangspunkt der Untersuchungen. Günstig, falls der Umfang der Datenreihe gering ist oder es nur wenige unterschiedliche Merkmalsausprägungen gibt. Die einzige Analysemethode, falls das zu untersuchende Merkmal nicht kardinalskaliert ist. Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen. Geeignet, falls es (bei entsprechendem Umfang der Datenreihe) sehr viele verschiedene Merkmalsausprägungen gibt. Vorteil: Übersichtliche Darstellung und neue Analysemethoden, z.b. Darstellung der Häufigkeitsdichte Nachteil: Informationsverlust gegenüber unklassierten Daten.

5: Häufigkeitsverteilung und Summenverteilung Zehn von hundert Menschen haben Ahnung vom Prozentrechnen. Das sind über 17% aus einem Zeitungskommentar 5.1. Häufigkeitsverteilung nichtklassierter Daten Ist das interessierende Merkmal nur nominalskaliert, lassen sich die Daten nur durch eine Strichliste aggregieren. Eine Strichliste ist darüber hinaus prinzipiell bei allen diskreten Daten (sowie bei klassierten Daten Kap. 5.3) erstellbar. Man erhält daraus absolute und relative Häufigkeiten: Für eine statistische Masse vom Umfang n und ein beliebig skaliertes Merkmal X mit m n verschiedenen Ausprägungen x j, j = 1,, m heißt die Anzahl h j = h(x = x j ) der Merkmalsausprägungen x j die absolute Häufigkeit. Der Anteilswert f(x = x j ) = f j = h j n heißt relative Häufigkeit, und die Zusammenstellung der Paare (x j, h j ) bzw. (x j, f j ) heißt absolute und relative Häufigkeitsverteilung. Frage: Warum ist diese Definition für stetige Merkmale zwar anwendbar aber sinnlos?

5.2(a): Summenhäufigkeiten nichtklassierter Daten Ist das Merkmal X mindestens ordinalskaliert, kann man auch Summenhäufigkeiten bilden: Absolute Summenhäufigkeit: H j = H(X x j ) = j j =1 h(x = x j ) = j j =1 h j Relative Summenhäufigkeit: F j = H j /n. Hierbei sind die Ausprägungen x j, j = 1,,m des Merkmals X aufsteigend geordnet. Fragen: 1. Woran sieht man direkt (an einem einzigen Zeichen!), dass die Daten bei den Summenhäufigkeiten mindestens ordinalskaliert sein müssen? am -Zeichen. Die Relation größer oder gleich legt ja eine Rangfolge fest. Diese Eigenschaft haben nur mindestens ordinalskalierte Daten. 2. Ermitteln Sie die diversen aggregierten Größen für das Klausurpunkte-Beispiel von Kapitel 3.

5.2(b): Verteilungsfunktion nichtklassierter Daten Sie wird aus den Summenhäufigkeiten hergeleitet: Die Funktion F(x) = 0 falls x < x 1, F j falls x j x < x j+1 mit j = 1,2,,m 1, 1 falls x > x m heißt Empirische Verteilungsfunktion. Hierbei sind die m verschiedenen Ausprägungen x j des Merkmals X aufsteigend geordnet. Die empirische Verteilungsfunktion ist für beliebige reellwertige Argumente x definiert. An den Punkten x j springt sie jeweils um den Betrag f j. Aufgabe: Ermitteln Sie die absolute und relative Summenfunktion sowie die empirische Verteilungsfunktion für das Klausurbeispiel von Kap. 3.

5.3. Darstellung nichtklassierter Daten Statistik ist wie ein Bikini: Er zeigt das meiste, doch verhüllt das Wesentliche Anonymus Darstellung der absoluten und relativen Häufigkeiten diskreter, beliebig skalierter Merkmale mit relativ wenig Merkmalsausprägungen: (a) Stabdiagramm Bayern Bawü Sachsen Hessen Berlin (b) Rechteck diagramm Sachsen Hessen Bawü Bayern Berlin (c) Piktogramm Bayern 6 Mio Bawü 5 Mio Hessen 4 Mio Sachsen 3.6 Mio Berlin 1.4 Mio

5.3(b) Darstellung nichtklassierter Daten (d) Kreis oder Tortendiagramm f 1 f 2 f 5 f 4 f3 Will man diskreter Merkmale mit stark unterschiedlichen (relativen) Häufigkeiten der einzelnen Merkmalsausprägungen anschaulich darstellen, bedient man sich perspektivisch-dreidimensionaler Darstellungen diverser Kombinationen der bisherigen Diagramme: (e) 3D-Säulendiagramm als Kombination von Rechteckdiagramm und Kreis- bzw. Tortendiagramm, oder (f) Würfeldiagramm als dreidimensionale Verallgemeinerung des Rechteckdiagramms. (g) Zwei- oder dreidimensional gezeichnete, unterschiedlich große Piktogramme sind ebenfalls möglich.

5.3(c) Dreidimensionale Darstellungen 3D-Säulendiagramm Windenergie 0.04 % Solarenergie 0.009% geothermische Energie 0.12 % Biomasse 0.4 % Wasser, Holz 13 % Kernenergie 6.0 % Öl, Kohle, Gas 80 % Würfeldiagramm Kfz Dresden Kfz Deutschland Kfz Welt

5.3(d) Darstellung nichtklassierter Daten Sind die Daten mindestens ordinalskaliert, kann man das Stabdiagramm auch in einem Koordinatensystem darstellen: f i 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 Note X Oder man plottet die relative Summenhäufigkeiten F j bzw. die Verteilungsfunktion F(x). F(X) 1 0.8 0.6 0.4 0.2 0 1 2 3 4 5 Note X Diese letzte Darstellung ist als einzige auch für stetige Daten und/oder für sehr viele verschiedene Ausprägungen geeignet.

5.4: Klassierte Daten Motivation: Statistik ist für Politiker häufig das, was für Betrunkene die laterne ist. Sie dient nicht der Erleuchtung, man klammert sich an ihr fest Hat man Daten mit sehr vielen unterschiedlichen Merkmalsausprägungen, wird die direkte Analyse der Daten nach Kap. 5.2, 5.3 unübersichtlich. Die direkte Analyse unklassierter Daten bietet keine sinnvolle Möglichkeit, die sehr anschauliche Häufigkeitsdichte bzw. Wahrscheinlichkeitsverteilung zu plotten. Definition: Klassierung bedeutet die Zusammenfassung sehr vieler kardinalskalierter Merkmalswerte zu relativ wenigen Klassen, d.h. Intervallen von Merkmalswerten: Die i-te Klasse eines Merkmals X ist durch das Intervall x u k X < x o k, k = 1,,K gegeben. Dabei gilt x u k+1 > xu k : x u k+1 = xo k : Die Klassen sind aufsteigende geordnet, Die Intervalle stoßen aneinander.

5.4(b): Bemerkungen zur Klassierung Die erste bzw. letzte Klasse muss häufig als offene Klasse definiert werden: x u 1 =, xo K = +. Bei der Bestimmung von Verteilungsfunktionen, Maßzahlen etc. sind dann sinnvolle ad-hoc Annahmen zu treffen! Die Wahl der Klassenanzahl K wird durch folgende Abwägung bestimmt. Bei zu wenigen Klassen ergibt die Aggregierung einen hohen Informationsverlust, bei zu vielen Klassen hat man nicht gegenüber unklassifizierten Daten gewonnen. Folgende Faustregel bewährt sich bei nicht zu vielen statistischen Einheiten (n 100): K n Bei großem Datenumfang (n > 100) kann man z.b DIN 55 302 heranziehen: 13 Klassen für 100 < n 1000, 16 Klassenzieht für 1000 < n 10000 usw. Man muss drei Sorten von Zählindices unterscheiden: 1. Index für die Zählung der n Elemente der Urliste, 2. Index für die Zählung der m n verschiedenen Merkmalsausprägungen in der Urliste, 3. Index für die Zählung der K Klassen. Die Klassenzahl K muss nicht notwendigerweise kleiner als m oder n sein, dies ist aber sinnvoll (s.o.) Alle drei Zählindices werden häufig in der Literatur (und auch in der Formelsammlung) mit denselben Buchstaben i und k bezeichnet! Was gemeint ist, muss aus dem Zusammenhang hervorgehen!

5.4(c): Klassenbreite, -mittel und -mitte Die Definition dieser Größen ist für die Bestimmung der Häufigkeitsdichte und der Verteilungsfunktion sowie für die in Kap. 6 diskutierten Kenngrößen notwendig: Klassenbreite: k = x o k x u k Das Klassenmittel x k = 1 h k (x k ) i h k i=1 ist das arithmetische Mittel der Elemente (x k ) k innerhalb der betrachteten Klasse i Die Klassenmitte x k = xo k + xu k 2 ist das einfache Mittel aus der unteren und der oberen Klassengrenze. Hinweis: Das Klassenmittel ist das echte Mittel der Merkmalswerte in der Klasse. Es ist genauer als die Klassenmitte, setzt aber die Kenntnis der Urliste voraus!

5.4(d): Verteilungsfunktion und Häufigkeitsdichte Die absoluten Klassenhäufigkeiten h k, relativen Klassenhäufigkeiten f k = h k /n, sowie die relativen Summenhäufigkeiten F k = k i=1 f i werden wie bei den nichtklassierten Daten ermittelt. Unter der Annahme einer Gleichverteilung der Merkmalswerte innerhalb jeder der Klassen gibt es aber folgende neue Analysemöglichkeiten: Absolute und relative Häufigkeitsdichte: h D k = h k k, f D k = h k n k = f k k Empirische Verteilungsfunktion: 8 0 falls x < x u 1 ><, x x u F F(x) = k 1 + f k k falls x u k k x < xo k mit F 0 = 0, k = 1, 2,, K, >: 1 falls x > x o K Empirische Dichtefunktion ( Histogramm ) f(x) = df(x) dx = 8 >< >: 0 falls x < x u 1, f D k falls x u k x < xo k mit k = 1, 2,, K, 0 falls x > x o K

5.4(e): Grafische Darstellung klassierter Daten Verteilungsfunktion F(X) 1 0.8 0.6 0.4 F(x) 0.2 o (x i,fi ) 0 50 100 150 200 250 300 v max (km/h) Relative Häufigkeitsdichte Rel. H"aufigkeitsdichte 0.025 0.02 0.015 0.01 0.005 0 (x i *,fi * ) Histogramm f(x) (H"aufigkeityspolygon) 50 100 150 200 250 300 350 v max (km/h)