2 Merkmalsausprägungen, Skalen, Häufigkeiten, Klassierung

Ähnliche Dokumente
Variablen und Skalenniveaus

3. Merkmale und Daten

Wahrscheinlichkeits - rechnung und Statistik

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistik Skalen (Gurtner 2004)

WISTA WIRTSCHAFTSSTATISTIK

Daten, Datentypen, Skalen

3. Deskriptive Statistik

Deskriptive Statistik Auswertung durch Informationsreduktion

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

1. Tutorial. Online-Tutorium-Statistik von T.B.

Datenerhebung, Skalenniveaus und Systemdatei

Beschreibung von Daten

Einführung in die Statistik

Statistik Grundbegriffe

Mathematische Statistik. Zur Notation

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Kapitel 2. Häufigkeitsverteilungen

Statistik I (17) 79. Untersuchen Sie die Daten aus Tabelle 1.

Statistische Grundlagen I

f j = ( 2) = 5.5.

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

Einführung in Quantitative Methoden

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Deskriptive Statistik 1 behaftet.

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Mathematik für Biologen

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

0 Einführung: Was ist Statistik

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Fachrechnen für Tierpfleger

4. Kumulierte Häufigkeiten und Quantile

Teil I: Deskriptive Statistik

Lage- und Streuungsparameter

4. Kumulierte Häufigkeiten und Quantile

Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe

Verteilungsfunktion und dquantile

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Forschungsmethoden in der Sozialen Arbeit

2 Häufigkeitsverteilungen

Musterlösung zur Übungsklausur Statistik

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

1 Stochastik deskriptive Statistik und Wahrscheinlichkeitsrechnung. Statistik und Wahrscheinlichkeitsrechnung

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012

Einige Grundbegriffe der Statistik

Einführung in Quantitative Methoden

Verteilungsfunktion und Quantile

Statistik I für Betriebswirte Vorlesung 9

Mathematische und statistische Methoden I

Statistik und Wahrscheinlichkeitsrechnung

Kapitel III - Merkmalsarten

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

Bitte am PC mit Windows anmelden!

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Statistik. Jan Müller

Deskriptive Statistik Erläuterungen

1 Einführung und Grundbegriffe

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Verteilungsfunktion und Quantile

Skalenniveaus =,!=, >, <, +, -

Statistik und Wahrscheinlichkeitsrechnung

Verteilungen und ihre Darstellungen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Statistik I für Humanund Sozialwissenschaften

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Grundlagen der Statistik

8. Mai Qualitätsmanagement Werkzeuge des Qualitätsmanagements

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Statistik für Ingenieure Vorlesung 7

Mathematik für Biologen

Statistik eindimensionaler Größen

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Anwendung A_0801_Quantile_Minimum_Maximum

Lösungen zu Übung 1 (Kap. 1.5) Prof. Dr.B.Grabowski

Grafische Darstellung von Häufigkeitsverteilungen (1)

Übung 1 im Fach "Biometrie / Q1"

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Univ.-Prof. Dr. Georg Wydra

SozialwissenschaftlerInnen II

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Beschreibende Statistik

Kapitel VII - Konzentration von Merkmalswerten

Grundbegriffe. Bibliografie

Willkommen zur Vorlesung Statistik

Stichwortverzeichnis. Symbole

Verteilungsfunktion und Quantile

Leseprobe. Michael Sachs. Wahrscheinlichkeitsrechnung und Statistik. für Ingenieurstudenten an Fachhochschulen. ISBN (Buch):

Die deskriptive (beschreibende) Statistik hat als Aufgabe, große Datenmengen durch wenige Kennzahlen. oder Grafiken zu beschreiben.

Didaktik der Stochastik (Leitidee: Daten und Zufall)

Beschreibende Statistik

Transkript:

2 2.1 Merkmalsausprägungen und Skalen Bei statistischen Analysen wird eine bestimmte Anzahl von Elementen untersucht und mit den Methoden der Statistik quantifiziert. Je nach Untersuchung kann es sich dabei um eine Menge aller Elemente (Grundgesamtheit) oder aber einer Teilmenge (Stichprobe) der Grundgesamtheit handeln. Die Untersuchung der Elemente erfolgt anhand eines Merkmals, das Gegenstand der Untersuchung ist. Das Merkmal selber kann wiederum unterschiedliche Merkmalsausprägungen (Zahlen, Beschreibungen) annehmen, wodurch sich die einzelnen Elemente unterscheiden. Beispiele: Es soll die durchschnittliche Semesterzahl aller StudentInnen an der FSU Jena bestimmt werden. Da eine Befragung aller StudentInnen (Grundgesamtheit) nicht praktikabel ist, wird zunächst eine repräsentative Teilmenge (Stichprobe) bestimmt. Aus dieser Stichprobe wird dann jeder einzelne Student oder Studentin (Element) nach der Semesterzahl (Merkmal) befragt. Je nach befragter Person ist die Semesterzahl natürlich unterschiedlich, sie nimmt also unterschiedliche Merkmalsausprägungen an. Es soll die durchschnittliche Tagestemperatur an der Klimastation Jena Sternwarte bestimmt werden. Die Grundgesamtheit ist damit der Verlauf der Temperatur an diesem Tag, der je nach zeitlicher Auflösung sehr viele Werte (bis zu unendlich viele) ergeben kann. In der Meteorologie wird deshalb eine begrenzte Zahl von Messwerten (Stichprobe) bestimmt. Im Allgemeinen die Messwerte um 7:, 14: und 21: Uhr. Die Messwerte zu diesen Zeitpunkten bilden die Elemente der Untersuchung, wobei die gemessene Temperatur das Merkmal darstellt. An den einzelnen Zeitpunkten wurden verschiedene Temperaturen (Merkmalsausprägungen) gemessen. 2.1.1 Skalen Zur Klassifizierung und Einordnung der Merkmalsausprägungen existieren in der Statistik verschiedene, hierarchisch angeordnete Skalen. Diese unterscheiden sich nach der Ausprägung und dem Informationsgehalt der einzelnen Merkmale. Höherwertige Skalen erben immer alle Merkmale und zulässigen Operationen von niederwertigeren. Im Einzelnen werden folgende Skalen unterschieden: Die Nominalskala (klassifikatorisch): Nominalskalierte Merkmalsausprägungen sind lediglich Bezeichner (Namen = Nomen). Die einzelnen Ausprägungen nominalskalierter Variablen sind zwar unterschiedlich aber nicht im Sinne einer Größer/Kleiner Relation vergleichbar. Beispiele für nominalskalierte Merkmalsausprägungen: Wohnort, Geschlecht, Hautfarbe von Personen Stationstyp, Ausstattung von Klimamessstationen 2-1

Variablen mit nur zwei möglichen Ausprägungen (Bsp. Geschlecht) werden als binär, solche mit mehr als zwei Ausprägungen als polytom bezeichnet. Hinweis: Auch wenn nominalskalierte Merkmale aufgrund der Datenverarbeitung oft mit Zahlen bezeichnet werden, können sie dennoch nicht verglichen werden. Die Ordinalskala (komparativ): Ordinal- oder rangskalierte Merkmalsausprägungen können untereinander im Sinne einer Größer/Kleiner Relation verglichen werden. Aufgrund dieser Relation können sie in eine Rangordnung gebracht werden. Auf Grund der Rangfolge kann allerdings keine Aussage über den Abstand der unterschiedlichen Ränge abgeleitet werden. Beispiel für ordinalskalierte Merkmalsausprägungen: Rangfolge bei einem Sportwettkampf (Erster, Zweiter, Dritter...) Hier gilt: Der Erste war schneller als der Zweite. Aber nicht der Erste war doppelt so schnell wie der Zweite. Auch der Abstand zwischen dem Ersten und dem Zweiten ist nicht gleich dem Abstand zwischen dem Achten und Neunten. Die Intervallskala (metrisch): Intervallskalierte Merkmalsausprägungen besitzen keinen absoluten Nullpunkt, es wird höchstens ein Nullpunkt nach Übereinkunft festgelegt. Deshalb lassen sich keine interpretierbare Multiplikationen oder Divisionen durchführen. Es lassen sich keine Aussagen treffen wie: Der Wert des Elementes A ist x-mal so groß wie der des Elementes B. Beispiel für intervallskalierte Merkmalsausprägungen: Temperaturen nach der C-Skala Beispiel: 3 C bedeutet nicht doppelt so viel Energie wie 15 C aber der Abstand zwischen und 1 C ist doppelt so groß wie der Abstand zwischen und 5 C. Die Rationalskala (metrisch): Rationalskalierte Merkmalsausprägungen besitzen einen absoluten Nullpunkt. Mit rationalskalierten Variablen lassen sich interpretierbare Multiplikationen oder Divisionen durchführen. Es lassen sich Aussagen treffen wie: Der Wert des Elementes A ist x-mal so groß wie der des Elementes B. Beispiele für rationalskalierte Merkmalsausprägungen: Temperaturen in Kelvin, Größe von Gebieten Beispiel: 3 km² ist doppelt so groß wie 15 km² Der Abstand zwischen und 1 km ist doppelt so groß wie der zwischen und 5 km. Die beiden metrischen Skalen (Intervall und Rational) werden in der Statistik häufig zur Kardinalskala zusammengefasst. Für eine naturwissenschaftliche Interpretation ist die Trennung der beiden Skalen jedoch sehr sinnvoll. Tabelle 1 gibt einen zusammenfassenden Überblick über die einzelnen Skalen, ihren Zweck und die zulässigen mathematischen Operationen. 2-2

Tabelle 1: Zweck, Relationen und Beispiele für die Skalen der Statistik Skala Zweck Relationen Operationen Beispiele Nominalskala Identifikation von Untersuchungselementen x i = x j x i x j Geschlecht, Farben, Namen Ordinalskala Identifikation und Ordnung wie oben und: x i > x j x i < x j Rangfolge beim Sport, MOHSsche Härteskala, Richterskala Intervallskala Identifikation, Ordnung und Bewertung (additiv) wie oben und: x i = x j + a x i = x j b x i + x j = c Temperaturen in Fahrenheit oder Celsius Rationalskala Identifikation, Ordnung und Bewertung (multiplikativ) wie oben und: x i = x j a x i = x j / b x i x j = c Temperaturen in Kelvin, Gewichte, Längen, Größen von Einzugsgebieten 2.2 Ordnung des Datenmaterials, Klassifikation und Darstellung Vor jeder statistischen Analyse muss im Allgemeinen zunächst das Datenmaterial, die Rohdatensätze gesichtet, aufbereitet und in eine entsprechende Form gebracht werden. Primär- oder sekundärstatistische Rohdaten(sätze) einer endlichen Grundgesamtheit oder einer zufälligen Stichprobe einer unendlichen Grundgesamtheit liegen meist in Urlisten vor. Sollen beispielsweise Zeitreihen von Klima- und Abflusswerten statistisch ausgewertet werden, liegen diese meist als Zeitreihen der verschiedenen Merkmale vor: Datum Luftfeuchte Temperatur Niederschlag Abfluss 1.1.1981 74-2.6 12.22 1.234 2.1.1981 75 -.4. 2.345 3.1.1981 78 -.3 1.2 1.768............... 3.12.1981 72 +5.4. 1.221 31.12.1981 75 +3.4 1.5 1.234 In dieser Tabelle hat jeder Merkmalsträger (Datensatz) vier Merkmale (LF, T, N, A) mit jeweils 365 Merkmalsausprägungen (Tage im Jahr). Der erste Schritt in der statistischen Analyse besteht meist darin die Urliste hinsichtlich der Häufigkeit einzelner Merkmalsausprägungen zu untersuchen. Diese Untersuchung wird für jedes Merkmal getrennt durchgeführt und man erhält merkmalspezifische Strichlisten: 2-3

Soll aus der oben angeführten Zeitreihe beispielsweise die relative Luftfeuchtigkeit (LF) analysiert werden, werden die einzelnen unterschiedlichen Merkmalsausprägungen der Größe nach sortiert und die Häufigkeit des Auftretens bestimmt: Laufende Nummer des Merkmals = Index i Ausprägung des Merkmals LF x i Anzahl der Tage mit LF = x i 1 64 IIIIIIIIIIIIIIIIIIII 2 68 IIIIIIIIIIIIIIIIIIIIIIIIIIII 3 72 IIIIIIIIIIIIIIIIIIIIIIIIIII......... 1 97 IIIIIIIIII 2.3 Einfache Häufigkeiten 2.3.1 Absolute Häufigkeit Die absolute Anzahl mit der ein spezifisches Merkmal xi in der Liste vertreten ist wird absolute Häufigkeit genannt und mit hi bezeichnet. Die Summe der hi ergibt die Anzahl der Elemente der Stichprobe die mit n bezeichnet wird. Die folgende Tabelle zeigt die absoluten Häufigkeiten der Merkmalsausprägungen der Luftfeuchte im Jahr 1981. Die grafische Darstellung der absoluten Häufigkeiten erfolgt meist als Stabdiagramm. i x i h i 1 64 2 2 68 26 3 72 34 4 74 52 5 76 81 6 79 56 7 83 35 8 89 26 9 91 2 1 97 15 Σ 365 9 8 7 6 5 4 3 2 1 h i 64 68 72 74 76 79 83 89 91 97 2.3.2 Relative Häufigkeit Der Quotient der absoluten Häufigkeit h i jedes Merkmals x i und der Summe der Ausprägungen n ergibt die relative Häufigkeit des Merkmals. Die relative Häufigkeit wird mit f i bezeichnet. Die Summe aller relativen Häufigkeiten f i ergibt immer 1. n hi Es gilt also: f i = und f i = 1 n i= 1 2-4

Die folgende Tabelle zeigt die absoluten und relativen Häufigkeiten der Merkmalsausprägungen der Luftfeuchte im Jahr 1981. Die grafische Darstellung der absoluten Häufigkeiten erfolgt ebenfalls meist als Stabdiagramm. i x i h i f i 1 64 2.55 2 68 26.71 3 72 34.93 4 74 52.142 5 76 81.222 6 79 56.153 7 83 35.96 8 89 26.71 9 91 2.55 1 97 15.41 Σ 365 1..25.2.15.1.5. f i 64 68 72 74 76 79 83 89 91 97 2.3.3 Prozentuale Häufigkeit Die Multiplikation der relativen Häufigkeit mit 1 ergibt die prozentuale Häufigkeit, die mit pi bezeichnet wird. Die Summe von pi ergibt immer 1. i x i h i f i p i 1 64 2.55 5.5 2 68 26.71 7.1 3 72 34.93 9.3 4 74 52.142 14.2 5 76 81.222 22.2 6 79 56.153 15.3 7 83 35.96 9.6 8 89 26.71 7.1 9 91 2.55 5.5 1 97 15.41 4.1 Σ 365 1. 1 2.4 Kumulierte Häufigkeiten Im Gegensatz zu den einfachen Merkmalshäufigkeiten, bei denen die einzelnen Merkmale getrennt betrachtet werden, werden bei den Summenhäufigkeiten die einzelnen Häufigkeiten kontinuierlich aufsummiert (kumuliert). Die Bezeichnung erfolgt analog zu den einfachen Häufigkeiten, allerdings mit Großbuchstaben. 2-5

2.4.1 Kumulierte absolute Häufigkeit Die kumulierte absolute Häufigkeit wird mit Hi bezeichnet und ergibt sich aus der schrittweisen Aufsummierung der einfachen absoluten Häufigkeiten h i der Merkmale i = 1 bis n. i x i h i H i 1 64 2 2 2 68 26 46 3 72 34 8 4 74 52 132 5 76 81 213 6 79 56 269 7 83 35 34 8 89 26 33 9 91 2 35 1 97 15 365 Σ - 365-35 3 25 2 15 1 5 H i 64 68 72 74 76 79 83 89 91 97 2.4.2 Kumulierte relative Häufigkeit Die kumulierte relative Häufigkeit wird mit Fi bezeichnet und ergibt sich aus der schrittweisen Aufsummierung der einfachen relativen Häufigkeiten f i der Merkmale i = 1 bis n. i x i h i f i F i 1 64 2.55.55 2 68 26.71.126 3 72 34.93.219 4 74 52.142.362 5 76 81.222.584 6 79 56.153.737 7 83 35.96.833 8 89 26.71.94 9 91 2.55.959 1 97 15.41 1. Σ - 365 1. - 1..8.6.4.2. F i 64 68 72 74 76 79 83 89 91 97 2.4.3 Kumulierte prozentuale Häufigkeit Die kumulierte relative Häufigkeit wird mit Pi bezeichnet und ergibt sich aus der schrittweisen Aufsummierung der einfachen prozentualen Häufigkeiten p i der Merkmale i = 1 bis n. 2-6

i x i h i p i P i 1 64 2 5.5 5.5 2 68 26 7.1 12.6 3 72 34 9.3 21.9 4 74 52 14.2 36.2 5 76 81 22.2 58.4 6 79 56 15.3 73.7 7 83 35 9.6 83.3 8 89 26 7.1 9.4 9 91 2 5.5 95.9 1 97 15 4.1 1 Σ - 365 1-2.5 Klassierung von Verteilungen Meist ist man in der Geographie mit breit verteilten Merkmalsausprägungen, die zudem eine große Spannweite besitzen konfrontiert. Beispiele: Die Abflusswerte der Unstrut liegen zwischen: 4.6 und 363 m³/s Die relative Luftfeuchte schwankt in Deutschland zwischen: 5 und 1% Die Jahreseinkommen einer befragten Berufsgruppe liegt zwischen 39283 und 6989 Werden solch breit verteilte Merkmalsausprägungen ohne weitere Bearbeitung in Häufigkeitstabellen überführt erhält man oft eine sehr große Anzahl von Merkmalsausprägungen, die gleichzeitig oft sehr geringe absolute Häufigkeiten besitzen. Die Anzahl der einzelnen Merkmale ist dann weiter sehr groß und die Liste bleibt damit sehr unübersichtlich. Beispiel Abfluss der Zahmen Gera 1981 (.18 1.3 m³/s): 12 1 8 Runoff [m³/s] 6 4 2 11/8 12/8 1/81 2/81 3/81 4/81 5/81 6/81 7/81 8/81 9/81 1/81 11/81 2-7

Von den ehemals 365 Werten der Urliste bleiben 6 unterschiedlichen Merkmalsausprägungen in der Häufigkeitstabelle erhalten. i Runoff hi 1.18 1 2.22 23 3.23 24 4.26 28 5.27 6 6.29 27 7.31 17 8.32 6 9.35 13 1.36 9 11.38 4 12.41 2 13.44 14 14.46 8 15.47 1 16.5 4 17.52 4 18.54 8 19.57 3 2.58 6 21.62 9 22.64 12 23.7 5 24.71 11 25.76 4 26.79 3 27.81 3 28.82 4 29.88 7 3.92 4 31.95 2 32.97 4 33 1.2 2 34 1.7 6 35 1.9 3 36 1.16 1 37 1.17 5 38 1.3 3 39 1.33 1 4 1.41 1 41 1.47 1 42 1.49 1 43 1.55 4 44 1.57 2 45 1.68 4 46 1.73 1 47 1.81 2 48 2.8 2 49 2.21 1 5 2.35 1 51 2.49 2 52 2.97 1 53 3.14 2 54 3.32 1 55 4.88 1 56 5.78 1 57 7.3 1 58 8.1 1 59 8.64 1 6 1.3 1 Auch als grafische Darstellung bleibt die Häufigkeitsverteilung unübersichtlich und damit schwer interpretierbar. 3 25 2 h i 15 1 5 2 4 6 8 1 12 Runoff [m³/s] Zur Erhöhung der Übersichtlichkeit und zur besseren Interpretierbarkeit ist es in solchen Fällen sinnvoll, die Daten weiter zusammenzufassen (zu aggregieren). In der Statistik werden hierzu die Daten klassiert. 2-8

Bei der Klassierung wird das gesamte Werteintervall zwischen dem kleinsten und dem größten vorkommenden Wert in Wertegruppen (Klassen) unterteilt. Anschließend werden die absoluten Häufigkeiten für jede Klasse berechnet. Ziel einer guten Klassifikation soll es sein: Eine möglichst gute Übersichtlichkeit bei möglichst geringem Informationsverlust zu erreichen. Hierbei ist zu beachten, dass Je weniger Klassen gebildet werden, desto besser ist die Übersichtlichkeit, aber desto größer ist auch der Informationsverlust Es stellt sich also die Frage: Wie viele Klassen sollen gebildet werden, damit das beste Ergebnis erreicht wird? Generell gilt: Je mehr Elemente vorhanden sind, desto mehr Klassen sollten gebildet werden. Einen ersten Ansatzpunkt für eine geeignete Klassenzahl bietet die Faustregel nach STURGES: Mit: k = Anzahl der Klassen n = Anzahl der Elemente k = 1+ 3.32 lg n Für die Klassierung der Abflusswerte der Zahmen Gera ergibt sich nach STURGES: k = 1 + 3.32 lg n = 1+ 3.32 lg6 = 6.93 Das Ergebnis der Faustformel wird auf die nächste ganze Zahl gerundet. Für die Abflusswerte wäre also die Unterteilung in etwa 7 Klassen geeignet. Die tatsächliche Klasseneinteilung sollte dann so vorgenommen werden, dass: Sich verschiedene Klassen sich nicht überdecken Das gesamte Werteintervall von den Klassen überdeckt wird Die Klassenintervalle möglichst gleich groß sind (= gleiche Klassenbreite) Die Klassenmitten und Klassengrenzen möglichst einfache Zahlen sind Nach der Bestimmung der Anzahl der Klassen, muss als nächster Schritt die Breite ( x) der einzelnen Klassen bestimmt werden. Diese berechnet sich nach: x = ( x x ) max Mit: x max Größte Merkmalsausprägung der Verteilung x min Kleinste Merkmalsausprägung der Verteilung k Klassenzahl Für das Beispiel der Zahmen Gera ergibt sich die Klassenbreite nach: k min 2-9

x = ( 1.3.18) 7 = 1.45 Auch hier kann wieder auf einen geeigneten Wert gerundet werden. Für die Klassenbreite des Beispiels etwa auf 1.5 Die klassierte Verteilung ergibt sich damit wie folgt: Runoff h i f i <1,5 336.921 >1,5 3, 2.55 4 hi 35 3 25 >3, 4,5 3.8 >4,5 6, 2.5 >6, 7,5 1.3 >7,5 9, 2.5 >9, 1.3 2 15 1 5 > 1.5 > 1.5-3. > 3. - 4.5 > 4.5-6. > 6. - 7.5 > 7.5-9. > 9. Das Beispiel zeigt, dass bei stark ungleich verteilten Daten die Einteilung nach STURGES zu einem überproportionalen Informationsverlust führt. In solchen Fällen ist eine Erhöhung der Klassenzahl sinnvoll. Eine Verdopplung der Klassenzahl führt zu folgendem Ergebnis: Runoff h i f i <.75 281.77 >.75 1.5 55.151 >1.5 2.25 16.44 >2.25 3. 4.11 >3. 3.75 3.8 >3.75 4.5. >4.5 5.25 1.3 >5.25 6. 1.3 >6. 6.75. >6.75 7.5 1.3 >7.5 8.25 1.3 >8.25 9. 1.3 >9. 9.75. >9.75 1.3 365 1. 3 h i 25 2 15 1 5 2-1

2.5.1 Definitionen und Berechnungen von Klassenmerkmalen Die folgende Tabelle zeigt eine zusammenfassende Darstellung der Definitionen, Berechnungen und Beschreibungen von einzelnen Parametern klassierter Verteilungen. Tabelle 2: Definitionen und Berechnungen von Klassenmerkmalen Beschreibung Formelzeichen Berechnung Untere Klassengrenze der Klasse i x iu - Obere Klassengrenze der Klasse i x io - x Klassenbreite der Klasse i x i i io iu Klassenmitte der Klasse i Absolute Häufigkeit der Merkmale in der Klasse i mit hj = Einzelhäufigkeiten der Elemente in der Klasse i Relative Häufigkeit der Klasse i x im h i f i x x im h = = x ( x + x ) iu x = io 2 i h j j= x Prozentuale Häufigkeit der Klasse i p i p f 1 i f i = = i iu h i n io 2.5.2 Graphische Darstellungen von Häufigkeiten Blockdiagramm: Geeignete Darstellungsform von metrischen Daten, da Blockdiagramme das Werteintervall, das die einzelnen Werte annehmen auch grafisch vermitteln. i x i h i 1 54 2 2 68 26 3 72 34 4 74 52 5 76 81 6 79 56 7 83 35 8 89 26 9 91 2 1 97 15 9 8 7 6 5 4 3 2 1 5 6 7 8 9 1 2-11

Stabdiagramm: Geeignete Darstellungsform bei diskreten Daten. i x i h i 1 Blau 2 2 Grün 26 3 Orange 34 4 Gelb 52 5 Violett 81 6 Rot 56 7 Grau 35 8 Cyan 26 9 Magenta 2 1 schwarz 15 1 8 6 4 2 blau grün orange gelb violett rot grau cyan magentaschwarz Häufigkeitspolygone: Geeignete Darstellung von kontinuierlichen (stetigen) Daten. Hier wird dargestellt, dass der Verlauf zwischen den einzelnen Ausprägungen durch stetige Daten gebildet wird. i x i h i 1 54 2 2 68 26 3 72 34 4 74 52 5 76 81 6 79 56 7 83 35 8 89 26 9 91 2 1 97 15 9 8 7 6 5 4 3 2 1 5 6 7 8 9 1 Häufigkeitspolygone werden oft auch zur Darstellung von kumulierten Häufigkeiten eingesetzt. Bei diskreten Daten (links) als Treppenfunktion, bei stetigen (rechts) als Kurvenzug. 2-12

4 4 35 35 3 3 25 25 2 2 15 15 1 1 5 5 blau grün orange gelb violett rot grau cyan magentaschwarz 6 7 8 9 2.6 Übungsaufgaben Aufgabe 1: Nennen sie die entsprechende Skala und die Art der Merkmalsausprägung (stetig oder diskret) für folgende Merkmale: a) Preis b) Staatsangehörigkeit c) Fläche eines Landes d) Arbeitslosenzahl e) Sprache f) Fettgehalt des Mensa-Essens g) Punkte in der Statistikklausur Aufgabe 2: Gegeben sei folgende Häufigkeitsverteilung: Löhne (in Euro) Anzahl der Arbeiter 5. 59.99 8 6. 69.99 1 7. 79.99 16 8. 89.99 14 9. 99.99 1 1. 19.99 5 11. 119.99 2 Konstruieren Sie: a) eine kumulative Häufigkeitsverteilung b) eine prozentuale kumulative Verteilung c) eine Summenkurve d) eine prozentuale Summenkurve 2-13

Aufgabe 3: Wenn die Klassenmitten in einer Häufigkeitsverteilung der Längen von Lorbeerblättern 128, 137, 146, 155, 164, 173 und 182 mm sind, so bestimmen Sie unter der Vorraussetzung, dass die Längen auf den nächsten Millimetern genau gemessen wurden: a. Die Klassenbreiten b. Die Klassengrenzen Aufgabe 4: In der folgenden Tabelle sind die Längen von 4 Schrauben auf den nächsten Millimeter genau angegeben. 138 164 15 132 144 125 149 157 146 158 14 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 14 135 161 145 135 142 15 156 145 128 Konstruieren Sie eine geeignete Häufigkeitsverteilung. 2-14

2.7 Musterlösung zu den Übungsaufgaben Aufgabe 1: Nennen sie die entsprechende Skala und die Art der Merkmalsausprägung (stetig oder diskret) für folgende Merkmale: a) Preis Rationalskala, stetige Merkmalsausprägung b) Staatsangehörigkeit Nominalskala, diskrete Merkmalsausprägung c) Fläche eines Landes Rationalskala, stetige Merkmalsausprägung d) Arbeitslosenzahl Rationalskala, diskrete Merkmalsausprägung e) Sprache Nominalskala, diskrete Merkmalsausprägung f) Fettgehalt des Mensa-Essens Rationalskala, stetige Merkmalsausprägung g) Punkte in der Statistikklausur Ordinalskala, diskrete Merkmalsausprägung Aufgabe 2: Gegeben sei folgende Häufigkeitsverteilung: Löhne (in Euro) Anzahl der Arbeiter 5. 59.99 8 6. 69.99 1 7. 79.99 16 8. 89.99 14 9. 99.99 1 1. 19.99 5 11. 119.99 2 Konstruieren Sie: a) eine kumulative Häufigkeitsverteilung b) eine prozentuale kumulative Verteilung c) eine Summenkurve d) eine prozentuale Summenkurve 2-15

Lösung a) Spalte 5 und b) Spalte 9 i x i n i h i H i f i F i p i P i 1 5. 59.99 8 8 8.123.123 12.3 12.3 2 6. 69.99 1 1 18.154.277 15.4 27.7 3 7. 79.99 16 16 34.246.523 24.6 52.3 4 8. 89.99 14 14 48.215.738 21.5 73.8 5 9. 99.99 1 1 58.154.892 15.4 89.2 6 1. 19.99 5 5 63.77.969 7.7 96.9 7 11. 119.99 2 2 65.31 1. 3.1 1 Σ - 65 65-1. - 1. - zu c) 1..9 kumulierte relative Häufigkeit - F i.8.7.6.5.4.3.2.1. < 5 < 6 < 7 < 8 < 9 < 1 < 11 < 12 Löhne in zu d) kumulierte prozentuale Häufigkeit - P i 1 9 8 7 6 5 4 3 2 1 < 5 < 6 < 7 < 8 < 9 < 1 < 11 < 12 Löhne in 2-16

Aufgabe 3: Wenn die Klassenmitten in einer Häufigkeitsverteilung der Längen von Lorbeerblättern 128, 137, 146, 155, 164, 173 und 182 mm sind, so bestimmen Sie unter der Vorraussetzung, dass die Längen auf den nächsten Millimetern genau gemessen wurden: Die Klassenbreiten: Die Klassenbreiten ergeben sich aus der Differenz der jeweiligen Klassenmitten: 137 128 = 146 137 = L = 182 173 = 9. Die Klassenbreiten der Verteilung betragen also 9 mm. Die Klassengrenzen: Da die Klassen alle die gleiche Breite haben liegen die Klassengrenzen genau zwischen den Klassenmitten und berechnen sich nach: ( xim + xi 1m ) ( xim + xi+ 1m ) xiu = x io = 2 2 Die Klassenuntergrenze der ersten Klasse berechnet sich aus der Klassenuntergrenze der zweiten Klasse minus der Klassenbreite: x = 132.5 9 123. 5 1 u = Die Klassenobergrenze der letzten Klasse berechnet sich aus der Klassenobergrenze der vorletzten plus der Klassenbreite: x = 177.5 + 9 186. 5 Klasse i x iu x im x io 1 123.5 128 132.5 2 >132.5 137 141.5 3 >141.5 146 15.5 4 >15.5 155 159.5 5 >159.5 164 168.5 6 >168.5 173 177.5 7 >177.5 182 186.5 7 o = Aufgabe 4: In der folgenden Tabelle sind die Längen von 4 Schrauben auf den nächsten Millimeter genau angegeben. 138 164 15 132 144 125 149 157 146 158 14 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 14 135 161 145 135 142 15 156 145 128 2-17

Konstruieren Sie eine geeignete Häufigkeitsverteilung. Da die absoluten Häufigkeiten der Einzelmerkmalsausprägungen der gegebenen Verteilung gering sind, bietet es sich an eine klassierte Verteilung zu erstellen. Folgende Schritte sind hierzu notwendig: a) Bestimmung der Anzahl k der Klassen. Nach Sturges ergibt sich für k: k = 1 + 3.32 lg n = 1+ 3.32 lg 4 = 6.32 Nach der Faustregel sollten also 6 Klassen gebildet werden. b) Bestimmung der Klassenbreiten x aus k und dem Minimum x min bzw. Maximum x max der Verteilung nach: x = ( x x ) 176 119 57 = = 6 6 max min = Da für die Klassenbreiten einfache, runde Zahlen gewählt werden sollten bietet sich eine Klassenbreite von 1 an. c) Mit den Werten aus a) und b) können nun die Klassen erstellt werden: Klasse i Länge in mm 1 119 129 2 > 129 139 3 > 139 149 4 > 149 159 5 > 159 169 6 > 169 179 k 9.5 d) Nun können die absoluten Häufigkeiten für die einzelnen Klassen aus der Urliste ermittelt werden: Klasse Länge in mm Strichliste Häufigkeit i 1 119 129 IIII 4 2 > 129 139 IIIII II 7 3 > 139 149 IIIII IIIII IIII 4 > 149 159 IIIII III 8 5 > 159 169 IIIII 5 6 > 169 179 II 2 14 Summe 4 2-18