3.1 Häufigkeiten bei diskreten Merkmalen Absolute und relative Häufigkeiten Graphische Darstellungen 40

Ähnliche Dokumente
Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Auswertung univariater Datenmengen - deskriptiv

FORMELSAMMLUNG STATISTIK (I)

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Auswertung univariater Datenmengen - deskriptiv

6. Modelle mit binären abhängigen Variablen

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Erwartungswert, Varianz, Standardabweichung

Ursache der Ungewissheit kann dabei z.b. unvollständige Information sein oder unbekannte bzw. nicht beeinflussbare Bedingungen.

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Kursthemen 2. Sitzung. Tabellarische und graphische Darstellung diskreter Daten. Tabellarische und graphische Darstellung diskreter Daten

Konkave und Konvexe Funktionen

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Lösungen zum 3. Aufgabenblock

3. Lineare Algebra (Teil 2)

Musterklausur Wirtschaftsmathematik und Statistik. Zusatzstudium für Wirtschaftsingenieur

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Standardnormalverteilung / z-transformation

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

Klasse : Name1 : Name 2 : Datum : Nachweis des Hookeschen Gesetzes und Bestimmung der Federkonstanten

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

3.3 Lineare Abbildungen und Matrizen

Polygonalisierung einer Kugel. Verfahren für die Polygonalisierung einer Kugel. Eldar Sultanow, Universität Potsdam,

Beschreibende Statistik Mittelwert

Mathematik für MolekularbiologInnen. Vorlesung VII Block III: Wahrscheinlichkeit und Statistik Verteilungen und Lagemaßzahlen

Lineare Regression (1) - Einführung I -

Ionenselektive Elektroden (Potentiometrie)

Diskrete Mathematik 1 WS 2008/09

Quantitatives Prognosemodell für die Anwendung des Black-Litterman-Verfahrens

Analyse von Querschnittsdaten. Bivariate Regression

3.2 Die Kennzeichnung von Partikeln Partikelmerkmale

Statistik und Wahrscheinlichkeit

1 Mehrdimensionale Analysis

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

Datenaufbereitung und Darstellung

6 Wandtafeln. 6.3 Berechnung der Kräfte und des Schubflusses auf Wandtafeln Allgemeines

ω 0 = Protokoll zu Versuch E6: Elektrische Resonanz

Praktikum Physikalische Chemie I (C-2) Versuch Nr. 6

Spiele und Codes. Rafael Mechtel

Für wen ist dieses Buch? Was ist dieses Buch? Besonderheiten. Neu in dieser Auflage

Methoden der innerbetrieblichen Leistungsverrechnung

Statistik. 1. Vorbereitung / Planung - präzise Formulierung der Ziele - detaillierte Definition des Untersuchungsgegenstandes

Übung zur Vorlesung. Informationstheorie und Codierung

4. Musterlösung. Problem 1: Kreuzende Schnitte **

Netzwerkstrukturen. Entfernung in Kilometer:

Klassische Gatter und Logikelemente. Seminarvortrag zu Ausgewählte Kapitel der Quantentheorie Quantenalgorithmen

Protokoll zum Grundversuch Mechanik

1 Definition und Grundbegriffe

Versicherungstechnischer Umgang mit Risiko

Berechnung der Messunsicherheit nach GUM Kurzfassung in 20 min

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

Stochastische Prozesse

Vorlesung 1. Prof. Dr. Klaus Röder Lehrstuhl für BWL, insb. Finanzdienstleistungen Universität Regensburg. Prof. Dr. Klaus Röder Folie 1

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Gliederung des Kurses:

Z Z, kurz { } Zählt die Reihenfolge der Buchstaben (ja/nein) Daraus ergeben sich wiederum vier Möglichkeiten, Wörter der Länge k zu bilden.

Finanzwirtschaft. Kapitel 3: Simultane Investitions- und Finanzplanung. Lehrstuhl für Finanzwirtschaft - Universität Bremen 1

18. Vorlesung Sommersemester

Spannweite, Median Quartilsabstand, Varianz und Standardabweichung.

Konzept der Chartanalyse bei Chart-Trend.de

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/ ω Additionstheorem: 2 sin 2 2

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord

UNIVERSITÄT STUTTGART INSTITUT FÜR THERMODYNAMIK UND WÄRMETECHNIK Professor Dr. Dr.-Ing. habil. H. Müller-Steinhagen P R A K T I K U M.

12 UMPU Tests ( UMP unbiased )

Man unterscheidet zwischen gewichteten und ungewichteten Faktorwerten.

F A C H H O C H S C H U L E W E D E L. Seminararbeit Informatik

Operations Research II (Netzplantechnik und Projektmanagement)

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.

Analytische Chemie. LD Handblätter Chemie. Bestimmung der chemischen Zusammensetzung. mittels Röntgenfluoreszenz C

Ich habe ein Beispiel ähnlich dem der Ansys-Issue [ansys_advantage_vol2_issue3.pdf] durchgeführt. Es stammt aus dem Dokument Rfatigue.pdf.

Boost-Schaltwandler für Blitzgeräte

Nomenklatur - Übersicht

18. Dynamisches Programmieren

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Übung/Tutorate Statistik II: Schließende Statistik SS 2007

Der stöchiometrische Luftbedarf einer Reaktion kann aus dem Sauerstoffbedarf der Reaktion und der Zusammensetzung der Luft berechnet werden.

tutorial N o 1a InDesign CS4 Layoutgestaltung Erste Schritte - Anlegen eines Dokumentes I a (Einfache Nutzung) Kompetenzstufe keine Voraussetzung

Portfoliothorie (Markowitz) Separationstheorem (Tobin) Kapitamarkttheorie (Sharpe

H I HEIZUNG I 1 GRUNDLAGEN 1.1 ANFORDERUNGEN. 1 GRUNDLAGEN 1.1 Anforderungen H 5

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Wir betrachten in diesem Abschnitt Matrixspiele in der Maximierungsform, also endliche 2 Personen Nullsummenspiele der Gestalt

Transistor als Schalter

Entscheidungsprobleme der Marktforschung (1)

Risikomanagement. Vortrag in der Seminarreihe Statistische Mechanik der Finanzmärkte im WS 07/08. Simon Hertenberger

Kapitel 1. Grundlagen der Fehleranalyse

Für jeden reinen, ideal kristallisierten Stoff ist die Entropie am absoluten Nullpunkt gleich

1 BWL 4 Tutorium V vom

Die Zahl i phantastisch, praktisch, anschaulich

Einführung in die Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung. Übersicht. Wahrscheinlichkeitsrechnung. bedinge Wahrscheinlichkeit

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

9 Diskriminanzanalyse

Hat die Wahl des Performancemaßes einen Einfluss auf die Beurteilung von Hedgefonds-Indizes?

Gruppe. Lineare Block-Codes

"Zukunft der Arbeit" Arbeiten bis 70 - Utopie - oder bald Realität? Die Arbeitnehmer der Zukunft

Ordered Response Models (ORM)

Transkript:

3 Häufgketen 3. Häufgketen be dskreten Merkmalen 39 3.. Absolute und relatve Häufgketen 39 3..2 Graphsche Darstellungen 40 3.2 Häufgketen be stetgen Merkmalen 42 3.2. Das Prnzp der Klassenbldung 42 3.2.2 Graphsche Darstellungen 44 3.3 De emprsche Vertelungsfunkton 46 3.4 2-dmensonale Häufgketen 49 3.4. De Kontngenztafel 49 3.4.2 De Beschrebung ener Assozaton 50 3.4.3 Ausblck auf de nduktve Statstk 52

Basswssen Medznsche Statstk Inhaltlche Struktur: klare Glederung durch alle Kaptel Schlüsselbegrffe: snd fett und kursv hervorgehoben 38 Kaptel 3 Häufgketen Letsystem: schnelle Orenterung über alle Kaptel Info: zusätzlche Informatonen zum jewelgen Thema Verwese auf Kaptel, Tabellen, Herletungen und Bespele: deutlch herausgestellt und lecht zu fnden Bespele: zum besseren Verständns des Stoffes Tabellen: klar und überschtlch gegledert 3 3. Häufgketen be dskreten Merkmalen 3.. Absolute und relatve Häufgketen Um sch enen Überblck bezüglch wesentlcher Egenschaften enes Merkmals anzuegnen, begnnt man mt der Häufgketsvertelung. Dese Vertelung beschrebt, we häufg de enzelnen Merkmalsausprägungen n der Stchprobe zu fnden snd. k n = n (3.) = Be dem Summen-Zechen handelt es sch um den grechschen Buchstaben Sgma. Damt werden Summen n verkürzter Schrebwese k dargestellt. Der Ausdruck n entsprcht der Summe n + n2 +... + nk. = In der Praxs gewnnt man de Häufgketen am enfachsten durch das Erstellen ener Strchlste oder wenger mühsam mttels ener geegneten Software ( Bespel 3.). Bespel 3. Wr betrachten das qualtatve Merkmal Blutgruppe mt den Daten der n Tabelle 2. aufgelsteten Stchprobe von n = 7 Beobachtungsenheten. Es ergeben sch folgende Häufgketen: Ausprägung absolute Häufgketen relatve Häufgketen A =Blutgruppe 0 n = 28 h = 39 % A 2 =Blutgruppe A n 2 = 3 h 2 = 44 % A 3 =Blutgruppe B n 3 = 9 h 3 = 3 % A 4 =Blutgruppe AB n 4 = 3 h 4 = 4 % Summe n = 7 00 %! De relatve Häufgket wrd oft n Prozentwerten angegeben. Da der Ausdruck Prozent von Hundert bedeutet, snd derle Angaben nur be enem hnrechend großen Stchprobenumfang snnvoll. Wenn man be kleneren Stchproben mt wenger als 50 Beobachtungsenheten Prozente berechnet, täuscht man ene höhere Genaugket vor als n Wrklchket vorhanden st. In desen Fällen sollte man anstelle der Prozentangaben enfache Quotenten bevorzugen we z. B.: De relatve Häufgket der Blutgruppe A be den männlchen Studenten beträgt 0/23. Cave: Vorscht Fallstrcke!

Navgaton: Setenzahl und Kaptelnummer für de schnelle Orenterung 3. Häufgketen be dskreten Merkmalen 39 3 Abb. 3. Kresdagramm; Darstellung der Häufgketen des Merkmals Blutgruppe (Bespel 3.) Zahlreche Abbldungen: veranschaulchen komplzerte und komplexe Sachverhalte Mathematsche Herletung des Korrelatonskoeffzneten nach Pearson Es st offenkundg, dass de Kovaranz s xy genau dann maxmal wrd, wenn der Zusammenhang funktonal st und durch ene lneare Glechung y = a+ bx exakt beschreben werden kann. Dann erhält man nach den Defntonen der Kovaranz und der Varanz n (5.) und (4.6): n n n xy nxy x( a + bx) nx( a + bx) b( 2 2 x nx ) = = = sxy = = = = bs n n n Für de Varanz s 2 y ergbt sch: n ( y y) n 2 b ( x x) 2 2 = = 2 = bs = = 2 2 y x s n n 2 Für postves b st sy = bsx und sxy = bsx = sx sy. Für negatves b folgt analog: sy = bsx und sxy = sx sy. Da es sch herbe um de beden Extremfälle handelt, folgt für de Kovaranz: sx sy sxy sx sy. Daraus ergbt sch für sxy den Korrelatonskoeffzenten r = : r. sx sy 2 x Herletungen: Logsches Nachvollzehen ener Formel zum besseren Verständns Merke Anhand enes Dagramms lassen sch be quanttatven Merkmalen folgende Egenschaften ablesen: Lage: In welchem Berech konzentreren sch de Werte? Welches st der größte, welches der klenste Wert? Welche Ausprägungen snd häufg, welche selten oder gar ncht vertreten? Streuung: Streuen de Werte wet um den Mttelwert? Gbt es Ausreßer? Form: Hat de Vertelung ene besondere Form? Ist se symmetrsch oder schef? We vele Gpfel snd erkennbar? Merke: das Wchtgste auf den Punkt gebracht Aufzählungen: Lernnhalte überschtlch präsentert Sagen Se uns Ihre Menung! www.lehrbuch-medzn.de

3. Häufgketen be dskreten Merkmalen 39 3 3. Häufgketen be dskreten Merkmalen 3.. Absolute und relatve Häufgketen Um sch enen Überblck bezüglch wesentlcher Egenschaften enes Merkmals anzuegnen, begnnt man mt der Häufgketsvertelung. Dese Vertelung beschrebt, we häufg de enzelnen Merkmalsausprägungen n der Stchprobe zu fnden snd. Häufgketen lassen sch für jedes Merkmal und jedes Skalennveau ermtteln. In den Abschntten 3. und 3.2 werden getrennt für dskrete und stetge Merkmale Häufgketsbegrffe erörtert und graphsche Darstellungen vorgestellt. Zu den dskreten Merkmalen zählen alle qualtatven sowe de quanttatv-dskreten Merkmale. De Anzahl der Ausprägungen st n der Regel wesentlch klener als der Stchprobenumfang und damt überschaubar. So gehören bespelswese zum qualtatven Merkmal Blutgruppe de ver Ausprägungen 0, A, B und AB. Durch enfaches Abzählen lässt sch ermtteln, we häufg de enzelnen Ausprägungen n der Stchprobe vertreten snd. Allgemen formulert man desen Sachverhalt folgendermaßen: En dskretes Merkmal A habe k verschedene Ausprägungen A,..., A k. De absolute Häufgket ener Ausprägung A wrd mt n bezechnet. Der Buchstabe st der so genannte Laufndex, der zwschen und k varert. De Summe aller absoluten Häufgketen n entsprcht der Anzahl der Beobachtungsenheten n der Stchprobe das st der Stchprobenumfang n: k n = n (3.) = Be dem Summen-Zechen Σ handelt es sch um den grechschen Buchstaben Sgma. Damt werden Summen n verkürzter Schrebwese k dargestellt. Der Ausdruck n entsprcht der Summe n + n2 +... + nk. = Unter der relatven Häufgket h ener Ausprägung den Quotenten h n n A versteht man = (3.2)

40 Kaptel 3 Häufgketen Aus deser Defnton folgt, dass 0 h, und dass sch de relatven Häufgketen aller Ausprägungen zu aufadderen: 3 k = k n = n = = = h (3.3) n n In der Praxs gewnnt man de Häufgketen am enfachsten durch das Erstellen ener Strchlste oder wenger mühsam mttels ener geegneten Software ( Bespel 3.). Bespel 3. Wr betrachten das qualtatve Merkmal Blutgruppe mt den Daten der n Tabelle 2. aufgelsteten Stchprobe von n = 7 Beobachtungsenheten. Es ergeben sch folgende Häufgketen: Ausprägung absolute Häufgketen relatve Häufgketen A =Blutgruppe 0 n = 28 h = 39 % A 2 =Blutgruppe A n 2 = 3 h 2 = 44 % A 3 =Blutgruppe B n 3 = 9 h 3 = 3 % A 4 =Blutgruppe AB n 4 = 3 h 4 = 4 % Summe n = 7 00 %! De relatve Häufgket wrd oft n Prozentwerten angegeben. Da der Ausdruck Prozent von Hundert bedeutet, snd derle Angaben nur be enem hnrechend großen Stchprobenumfang snnvoll. Wenn man be kleneren Stchproben mt wenger als 50 Beobachtungsenheten Prozente berechnet, täuscht man ene höhere Genaugket vor als n Wrklchket vorhanden st. In desen Fällen sollte man anstelle der Prozentangaben enfache Quotenten bevorzugen we z. B.: De relatve Häufgket der Blutgruppe A be den männlchen Studenten beträgt 0/23. 3..2 Graphsche Darstellungen Graphsche Darstellungen brngen de oben beschrebenen Sachverhalte prägnant zum Ausdruck. Kresdagramm. Be deser Darstellung geben de enzelnen Kressektoren de Häufgketen n weder. Anstelle der absoluten Häufgketen n lassen sch auch de relatven Häufgketen h darstellen; dabe ändert sch nur der Maßstab des Dagramms, ncht jedoch dessen Aussehen. Be enem Kresdagramm kommt allerdngs

3. Häufgketen be dskreten Merkmalen 4 3 ncht (zumndest ncht auf den ersten Blck) zur Geltung, welches de klenste oder de größte Ausprägung st deshalb egnet sch dese Art der Darstellung nur für nomnal skalerte Merkmale ( Abbldung 3.). Rechteckdagramm (oder Blockdagramm). Her st en Rechteck entsprechend der enzelnen Häufgketen untertelt. Dese Darstellung egnet sch auch für ordnal skalerte Merkmale, da de klenste und de größte Ausprägung zu erkennen snd. Balkendagramm. Dese Art von Dagrammen egnet sch für alle dskreten Merkmale. De Längen der enzelnen Balken entsprechen den Häufgketen n oder h ( Abbldung 3.2). Dabe snd zahlreche Varanten denkbar. De 2-dmensonalen Balken lassen sch durch -dmensonale Strche oder 3-dmensonale Säulen ersetzen. Be senkrechter Anordnung sprcht man auch von enem Säulendagramm; wenn anstelle der Säulen -dmensonale Strche verwendet werden, bezechnet man des als Stabdagramm. Darüber hnaus können de Balken horzontal anstatt vertkal angeordnet werden; bezüglch Farben, Mustern und Hntergründen snd ncht zuletzt dank geegneter Software- und Hardwareprodukte der Phantase kene Grenzen gesetzt. Man sollte jedoch be solchen Darstellungen vor allem darauf achten, dass de wesentlchen Egenschaften der Häufgketsvertelung optmal zur Geltung kommen und ncht zugunsten optscher Effekte n den Hntergrund treten. Abb. 3. Kresdagramm; Darstellung der Häufgketen des Merkmals Blutgruppe (Bespel 3.) Abb. 3.2 Balkendagramm; Darstellung der Häufgketen des Merkmals Anzahl rchtg gelöster Klausuraufgaben

42 Kaptel 3 Häufgketen 3 Punktedagramm. Des st ene Darstellung enfachster Art für quanttatve Merkmale. De Stchprobenwerte werden entlang ener Achse (de waagrecht oder senkrecht angeordnet sen kann) als enzelne Punkte engetragen. Dese Art der Darstellung egnet sch wenger zu Präsentatonszwecken als velmehr dazu, schnell und enfach enen Überblck über de Häufgketsvertelung zu gewnnen. 3.2 Häufgketen be stetgen Merkmalen 3.2. Das Prnzp der Klassenbldung Be der Erfassung enes stetgen Merkmals (z. B. der Körpergröße) werden bedngt durch de begrenzte Messgenaugket de gemessenen Werte m Enzelfall auf- oder abgerundet. Im Verglech zum Stchprobenumfang ergeben sch zahlreche Ausprägungen, deren Häufgketen mest gerng und daher weng nformatv snd. So schwankt bespelswese de Körpergröße der Studenten n Tabelle 2. zwschen 56 cm und 96 cm des snd 4 verschedene Werte für 7 Beobachtungsenheten. Davon haben 4 Ausprägungen de Häufgket 0, neun snd nur enmal vertreten. Es erwest sch n solchen Fällen als snnvoll, mehrere nebenenander legende Ausprägungen zusammenzufassen und Klassen zu blden. Des st auch be enem quanttatv-dskreten Merkmal mt extrem velen, fen abgestuften Ausprägungen gerechtfertgt (z. B. de Leukozytenanzahl). En solches Merkmal kann für praktsche Analysen we en stetges Merkmal behandelt werden. Damt verbndet sch de Frage, we de Anzahl der Klassen und deren Breten festzulegen snd. Be sehr velen, schmalen Klassen st de Darstellung unüberschtlch und der Vertelungstyp schwer erkennbar. Dagegen st ene gernge Anzahl von breten Klassen mt enem hohen Informatonsverlust verbunden; charakterstsche Egenschaften der Vertelung werden eventuell verdeckt. Es gbt bezüglch der Klassenbldung zwar kene strengen Vorschrften, jedoch enge Faustregeln, de enen Kompromss zwschen ener überschtlchen Darstellung enersets und enem gerngen Informatonsverlust anderersets benhalten: De Klassenanzahl k rchtet sch nach dem Stchprobenumfang n. Als Anhaltspunkt glt: k n. Für größere Stchprobenumfänge n 000 verwendet man k 0 lg n (wobe lg der Zehnerlogarthmus bedeutet), damt de Klassenanzahl ncht zu groß wrd.

3.2 Häufgketen be stetgen Merkmalen 43 3 Wenger als dre Klassen snd generell ncht snnvoll. Am überschtlchsten st de Darstellung, wenn de Klassenbreten glech snd. Wenn jedoch Ausreßer vorhanden snd, st es eventuell snnvoll, am jewelgen Rand ene brete Klasse zu blden. Klassen mt den Grenzen - oder + snd zu vermeden. Es muss endeutg geklärt sen, welcher Klasse en Datum zugeordnet wrd, das auf ene Klassengrenze fällt. Man umgeht deses Problem, ndem man de Grenzen so defnert, dass se ncht mt Werten der Stchprobe zusammenfallen. Ansonsten muss man de Klassen als halboffene Intervalle festlegen (mest benutzt man Intervalle, de lnks offen und rechts abgeschlossen snd). Be klasserten Daten ermttelt man de absolute Häufgket oder de Besetzungszahl ener Klasse und bezechnet dese als n. Der Laufndex kennzechnet de Klassen n aufstegender Rehenfolge ( = bezechnet also de erste Klasse mt den klensten Messwerten, = k de letzte Klasse mt den größten Werten). Baserend auf den absoluten Häufgketen n berechnet man de relatven Klassenhäufgketen h ebenso we be dskreten Merkmalen. Bespel 3.2 De Messwerte für de Körpergröße der 7 Studenten n Tabelle 2. vareren zwschen 56 und 96 cm. Das Intervall (52,5 cm; 97,5 cm) wrd n 9 Klassen der Klassenbrete 5 cm engetelt. Dadurch st gewährlestet, dass ken Messwert auf ene Klassengrenze fällt. Laufndex Klassengrenzen n cm absolute Häufgket n relatve Häufgket h absolute Summenh. N relatve Summenh. (52,5 ; 57,5) 5 0,07 5 0,07 2 (57,5 ; 62,5) 2 0,03 7 0,0 3 (62,5 ; 67,5) 0 0,4 7 0,24 4 (67,5 ; 72,5) 8 0,25 35 0,49 5 (72,5 ; 77,5) 2 0,7 47 0,66 6 (77,5 ; 82,5) 7 0,24 64 0,90 7 (82,5 ; 87,5) 3 0,04 67 0,94 8 (87,5 ; 92,5) 0,0 68 0,96 9 (92,5 ; 97,5) 3 0,04 7 Um de Häufgketsbegrffe zu verdeutlchen, betrachten wr de 4. Klasse. De absolute und de relatve Häufgket n 4 bzw. h 4 bedeuten: 8 Studenten (das entsprcht 25 %) haben ene Körpergröße zwschen 67,5 cm und 72,5 cm. De absolute und de relatve Summenhäufgket ( Abschntt 3.3) N 4 bzw. H 4 besagen, dass 35 nsgesamt Studenten bzw. 49 % klener als 72,5 cm snd. H

44 Kaptel 3 Häufgketen Wenn ene Intervallgrenze durch ene runde Klammer angegeben wrd, bedeutet des, dass der Grenzwert ncht m Intervall enthalten st. Ene eckge Klammer ([ oder ]) zegt an, dass der Grenzwert zum Intervall gehört. 3! In früheren Zeten als man enen Mttelwert noch per Hand oder mt enem Taschenrechner ermttelte erlechterte man sch be umfangrechem Datenmateral de Arbet, ndem man de Daten n ene überschaubare Anzahl von Klassen zusammenfasste und den Mttelwert und andere Kenngrößen aus den Klassenmtten ermttelte. Deshalb legte man Wert darauf, dass de Klassenmtten rechentechnsch günstge Werte waren. Heute m Zetalter benutzerfreundlcher Statstksoftware st deses Argument obsolet. De Entelung n Klassen wrd hauptsächlch vorgenommen, um de Daten überschtlch graphsch darzustellen. 3.2.2 Graphsche Darstellungen Hstogramm. Be deser Darstellung wrd jede Klasse durch en Rechteck repräsentert, dessen Flächen proportonal zu den jewelgen Klassenhäufgketen snd. Am überschtlchsten st en Hstogramm mt glechen Klassenbreten ( Abbldung 3.3); dann snd auch de Höhen der Rechtecke proportonal zu den Häufgketen. Falls Daten auf ene Klassengrenze fallen, muss gekennzechnet werden, welcher Klasse dese Daten zugerechnet werden (üblcherwese wählt man de untere Klasse). De mathematsche Funkton, de en Hstogramm beschrebt, bezechnet man als emprsche Dchte. Se st defnert als: 0 für x a0 h f x = a < x a = k 0 für x > ak ( ) für (,..., ) a a (3.4) Dabe snd a und a de untere bzw. de obere Grenze der. Klasse, k st de Klassenanzahl. Deses Hstogramm besteht aus k Rechtecken der Fläche h. De Gesamtfläche hat den Wert. Häufgketspolygon. Dese Darstellung erhält man, ndem man senkrecht auf de Klassenmtten Strecken n Höhe der entsprechenden Häufgketen aufträgt und deren Endpunkte mtenander verbndet ( Abbldung 3.4).

3.2 Häufgketen be stetgen Merkmalen 45 3 Stamm-und-Blatt-Dagramm. Her werden de Daten zunächst nach hrer Größe geordnet und dann von unten nach oben aufgetragen. Der Stamm besteht aus den ersten Stellen der Stchprobenwerte, de Blätter stellen de folgenden Zffern dar ( Abbldung 3.5). Dese Darstellung benutzt man, um sch enen schnellen Überblck über de Häufgketsvertelung zu verschaffen. Für Präsentatonszwecke st se wenger geegnet. Ene graphsche Darstellung lefert zwar auf enen Blck wesentlche Informatonen; se allen st jedoch für ene statstsche Datenanalyse unzurechend. Kenngrößen, de de oben genannten Egenschaften quanttatv beschreben, snd Gegenstand des Kaptels 4. Abb. 3.3 Hstogramm für das Merkmal Körpergröße (Bespel 3.2), Entelung n 9 Klassen Abb. 3.4 Häufgketspolygon für das Merkmal Körpergröße (Bespel 3.2) Abb. 3.5 Stamm- und Blattdagramm; Darstellung der Körpergewchte der männlchen Studenten

46 Kaptel 3 Häufgketen 3 Merke Anhand enes Dagramms lassen sch be quanttatven Merkmalen folgende Egenschaften ablesen: Lage: In welchem Berech konzentreren sch de Werte? Welches st der größte, welches der klenste Wert? Welche Ausprägungen snd häufg, welche selten oder gar ncht vertreten? Streuung: Streuen de Werte wet um den Mttelwert? Gbt es Ausreßer? Form: Hat de Vertelung ene besondere Form? Ist se symmetrsch oder schef? We vele Gpfel snd erkennbar? 3.3 De emprsche Vertelungsfunkton Be quanttatven oder ordnal skalerten Merkmalen mag es snnvoll sen, de Häufgketen begnnend be der klensten Ausprägung n aufstegender Rehenfolge aufzuadderen. Dadurch erhält man de Anzahl der Daten, de ene bestmmte obere Grenze ncht überschreten. Dese Häufgketen nennt man kumulatve oder Summenhäufgketen. Unter der Annahme, dass de Ausprägungen sortert snd mt A < A <... < A k, glt für de absoluten Summenhäufgketen: 2 N = n (für =,..., k ) (3.5) j= j De relatven Summenhäufgketen snd entsprechend defnert als: H = h (für =,..., k ) (3.6) j= j De zu den enzelnen Ausprägungen gehörenden relatven Summenhäufgketen H werden durch de emprsche Vertelungsfunkton F (x) mathematsch beschreben: 0 für x < A F( x) = H für A x < A+ ( =,..., k ) für x Ak (3.7)

3.3 De emprsche Vertelungsfunkton 47 3 Bespel 3.3 Für de Körpergrößen der Studenten ergeben sch mt den Daten aus Tabelle 2. folgende Summenhäufgketen, auf denen de emprsche Vertelungsfunkton basert ( Abbldung 3.6). Angegeben snd de absoluten und relatven Häufgketen n und h sowe de Summenhäufgketen N und H. Ausprägung Körpergröße n h N H A 56 3 0,04 3 0,04 A2 57 2 0,03 5 0,07 A3 60 0,0 6 0,08 A4 62 0,0 7 0,0 A5 63 2 0,03 9 0,3 A6 64 2 0,03 0,5 A7 65 4 0,06 5 0,2 A8 66 0,0 6 0,23 A9 67 0,0 7 0,24 A0 68 6 0,08 23 0,32 A 69 2 0,03 25 0,35 A2 70 4 0,06 29 0,4 A3 72 6 0,08 35 0,49 A4 73 3 0,04 38 0,54 A5 74 3 0,04 4 0,58 A6 75 2 0,03 43 0,6 A7 76 3 0,04 46 0,65 A8 77 0,0 47 0,66 A9 78 5 0,07 52 0,73 A20 79 3 0,04 55 0,77 A2 80 8 0, 63 0,89 A22 82 0,0 64 0,90 A23 85 0,0 65 0,92 A24 86 2 0,03 67 0,94 A25 90 0,0 68 0,96 A26 93 2 0,03 70 0,99 A27 96 0,0 7 F (x) gbt de relatven Häufgketen an, mt der n der Stchprobe Werte vorhanden snd, de glech x oder klener als x snd. Für das obge Bespel 3.3 glt etwa: F ( 72) = 0, 49. Das bedeutet: Knapp de Hälfte der Studenten st 72 cm groß oder klener; 5 % snd größer als 72 cm.

48 Kaptel 3 Häufgketen 3 Abb. 3.6 emprsche Vertelungsfunkton F( x ) für das Merkmal Körpergröße (Bespel 3.3) De Abbldung 3.6 verdeutlcht wesentlche Egenschaften der Vertelungsfunkton F (x) : F (x) st ene Treppenfunkton; F ( x) = 0 für alle x, de klener als der klenste Stchprobenwert x mn snd; F(x) wächst ab x mn monoton von 0 bs ; F ( x) = ab dem größten Wert x max. Ene Funkton heßt monoton wachsend, wenn für zwe x-werte mt x < x2 glt: F( x) F( x2). Falls sogar glt: F( x) < F( x2) für x < x2, heßt de Funkton streng monoton wachsend. De emprsche Vertelungsfunkton F( x ) st demnach monoton, aber ncht streng monoton wachsend. Be fen abgestuften Ausprägungen st de Anzahl der Treppen zahlrech und de Stufen snd entsprechend nedrg; de Treppenfunkton nähert sch ener glatten Kurve. In der Pharmakologe werden Vertelungsfunktonen zur Analyse der dossabhänggen Wrksamket enes Pharmakons verwendet. Dabe beschrebt de emprsche Funkton F (x) den relatven Antel der Untersuchungsenheten, be denen en Effekt der Doss x erkennbar st. De graphsche Darstellung von F (x) bezechnet man als Dosswrkungskurve. Auch n der Labormedzn arbetet man häufg mt der Vertelungsfunkton. Wenn etwa für enen Cholesternwert x glt F ( x) = 0, 98, nformert dese Angabe darüber, dass deser Wert m oberen 2%-Berech legt.

http://www.sprnger.com/978-3-540-7460-6