3 Häufgketen 3. Häufgketen be dskreten Merkmalen 39 3.. Absolute und relatve Häufgketen 39 3..2 Graphsche Darstellungen 40 3.2 Häufgketen be stetgen Merkmalen 42 3.2. Das Prnzp der Klassenbldung 42 3.2.2 Graphsche Darstellungen 44 3.3 De emprsche Vertelungsfunkton 46 3.4 2-dmensonale Häufgketen 49 3.4. De Kontngenztafel 49 3.4.2 De Beschrebung ener Assozaton 50 3.4.3 Ausblck auf de nduktve Statstk 52
Basswssen Medznsche Statstk Inhaltlche Struktur: klare Glederung durch alle Kaptel Schlüsselbegrffe: snd fett und kursv hervorgehoben 38 Kaptel 3 Häufgketen Letsystem: schnelle Orenterung über alle Kaptel Info: zusätzlche Informatonen zum jewelgen Thema Verwese auf Kaptel, Tabellen, Herletungen und Bespele: deutlch herausgestellt und lecht zu fnden Bespele: zum besseren Verständns des Stoffes Tabellen: klar und überschtlch gegledert 3 3. Häufgketen be dskreten Merkmalen 3.. Absolute und relatve Häufgketen Um sch enen Überblck bezüglch wesentlcher Egenschaften enes Merkmals anzuegnen, begnnt man mt der Häufgketsvertelung. Dese Vertelung beschrebt, we häufg de enzelnen Merkmalsausprägungen n der Stchprobe zu fnden snd. k n = n (3.) = Be dem Summen-Zechen handelt es sch um den grechschen Buchstaben Sgma. Damt werden Summen n verkürzter Schrebwese k dargestellt. Der Ausdruck n entsprcht der Summe n + n2 +... + nk. = In der Praxs gewnnt man de Häufgketen am enfachsten durch das Erstellen ener Strchlste oder wenger mühsam mttels ener geegneten Software ( Bespel 3.). Bespel 3. Wr betrachten das qualtatve Merkmal Blutgruppe mt den Daten der n Tabelle 2. aufgelsteten Stchprobe von n = 7 Beobachtungsenheten. Es ergeben sch folgende Häufgketen: Ausprägung absolute Häufgketen relatve Häufgketen A =Blutgruppe 0 n = 28 h = 39 % A 2 =Blutgruppe A n 2 = 3 h 2 = 44 % A 3 =Blutgruppe B n 3 = 9 h 3 = 3 % A 4 =Blutgruppe AB n 4 = 3 h 4 = 4 % Summe n = 7 00 %! De relatve Häufgket wrd oft n Prozentwerten angegeben. Da der Ausdruck Prozent von Hundert bedeutet, snd derle Angaben nur be enem hnrechend großen Stchprobenumfang snnvoll. Wenn man be kleneren Stchproben mt wenger als 50 Beobachtungsenheten Prozente berechnet, täuscht man ene höhere Genaugket vor als n Wrklchket vorhanden st. In desen Fällen sollte man anstelle der Prozentangaben enfache Quotenten bevorzugen we z. B.: De relatve Häufgket der Blutgruppe A be den männlchen Studenten beträgt 0/23. Cave: Vorscht Fallstrcke!
Navgaton: Setenzahl und Kaptelnummer für de schnelle Orenterung 3. Häufgketen be dskreten Merkmalen 39 3 Abb. 3. Kresdagramm; Darstellung der Häufgketen des Merkmals Blutgruppe (Bespel 3.) Zahlreche Abbldungen: veranschaulchen komplzerte und komplexe Sachverhalte Mathematsche Herletung des Korrelatonskoeffzneten nach Pearson Es st offenkundg, dass de Kovaranz s xy genau dann maxmal wrd, wenn der Zusammenhang funktonal st und durch ene lneare Glechung y = a+ bx exakt beschreben werden kann. Dann erhält man nach den Defntonen der Kovaranz und der Varanz n (5.) und (4.6): n n n xy nxy x( a + bx) nx( a + bx) b( 2 2 x nx ) = = = sxy = = = = bs n n n Für de Varanz s 2 y ergbt sch: n ( y y) n 2 b ( x x) 2 2 = = 2 = bs = = 2 2 y x s n n 2 Für postves b st sy = bsx und sxy = bsx = sx sy. Für negatves b folgt analog: sy = bsx und sxy = sx sy. Da es sch herbe um de beden Extremfälle handelt, folgt für de Kovaranz: sx sy sxy sx sy. Daraus ergbt sch für sxy den Korrelatonskoeffzenten r = : r. sx sy 2 x Herletungen: Logsches Nachvollzehen ener Formel zum besseren Verständns Merke Anhand enes Dagramms lassen sch be quanttatven Merkmalen folgende Egenschaften ablesen: Lage: In welchem Berech konzentreren sch de Werte? Welches st der größte, welches der klenste Wert? Welche Ausprägungen snd häufg, welche selten oder gar ncht vertreten? Streuung: Streuen de Werte wet um den Mttelwert? Gbt es Ausreßer? Form: Hat de Vertelung ene besondere Form? Ist se symmetrsch oder schef? We vele Gpfel snd erkennbar? Merke: das Wchtgste auf den Punkt gebracht Aufzählungen: Lernnhalte überschtlch präsentert Sagen Se uns Ihre Menung! www.lehrbuch-medzn.de
3. Häufgketen be dskreten Merkmalen 39 3 3. Häufgketen be dskreten Merkmalen 3.. Absolute und relatve Häufgketen Um sch enen Überblck bezüglch wesentlcher Egenschaften enes Merkmals anzuegnen, begnnt man mt der Häufgketsvertelung. Dese Vertelung beschrebt, we häufg de enzelnen Merkmalsausprägungen n der Stchprobe zu fnden snd. Häufgketen lassen sch für jedes Merkmal und jedes Skalennveau ermtteln. In den Abschntten 3. und 3.2 werden getrennt für dskrete und stetge Merkmale Häufgketsbegrffe erörtert und graphsche Darstellungen vorgestellt. Zu den dskreten Merkmalen zählen alle qualtatven sowe de quanttatv-dskreten Merkmale. De Anzahl der Ausprägungen st n der Regel wesentlch klener als der Stchprobenumfang und damt überschaubar. So gehören bespelswese zum qualtatven Merkmal Blutgruppe de ver Ausprägungen 0, A, B und AB. Durch enfaches Abzählen lässt sch ermtteln, we häufg de enzelnen Ausprägungen n der Stchprobe vertreten snd. Allgemen formulert man desen Sachverhalt folgendermaßen: En dskretes Merkmal A habe k verschedene Ausprägungen A,..., A k. De absolute Häufgket ener Ausprägung A wrd mt n bezechnet. Der Buchstabe st der so genannte Laufndex, der zwschen und k varert. De Summe aller absoluten Häufgketen n entsprcht der Anzahl der Beobachtungsenheten n der Stchprobe das st der Stchprobenumfang n: k n = n (3.) = Be dem Summen-Zechen Σ handelt es sch um den grechschen Buchstaben Sgma. Damt werden Summen n verkürzter Schrebwese k dargestellt. Der Ausdruck n entsprcht der Summe n + n2 +... + nk. = Unter der relatven Häufgket h ener Ausprägung den Quotenten h n n A versteht man = (3.2)
40 Kaptel 3 Häufgketen Aus deser Defnton folgt, dass 0 h, und dass sch de relatven Häufgketen aller Ausprägungen zu aufadderen: 3 k = k n = n = = = h (3.3) n n In der Praxs gewnnt man de Häufgketen am enfachsten durch das Erstellen ener Strchlste oder wenger mühsam mttels ener geegneten Software ( Bespel 3.). Bespel 3. Wr betrachten das qualtatve Merkmal Blutgruppe mt den Daten der n Tabelle 2. aufgelsteten Stchprobe von n = 7 Beobachtungsenheten. Es ergeben sch folgende Häufgketen: Ausprägung absolute Häufgketen relatve Häufgketen A =Blutgruppe 0 n = 28 h = 39 % A 2 =Blutgruppe A n 2 = 3 h 2 = 44 % A 3 =Blutgruppe B n 3 = 9 h 3 = 3 % A 4 =Blutgruppe AB n 4 = 3 h 4 = 4 % Summe n = 7 00 %! De relatve Häufgket wrd oft n Prozentwerten angegeben. Da der Ausdruck Prozent von Hundert bedeutet, snd derle Angaben nur be enem hnrechend großen Stchprobenumfang snnvoll. Wenn man be kleneren Stchproben mt wenger als 50 Beobachtungsenheten Prozente berechnet, täuscht man ene höhere Genaugket vor als n Wrklchket vorhanden st. In desen Fällen sollte man anstelle der Prozentangaben enfache Quotenten bevorzugen we z. B.: De relatve Häufgket der Blutgruppe A be den männlchen Studenten beträgt 0/23. 3..2 Graphsche Darstellungen Graphsche Darstellungen brngen de oben beschrebenen Sachverhalte prägnant zum Ausdruck. Kresdagramm. Be deser Darstellung geben de enzelnen Kressektoren de Häufgketen n weder. Anstelle der absoluten Häufgketen n lassen sch auch de relatven Häufgketen h darstellen; dabe ändert sch nur der Maßstab des Dagramms, ncht jedoch dessen Aussehen. Be enem Kresdagramm kommt allerdngs
3. Häufgketen be dskreten Merkmalen 4 3 ncht (zumndest ncht auf den ersten Blck) zur Geltung, welches de klenste oder de größte Ausprägung st deshalb egnet sch dese Art der Darstellung nur für nomnal skalerte Merkmale ( Abbldung 3.). Rechteckdagramm (oder Blockdagramm). Her st en Rechteck entsprechend der enzelnen Häufgketen untertelt. Dese Darstellung egnet sch auch für ordnal skalerte Merkmale, da de klenste und de größte Ausprägung zu erkennen snd. Balkendagramm. Dese Art von Dagrammen egnet sch für alle dskreten Merkmale. De Längen der enzelnen Balken entsprechen den Häufgketen n oder h ( Abbldung 3.2). Dabe snd zahlreche Varanten denkbar. De 2-dmensonalen Balken lassen sch durch -dmensonale Strche oder 3-dmensonale Säulen ersetzen. Be senkrechter Anordnung sprcht man auch von enem Säulendagramm; wenn anstelle der Säulen -dmensonale Strche verwendet werden, bezechnet man des als Stabdagramm. Darüber hnaus können de Balken horzontal anstatt vertkal angeordnet werden; bezüglch Farben, Mustern und Hntergründen snd ncht zuletzt dank geegneter Software- und Hardwareprodukte der Phantase kene Grenzen gesetzt. Man sollte jedoch be solchen Darstellungen vor allem darauf achten, dass de wesentlchen Egenschaften der Häufgketsvertelung optmal zur Geltung kommen und ncht zugunsten optscher Effekte n den Hntergrund treten. Abb. 3. Kresdagramm; Darstellung der Häufgketen des Merkmals Blutgruppe (Bespel 3.) Abb. 3.2 Balkendagramm; Darstellung der Häufgketen des Merkmals Anzahl rchtg gelöster Klausuraufgaben
42 Kaptel 3 Häufgketen 3 Punktedagramm. Des st ene Darstellung enfachster Art für quanttatve Merkmale. De Stchprobenwerte werden entlang ener Achse (de waagrecht oder senkrecht angeordnet sen kann) als enzelne Punkte engetragen. Dese Art der Darstellung egnet sch wenger zu Präsentatonszwecken als velmehr dazu, schnell und enfach enen Überblck über de Häufgketsvertelung zu gewnnen. 3.2 Häufgketen be stetgen Merkmalen 3.2. Das Prnzp der Klassenbldung Be der Erfassung enes stetgen Merkmals (z. B. der Körpergröße) werden bedngt durch de begrenzte Messgenaugket de gemessenen Werte m Enzelfall auf- oder abgerundet. Im Verglech zum Stchprobenumfang ergeben sch zahlreche Ausprägungen, deren Häufgketen mest gerng und daher weng nformatv snd. So schwankt bespelswese de Körpergröße der Studenten n Tabelle 2. zwschen 56 cm und 96 cm des snd 4 verschedene Werte für 7 Beobachtungsenheten. Davon haben 4 Ausprägungen de Häufgket 0, neun snd nur enmal vertreten. Es erwest sch n solchen Fällen als snnvoll, mehrere nebenenander legende Ausprägungen zusammenzufassen und Klassen zu blden. Des st auch be enem quanttatv-dskreten Merkmal mt extrem velen, fen abgestuften Ausprägungen gerechtfertgt (z. B. de Leukozytenanzahl). En solches Merkmal kann für praktsche Analysen we en stetges Merkmal behandelt werden. Damt verbndet sch de Frage, we de Anzahl der Klassen und deren Breten festzulegen snd. Be sehr velen, schmalen Klassen st de Darstellung unüberschtlch und der Vertelungstyp schwer erkennbar. Dagegen st ene gernge Anzahl von breten Klassen mt enem hohen Informatonsverlust verbunden; charakterstsche Egenschaften der Vertelung werden eventuell verdeckt. Es gbt bezüglch der Klassenbldung zwar kene strengen Vorschrften, jedoch enge Faustregeln, de enen Kompromss zwschen ener überschtlchen Darstellung enersets und enem gerngen Informatonsverlust anderersets benhalten: De Klassenanzahl k rchtet sch nach dem Stchprobenumfang n. Als Anhaltspunkt glt: k n. Für größere Stchprobenumfänge n 000 verwendet man k 0 lg n (wobe lg der Zehnerlogarthmus bedeutet), damt de Klassenanzahl ncht zu groß wrd.
3.2 Häufgketen be stetgen Merkmalen 43 3 Wenger als dre Klassen snd generell ncht snnvoll. Am überschtlchsten st de Darstellung, wenn de Klassenbreten glech snd. Wenn jedoch Ausreßer vorhanden snd, st es eventuell snnvoll, am jewelgen Rand ene brete Klasse zu blden. Klassen mt den Grenzen - oder + snd zu vermeden. Es muss endeutg geklärt sen, welcher Klasse en Datum zugeordnet wrd, das auf ene Klassengrenze fällt. Man umgeht deses Problem, ndem man de Grenzen so defnert, dass se ncht mt Werten der Stchprobe zusammenfallen. Ansonsten muss man de Klassen als halboffene Intervalle festlegen (mest benutzt man Intervalle, de lnks offen und rechts abgeschlossen snd). Be klasserten Daten ermttelt man de absolute Häufgket oder de Besetzungszahl ener Klasse und bezechnet dese als n. Der Laufndex kennzechnet de Klassen n aufstegender Rehenfolge ( = bezechnet also de erste Klasse mt den klensten Messwerten, = k de letzte Klasse mt den größten Werten). Baserend auf den absoluten Häufgketen n berechnet man de relatven Klassenhäufgketen h ebenso we be dskreten Merkmalen. Bespel 3.2 De Messwerte für de Körpergröße der 7 Studenten n Tabelle 2. vareren zwschen 56 und 96 cm. Das Intervall (52,5 cm; 97,5 cm) wrd n 9 Klassen der Klassenbrete 5 cm engetelt. Dadurch st gewährlestet, dass ken Messwert auf ene Klassengrenze fällt. Laufndex Klassengrenzen n cm absolute Häufgket n relatve Häufgket h absolute Summenh. N relatve Summenh. (52,5 ; 57,5) 5 0,07 5 0,07 2 (57,5 ; 62,5) 2 0,03 7 0,0 3 (62,5 ; 67,5) 0 0,4 7 0,24 4 (67,5 ; 72,5) 8 0,25 35 0,49 5 (72,5 ; 77,5) 2 0,7 47 0,66 6 (77,5 ; 82,5) 7 0,24 64 0,90 7 (82,5 ; 87,5) 3 0,04 67 0,94 8 (87,5 ; 92,5) 0,0 68 0,96 9 (92,5 ; 97,5) 3 0,04 7 Um de Häufgketsbegrffe zu verdeutlchen, betrachten wr de 4. Klasse. De absolute und de relatve Häufgket n 4 bzw. h 4 bedeuten: 8 Studenten (das entsprcht 25 %) haben ene Körpergröße zwschen 67,5 cm und 72,5 cm. De absolute und de relatve Summenhäufgket ( Abschntt 3.3) N 4 bzw. H 4 besagen, dass 35 nsgesamt Studenten bzw. 49 % klener als 72,5 cm snd. H
44 Kaptel 3 Häufgketen Wenn ene Intervallgrenze durch ene runde Klammer angegeben wrd, bedeutet des, dass der Grenzwert ncht m Intervall enthalten st. Ene eckge Klammer ([ oder ]) zegt an, dass der Grenzwert zum Intervall gehört. 3! In früheren Zeten als man enen Mttelwert noch per Hand oder mt enem Taschenrechner ermttelte erlechterte man sch be umfangrechem Datenmateral de Arbet, ndem man de Daten n ene überschaubare Anzahl von Klassen zusammenfasste und den Mttelwert und andere Kenngrößen aus den Klassenmtten ermttelte. Deshalb legte man Wert darauf, dass de Klassenmtten rechentechnsch günstge Werte waren. Heute m Zetalter benutzerfreundlcher Statstksoftware st deses Argument obsolet. De Entelung n Klassen wrd hauptsächlch vorgenommen, um de Daten überschtlch graphsch darzustellen. 3.2.2 Graphsche Darstellungen Hstogramm. Be deser Darstellung wrd jede Klasse durch en Rechteck repräsentert, dessen Flächen proportonal zu den jewelgen Klassenhäufgketen snd. Am überschtlchsten st en Hstogramm mt glechen Klassenbreten ( Abbldung 3.3); dann snd auch de Höhen der Rechtecke proportonal zu den Häufgketen. Falls Daten auf ene Klassengrenze fallen, muss gekennzechnet werden, welcher Klasse dese Daten zugerechnet werden (üblcherwese wählt man de untere Klasse). De mathematsche Funkton, de en Hstogramm beschrebt, bezechnet man als emprsche Dchte. Se st defnert als: 0 für x a0 h f x = a < x a = k 0 für x > ak ( ) für (,..., ) a a (3.4) Dabe snd a und a de untere bzw. de obere Grenze der. Klasse, k st de Klassenanzahl. Deses Hstogramm besteht aus k Rechtecken der Fläche h. De Gesamtfläche hat den Wert. Häufgketspolygon. Dese Darstellung erhält man, ndem man senkrecht auf de Klassenmtten Strecken n Höhe der entsprechenden Häufgketen aufträgt und deren Endpunkte mtenander verbndet ( Abbldung 3.4).
3.2 Häufgketen be stetgen Merkmalen 45 3 Stamm-und-Blatt-Dagramm. Her werden de Daten zunächst nach hrer Größe geordnet und dann von unten nach oben aufgetragen. Der Stamm besteht aus den ersten Stellen der Stchprobenwerte, de Blätter stellen de folgenden Zffern dar ( Abbldung 3.5). Dese Darstellung benutzt man, um sch enen schnellen Überblck über de Häufgketsvertelung zu verschaffen. Für Präsentatonszwecke st se wenger geegnet. Ene graphsche Darstellung lefert zwar auf enen Blck wesentlche Informatonen; se allen st jedoch für ene statstsche Datenanalyse unzurechend. Kenngrößen, de de oben genannten Egenschaften quanttatv beschreben, snd Gegenstand des Kaptels 4. Abb. 3.3 Hstogramm für das Merkmal Körpergröße (Bespel 3.2), Entelung n 9 Klassen Abb. 3.4 Häufgketspolygon für das Merkmal Körpergröße (Bespel 3.2) Abb. 3.5 Stamm- und Blattdagramm; Darstellung der Körpergewchte der männlchen Studenten
46 Kaptel 3 Häufgketen 3 Merke Anhand enes Dagramms lassen sch be quanttatven Merkmalen folgende Egenschaften ablesen: Lage: In welchem Berech konzentreren sch de Werte? Welches st der größte, welches der klenste Wert? Welche Ausprägungen snd häufg, welche selten oder gar ncht vertreten? Streuung: Streuen de Werte wet um den Mttelwert? Gbt es Ausreßer? Form: Hat de Vertelung ene besondere Form? Ist se symmetrsch oder schef? We vele Gpfel snd erkennbar? 3.3 De emprsche Vertelungsfunkton Be quanttatven oder ordnal skalerten Merkmalen mag es snnvoll sen, de Häufgketen begnnend be der klensten Ausprägung n aufstegender Rehenfolge aufzuadderen. Dadurch erhält man de Anzahl der Daten, de ene bestmmte obere Grenze ncht überschreten. Dese Häufgketen nennt man kumulatve oder Summenhäufgketen. Unter der Annahme, dass de Ausprägungen sortert snd mt A < A <... < A k, glt für de absoluten Summenhäufgketen: 2 N = n (für =,..., k ) (3.5) j= j De relatven Summenhäufgketen snd entsprechend defnert als: H = h (für =,..., k ) (3.6) j= j De zu den enzelnen Ausprägungen gehörenden relatven Summenhäufgketen H werden durch de emprsche Vertelungsfunkton F (x) mathematsch beschreben: 0 für x < A F( x) = H für A x < A+ ( =,..., k ) für x Ak (3.7)
3.3 De emprsche Vertelungsfunkton 47 3 Bespel 3.3 Für de Körpergrößen der Studenten ergeben sch mt den Daten aus Tabelle 2. folgende Summenhäufgketen, auf denen de emprsche Vertelungsfunkton basert ( Abbldung 3.6). Angegeben snd de absoluten und relatven Häufgketen n und h sowe de Summenhäufgketen N und H. Ausprägung Körpergröße n h N H A 56 3 0,04 3 0,04 A2 57 2 0,03 5 0,07 A3 60 0,0 6 0,08 A4 62 0,0 7 0,0 A5 63 2 0,03 9 0,3 A6 64 2 0,03 0,5 A7 65 4 0,06 5 0,2 A8 66 0,0 6 0,23 A9 67 0,0 7 0,24 A0 68 6 0,08 23 0,32 A 69 2 0,03 25 0,35 A2 70 4 0,06 29 0,4 A3 72 6 0,08 35 0,49 A4 73 3 0,04 38 0,54 A5 74 3 0,04 4 0,58 A6 75 2 0,03 43 0,6 A7 76 3 0,04 46 0,65 A8 77 0,0 47 0,66 A9 78 5 0,07 52 0,73 A20 79 3 0,04 55 0,77 A2 80 8 0, 63 0,89 A22 82 0,0 64 0,90 A23 85 0,0 65 0,92 A24 86 2 0,03 67 0,94 A25 90 0,0 68 0,96 A26 93 2 0,03 70 0,99 A27 96 0,0 7 F (x) gbt de relatven Häufgketen an, mt der n der Stchprobe Werte vorhanden snd, de glech x oder klener als x snd. Für das obge Bespel 3.3 glt etwa: F ( 72) = 0, 49. Das bedeutet: Knapp de Hälfte der Studenten st 72 cm groß oder klener; 5 % snd größer als 72 cm.
48 Kaptel 3 Häufgketen 3 Abb. 3.6 emprsche Vertelungsfunkton F( x ) für das Merkmal Körpergröße (Bespel 3.3) De Abbldung 3.6 verdeutlcht wesentlche Egenschaften der Vertelungsfunkton F (x) : F (x) st ene Treppenfunkton; F ( x) = 0 für alle x, de klener als der klenste Stchprobenwert x mn snd; F(x) wächst ab x mn monoton von 0 bs ; F ( x) = ab dem größten Wert x max. Ene Funkton heßt monoton wachsend, wenn für zwe x-werte mt x < x2 glt: F( x) F( x2). Falls sogar glt: F( x) < F( x2) für x < x2, heßt de Funkton streng monoton wachsend. De emprsche Vertelungsfunkton F( x ) st demnach monoton, aber ncht streng monoton wachsend. Be fen abgestuften Ausprägungen st de Anzahl der Treppen zahlrech und de Stufen snd entsprechend nedrg; de Treppenfunkton nähert sch ener glatten Kurve. In der Pharmakologe werden Vertelungsfunktonen zur Analyse der dossabhänggen Wrksamket enes Pharmakons verwendet. Dabe beschrebt de emprsche Funkton F (x) den relatven Antel der Untersuchungsenheten, be denen en Effekt der Doss x erkennbar st. De graphsche Darstellung von F (x) bezechnet man als Dosswrkungskurve. Auch n der Labormedzn arbetet man häufg mt der Vertelungsfunkton. Wenn etwa für enen Cholesternwert x glt F ( x) = 0, 98, nformert dese Angabe darüber, dass deser Wert m oberen 2%-Berech legt.
http://www.sprnger.com/978-3-540-7460-6