Die Begriffe der absoluten, relativen und kumulierten Häufigkeit - diskrete Beobachtungen - (empirische Dichte und empirische Verteilung)

Ähnliche Dokumente
Das Histogramm, bzw. Stabdiagramm / Histogramm / Balkendiagramm

Analysis II für M, LaG/M, Ph

So lösen Sie die Differentialgleichung für eine komplexe Kurve (für eine komplexe Funktion)

die Zielgröße. Für diesen gilt A = u v.

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile

Achsen eines Parallelogramms. Eckart Schmidt

Vektorraum. Ist =, so spricht man von einem reellen Vektorraum, ist =, so spricht man von einem komplexen

Lösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik

Einführung in die Stochastik 6. Übungsblatt

Verteilungsfunktion und dquantile

x 2 mit a IR in der maximalen, Teilaufgabe 1.1 (8 BE) Ermitteln Sie die Art der Definitionslücke sowie die Anzahl der Nullstellen von f a

Die Bestimmung von π

Wahrscheinlichkeits - rechnung und Statistik

Verteilungsfunktion und Quantile

EINFÜHRUNG IN DIE TENSORRECHNUNG

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Verteilungsfunktion und Quantile

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

BERGISCHE UNIVERSITÄT WUPPERTAL FB B: SCHUMPETER SCHOOL OF BUSINESS AND ECONOMICS

Kapitel 2. Häufigkeitsverteilungen

Lokale Eigenschaften des Hilbert-Symbols

Kreisdiagramm, Tortendiagramm

Definition und Eigenschaften von elliptischen Funktionen Thomas Regier. 1. Verdoppelung des Lemniskatenbogens und erweitertes Additionstheorem

Thomas Beier Petra Wurl. Regelungstechnik. Basiswissen, Grundlagen, Beispiele. 2., neu bearbeitete Auflage

Theorie der Kondensierten Materie I WS 2014/2015

P (X = 2) = 1/36, P (X = 3) = 2/36,...

WISTA WIRTSCHAFTSSTATISTIK

Verteilungsfunktion und Quantile

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Übungsaufgaben Mathematik III MST. Zu b) Klassifizieren Sie folgende Differentialgleichungen nach folgenden Kriterien : - Anfangswertproblem

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Theoretische Informatik I

Deskriptive Statistik Erläuterungen

Statistik I für Betriebswirte Vorlesung 9

3 Flächen und Flächenintegrale

0 Einführung: Was ist Statistik

Wahrscheinlichkeitstheorie Kapitel V - Stetige Verteilungen

B: Gleichung der Kugel mit Zentrum M(3, -2, 1), die den Punkt P(1, 4, 4) enthält.

Yield Management II. Das Zeitungsjungenproblem

Technische Mechanik I. Vektorrechnung Eine Einführung

Formfunktionen (Interpolation): Bedeutung und praktischer Einsatz

Welche der folgenden Aussagen sind richtig? (x aus 5) A Ein metrisches Merkmal, das überabzählbar viele Ausprägungen besitzt heißt diskret.

4 Einführung in die Optimierung. 4.1 Grundlagen der linearen Programmierung. Lineare Programme Haupteigenschaften

Übungsaufgaben Mathematik 3 MST Lösung zu Blatt 4 Differentialgleichungen

3 Konsumenten. Nutzenfunktionen Konsumenten vergleichen und bewerten Güterbündel: Güter : Nutzenfunktion eines Konsumenten. Güterraum.

Differentialgleichungen für Ingenieure WS 06/07

Klausur Strömungsmaschinen I SoSem 2015

BERGISCHE UNIVERSITÄT WUPPERTAL FACHBEREICH WIRTSCHAFTSWISSENSCHAFT - SCHUMPETER SCHOOL OF BUSINESS AND ECONOMICS

Ferienkurs Analysis 3 für Physiker. Integralsätze

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Integrationsmethoden. für. gebrochen rationale Funktionen DEMO. Übersicht über die wichtigsten Methoden. Vor allem für das Studium!

Mathematik für Wirtschaftswissenschaftler

x n eine Audruck für die mittlere Lebensdauer (=Lebenserwartung) der Gruppe N.

Diskrete Zufallsvariablen (Forts.) I

Diskrete Zufallsvariablen (Forts.) I

Statistik I für Betriebswirte Vorlesung 4

WISTA WIRTSCHAFTSSTATISTIK

Anwendungen der Differentialrechnung

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011

Fit for Abi & Study Stochastik

In diesem Abschnitt soll der Zusammenhang zwischen dem bestimmten Integral und dem Flächeninhalt untersucht werden.

2 Fortsetzung von Prämaßen zu Maßen, Eindeutigkeit

Vorlesung: Analysis II für Ingenieure. Wintersemester 09/10. Michael Karow. Themen: Flächen und Flächenintegrale

ε δ Definition der Stetigkeit.

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011.

Klassische Ruintheorie

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2012/13

Kombinierter Bias-Effekt in LDA-Messungen von Strömungen mit örtlichen Geschwindigkeitsgradienten

Mathematische Statistik. Zur Notation

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Weitere Lagemaße: Quantile/Perzentile I

Schriftliche Prüfung aus Control Systems 1 am

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Beispiel 4 (Einige weitere Aufgaben)

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

2015, MNZ. Jürgen Schmidt. Vorkurs. Mathematik. Ableiten. Tag WS 2015/16

Abschnitt 1.3. Funktionen

Biomathematik für Mediziner

Geometrie und Topologie von Flächen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

( ) ( ) < b k, 1 k n} (2) < x k

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Wahrscheinlichkeitstheorie

. Die Differenz zwischen den Umschaltpunkten nennt man Hysterese u H. -u T- (t): Eingangssignal. (t): Ausgangssignal

3 Bedingte Erwartungswerte

Mikroökonomik. 1.3 Kriterien der Entscheidungsfindung: Präferenzen. Der Einfachheit halber beschränken wir uns auf n = 2 ( zwei Güter).

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Statistik-Klausur vom 6. Februar 2007

Statistik I für Betriebswirte Vorlesung 9

Planarität und Dualität

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position. Die Folge 2,1,4,3,... ist eine andere als 1,2,3,4,...

Kapitel II Funktionen reeller Variabler

Klausurlösungen Statistik

Transkript:

Häfigkeit (relative nd kmlierte Häfigkeit) Akademische Disziplin der Statistik/academic field of statistics/ la discipline statistiqe/estadística/disciplina academica della statistica deskriptive Statistik/descriptive statistics/statistiqe descriptive Empirische Verteilng von Beobachtngen 1 Die Begriffe der absolten, relativen nd kmlierten Häfigkeit - diskrete Beobachtngen - (empirische Dichte nd empirische Verteilng) In vielen empirischen Zsammenhängen ist das Betrachten nd Sammeln von Beobachtngen z einem Merkmal (sei es nominal, ordinal oder kardinal) ein erster wichtiger Schritt einer Unterschng. M.a.W. af einer Grndgesamtheit ( einer Poplation, einer Menge) G wird ein Merkmal M beobachtet nd die Beobachtngen in einer sog. Urliste U = {U 1, U 2,..., U n } zsammengetragen. Im Regelfall gibt es nr K verschiedene Werte (Asprägngen) {x 1, x 2,..., x K }, K n. Offensichtlich trifft K=n nr dann z, falls alle Beobachtngen verschieden sind. Nach Drchführng einer solchen statistischen Erhebng - nd dies wird im folgenden fast stets als erfolgt angesehen - ist das Datenmaterial (die Urliste) so afzbereiten, daß man die Fülle der Beobachtngen intellektell afnehmen nd verarbeiten kann. Daz werden einige einfache graphische Darstellngen bentzt, die sich in der Praxis bewährt haben nd im vorhergehenden Kapitel erlätert wrden. Sie finden sich z.b. in Zeitngen, Firmenberichten, Fernsehnachrichten. Daz wird der Begriff der Häfigkeitsverteilng eingeführt Die Vielfachheit, mit der eine Asprägng x k aftritt, heißt absolte Häfigkeit des Wertes (der Asprägng) x k (k=1,2,, K). Seien {b 1,b 2,...,b n } die beobachteten Asprägngen eines beliebigen Merkmals X as einer Erhebng der Länge n. Nicht alle b i (i {1,2,...,n}) sind notwendigerweise verschieden, so daß die verschiedenen Asprägngen {x 1,x 2,...,x K }, (K n) mit den absolten Häfigkeiten n k (k=1,2,...,k) mehrfach beobachtet wrden.

2 Beispiel Die Menge der n Beobachtngen {b 1, b 2,..., b n } seien die Ergebnisse von n=100 Würfen eines Würfels. Als Merkmalsasprägngen gibt es die sechs verschiedenen Agenzahlen {1,2,3,4,5,6}. Für die der Größe nach sortierten Merkmalsasprägngen seien die folgenden Häfigkeiten n k (k=1,...,6) beobachtet worden: { x 1, x 2, x 3, x 4, x 5, x 6 } { 15, 20, 20, 10, 15, 20 }, n=100, K=6 bzw. als Tabelle: x k 1 2 3 4 5 6. n k 15 20 20 10 15 20 Definition 1 (relative Häfigkeit, empirische Häfigkeit) Der af das Intervall [0, 1] skalierte Wert der absolten Häfigkeit heißt relative Häfigkeit des Wertes (der Asprägng). n k f k = f(x k ) = K Σ n i i=1 = n k n, K k=1 n k = n (k= 1, 2,..., K), 0 f(x k ) 1 Oft wird ach krz von der Häfigkeit der Asprägng gesprochen. Der Zsammenhang macht klar, ob es absolt oder relativ gemeint ist. Eine streng-formale Definition ist die folgende: Definition 1 (empirische Häfigkeitsfnktion) Sei M ={x 1, x 2,...,x k } die Menge von beobachteten verschiedenen Merkmalsasprägngen; sei weiter nd g: { M R + x g(x) : = { n k, falls x=x k (k=1,...,k) 0, sonst M [0, 1] f: { x f(x) := 1 n g(x) Die Fnktion f heißt empirische Häfigkeitsfnktion. Der Graph dieser Abbildng ist das Stabdiagramm.

3 Offensichtlich lassen sich solche Stabdiagramme für alle Merkmale erstellen. Für das Beispiel ergibt sich folgendes Bild: Das Schema des zgehörigen Stabdiagramms (bar plot, dot plot, dot-diagram, diagram à bâtons) f 1 2 3 4 5 6 x Bemerkng (Vergleich von absolten nd relativen Häfigkeiten) Es ist f: M [0, 1] mit sowie g: M R + mit 0.15, x=1 0.20, x=2 0.20, x=3 f(x) = { 0.10, x=4 0.15, x=5 0.20, x=6 0.00, sonst 15, x=1 20, x=2 20, x=3 g(x) = { 10, x=4 15, x=5 20, x=6 0, sonst Offensichtlich nterscheidet sich der Graph von g vom Graphen von f nr drch die Skalierng. Bemerkng (Empirie) Da es sich m Empirie (=Beobachtngen as der Praxis) handelt, spricht man ach von empirischen Häfigkeiten (d.h. empirische absolte Häfigkeiten bzw. empirische relative Häfigkeiten). Bemerkng (Spannweite, Spanne) Wenn es m qantitative Merkmale geht, wird die Differenz Maximm[x k ] - Minimm[x k ] als Spannweite oder Spanne der Beobachtngen bezeichnet. Im Beispiel zvor ist die Spanne 5. Ein as der Zeitng wohlbekanntes Beispiel sind diekrsspannen an den fünf Börsen-Tagen einer Woche: der Tageshöchstkrsstand im Vergleich zm Tagestiefstkrsstand, graphisch:

Definition 2 (kmlierte Häfigkeit, empirische Verteilngsfnktion) Die Fnktion F: R [0,1], die dem geordneten Bereich (1, 2,, i), 1 i K der Merkmalsasprägngen die Teilsmme der relativen Häfigkeit F(x) = Σ i:x i x P(X = x i ) = Σ i:x i x n i zordnet, heißt kmlierte Häfigkeit, bzw. empirische Verteilngsfnktion der Merkmals X. Bemerkng z den Schreibweisen Ein alternative Schreibweise für x = x k ist F(x) =F k =F(x k )= P[X x k ]= k f i = k i=1 i=1 P[...] ist dabei eine Krzschreibweise für Häfigkeit mit zwei Grnd-Varianten: P[X = x k ] = f k die relative Häfigkeit der Merkmalsasprägng k, P[X x k ] = f k die kmlierte Häfigkeit bis zr Merkmalsasprägng k einschließlich. 4 P(X=x i ) Die offensichtliche Vorassetzng z einer kmlierten Häfigkeit ist eine geordnete Reihenfolge, d.h. für die Nmerierng der Merkmalsasprägngen mß sinnvoller weise gelten x 1 x 2... x K. Damit gibt es keine Verteilng für nominale Merkmale, sondern nr für X ein qantifiziertes ordinales oder ein kardinales Merkmal mit K verschiedenen Merkmalsasprägngen z jeweils n k (k=1,2,...,k) nd insgesamt n Beobachtngen. Bemerkng (die Berechnng der Verteilng im einzelnen) As den relativen Häfigkeiten {f 1,f 2,..., f K } läßt sich dann der Begriff der kmlierten (empirischen) Häfigkeitsverteilng konstrieren: F 1 := f 1 F 2 := f 1 + f 2 = F 1 + f 2 F 3 := f 1 + f 2 + f 3 = F 2 + f 3... F K := f 1 + f 2 +... + f K = F K-1 + f K Umgekehrt lassen sich die relativen Häfigkeiten as der kmlierten Häfigkeitsverteilng bestimmen bzw. zrückgewinnen: f 1 = F 1 f i = F i - F i-1 (i=2,3,...,k)

5 Bemerkng (Monotonie der Verteilng eines diskreten Merkmals) Offenkndig ist F eine in x (bzw. in x k ) monoton wachsende Fnktion, deren Werte nicht negativ nd nicht größer als 1 werden können. Für die Verteilng der Beobachtngen gilt: (i) 0 F k 1 (ii) 0 =F 1- (iii) F k ist monoton nichtfallend (monoton steigend). Der Wertebereich erstreckt sich von nll nach eins, davor nll nd dahinter eins: F 1- := F(x 1- ) := P[X<x 1 ] = 0 F K+ := F(x K+ ):= P[X<x K + ] = 1 ( >0). Der Beweis folgt nmittelbar as den Eigenschaften der relativen Häfigkeiten, die positiv (oder zmindest nichtnegativ) sind. Sie werden nacheinander in Reihenfolge addiert. Damit ist ernet detlich, daß nominale Merkmale keine solche Verteilng haben können. M.a.W. die Verteilng ist eine monotone, von links nach rechts nichtfallende Treppenfnktion, wie folgende zwei Schemata verdetlichen: F(x) 1 p 4 p 5 } } p 6 } p 2 } p 3 } 0 p 1 } x 1 x 2 x 3 x 4 x 5 x 6 x Das Schema einer Verteilng bzw. mit x i = i (i=1,2,,6); es ist der typische Graph der Fnktion F (s.. Definition 2 ): 1 F f3 f4 f5 f6 f2 f1 0 1 2 3 4 5 6 x

Eine streng-formale Definition ist die folgende: Definition 2 (empirische Verteilngsfnktion) Seien die Asprägngen eines Merkmals {x 1, x 2,..., x K } der Größe nach geordnet, d.h. x 1 <x 2 <...<x K, dann heißt die Fnktion F: { M 0,1 empirische Verteilngsfnktion. 6 x F(x) = { 0 für x <x 1 f i = F i für x x 1 i:x i x

7 Bemerkng (Häfigkeiten zwischen vorgegebenen Werten) Bei endlich vielen Merkmalsasprägngen, d.h. es gibt nr die Werte x 1, x 2,..., x K, ist die Fnktion F die kmlierte Häfigkeitsfnktion, ach empirische Verteilngs-fnktion genannt. Der Begriff der Verteilng erlabt es, die Häfigkeit für beliebige Bereiche anzgeben. Daz wird eine Bezeichnng gewählt, die in der allgemeinen Statistik für Wahrscheinlichkeiten verwendet wird, hier aber Häfigkeiten beschreibt. Es bezeichne P[< X o] = F o - F die Häfigkeit der Beobachtngen zwischen Merkmalsasprägngen nd o. Dabei ist gena af die (jeweilige) Definition von F i z achten, ob die Randwerte ein- oder asgeschlossen sind, d.h. etwa: P[< X <o] = F o-1 - F (ohne Randwerte) P[ X <o] = F o-1 - F -1 (mit linkem Randwert) P[< X o] = F o - F (mit rechtem Randwert) P[ X o] = F o - F -1 (mit beiden Randwerten). Ebenso läßt sich die empirische Dichte, die relative Häfigkeit f k as der Verteilng zrückgewinnen: f k = F k - F k-1 (k = 2, 3,..., K) f 1 = F 1. Werden die Beobachtngen nicht an diskreten Stellen gemacht, sondern so, daß für einzelne Intervalle Beobachtngen vorliegen, dann sind absolte, relative nd kmlierten Häfigkeit etwas anders afzfassen, wie der Vergleich der beiden folgenden Ilstrationen verdetlicht. Illstration 1 (Ein diskretes Merkmal mit K=3) (Merkmalsasprägng x k, k=1,2,3) Häfigkeiten X n k f k x 1 4 f 1 = 1/6 x 2 8 f 2 = 1/3 x 3 12 f 3 = 1/2 Das zgehörige Stabdiagramm der Häfigkeiten ist keine flächentree Abbildng, sondern drei Spitzen in den Pnkten 4, 5 nd 100.

8 Stetige Merkmale Bei stetigen Merkmalen faßt man die Beobachtngen z schon vor Beginn der Erhebng festzlegenden Klassen K i zsammen. Wenn möglich sollten diese Klassen alle die gleiche Breite haben (so ein Rezept zr Beobachtng). Oftmals empfiehlt es sich dennoch, dort, wo die meisten Beobachtngen z erwarten sind, diese Klassenbreiten kleiner z halten als in den Bereichen, in denen relativ wenige Beobachtngen z erwarten sind. Illstration 2 (Ein stetiges Merkmal mit K=3) (Merkmalsasprägng in den Intervallen I k, k=1,2,3) Häfigkeiten k Intervall I k nk (absolte) fk (relative) 1 : 3 bis 5 cm [3,5) [3-5) 8 0.16 2 : 5 bis 9 cm [5,9) [5,9) 32 0.64 3 : über 9 cm [9,11] [9,11 ] 10 0.20 Das zgehörige Histogramm der Häfigkeiten ist eine flächentree Abbildng: Flächentree heißt, daß die Fläche nter dem Histogramm insgesamt gena eins beträgt nd im Bereich eines Intervalls, einer Klasse, d.h. das Rechteck über dem Intervall, gena dem Anteil der Beobachtngen entspricht.

Für die Häfigkeiten des stetigen Merkmals sind die Definitionen z modifizieren: Definition3 (empirische Dichtefnktion eines nicht-diskreten, stetigen Merkmals) Die Dichtefnktion eines stetigen Merkmals (die Höhe des zgehörigen Histogramms) relative Häfigkeit wird drch das Verhältnis Breite derklasse = n i n / K i festgelegt. Eine streng-formale Definition ist die folgende: Definition3 (empirische Dichtefnktion eines nicht-diskreten, stetigen Merkmals) Die Fnktion f:{ R R n + i x f(x) nd f(x) = { n / K i =f i / K i, falls x K i 0, sonst heißt empirische Dichtefnktion. Dabei bedetet K i die Breite der i-ten Klasse (des i-ten Intervalls) K i. Der Graph der Dichtefnktion ist das bereits erörterte Histogramm. 9

10 Beispiel Zr Schätzng zkünftiger Kosten führt eine Krankenversicherng bei ihren Mitgliedern eine Umfrage drch, bei der ach das Merkmal Körpergewicht (in Kilogramm) betrachtet wird. Unter den männlichen Befragten gab es daz folgendes Ergebnis: i 1 2 3 4 5 6 K i : [50,60) [60,70) [70,75) [75,80) [80,90) [90,110) n i : 5 25 30 25 10 5 Dabei bedetet n i bekanntlich die Häfigkeit von Beobachtngen in der Klasse K i. Für das Beispiel erhält man für f folgende Fnktionswerte; zm Vergleich werden die nskalierten Werte ebenfalls gezeigt: 0.0050, fürx [50,60) 0.0250, fürx [60,70) f(x)= { 0.0600, fürx [70,75) 0.0500, fürx [75,80) 0.0100, fürx [80,90) 0.0025, fürx [90,110) n i n = { Das zgehörige Histogramm hat dann das folgende Assehen:.060 f 0.05, für x [50,60) 0.25, für x [60,70) 0.30, für x [70,75) 0.25, für x [75,80) 0.10, für x [80,90) 0.05, für x [90,110).045.030.015 50 60 70 75 80 90 110 x Da über die Verteilng der Beobachtngen innerhalb der Klassen keine Information vorliegt, trifft man die Annahme, daß diese Beobachtngen sich innerhalb der Klassen gleichmäßig verteilen. Das bedetet, daß man für die kmlierten Häfigkeiten die relativen Häfigkeiten für die Klassenobergrenzen afaddiert nd die so erhaltenen Pnkte drch Geradenstücke verbindet. Die (konstante) Steigng eines solchen Geradenstücks ist dann gena der Wert der Dichtefnktion in dieser entsprechenden Klasse. Dies führt z folgender Modifikation der Definition für die Verteilng:

11 Definition 4 (kmlierte Häfigkeit, empirische Verteilngsfnktion der stetigen Beobachtng) Die Fläche nter dem Häfigkeitskrvenzg vom Anfang des ersten Intervalls bis zm Pnkt x im k-ten Intervall, das drch die Pnkte x k, xk o (nten nd oben, bzw. links nd rechts) begrenzt wird, heißt kmlierte Häfigkeit, bzw. empirische Verteilngsfnktion der Merkmals X. Fall 1 Die Verteilngspnkte am Rand der Intervalle (Klassen) Für die Randwerte (x = x k, bzw. = xk o ) stimmt Definition 4 für stetige Merkmale mit Definition 2 für diskrete Merkmale überein: F(x) =F k =F(x k )= P[X x k ]= k f i = k P(X=x i ), falls x k = x k, bzw. = xk o, k =1, 2,, K i=1 i=1 Fall 2 Die Interpolationsregel für Verteilngspnkte innerhalb der Intervalle (Klassen) Fällt der Wert x nicht af eine Klassengrenze, sondern ins Innere einer Klasse, so läßt sich der entsprechende Anteil afgrnd der Annahme, daß sich alle Beobachtngen innerhalb einer Klasse gleichmäßig verteilen, drch eine einfache Dreisatzrechnng bestimmen. Allgemein gilt: x-x (1) F(x) = F( x k n k k) + K k n = F( x k) + (x -xk )f(x), f(x) =f(xk ) = n k n / K k, x K k Dabei bedetet x k die Untergrenze, bzw. xk o die Obergrenze der Klasse Kk nd f(x k ) die Dichte (Höhe des Histogramms) as Definition 3. Die Ableitng der Interpolation folgt as der Abbildng im Vergleich der beiden rechtwinkligen ähnlichen Dreiecke (Grndfläche : Höhe = konstant): o F(x k o ) o F(x) o F(x k ) x - x k K k x k X x k o (Dreisatz-Regel): x - x k F(x) F(x k ) = Abbildng 1 K k F(x k o ) F(xk ) = K k n k /n

12 Die Aflösng nach F(x) liefert die Gleichng (1). Die Bemerkngen (s.o.) zr Monotonie der Verteilng, zm Bestimmen der Häfigkeiten innerhalb beliebiger Bereiche, zm Zrückrechnen der relativen Häfigkeiten übertragen sich nmittelbar vom diskreten zm stetigen Fall. Erste Fortsetzng des Beispiels Die zm Beispiel gehörende Verteilngsfnktion hat dann folgendes Assehen: 1. F.75.50.25 50 60 70 75 80 90 110 x Mit dieser Fnktion lassen sich die Anteilswerte (Verteilngwerte) nmittelbar angeben: Es bezeichnet nämlich F(x) den Anteil derjenigen Männer, deren Körpergewicht höchstens x kg beträgt. Beispielsweise ist der Anteil der Männer, deren Gewicht höchstens 70 kg beträgt 30%, der Anteil, deren Gewicht höchstens 80 kg beträgt 85%, sw.

13 Qantile Von besonderer Wichtigkeit ist die folgende Frage, eine Umkehrng as der Bestimmng der Verteilng, nämlich die Bestimmng des Pnktes x, z dem der Verteilngswert F(x) gehört, das Qantilsproblem. Definition 5 (Qantile eines stetigen Merkmals, α-verteilngspnkte) Unter einem α-qantil (oder α-fraktil) versteht man denjenigen Wert x, den Pnkt (Wert) des Merkmals, für den gilt: F(x) = α (0 α 1), bzw. x = F -1 (α), d.h. es geht m die Umkehrfnktion der Verteilng. Eine alternative Beschreibng ist die folgende Das α-qantil ist der Wert x α, für den gilt F(x α ) α nd F(x) < α für alle x < x α Der Wert heißt (α. 100) - Prozentpnkt (Verteilngspnkt) x α. Das Verständnis sei drch einzelne Beispiele von Qantilen vertieft, für die es spezielle Bezeichnngen gibt, etwa: Definition 5.1 (Median) Der Wert x med, für den gilt F(x med ) 0.5 nd 1-F(x med )+f(x med ) 0.5, heißt Median. Der Median teilt die Beobachtngen in zwei Hälften gleicher Häfigkeit. Die Definition mfaßt stetige nd diskrete Merkmale. Für stetige Merkmale ist das Ungleichheitszeichen sowie die zweite Hälfte überflüssig; es läßt sich ein eindetiges x feststellen (s.o. Definition 4). Für diskrete Merkmale ist der Median der kleinste Wert, mit dem die 50% Marke der Verteilng (F(x med ) = 0.50) überschritten wird.

Definition 5.2 (Qartile) Die kleinsten Werte x q (d.h. x 1/4, x 2/4, x 3/4,x 4/4 ) für die gilt, Min F(x 1/4 ) 0.25, Min F(x 2/4 ) 0.50 Min F(x 3/4 ) 0.75, Min F(x 4/4 ) = 1 heißen Qartile 1, 2, 3 nd 4. 14 Das 1. Qartil ist der Bereich von Beobachtngen zwischen der ersten Beobachtng nd der kleinsten Beobachtng x 1/4, für die Min F(x 1/4 ) 0.25. Das 2. Qartil ist der Bereich von Beobachtngen zwischen der Beobachtng x 1/4 nd der kleinsten Beobachtng x 2/4, für die F(x 2/4 ) 0.50. Das 3. Qartil ist der Bereich von Beobachtngen zwischen der Beobachtng x 2/4 nd der kleinsten Beobachtng x 3/4, für die F(x 3/4 ) 0.75. Das 4. Qartil ist der Bereich von Beobachtngen zwischen der Beobachtng x 3/4 nd der kleinsten Beobachtng x 4/4, für die F(x 4/4 ) = 1.00 (d.h. der letzten Beobachtng). Median nd 2. Qartilswert stimmen offensichtlich überein. Entsprechend zerlegen die Qintile die Beobachtngen in Fünftel: Definition 5.2 (Qintile) Die kleinsten Werte x q (d.h. x 1/5, x 2/5, x 3/5, x 4/5, x 4/5 ) für die gilt, Min F(x 1/5 ) 0.20, Min F(x 2/5 ) 0.40, Min F(x 3/5 ) 0.60, Min F(x 4/5 ) 0.80, Min F(x 5/5 ) = 1 heißen Qintile 1, 2, 3, 4 nd 5. Eine entsprechende Definition gibt es bei einer gleichmäßigen Unterteilng in 10% Schritte (statt wie bei Qartilen in 25% Schritten, bzw. bei Qintilen in 20% Schritten); sie heißen Dezile. Bei stetigen Merkmalen kann das jeweilige x eindetig bestimmt werden, d.h. das Min(imm vor F) entfällt; bei diskreten Merkmalen wird man im allgemeinen kein solches x finden. Man bezeichnet dann als α-qantil diejenige beobachtete Asprägng x k, für die gilt: F(x) α nd 1-F(x)+f(x) α. In Worten bedetet dies, daß als α-qantil diejenige Beobachtng genommen wird, bei der die kmlierten relativen Häfigkeiten erstmalig den Wert α übersteigen.

15 Die Bestimmngsregel für den α-verteilngspnkt Es sei das α-qantil z bestimmen, also der Pnkt x mit F(x)= α. Der Verteilngspnkt bestimmt sich as der Gleichng für die Verteilng drch Umformng nach x. Schritt 1: Erkennen des richtigen Intervalls As der Verteilng wird das Intervall, die Klasse, festgestellt, in der das geschte x enthalten ist, z.b. Klasse i, d.h. es mß gelten F( x i ) F(x) = α F( x o i ) Schritt 2: Ergänzen der Randhäfigkeit Vom Rand des Intervalls x i wird der Teil der Häfigkeit hinzgenommen, der im Vergleich z α noch fehlt, d.h. F(x)-F( x i ) gewichtet mit der Häfigkeit im Intervall Intervall Breite [ K i /(n i /n) = relative Häfigkeit im Intervall ] d.h. F(x)-F(x i ) (2) x = x i + K n i. i n Ach Gleichng (2) folgt as der Dreisatzregel der Abbildng 1, in dem diesmal nach x afgelöst wird. Abbildng 2 zeigt das Verfahren: 1 F(x)=β F(x)=α x α x β 0 Abbildng 2: Das Qantil im stetigen Fall

16 Für den diskreten Fall wird das differierende Vorgehen drch Abbildng 3 illstriert: 1=F(x 3 ) F(x)=β 1 F(x 2 ) F(x 1 ) F(x)=α F(x 1 ) x 1 x 2 x 3 Zweite Fortsetzng des Beispiels Abbildng 3: Das Qantil im diskreten Fall Für das Beispiel erhält man so als 0.30-Qantil (F(x) = 0.30) den Wert x = 70, der nmittelbar as der Verteilng ablesbar ist (der obere Randpnkt des zweiten Intervalls). Das erste Qartil, also der Pnkt x mit F(x) = 0.25 bestimmt sich mit x i = 60, F(x)-F( x i ) = 0.25-0.05, Ki /(n i /n) = 10/(25/100) as x = x i + F(x)-F(x i ) n i n Für den Median gilt x med = 63.333, denn K i = 60 + 0.25-0.05 25 100 10 = 68 x i = 30, F(x) - F( x i ) = 0.50-0.30 = 0.20, Ki /(n i /n) = 5/(30/100) = 50/3 = 16 2/3, also x = 30 + 0.20. 16 2/3 = 63 1/3. Teil 2 folgt gesondert: Zweidimensionale Daten (Häfigkeit-000-2) Beispiele nd Erweiterngen Beispiel 1 (Einige Afgaben z Häfigkeiten) Beispiel 2 (Vergleich zweier binärer Merkmale) Beispiel 3 (Einige Afgaben z zweidimensionalen Häfigkeiten) (SIMPSON)