Statistik für BiologInnen

Größe: px
Ab Seite anzeigen:

Download "Statistik für BiologInnen"

Transkript

1 Statistik für BiologInnen Wolfgang Desch Institut für Mathematik und Wissenschaftliches Rechnen Karl-Franzens-Universität Graz 1. Beschreibende Statistik 2. Zufallsgrößen 3. Statistisches Schätzen und Testen 4. Wechselwirkungen zwischen Merkmalen 5. Übungen 6. Tabellen und Literatur

2

3 KAPITEL 1 Beschreibende Statistik Übersicht: 1 Merkmale und Häufigkeiten 1.1. Merkmalstypen und absolute Häufigkeiten 1.2. Kumulative Häufigkeiten und Histogramme 2 Kennzahlen 2.1. Perzentile 2.2. Mittelwert 2.3. Varianz und Standardabweichung 2.4. Andere Kennzahlen auf Grundlage von Summationen 2.5. Kennzahlen für nominale Merkmale 3 Zusammenhang zwischen zwei Merkmalen 3.1. Regressionsgerade 3.2. Korrelation 1.1. Merkmale und Häufigkeiten Übersicht: 1. Merkmalstypen und absolute Häufigkeiten 2. Kumulative Häufigkeiten und Histogramme Merkmalstypen und absolute Häufigkeiten. Übersicht: 1. Merkmale 2. Skalenniveaus 3. Absolute und relative Häufigkeit 4. Stabdiagramm und Kreisdiagramm Merkmale. Statistische Aussagen machen Angaben über die Häufigkeit des Auftretens bestimmter Eigenschaften innerhalb einer (meist großen) Grundgesamtheit von Individuen (Merkmalsträgern), oder die Häufigkeit des Auftretens bestimmter Ereignisse bei einer großen Anzahl von Versuchen. Die einzelnen Individuen heißen die Merkmalsträger, die Kriterien, durch die sie sich unterscheiden, die Merkmale. Bei jedem Merkmalsträger findet sich das Merkmal in einer bestimmten Ausprägung. In den seltensten Fällen kann die ganze Grundgesamtheit untersucht werden, oft zieht man zur Untersuchung nur eine Stichprobe heran, um von dieser auf die ganze 1

4 2 1. BESCHREIBENDE STATISTIK Grundgesamtheit (mit entsprechender Vorsicht) Rückschlüsse zu ziehen. Die Anzahl der Merkmalsträger in der Stichprobe heißt der Stichprobenumfang und wird in Formeln oft mit n bezeichnet. Tipp Auch wenn es ganz einfach ist: Machen Sie sich bei jedem statistischen Problem klar, wer die Merkmalsträger sind, was die Grundgesamtheit ist, welche Merkmale untersucht sind und welche Ausprägungen vorkommen können. Eine besondere Falle ist, dass sowohl Ausprägungen als auch Häufigkeiten durch Zahlenwerte ausgedrückt werden können Skalenniveaus. Merkmale kommen auf verschiedenen Skalenniveaus vor. Aus dem Skalenniveau ergibt sich, welche statistischen Methoden verwendet werden dürfen. Daher werden bereits bei der Anlage der Merkmale in Statistikprogrammen die Skalenniveaus eingegeben. Man unterscheidet die folgenden Skalenniveaus: Definition Es gibt Merkmale auf folgenden Skalenniveaus: 1) nominal: Die Gesamtheit ist in gleichberechtigte Kategorien unterteilt. Die Ausprägung besteht darin, zu welcher Kategorie der Merkmalsträger gehört. 2) ordinal: Die Ausprägungen stellen eine Rangordnung dar. 3) intervallskaliert: Die Ausprägungen sind Zahlenwerte, mit denen Rechnungen sinnvoll sind. Man kann z.b. (durch Subtraktion) den Abstand zweier Ausprägungen angeben. 4) verhältnis-skaliert: Die Ausprägungen liegen auf einer Skala mit absolutem Nullpunkt. Z.B. ist die Aussage: Das Merkmal ist bei A doppelt so stark wie bei B sinnvoll. Intervall- oder verhältnisskalierte Merkmale bezeichnet man auch als metrisch. Beispiel Die hygienischen Verhältnisse in einem Katzenheim mit einigen hundert InsassInnen sind ins Gerede gekommen. Zur Überprüfung werden 20 Katzen nach verschiedenen Gesichtspunkten untersucht. Die Erhebung ergibt folgende Tabelle, von der wir nur die ersten Zeilen und Spalten angeben: Name Geschlecht Allgemeinzustand Gewicht Aktivität Anzahl Flöhe... m,w 1 5, 1=sehr gut kg 1 5, 1=hyperaktiv gezählt Alexis m August m Betty w Caesar m Dora w Diskussion: In diesem Beispiel sind die Merkmalsträger die Katzen. Die Grundgesamtheit sind die Katzen des Tierheims, von denen eine Stichprobe mit Stichprobenumfang 20 entnommen wurde. Jede Zeile der Tabelle gehört zu einem Merkmalsträger der Stichprobe. Die beobachteten Merkmale und ihre Ausprägungen sind: Merkmal Skalenniveau mögliche Ausprägungen Geschlecht nominal m,w Allgemeinzustand ordinal sehr gut ganz schlecht Gewicht metrisch Zahlenwert in kg Aktivität ordinal hyperaktiv lethargisch Anzahl Flöhe metrisch ganze Zahlen.....

5 1.1. MERKMALE UND HÄUFIGKEITEN 3 Tipp Wenn ein Merkmal durch eine Zahl angegeben wird, muss es deshalb noch lange nicht metrisch sein! Absolute und relative Häufigkeit. Definition Die absolute Häufigkeit einer Ausprägung eines Merkmals in einer Gesamtheit ist die Anzahl der Merkmalsträger, die das Merkmal in der gegebenen Ausprägung aufweisen. Die relative Häufigkeit einer Ausprägung ist die absolute Häufigkeit, gebrochen durch die Anzahl aller Merkmalsträger der Gesamtheit. Absolute und relative Häufigkeiten gibt es sowohl innerhalb der Grundgesamtheit als auch innerhalb der Stichprobe. Sehr oft besteht die Aufgabe der Statistik darin, die uns unbekannten Häufigkeiten in der Grundgesamtheit auf Grund der gegebenen Häufigkeiten innerhalb einer Stichprobe zu schätzen. Beispiel Die Untersuchungen über die hygienischen Verhältnisse in einem Katzenheim (Beispiel ) beinhalten insbesondere eine Zählung der Flöhe auf jeder Katze der Stichprobe. Das Ergebnis dieser Detailuntersuchung wurde in der folgenden Häufigkeitstabelle zusammengefasst: Katzen mit Anzahl Anteil an der Stichprobe keinem Floh Floh Flöhen Flöhen Flöhen Flöhen mehr Flöhen Gesamt: Diskussion: Die Tabelle ist nach den Ausprägungen eines Merkmals, nämlich der Anzahl der Flöhe, sortiert: Jede Zeile entspricht einer Ausprägung. Die Tabelle enthält die absoluten Häufigkeiten. Zum Beispiel ist 5 die absolute Häufigkeit der Ausprägung kein Floh, es gab in der Stichprobe 5 Katzen, auf denen gar kein Floh gefunden wurde. Das ist ein Viertel der gesamten Stichprobe, daher ist ein Viertel = 0.25 die relative Häufigkeit der Ausprägung kein Floh. Die Summe aller absoluten Häufigkeiten ist der Stichprobenumfang: Es wurden 20 Katzen gezählt. Die relativen Häufigkeiten müssen sich immer auf 1 summieren. Beispiel Wie unterscheiden sich die Tabellen in Beispiel und Beispiel , und wie kann man aus diesen Tabellen die absoluten Häufigkeiten der Ausprägungen des Merkmals Anzahl der Flöhe ablesen? Diskussion: Die Tabelle in Beispiel ist nach Merkmalsträgern geordnet: Jeder Katze gehört eine Zeile. Wäre die Tabelle im Beispiel vollständig angegeben, könnte man die absoluten Häufigkeiten jeder Ausprägung bestimmen, indem man einfach die Zeilen zählt, in denen die entsprechende Ausprägung vorkommt. Die Tabelle in Beispiel ist nach Ausprägungen sortiert: Jede Zeile entspricht einer möglichen Anzahl von Flöhen. Die absoluten Häufigkeiten sind direkt in der zweiten Spalte ablesbar.

6 4 1. BESCHREIBENDE STATISTIK Stabdiagramm und Kreisdiagramm. Wir lernen hier noch zwei Methoden kennen, Häufigkeitsverteilungen grafisch darzustellen. Es gibt noch viele andere Methoden, Sie müssen nur aufmerksam die Zeitungen durchblättern, um weitere Möglichkeiten zu entdecken. Methode Ein Stabdiagramm zeigt in horizontaler Anordnung die verschiedenen Ausprägungen eines Merkmals. Über jeder Ausprägung wird ein Balken in der Höhe der absoluten oder relativen Häufigkeit eingezeichnet. Eine Skala auf der senkrechten Achse ermöglicht das Ablesen der Häufigkeiten. Absolute und relative Häufigkeiten werden durch dasselbe Stabdiagramm, nur mit unterschiedlicher Skala, dargestellt. Stabdiagramme sind für alle Skalenniveaus (sogar nominal) möglich. Beispiel Die Häufigkeitsverteilung der Ausprägungen des Merkmals Anzahl der Flöhe aus der folgenden Häufigkeitstabelle (aus Beispielen und ) ist durch ein Stabdiagramm darzustellen: Katzen mit Anzahl Anteil an der Stichprobe keinem Floh Floh Flöhen Flöhen Flöhen Flöhen mehr Flöhen Gesamt: Diskussion: Zunächst müssen wir den Platz einteilen. Es gibt 6 Ausprägungen, für die wir je einen senkrechten Balken zeichnen, die wir in gleichen Abständen auf der Zeichnung anbringen. Die größte absolute Häufigkeit ist 5, daher brauchen wir Platz für Balken bis zur Höhe 5. Entsprechend legen wir die senkrechte Skala fest. Wir zeichnen nun zu jeder Ausprägung den Balken in Höhe der absoluten Häufigkeit. Ein Stabdiagramm reicht zur Beschreibung der absoluten und relativen Häufigkeit, wir bringen eine Skala für die absolute und eine für die relative Häufigkeit an. Eine absolute Häufigkeit von 2 entspricht einer relativen Häufigkeit von 0.1. Stabdiagramm zu Beispiel

7 1.1. MERKMALE UND HÄUFIGKEITEN 5 Methode Im Kreisdiagramm (Tortendiagramm) wird jeder Ausprägung ein Sektor eines Kreises zugewiesen, dessen Anteil an der gesamten Kreisfläche die relative Häufigkeit der Ausprägung ist. Es gilt also für den Winkel des Sektors (in Grad): Winkel = 360 relative Häufigkeit Kreisdiagramme lassen sich für Merkmale aller Skalenniveaus anfertigen. Beispiel Die Häufigkeitsverteilung der Ausprägungen des Merkmals Anzahl der Flöhe aus der folgenden Häufigkeitstabelle aus Beispiel ist durch ein Kreisdiagramm darzustellen. Diskussion: Aus den relativen Häufigkeiten ergeben sich die Winkel der Sektoren (die entsprechenden Bruchteile von 360 ): Ausprägung rel. Häufigkeit Winkel ( ) Kreisdiagramm zu Beispiel Tipp In Zeitungen finden Sie oft Diagramme, die mit allen möglichen Grafikeffekten verziert und interessanter gemacht sind: Menschenfiguren oder Geldstapel statt Balken, verschiedene Schattenwürfe, eingeblendete Bilder, und mehr Kitsch von dieser Sorte. Ersparen Sie sich bei der Anfertigung Ihrer Grafiken diese unnötige Arbeit und vermeiden Sie alle Effekte, die von der wesentlichen Information ablenken: Sie machen die Grafik nur unübersichtlicher.

8 6 1. BESCHREIBENDE STATISTIK Was Sie jetzt können: Begriffe und Wissen: Merkmal, Merkmalsträger, Grundgesamtheit, Stichprobe, Umfang einer Gesamtheit, Ausprägung, Skalenniveau, absolute und relative Häufigkeiten. Methoden: Lesen und Aufstellen von Häufigkeitstabellen, Berechnen relativer Häufigkeiten aus absoluten Häufigkeiten und Umfang der Gesamtheit, Erstellen von Stab- und Kreisdiagrammen Kumulative Häufigkeiten und Histogramme. Übersicht: 1. Kumulative Häufigkeiten 2. Histogramm und empirische Verteilungsfunktion 3. Klasseneinteilung Kumulative Häufigkeiten. Definition Für ein ordinales oder metrisches Merkmal ist die absolute kumulative Häufigkeit einer Ausprägung x die Anzahl der Merkmalsträger, die das Merkmal in der gegebenen Ausprägung x oder einer in der Ordnung unter x liegenden Ausprägung aufweisen. Die relative kumulative Häufigkeit ist die absolute kumulative Häufigkeit, gebrochen durch die Anzahl aller Merkmalsträger der Gesamtheit. Merksatz Die absolute Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: Wieviele Merkmalsträger befinden sich in der Klasse. Die relative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: Welcher Anteil der Merkmalsträger befindet sich in der Klasse. Die absolute kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: Wieviele Merkmalsträger haben Ausprägungen, die kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind? Die relative kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: Welcher Anteil der Merkmalsträger hat Ausprägungen, die kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind? Beispiel Eine Längenmessung von Insekten ergab folgende Tabelle: Länge (mm) Anzahl Insekten inkl. 5 bis exkl. 7 5 inkl. 7 bis exkl inkl. 8 bis exkl inkl. 9 bis inkl Berechnen Sie den Stichprobenumfang, die relativen Häufigkeiten sowie die absoluten und relativen kumulativen Häufigkeiten.

9 1.1. MERKMALE UND HÄUFIGKEITEN 7 Diskussion: Das Merkmal ist die Länge der Insekten, die möglichen Ausprägungen sind positive Zahlen in der Größenordnung bis etwa 15 mm. Um eine Tabelle zu erstellen und nicht für jedes Insekt eine andere Zahl einzutragen, wurden die Längen in Klassen geteilt. (Typischerweise nimmt man gleich breite Klassen, aber diesmal wurden zwei Klassen mit Breite 1 mm und zwei breitere Klassen für die ganz großen und ganz kleinen Insekten gewählt.) Die Anzahl der Insekten in jeder Längenklasse ist die absolute Häufigkeit der Klasse. Summiert man alle absoluten Häufigkeiten, so erhält man den Stichprobenumfang, also n = 50. Dividiert man die absoluten Häufigkeiten durch den Stichprobenumfang, so erhält man die relativen Häufigkeiten. Die absolute kumulative Häufigkeit jeder Klasse ist die Summe der absoluten Häufigkeiten aller Klassen zwischen der untersten Klasse und der betrachteten Klasse. Für die Klasse 5 7 mm ist das zugleich ihre absolute Häufigkeit, denn es gibt keine kleinere Klasse, also 5. Nun folgt die Klasse 7 8 mm, es kommt eine absolute Häufigkeit von 15 dazu, damit beträgt die kumulative Häufigkeit 20. Die Klasse 8 9 mm trägt eine absolute Häufigkeit von 20 bei, diese summieren sich zu einer kumulativen Häufigkeit von 40. Letztlich liefert die Klasse 9 13 mm noch eine absolute Häufigkeit von 10, die absolute kumulative Häufigkeit dieser Klasse ist daher 50. Da dies die oberste Klasse ist, ist nun die ganze Stichprobe aufgebraucht: Die absolute kumulative Häufigkeit ist der Stichprobenumfang. Die relativen kumulativen Häufigkeiten kann man ebenso berechnen, nur dass man relative Häufigkeiten summiert. Man kann auch die absoluten kumulativen Häufigkeiten durch den Stichprobenumfang dividieren. Beide Methoden liefern dasselbe Ergebnis. Am Ende steht folgende Tabelle da: Länge (mm) Häufigkeiten kumulative Häufigkeiten absolut relativ absolut relativ x i a i f i k i F i inkl. 5 bis exkl inkl. 7 bis exkl inkl. 8 bis exkl inkl. 9 bis inkl Summe Histogramm und empirische Verteilungsfunktion. Methode Die Häufigkeiten der Ausprägungen metrischer Merkmale lassen sich als Histogramm darstellen, wenn die Daten in Klassen gruppiert sind. Jede Klasse ist durch ihre untere und obere Klassengrenze festgelegt, Ausprägungen innerhalb dieses Intervalls werden zu dieser Klasse gezählt. Es wird zu Beginn festgelegt, ob Ausprägungen, die genau an der Grenze zweier Klassen liegen, zur oberen oder zur unteren Klasse gezählt werden. Die Klassenbreite ist die Differenz von der oberen und der unteren Klassengrenze. Die Besetzungsdichte einer Klasse errechnet sich durch die Formel relative Häufigkeit Besetzungsdichte =. Klassenbreite Auf der waagrechten Achse werden die Klassengrenzen aufgetragen, darüber Rechtecke in der Höhe der Besetzungsdichten. Die Flächen dieser Rechtecke sind dann gerade die relativen Häufigkeiten der Klassen. Methode Die kumulativen Ausprägungen metrischer Merkmale lassen sich durch die empirische Verteilungsfunktion darstellen, wenn die Daten in Klassen gruppiert sind (vgl. Methode ). Auf der waagrechten Achse werden die Klassengrenzen aufgetragen. Über der oberen Grenze jeder Klasse wird senkrecht ihre kumulative Häufigkeit aufgetragen, an der untersten Klassengrenze wird 0 aufgetragen. Die Punkte werden durch Geraden verbunden, sodass sich ein Polygonzug ergibt.

10 8 1. BESCHREIBENDE STATISTIK Beispiel Die Daten aus Beispiel sind durch ein Histogramm darzustellen, die empirische Verteilungsfunktion ist einzuzeichnen. Diskussion: Die Besetzungsdichten ergeben sich als relative Häufigkeiten gebrochen durch die Klassenbreite: Ausprägung Klassenbreite rel. Häufigkeit Besetzungsdichte kum. rel. H Wir zeichnen Histogrammbalken jeweils waagrecht vom Anfang zum Ende jeder Klasse, als Höhe verwenden wir die eben errechneten Besetzungsdichten. Die empirische Verteilungsfunktion setzt sich aus Geradenstücken zusammen. Sie beginnt am unteren Ende der untersten Klasse, also bei Länge 5, mit dem Wert 0. Am oberen Ende jeder Klasse erreicht die empirische Verteilungsfunktion die relative kumulative Häufigkeit dieser Klasse relative Haeufigkeit Laenge Histogramm und empirische Verteilungsfunktion zu Beispiel Merksatz Die Fläche der Balken eines Histogramms über einer Klasse ist gerade die relative Häufigkeit dieser Klasse. Die Steigung der empirischen Verteilungsfunktion über einer Klasse ist gerade die Besetzungsdichte. Die empirische Verteilungsfunktion steigt umso schneller, je höher die Histogrammbalken sind Klasseneinteilung. Um in dieser Vorlesung nicht immer inklusive exklusive schreiben zu müssen, führen wir noch eine sehr bequeme Schreibweise ein. Definition Seien a und b zwei Zahlen mit a b. Wir definieren die folgenden Intervalle: [a, b] die Menge aller Zahlen zwischen a und b, wobei a und b mitgerechnet werden ( abgeschlossenes Intervall ). (a, b) die Menge aller Zahlen zwischen a und b, wobei a und b nicht mitgerechnet werden ( offenes Intervall ). [a, b) die Menge aller Zahlen zwischen a und b, wobei a mitgerechnet und b nicht mitgerechnet wird ( halboffenes Intervall ). (a, b] die Menge aller Zahlen zwischen a und b, wobei a nicht mitgerechnet und b mitgerechnet wird ( halboffenes Intervall ).

11 1.1. MERKMALE UND HÄUFIGKEITEN 9 Wir sind Klasseneinteilungen schon bei der grafischen Methode des Histogramms begegnet. Um den Sinn einer Klasseneinteilung zu verstehen, beginnen wir mit einem Beispiel: Beispiel In einer Studie wurden 40 Schlangen einer kleinen Natternart vermessen, es ergaben sich folgende Längen: Länge (cm) Anzahl Länge (cm) Anzahl Ausprägung abs. Häuf. kum. Häuf. Ausprägung abs. Häuf. kum. Häuf Diese Daten sind grafisch darzustellen. Diskussion: Wir beginnen mit einer Variante des Stabdiagramms, wobei wir waagrecht die Länge der Schlagen auftragen, und darüber senkrecht die Anzahl der Schlangen dieser Länge rel. Haeufigkeit Laenge cm Stabdiagramm zu Beispiel ohne Klasseneinteilung Dieses Diagramm ist sehr unübersichtlich, es finden sich viele gleich hohe Stäbe und dazwischen viele Lücken. Je nachdem, ob zufällig zwei oder drei Schlangen auf den Zentimeter gleich lang waren, finden sich Stäbe, die höher sind als 1/40. Ob genau zwei Schlangen derselben Länge gefunden wurden, oder sich die Längen der Schlangen um einen Zentimeter unterscheiden, ist biologisch irrelevant. Daher ist die Höhe der Stäbe eher ein Zufallsprodukt ohne biologische Bedeutung, wesentlich ist, wo sich die Stäbe häufen, was weniger bequem abzulesen ist. Eine bessere Vorstellung erhält man, wenn man die Tiere in Klassen teilt: Größe Klassen (cm) Klassenmitte abs. Häufigkeit sehr klein [29,40) klein [40,50) mittel [50,60) groß [60,70) sehr groß [70,81]

12 10 1. BESCHREIBENDE STATISTIK Außer den Häufigkeiten und Klassengrenzen haben wir auch die Klassenmitte angegeben, den Mittelwert von oberer und unterer Klassengrenze. Für den Fall, dass man für weitere Rechnungen einen Zahlenwert für die Längen der Schlangen jeder Klasse braucht, kann man die Klassenmitte heranziehen. Die folgende Grafik zeigt das Histogramm für diese Klasseneinteilung. Dies ist wesentlich übersichtlicher und informativer. Man sieht, dass die Längen zwischen 60 und 70 cm am häufigsten auftreten. In Richtung größere Längen fällt die Häufigkeit sehr schnell ab. In Richtung auf die kleineren Längen fällt die Häufigkeit langsamer ab. Es liegt eine schiefe Häufigkeitsverteilung vor rel. Haeufigkeit Laenge cm Stabdiagramm zu Beispiel mit Klasseneinteilung In der folgenden Grafik zeichnen wir zweimal die empirische Verteilungsfunktion: Durchgezogen ohne Klasseneinteilung (d.h., die Klassenbreiten sind hier jeweils 1 cm), und strichliert mit der obigen Klasseneinteilung. Man sieht, dass sich die Klasseneinteilung auf die empirische Verteilungsfunktion nicht wesentlich auswirkt, der Polygonzug ist nur etwas weniger zittrig. Alles, was auf kumulativen Häufigkeiten beruht, wird durch Klasseneinteilungen nicht stark verändert kumulative rel. Haeufigkeit Laenge cm Empirische Verteilungsfunktion zu Beispiel mit und ohne Klasseneinteilung Die letzten beiden Grafiken zeigen die Wirkung einer gröberen und einer feineren Klasseneinteilung. Die folgende Klasseneinteilung ist eindeutig zu grob, fast alle Information ist verloren gegangen.

13 1.1. MERKMALE UND HÄUFIGKEITEN rel. Haeufigkeit Laenge cm Stabdiagramm zu Beispiel mit grober Klasseneinteilung Die folgende Klasseneinteilung ist feiner. Sie zeigt eine zweigipfelige Verteilung. Das könnte ein Zufallsprodukt auf Grund der feinen Klasseneinteilung sein. Wenn die Klassen klein sind, kann durch Zufall leicht eine leer oder unterbesetzt ausfallen rel. Haeufigkeit Laenge cm Stabdiagramm zu Beispiel mit feiner Klasseneinteilung Methode Bei umfangreichen Datensätzen mit einem metrischen Merkmal kann man eine Klasseneinteilung vornehmen, indem man im Bereich der möglichen Realisierungen Klassengrenzen festlegt, wodurch der Bereich in halboffene Intervalle, die Klassen, aufteilt wird. Soll zu Rechenzwecken jeder Klasse als Ausprägung nicht ein Intervall, sondern eine Zahl zugeordnet werden, so bietet sich dafür der Mittelwert zwischen unterer und oberer Klassengrenze an. Merksatz Wie viele und wie breit die Klassen einer Klasseneinteilung sein sollen, richtet sich nach dem Zweck der Studie. Der wesentliche Vorteil einer gröberen Klasseneinteilung ist die Übersichtlichkeit der Darstellung. Andererseits fällt durch eine gröbere Klasseneinteilung auch mehr Information weg, denn

14 12 1. BESCHREIBENDE STATISTIK statt der genauen Zahlenwerte der Ausprägungen werden jetzt nur mehr Intervalle erfasst. Statistische Kennzahlen errechnet man am besten an Hand der unklassifizierten Daten, während grafische Darstellungen und Übersichtstabellen oft mit der Klasseneinteilung informativer ausfallen. Alle Kennzahlen und Methoden, die auf kumulativen Häufigkeiten beruhen, werden von Klasseneinteilungen nur sehr gering beeinflusst. Was Sie jetzt können: Begriffe und Wissen: Absolute und relative kumulative Häufigkeit. Methoden: Berechnen und interpretieren von kumulativen Häufigkeiten. Histogramm und empirische Verteilungsfunktion. Klasseneinteilung, ihre Vorteile und Nachteile Kennzahlen Übersicht: 1. Perzentile 2. Mittelwert 3. Varianz und Standardabweichung 4. Weitere Kennzahlen auf Grundlage von Summationen 5. Kennzahlen für nominale Daten Perzentile. Übersicht: 1. Definition des Perzentils 2. Perzentile für metrische Daten mit Klasseneinteilung 3. Spannweite und Quartilsabstand 4. Box-Whisker-Diagramm Definition des Perzentils. Definition Seien x 1, x 2,, x m die Ausprägungen eines ordinalen (oder metrischen) Merkmals, aufsteigend der Größe nach geordnet. Seien F 1,, F m die zugehörigen relativen kumulativen Häufigkeiten. Sei a eine Zahl zwischen 0 und 100. Das a%-perzentil ist jene Ausprägung x i, bei der die relative kumulative Häufigkeit F i erstmals den Wert a/100 erreicht und überschreitet. Erreicht die kumulative Häufigkeit bei der Ausprägung x i exakt den Wert a/100 (ohne ihn zu überschreiten), so geben manche Autoren als a%-perzentil das Paar (x i, x i+1 ) an. Bei metrischen Daten kann man auch das arithmetische Mittel 1 2 (x i + x i+1 ) angeben. Einige Perzentile besitzen besondere Bedeutung und haben eigene Namen:

15 1.2. KENNZAHLEN 13 Definition Die folgenden Perzentile besitzen Eigennamen: 0% Minimum: Die kleinste Ausprägung, die vorkommt. 25% Erstes Quartil oder unteres Quartil. 50% Median oder Zweites Quartil. 75% Drittes Quartil oder oberes Quartil. 100% Maximum: Die größte Ausprägung, die vorkommt. Das a%-perzentil bezeichnet man auch als das a Quantil. Häufig werden auch das 10%-Perzentil und das 90%-Perzentil angegeben. Merksatz Das a%-perzentil ist eine Kenngröße der Lage. Es gibt Antwort auf die Frage: Bei welcher Ausprägung liegt die Grenze zwischen den unteren a Prozent und den oberen 100 a Prozent der Stichprobe oder der Gesamtheit? Beispiel Eine Statistik sagt, dass das 90%-Perzentil des Körpergewichtes von Kindern eines gewissen Alters bei 35 kg liegt. Was heißt das? Diskussion: Die kumulative Häufigkeit erreicht (und überschreitet) bei 35 kg erstmals 90%. Das heißt: 90% der Kinder dieses Alters wiegen höchstens 35 kg, die anderen 10% der Kinder sind schwerer. Beispiel Ein Test in einer Klasse von 20 StudentInnen ergab folgende Noten: Note Anzahl Studierende Bestimmen Sie den Median, die Quartile und das 20%-Perzentil. Diskussion: Wir beginnen mit einer Tabelle der Häufigkeiten, insbesondere der kumulativen relativen Häufigkeiten: Note Häufigkeit abs. rel. rel. kum ges Die ersten 50% werden bei der Note 2 erreicht und überschritten, daher liegt der Median bei der Note 2. Die ersten 25% werden bei der Note 1 erreicht, aber erst bei der Note 2 überschritten. Das erste Quartil liegt zwischen den Noten 1 und 2, wir können auch sagen, das erste Quartil liegt auf 1.5. Die ersten 75% werden bei der Note 2 erreicht und überschritten. Daher liegt das dritte Quartil bei der Note 2. Sie sehen, dass in diesem Fall Median und drittes Quartil zusammenfallen. Die ersten 20% werden bei der Note 1 erreicht und überschritten. Das 20%-Perzentil liegt bei der Note 1.

16 14 1. BESCHREIBENDE STATISTIK Perzentile für metrische Merkmale mit Klasseneinteilung. Für metrische Daten, die in Intervalle gruppiert sind, ist die obige Definition des Perzentils unbefriedigend. Nach der obigen Definition ist das Perzentil in diesem Fall eine Klasse, ein Intervall. Man hätte lieber eine einzelne Zahl anstelle eines Intervalls. Wie grob die obige Definition ist, sieht man gut im vorigen Beispiel, wo Median und drittes Quartil in eine Klasse zusammenfallen. Für metrische Merkmale, die in Intervalle klassifiziert sind, gibt es daher eine zweite, feinere Definition der Perzentile. Definition (Perzentile für Daten mit Klasseneinteilung). Sei X ein metrisches Merkmal und a [0, 100] eine Zahl. Das a%-perzentil von X ist jene Ausprägung x, für den die empirische Verteilungsfunktion F den Wert F (x) = a/100 annimmt. Es gilt die Formel: a 100 a%-perzentil = x i + (x i+1 x i ) F (x i) F (x i+1 ) F (x i ). Dabei sind x i, x i+1 die untere und obere Grenze jener Klasse, in der die kumulative Häufigkeit erstmals den Wert a/100 übersteigt. F (x i ), F (x i+1 ) sind die Werte der empirischen Verteilungsfunktion, zugleich die kumulativen Häufigkeiten der Klassen [x i 1, x i ) bzw. [x i, x i+1 ). Beispiel Die Längen von 40 Schlangen einer kleinen Vipernart wurden gemessen. Es ergab sich folgende Häufigkeitstabelle: Länge Häufigkeiten absolut relativ rel. kumulativ [30, 40) [40, 50) [50, 60) [60, 70) [70, 80] gesamt Bestimmen Sie Median, Quartile und 20%-Perzentil nach der Definition für gehäufte metrische Daten. Diskussion: Die folgende Grafik zeigt die empirische Verteilungsfunktion. Erinnern Sie sich, dass diese Funktion jeweils an der oberen Grenze einer Klasse durch die kumulative Häufigkeit dieser Klasse definiert ist, und zwischen den Klassengrenzen durch ein Geradenstück interpoliert wird: 1 empirische Verteilungsfunktion % Niveau Median bei Laenge Beispiel : Empirische Verteilungsfunktion

17 1.2. KENNZAHLEN 15 Wir berechnen nun die Perzentile nach der Formel: Perzentil Prozent Klassen- kum. rel. Perzentil grenzen Häufigkeiten untere obere untere obere Formel Wert 1. Quartil 25% (60 50) = Median 50% (70 60) = Quartil 75% (70 60) = %-Perzentil 20% (60 50) = Sie sehen, dass diese Methode zum Beispiel im Stande ist, Median und drittes Quartil zu unterscheiden, obwohl beide in derselben Klasse liegen. Tipp SPSS berechnet für metrische, nicht in Klassen gruppierte, Daten das a% Perzentil nach folgender Formel: Gegeben seien die Daten x 1,, x n in aufsteigender Reihenfolge. Sei k = a (n + 1), 100 Ist k eine ganze Zahl, so wähle x k als das a-perzentil. Ist k eine Bruchzahl m + r mit ganzer Zahl m und Rest r (0, 1), so berechne das a-perzentil durch x m + r(x m+1 x m ). SPSS hat aber auch die Möglichkeit, Perzentile für in Klassen gruppierte Daten zu berechnen. Dazu müssen die Mittelpunkte der Klassen eingegeben werden Spannweite und Quartilsabstand. Definition Sei X ein metrisches Merkmal. Die Spannweite von X ist die Differenz von Maximum minus Minimum. Der Quartilsabstand (manchmal auch Interquartilsabstand genannt) ist die Differenz 3. Quartil minus 1. Quartil. Merksatz Spannweite und Quartilsabstand sind Kenngrößen der Streuung. Je größer diese Zahlen sind, desto stärker streuen die Daten. Beispiel Bestimmen Sie für die Stichprobe aus Beispiel die Spannweite und den Quartilsabstand (berechnet nach der Definition der Perzentile für klassifizierte metrische Daten). Diskussion: Aus den Lösungen von Beispiel entnehmen wir folgende Werte: Daraus errechnen sich: Minimum Quartil Median Quartil Maximum Spannweite = 50 Quartilsabstand = 15.50

18 16 1. BESCHREIBENDE STATISTIK Warum man den Quartilsabstand lieber als Streuungsmaß einsetzt als die Spannweite, erklärt das nächste Beispiel. Beispiel An einer Baustelle gilt eine Geschwindigkeitsbeschränkung auf 30 km h. Eine kurze Radarmessung ergab an 10 vorbeifahrenden Autofahrern folgende Werte Messung Nr Geschwindigkeit Die Mannschaft will eben die Radargeräte abbauen, da dirigiert Eberhard Wunderwarzenschwein seinen Ferrari mit km/h durch die Meßstelle. Welche Auswirkungen hat dieser extreme Wert (Ausreißer) auf die Statistik? Diskussion: Wir beginnen mit einer Tabelle der Ausprägungen und ihrer relativen kumulativen Häufigkeiten mit und ohne Ausreißer. (Die relativen Häufigkeiten sind zugleich die Werte der empirischen Verteilungsfunktion an den gegebenen Stellen): Geschwindigkeit Häufigkeiten ohne Ausreißer Häufigkeiten mit Ausreißer abs. rel. rel. kum. abs. rel. rel. kum gesamt Wir berechnen die Perzentile, Quartilsabstand und Spannweite mit und ohne Ausreißer: Perzentil ohne Ausreißer mit Ausreißer Minimum Quartil Median Quartil Maximum Spannweite Quartilsabstand Sie sehen, dass der extrem hohe Ausreißer natürlich Maximum und Spannweite stark verändert. Die Quartile und der Quartilsabstand verändern sich nur geringfügig. Merksatz Perzentile und Quartilsabstand sind äußerst robust (unempfindlich) gegen allfällige Ausreißer. Dagegen hängen natürlich Maximum, Minimum und Spannweite extrem empfindlich von Ausreißern ab. Merksatz Ein statistischer Ausreißer ist ein Datenwert oder Datensatz, dessen Wert weitab vom Grossteil der Daten einer Statistik liegen. Das Auftreten eines Ausreißers kann unterschiedliche Gründe haben: 1) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die aber für die vorliegende Untersuchung nicht bedeutend sind. 2) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die auf Phänomene hinweisen, die in der vorliegenden Untersuchung erfaßt werden sollten.

19 1.2. KENNZAHLEN 17 3) Der Ausreißer entsteht durch einen Meß- oder Beobachtungsfehler, oder durch einen Fehler in der Weiterleitung der Daten. Es gibt statistische Methoden, Ausreißer aufzufinden und zu kennzeichnen. Unter welchem der drei obigen Gesichtspunkte der Ausreißer betrachtet werden muss, liegt in der Verantwortung des Untersuchenden und kann mit rein formalen statistischen Methoden nicht geklärt werden Box-Whisker-Plot. Methode Einen Boxplot oder Box-Whisker-Plot aus einer Stichprobe eines metrischen Merkmals erstellt man folgendermaßen: Rechnerische Vorbereitung: 1) Median, Quartile und Quartilsabstand werden errechnet. 2) Es werden die inneren Grenzen bestimmt: erstes Quartil Quartilsabstand drittes Quartil Quartilsabstand 3) Es werden die äußeren Grenzen bestimmt: erstes Quartil - 3 Quartilsabstand drittes Quartil + 3 Quartilsabstand 4) Es werden die Daten identifiziert, welche zwischen den inneren und äußeren Grenzen liegen, dieses sind die suspekten Ausreißer. 5) Es werden die Daten identifiziert, welche außerhalb der äußeren Grenzen liegen, dieses sind die sehr suspekten Ausreißer. 6) Es werden der größte und kleinste Wert der verbleibenden Daten bestimmt, wir bezeichnen diese als Maximum und Minimum innerhalb der inneren Grenzen. Zeichnung: 7) Es wird senkrecht eine Skala angelegt, die vom Minimum bis zum Maximum aller Ausprägungen reicht. (Man kann die Skala auch waagrecht anlegen, alle weiteren Schritte erfolgen dann entsprechend gedreht.) 8) Median und Quartile werden durch kleine übereinanderliegende waagrechte Striche eingezeichnet. Die Quartile werden dann durch senkrechte Striche verbunden, sodaß sich eine Box mit einem Teilstrich im Median ergibt. 9) Das Maximum und Minimum innerhalb der inneren Grenzen werden ebenfalls durch waagrechte Striche eingezeichnet. Diese werden je durch einen senkrechten Strich in der Mitte mit der Box verbunden ( Whiskers ). 10) Die suspekten Ausreißer werden mit einem Kreis eingezeichnet. 11) Die sehr suspekten Ausreißer werden mit einem Stern eingezeichnet. In einer vereinfachten Methode verzichtet man auf die Analyse der Ausreisser und zeichnet die Whisker vom dritten Quartil bis zum Maximum, und vom Minimum bis zum ersten Quartil. Beispiel Gewichtsmessung an einer Stichprobe aus einer Rattenpopulation ergab folgende Kennzahlen (Gewichte in g): Minimum 100 erstes Quartil 150 Median 250 drittes Quartil 300 Maximum 450

20 18 1. BESCHREIBENDE STATISTIK Stellen Sie diese Daten durch einen Box-Whisker-Plot dar (ohne Analyse der Ausreisser), und kennzeichnen Sie darin den Median, die Spannweite, und den Quartilsabstand. Boxplot zu Beispiel Beispiel In zwei aufeinanderfolgenden Jahren wurde eine Lehrveranstaltung abgehalten. Bei den Schlusstests waren jeweils hundert Punkte erreichbar. Für jedes Jahr wurde eine Tabelle der erreichten Punktewertungen erstellt. Die Ergebnisse der beiden Studienjahre sind je durch einen Boxplot zusammengefasst: 100, ,0 2 Punkte 60,0 40,0 20,0 0, Jahr 2004 Interpretieren Sie die Grafik. Boxplots zu Beispiel Diskussion: Die Hälfte der Studierenden im Jahr 2003 hatte Punktezahlen zwischen ca. 40 und 50, insgesamt lagen die Punktezahlen zwischen ca. 2 und 98, wobei so extreme Werte aber nur durch wenige (6) Ausreisser angenommen wurden. Die restlichen Ergebnisse lagen im Bereich zwischen ca. 25 und 65. Die Hälfte der Studierenden hatte eine bessere Punktezahl als ca. 45.

21 1.2. KENNZAHLEN 19 Die Hälfte der Studierenden im Jahr 2004 hatte Punktezahlen zwischen ca. 35 und 50, die Ergebnisse lagen insgesamt zwischen ca. 5 und 90. Abgesehen von 4 Ausreissern lagen die Punktezahlen im Bereich zwischen ca. 25 und 70. Die Hälfte der Studierenden hatte eine bessere Note als ca. 40. Die Ergebnisse der beiden Jahre sind nicht sehr verschieden. Der Vergleich der Mediane lässt die Studierenden des ersten Jahres etwas besser abschneiden. Betrachtet man die Quartilsabstände oder die Spannweite der Ergebnisse ohne Berücksichtigung der Ausreißer, so sieht man, dass der Jahrgang 2004 etwas mehr zu streuen scheint. Sie sehen, dass durch Boxplots viel Information auf kleinem Raum gegeben werden kann. Was Sie jetzt können: Begriffe und Wissen: Unterschied zwischen Kenngrößen der Lage und Kenngrößen der Streuung. Perzentile, Median, Quartil, Quantil, Maximum, Minimum, Quartilsabstand, Spannweite. Statistische Ausreißer. Methoden: Bestimmen und interpretieren von Perzentilen und den damit verwandten statistischen Kenngrößen. Boxplots zeichnen und interpretieren Mittelwert. Übersicht: 1. Summenzeichen 2. Mittelwert 2. Varianten der Berechnung des Mittelwertes Summenzeichen. Viele Formeln in der Statistik summieren Häufigkeiten oder Ausprägungen von vielen Daten. Um Formeln mit solchen Summen exakt und doch bequem aufzuschreiben, gibt es das Summenzeichen. Definition Seien x 1, x 2,, x n Zahlen. Sei 1 p q n. Das Summenzeichen bedeutet: q x i = x p + x p x q 1 + x q. i=p (D.h., addiere die Werte x i, wobei i von p bis q läuft.) Tipp Die Benennung des Summationsindex spielt keine Rolle, er ist nur ein Name für die Nummern, die durchgezählt werden. Die folgenden beiden Summen ergeben dasselbe: 6 6 x t = x i. t=2 i=2

22 20 1. BESCHREIBENDE STATISTIK Beispiel In der folgenden Tabelle sind Zahlen a 1,, a 4 und b 1,, b 4 gegeben. Bestimmen Sie die folgenden Summen: 4 i=1 a 4 i, j=1 b j, 4 t=1 2a t 3b t, 2 4 t=1 a t 3 4 t=1 b t, ( 4 n=1 a 4 ) ( nb n, n=1 a 4 ) n n=1 b n, ( 4 k=1 a2 k, 4 ) 2, k=1 a k 4 k=1 23. i a i b i Diskussion: In der folgenden Tabelle fassen wir alle Additionen zusammen, die wir durchführen: Damit haben wir: 4 a i = 14, i a i b i 2a i 3b i 2a i 3b i a i b i a 2 i Summe t=1 4 a n b n = 25, 4 b j = 6, i=1 j= a t 3b t = 10 ebenso: 2 a t 3 b t = = 10, n=1 4 aber: t=1 ( 4 ( 4 a 2 k = 54, aber: k=1 k= = 92. k=1 t=1 n=1 a n) ( 4 n=1 a k ) 2 = 14 2 = 196, b n ) = 14 6 = 84, Merksatz Für das Summenzeichen gelten folgende Regeln: a) Summen von Summen und Differenzen darf man in zwei Summen zerlegen: q q q (a i ± b i ) = ±. i=p b) Konstante Faktoren darf man aus der Summe herausheben: q q (k a i ) = k a i. i=p i=p a i c) Es ist nicht gleichgültig, ob man zuerst multipliziert und dann summiert oder umgekehrt: q q q (a i b i ). i=p i=p a i i=p i=p i=p b i b i

23 1.2. KENNZAHLEN 21 d) Es ist nicht gleichgültig, ob man zuerst quadriert und dann summiert oder umgekehrt: 2 q q a 2 i. i=p i=p e) Wird n mal dieselbe Zahl k summiert, so ergibt sich nk. q k = (q p + 1)k. i=p a i Mittelwert. Definition Sei n der Umfang einer Gesamtheit (kann eine Stichprobe sein) von Merkmalsträgern. Seien x 1,, x n die Ausprägungen eines metrischen Merkmales x für die Merkmalsträger Nummer 1 n. Der Mittelwert x von x innerhalb dieser Gesamtheit (Stichprobe) ist dann x = 1 n (Häufig wird auch die Schreibweise µ(x) oder µ x für den Mittelwert von x verwendet.) n i=1 x i Wir geben der Vollständigkeit halber bereits hier die Definition einer weiteren Kenngröße der Lage an, obwohl sie zu den Kenngrößen der nominalen Merkmale gehört: Definition Der Modal eines Merkmals ist jene Ausprägung, die am häufigsten vorkommt. (Ein Merkmal kann mehrere Modale haben!) Merksatz Mittelwert, Median und Modal sind Kenngrößen der Lage. 1) Der Mittelwert gibt den Durchschnittswert der Ausprägung eines metrischen Merkmals innerhalb einer Gesamtheit an. Den Mittelwert kann man nur von metrischen Merkmalen angeben. 2) Der Median gibt die Grenze an, die die untere und obere Hälfte der Ausprägungen trennt. Den Median kann von zu ordinalen (und metrischen) Merkmalen angeben. 3) Der Modal gibt dagegen an, welche Ausprägung am häufigsten vorkommt, also wo der Gipfel des Stabdiagramms liegt. Den Modal gibt es auch zu nominalen, und damit zu allen Merkmalen. Mittelwert, Median, und Modal müssen nicht auf denselben Wert fallen. Beispiel Das folgende Stabdiagramm und die dazugehörige Statistik nach SPSS zeigt eine deutlich linksgipfelige Verteilung. Vergleichen Sie Modal, Median und Mittelwert.

24 22 1. BESCHREIBENDE STATISTIK 30 Prozent ,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 Auspraegung Eine linksgipfelige Verteilung N gültig 63 fehlend 0 Mittelwert Modus 2.00 Standardabweichung Varianz Spannweite Minimum 0.00 Maximum Perzentile Diskussion: Der Mittelwert (3.4286) liegt deutlich rechts vom Median (3.0000). Der Median wird nur von der Anzahl und Reihung der Daten, nicht von ihren Zahlenwerten beeinflußt. In den Mittelwert gehen auch die Zahlenwerte ein. Bei der linksgipfeligen Verteilung sind die Daten im unteren Bereich dicht gedrängt, im oberen Bereich weit gestreut. Der Median trennt die untere und die obere Hälfte. Da die Daten in der oberen Hälfte aber weit gestreut sind und zahlenmäßig hoch hinauf gehen, wird der Mittelwert weiter nach rechts gezogen. In der Statistik finden wir auch den Modal (Modus, ), also den Gipfel. Er liegt bei der linksgipfeligen Verteilung noch weiter links als der Median. Außerdem finden wir die Quartile, Maximum und Minimum, und die Spannweite. Die Streuungskennzahlen Standardabweichung und Varianz werden wir im nächsten Unterabschnitt kennenlernen. Tipp Stellen Sie sich ein Stabdiagramm oder Histogramm vor, als wären die Balken aus Ziegeln auf einem Brett aufgestapelt. Wenn Sie das Brett auf einer einzigen Stütze schaukeln lassen, müssen Sie es unter dem Mittelwert unterstützen, damit es in der Waage bleibt Varianten zur Berechnung des Mittelwertes. Methode Den Mittelwert einer Stichprobe kann man auf verschiedene Arten berechnen:

25 1.2. KENNZAHLEN 23 1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x 1,, x n gegeben, so ist x = 1 n x i. n i=1 2) Sind die möglichen Ausprägungen x 1,, x m und ihre absoluten Häufigkeiten a 1,, a m gegeben, so ist der Mittelwert x = 1 n Dabei ist der Stichprobenumfang n = m a i x i. i=1 m a i. i=1 3) Sind die möglichen Ausprägungen x 1,, x m und ihre relativen Häufigkeiten f 1,, f m gegeben, so ist der Mittelwert x = m f i x i. i=1 Beispiel In einer Klasse von 10 Schülern kommen bei einer Schularbeit die Noten von 1 bis 3 vor. Wir geben die Tabelle der Noten in drei verschiedenen Formen. Wie ist der Mittelwert der Noten? SchülerIn Note Andrea 1 Barbara 3 Clemens 1 Dieter 2 Erhard 3 Fatimah 2 Gertrud 2 Hildegard 1 Istvan 1 Jan 2 Note absolute Häufigkeit Note relative Häufigkeit Diskussion: Alle drei folgenden Wege führen zum Mittelwert: x i SchülerIn Note Andrea 1 Barbara 3 Clemens 1 Dieter 2 Erhard 3 Fatimah 1 Gertrud 2 Hildegard 1 Istvan 1 Jan 2 10 SchülerInnen Summe 17 Mittelwert 17/10=1.7 x i a i x i a i Note abs. H Summe Mittelwert 17/10 = 1.7 x i f i x i f i Note rel. H Mittelwert 1.7

26 24 1. BESCHREIBENDE STATISTIK Merksatz Achten Sie bei der Berechnung von Mittelwert und Varianz auf folgende Frage: Stellen die Zeilen Ihrer Tabelle jeweils nur einen Datensatz dar, oder steht in jeder Zeile eine Häufigkeitsangabe, sodass eine Zeile sich auf mehrere Individuen bezieht? Falls eine Häufigkeitsangabe steht, muss die Häufigkeit in die Berechnung des Mittelwertes und der Varianz einbezogen werden. Was Sie jetzt können: Begriffe und Wissen: Mittelwert, Modal Methoden: Umgang mit dem Summenzeichen, Berechnung des Mittelwertes Varianz und Standardabweichung. Übersicht: 1. Streuung 2. Varianz und Standardabweichung 3. Faustregel zur Interpretation der Standardabweichung Streuung. Merkmale kommen in der Grundgesamtheit fast immer in mehreren verschiedenen Ausprägungen vorkommen (andere Merkmale werden erst gar nicht statistisch untersucht). Nun kann ein Merkmal entweder stark streuen, das heißt, es kommt in vielen verschiedenen Ausprägungen vor, und Unterschiede werden oft beobachtet, oder es streut schwach, es kommen fast immer die gleiche oder ganz ähnliche Ausprägungen vor. Wenn wir aus der Grundgesamtheit eine Stichprobe entnehmen, spielt der Zufall mit, welche Ausprägungen in der Stichprobe vorkommen. Streut das Merkmal schwach, so ist der Einfluß des Zufalls auf die Stichprobe geringm, weil ja ohnehin fast immer ganz ähnliche Ausprägungen vorkommen: Mit großer Wahrscheinlichkeit haben wir auch diese Ausprägungen fast durchwegs in der Stichprobe. Sind dagegen die Ausprägungen in der Grundgesamtheit bunt gemischt, spielt der Zufall eine große Rolle bei der Zusammensetzung der Stichprobe. Es wird dann, durch diesen Einfluss des Zufalls, wesentlich riskanter und schwieriger, aus der Stichprobe Rückschlüsse auf die Grundgesamtheit zu machen. Merksatz Wenn ein Merkmal stark streut, dann 1) hat der Zufall viel Einfluß auf alle Vorgänge, in denen dieses Merkmal involviert ist, z.b. auf die Zusammensetzung von Stichproben, 2) sind Schlüsse, die auf Grund von Stichproben über dieses Merkmal gemacht werden, unsicher und mit großer Vorsicht vorzunehmen.

27 1.2. KENNZAHLEN 25 Daten mit verschiedener Lage und Streuung Um die Sicherheit unserer Schlüsse zu beurteilen, brauchen wir also ein Maß dafür, wie stark ein Merkmal streut. Solche Maße sind, wie wir schon wissen, die Spannweite und der Quartilsabstand, die auf Basis der Perzentile ermittelt werden. Auf Grundlage von Summenformeln werden dagegen die Varianz und die Standardabweichung eingeführt Varianz und Standardabweichung. Definition Sei n der Umfang einer Gesamtheit (kann eine Stichprobe sein) von Merkmalsträgern. Seien x 1,, x n die Ausprägungen eines metrischen Merkmales x für die Merkmalsträger Nummer 1 n. Sei x der Mittelwert von x innerhalb dieser Gesamtheit. Die Varianz von x innerhalb dieser Gesamtheit (Stichprobe) ist dann σ 2 (x) = 1 n (x i x) 2. n Die Quadratwurzel aus der Varianz heißt Standardabweichung: i=1 σ(x) = σ 2 (x) Tipp ) Verschiedene Schreibweisen werden für die Varianz eingeführt, z.b. s 2, σ 2 oder Var(x). Um zu spezifizieren, dass sich eine Varianz auf das Merkmal x bezieht, kann wiederum σ 2 (x) oder σx 2 geschrieben werden. 2) Das Quadrat über σ 2 als Kürzel der Varianz sieht zunächst willkürlich aus, ist aber konsistent mit der Schreibweise σ für die Standardabweichung. 3) Manche Autoren definieren die Varianz von vorneherein mit σ 2 (x) = 1 n 1 n (x i x) 2. i=1 Wir werden noch sehen, unter welchen Umständen man mit dem Nenner n 1 statt n rechnen muss. Vorläufig warnen wir nur, dass also die Definition der Varianz von Autor zu Autor verschieden ist. Insbesondere rechnen Statistikpakete üblicherweise mit n 1.

28 26 1. BESCHREIBENDE STATISTIK Merksatz ) Varianz und Standardabweichung sind Kenngrößen der Streuung. Je größer die Varianz, desto mehr streuen die Daten. 2) Die Varianz ist immer positiv. 3) Die Varianz ist nur dann gleich Null, wenn alle Merkmalsträger dieselbe Ausprägung haben. 4) Als alternative Kenngrößen der Streuung kennen wir bereits die Spannweite und den Quartilsabstand. Diskussion: Das ist leicht zu verstehen: Die Summanden (x i x) 2 sind immer positiv, daher ergibt sich eine positive Summe. Diese ist (wegen der Positivität der Summanden) nur dann exakt Null, wenn alle Summanden gleich null sind. Je weiter die Ausprägung x i vom Mittelwert entfernt ist, desto größer ist der Summand (x i x) 2. Eine große Varianz tritt also dann auf, wenn häufig Ausprägungen vorkommen, die vom Mittelwert stark abweichen. Genau wie beim Mittelwert gibt es verschiedene Wege, die Varianz zu berechnen, je nachdem, ob die Daten pro Merkmalsträger oder als Liste der Häufigkeiten vorliegen. In jedem dieser Fälle gibt es wiederum zwei Rechenwege: Methode Die Varianz einer Stichprobe mit Stichprobenumfang n kann man auf verschiedene Arten berechnen: 1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x 1,, x n und ihr Mittelwert x gegeben, so ist die Varianz σ 2 (x) = 1 n n (x i x) 2 = 1 n i=1 n x 2 i x 2. i=1 2) Sind die möglichen Ausprägungen x 1,, x m und ihre absoluten Häufigkeiten a 1,, a m gegeben, so ist die Varianz σ 2 (x) = 1 n m a i (x i x) 2 = 1 n i=1 n a i x 2 i x 2. i=1 Dabei ist der Stichprobenumfang m n = a i. i=1 3) Sind die möglichen Ausprägungen x 1,, x m und ihre relativen Häufigkeiten f 1,, f m gegeben, so ist die Varianz m m σ 2 (x) = f i (x i x) 2 = f i x 2 i x 2. i=1 i=1

29 1.2. KENNZAHLEN 27 Diskussion: Es läßt sich leicht zeigen, dass die jeweils zweite Formel dasselbe liefert wie die jeweils erste. Wir beweisen das für die Situation, wenn die Daten pro Merkmalsträger gegeben sind: 1 n n (x i x) 2 = i=1 = 1 n (x 2 i n 2xx i + x 2 i ) = i=1 = 1 n x 2 i n 1 n 2xx i + 1 n x 2 = n n i=1 i=1 i=1 = 1 n x 2 i n 2x 1 n x i + 1 n n nx2 = i=1 i=1 = 1 n x 2 i n 2x2 + x 2 = i=1 = 1 n x 2 i n x2. i=1 Beispiel Berechnen Sie die Varianz und Standardabweichung zu den Daten aus Beispiel auf alle 6 möglichen Arten. Diskussion: Wir beginnen mit den zwei Möglichkeiten, wenn die Daten pro Merkmalsträger angeführt sind: x i x i x (x i x) 2 SchülerIn Note Andrea Barbara Clemens Dieter Erhard Fatimah Gertrud Hildegard Istvan Jan n = durch n: x = 1.7 σ 2 (x) = 0.61 Wurzel: σ(x) x i SchülerIn Note x 2 i Andrea 1 1 Barbara 3 9 Clemens 1 1 Dieter 2 4 Erhard 3 9 Fatimah 1 1 Gertrud 2 4 Hildegard 1 1 Istvan 1 1 Jan 2 4 n = durch n: x = x σ 2 (x) = 0.61 Wurzel: σ(x) Die zweite Variante ist angenehmer, denn man muss nicht für jeden Term separat den Mittelwert abziehen. Bei Angabe der absoluten Häufigkeiten bieten sich folgende Wege an: x i a i x i a i x i x (x i x) 2 a i (x i x) 2 Note abs. H Summe durch n 1.7 σ 2 (x) = 0.61 Wurzel σ(x) 0.781

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript 3. Deskriptive Statistik Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, [ ] Daten durch Tabellen, Kennzahlen [ ] und Grafiken übersichtlich darzustellen und zu ordnen. Dies ist vor allem

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik 1 Ziele In der deskriptiven (=beschreibenden) Statistik werden Untersuchungsergebnisse übersichtlich dargestellt, durch Kennzahlen charakterisiert und grafisch veranschaulicht. 2

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein

Mehr

Statistik eindimensionaler Größen

Statistik eindimensionaler Größen Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,

Mehr

Kreisdiagramm, Tortendiagramm

Kreisdiagramm, Tortendiagramm Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Lösungen. w58r4p Lösungen. w58r4p. Name: Klasse: Datum:

Lösungen. w58r4p Lösungen. w58r4p. Name: Klasse: Datum: Testen und Fördern Name: Klasse: Datum: 1) Ermittle jeweils das arithmetische Mittel. Ordne die Datenerhebungen nach der Größe der arithmetischen Mittel. Beginne mit dem Größten. 45, 39, 44, 48, 42, 39,

Mehr

3.5 Beschreibende Statistik. Inhaltsverzeichnis

3.5 Beschreibende Statistik. Inhaltsverzeichnis 3.5 Beschreibende Statistik Inhaltsverzeichnis 1 beschreibende Statistik 26.02.2009 Theorie und Übungen 2 1 Die Darstellung von Daten 1.1 Das Kreisdiagramm Wir beginnen mit einem Beispiel, welches uns

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001) Dr. Andreas Wünsche Statistik I für Betriebswirte

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober 1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße

Mehr

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc SS 2017 Torsten Schreiber 222 Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durch Summierung je Ausprägung

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 06. Juni 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43 1) Ermittle jeweils das arithmetische Mittel. Ordne die Datenerhebungen nach der Größe der arithmetischen Mittel. Beginne mit dem Größten. 1 45, 39, 44, 48, 42, 39, 40, 31 2 35, 31, 46, 35, 31, 42, 51,

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Weitere Lagemaße: Quantile/Perzentile I

Weitere Lagemaße: Quantile/Perzentile I 3 Auswertung von eindimensionalen Daten Lagemaße 3.3 Weitere Lagemaße: Quantile/Perzentile I Für jeden Median x med gilt: Mindestens 50% der Merkmalswerte sind kleiner gleich x med und ebenso mindestens

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive

Mehr

5 Exkurs: Deskriptive Statistik

5 Exkurs: Deskriptive Statistik 5 EXKURS: DESKRIPTIVE STATISTIK 6 5 Ekurs: Deskriptive Statistik Wir wollen zuletzt noch kurz auf die deskriptive Statistik eingehen. In der Statistik betrachtet man für eine natürliche Zahl n N eine Stichprobe

Mehr

Beschreibung von Daten

Beschreibung von Daten Kapitel 2 Beschreibung von Daten In diesem Kapitel geht es um die Beschreibung von empirisch erhobenen Daten Größere Datenmengen sind schwer zu überblicken Weil ein Bild leichter als eine Ansammlung von

Mehr

Mathematische Statistik. Zur Notation

Mathematische Statistik. Zur Notation Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2014 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/57 Die Deskriptivstatistik

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () Überblick. Deskriptive Statistik I - Grundlegende

Mehr

Beispiel 4 (Einige weitere Aufgaben)

Beispiel 4 (Einige weitere Aufgaben) 1 Beispiel 4 (Einige weitere Aufgaben) Aufgabe 1 Bestimmen Sie für die folgenden Zweierstichproben, d. h. Stichproben, die jeweils aus zwei Beobachtungen bestehen, a) den Durchschnitt x b) die mittlere

Mehr

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik INSTITUT FÜR STOCHASTIK WS 2007/08 UNIVERSITÄT KARLSRUHE Blatt 1 Dr. B. Klar Übungen zur Vorlesung Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik Musterlösungen

Mehr

Statistik Skalen (Gurtner 2004)

Statistik Skalen (Gurtner 2004) Statistik Skalen (Gurtner 2004) Nominalskala: Daten haben nur Namen(Nomen) und (eigentlich) keinen Zahlenwert Es kann nur der Modus ( ofteste Wert) berechnet werden Beispiel 1: Die Befragung von 48 Personen

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/62 Summenzeichen

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 3 1 Inhalt der heutigen Übung Vorrechnen der Hausübung B.7 Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben C.1: Häufigkeitsverteilung C.2: Tukey

Mehr

BOXPLOT 1. Begründung. Boxplot A B C

BOXPLOT 1. Begründung. Boxplot A B C BOXPLOT 1 In nachstehender Tabelle sind drei sortierte Datenreihen gegeben. Zu welchem Boxplot gehört die jeweilige Datenreihe? Kreuze an und begründe Deine Entscheidung! Boxplot A B C Begründung 1 1 1

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Kapitel 2. Häufigkeitsverteilungen

Kapitel 2. Häufigkeitsverteilungen 6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω

Mehr

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Deskriptive Statistik. (basierend auf Slides von Lukas Meier) Deskriptive Statistik (basierend auf Slides von Lukas Meier) Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst

Mehr

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt Statistik I 1. Klausur Wintersemester 2010/2011 Hamburg, 11.02.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt b) Die relative Häufigkeit: Sie erhält

Mehr

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Matthias Arnold 52 Definition 3.1 Seien x 1,...,x n Ausprägungen eines kardinal

Mehr

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal

Mehr

Auswertung statistischer Daten 1

Auswertung statistischer Daten 1 Auswertung statistischer Daten 1 Dr. Elke Warmuth Sommersemester 2018 1 / 26 Statistik Untersuchungseinheiten u. Merkmale Grundgesamtheit u. Stichprobe Datenaufbereitung Urliste, Strichliste, Häufigkeitstabelle,

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

13,86. Schritt 4: Berechnung des Quartilsabstandes. Unteres Quartil! #5,5.

13,86. Schritt 4: Berechnung des Quartilsabstandes. Unteres Quartil! #5,5. Lösung Aufgabe A1 Detaillierter Lösungsweg: Schritt 1: Prüfung, ob die gegebene Messreihe sortiert ist, In diesem Beispiel ist dies der Fall und wir haben insgesamt 22 Messungen. Schritt 2: Berechnen des

Mehr

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8 Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik

Mehr

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 86 8. Lageparameter Leitfragen 1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 2) Was ist der Unterschied zwischen Parametern der Lage und der Streuung?

Mehr

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt

Mehr

Ü B U N G S S K R I P T S T A T I S T I K

Ü B U N G S S K R I P T S T A T I S T I K Ü B U N G S S K R I P T S T A T I S T I K A. Ploner H. Strelec C. Yassouridis Universität für Bodenkultur Department für Raum, Landschaft und Infrastruktur Institut für Angewandte Statistik & EDV Peter-Jordan-Strasse

Mehr

1 Beschreibende Statistik

1 Beschreibende Statistik 1 1 Beschreibende Statistik In der beschreibenden Statistik geht es darum, grosse und unübersichtliche Datenmengen so aufzubereiten, dass wenige aussagekräftige Kenngrössen und Graphiken entstehen. 1.1

Mehr

Beschreibende Statistik Kenngrößen in der Übersicht (Ac )

Beschreibende Statistik Kenngrößen in der Übersicht (Ac ) Beschreibende Statistik Kenngrößen in der Übersicht (Ac 006-019) Boxplot Im folgenden wird die Berechnungsweise des TI 83 (sowie von SPSS, s. unten) verwendet. Diese geht auf eine Festlegung von Moore

Mehr

Verfahren für metrische Variable

Verfahren für metrische Variable Verfahren für metrische Variable Grafische Methoden Histogramm Mittelwertsplot Boxplot Lagemaße Mittelwert, Median, Quantile Streuungsmaße Standardabweichung, Interquartilsabstand Lagemaße und Streumaße

Mehr

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt b) Die relative Häufigkeit: Sie erhält

Mehr

Deskriptive Statistik Erläuterungen

Deskriptive Statistik Erläuterungen Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung

Mehr

3) Lagemaße: Mittelwert, Median, Modus

3) Lagemaße: Mittelwert, Median, Modus Thema: Beschreibende Statistik LE.1: 40 min Seite 9 3) Lagemaße: Mittelwert, Median, Modus Lagemaße In der beschreibenden Statistik werden Daten erhoben. Diese Daten weisen eine bestimmte Verteilung auf.

Mehr

Stochastik Deskriptive Statistik

Stochastik Deskriptive Statistik Stochastik Deskriptive Statistik 3 % 3 8% % % % 99 997 998 999 3 7 8 % 99 997 998 999 3 7 8 8 8 99 997 998 999 3 7 8 99 99 998 8 8 Typ A % Typ B % 998 Typ C % 99 3 Diese Diagramme stellen weitgehend dieselben

Mehr

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen DAS THEMA: VERTEILUNGEN LAGEMAßE - STREUUUNGSMAßE Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen Anteile Häufigkeiten Verteilungen Anteile und Häufigkeiten Darstellung

Mehr

Statistik I für Humanund Sozialwissenschaften

Statistik I für Humanund Sozialwissenschaften Statistik I für Humanund Sozialwissenschaften 1 Übung Lösungsvorschlag Gruppenübung G 1 Auf einer Touristeninsel in der Karibik wurden in den letzten beiden Juliwochen morgens zur gleichen Zeit die folgenden

Mehr

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II, Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Was sollen Sie heute lernen? 2 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun http://blog.ruediger-braun.net Heinrich-Heine-Universität Düsseldorf 05. Dezember 2014 Termine Mittwoch, 10.12.: Doppelstunde Vorlesung, Ausgabe von Übungsblatt

Mehr

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen. 3. Übung Aufgabe 1 Der Modus ist a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen. c) der Durchschnitt aller Werte. d) der Wert mit der größten Häufigkeitsdichte. e) der Schwerpunkt

Mehr

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten Statistik Eine Aufgabe der Statistik ist es, Datenmengen zusammenzufassen und darzustellen. Man verwendet dazu bestimmte Kennzahlen und wertet Stichproben aus, um zu Aussagen bzw. Prognosen über die Gesamtheit

Mehr

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg Lagemaße Übung M O D U S, M E D I A N, M I T T E L W E R T, M O D A L K L A S S E, M E D I A N, K L A S S E, I N T E R P O L A T I O N D E R M E D I A N, K L A S S E M I T T E Zentrale Methodenlehre, Europa

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 20. Oktober 2010 1 empirische Verteilung 2 Lageparameter Modalwert Arithmetisches Mittel Median 3 Streuungsparameter

Mehr

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht. , D 1 Kreuze die richtige Aussage an und stelle die anderen Aussagen richtig. A Das arithmetische Mittel kennzeichnet den mittleren Wert einer geordneten Datenliste. B Die Varianz erhält man, wenn man

Mehr

Graphische Darstellung einer univariaten Verteilung:

Graphische Darstellung einer univariaten Verteilung: Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit

Mehr

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion Dr. Quapp: Statistik für Mathematiker mit SPSS Lösungs Hinweise. Übung Beschreibende Statistik & Verteilungsfunktion. Die folgende Tabelle enthält die Pulsfrequenz einer Versuchsgruppe von 39 Personen:

Mehr

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen 6.10.2016 Hochschule Esslingen Übungsblatt 2 Statistik Stichworte: arithmetischer Mittelwert, empirische Varianz, empirische Standardabweichung, empirischer

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung

Mehr

Wahrscheinlichkeits - rechnung und Statistik

Wahrscheinlichkeits - rechnung und Statistik Michael Sachs Mathematik-Studienhilfen Wahrscheinlichkeits - rechnung und Statistik für Ingenieurstudenten an Fachhochschulen 4., aktualisierte Auflage 2.2 Eindimensionale Häufigkeitsverteilungen 19 absolute

Mehr

Grundlagen der empirischen Sozialforschung

Grundlagen der empirischen Sozialforschung Grundlagen der empirischen Sozialforschung Sitzung 10 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 22. Dezember 2008 1 / 21 Online-Materialien Die Materialien

Mehr

(a) Richtig, die Varianz ist eine Summe quadratischer Größen.

(a) Richtig, die Varianz ist eine Summe quadratischer Größen. Aufgabe Welche der folgenden Aussagen sind richtig? (a) Richtig, die Varianz ist eine Summe quadratischer Größen. (b) Falsch, die Abweichung ordinaler Merkmale vom Median ist nicht definiert - also auch

Mehr

Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1

Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1 Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1 Aufgabe 1: Von 2 gleichartigen Maschinen eines pharmazeutischen Betriebes stellt die erste 40% und die zweite 60% der Produkte her. Dabei verursacht

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 07052013 Mittelwerte und Lagemaße II 1 Anwendung und Berechnung

Mehr

Statistik... formeln für Dummies

Statistik... formeln für Dummies Timm Si99 Statistik... formeln für Dummies Fachkorrektur tlon Christoph Maas und Joachim Gaukel WILEY WILEY-VCH Verlag GmbH & Co. KGaA lnhaftsllerzeichnis Einleitun9 17 Teil I Formeln aus der beschreibenden

Mehr

Streuungsmaße von Stichproben

Streuungsmaße von Stichproben Streuungsmaße von Stichproben S P A N N W E I T E, V A R I A N Z, S T A N D A R D A B W E I C H U N G, Q U A R T I L E, K O V A R I A N Z, K O R R E L A T I O N S K O E F F I Z I E N T Zentrale Methodenlehre,

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1 SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf SBP Mathe Aufbaukurs 1 # 0 Antwort Diese Lernkarten sind sorgfältig erstellt worden, erheben aber weder Anspruch auf Richtigkeit noch auf Vollständigkeit. Das

Mehr

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Lösungen+ Aufgabe 1.1 (a) Sammelnde Statistik: Wahl einer zufälligen Stichprobe aus der Grundgesamtheit. (b) Beschreibende (deskriptive) Statistik: Aufbereitung der Stichprobe (oder

Mehr

Zusammenfassung Mathematik AHS Oberstufe. Lukas Prokop

Zusammenfassung Mathematik AHS Oberstufe. Lukas Prokop Zusammenfassung Mathematik AHS Oberstufe Lukas Prokop 2. Mai 2009 Inhaltsverzeichnis 1 Grundlagen 3 1.1 Geometrische Figuren............................. 3 1.2 Zahlensysteme.................................

Mehr

Aufgabe 3 Bei 16 PKWs desselben Typs wurde der Benzinverbrauch pro 100 km gemessen. Dabei ergab sich die folgende Urliste (in Liter pro 100km):

Aufgabe 3 Bei 16 PKWs desselben Typs wurde der Benzinverbrauch pro 100 km gemessen. Dabei ergab sich die folgende Urliste (in Liter pro 100km): Mathematik II für Naturwissenschaften Dr. Christine Zehrt 21.02.19 Übung 1 (für Pharma/Geo/Bio/Stat) Uni Basel Besprechung der Lösungen: 26./27. Februar 2019 in den Übungsstunden Bestimmen Sie zu den folgenden

Mehr

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal

Mehr

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung 20 Weiters zum Thema der statistischen Informationsverdichtung M a ß z a h l e n Statistiken bei Stichproben Parameter bei Grundgesamtheiten Maßzahlen zur Beschreibung univariater Verteilungen Maßzahlen

Mehr

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle

Mehr

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2 Häufigkeiten Deskriptive Statistiken Häufigkeiten Beruflicher Bildungsabschluss (Mbfbil4) Zielvariablenliste OK Er erscheint: Statistiken beruflicher Bildungsabschluss incl. N Gültig 3445 Fehlend 0 beruflicher

Mehr

Musterlösung zur Übungsklausur Statistik

Musterlösung zur Übungsklausur Statistik Musterlösung zur Übungsklausur Statistik WMS15B Oettinger 9/216 Aufgabe 1 (a) Falsch: der Modus ist die am häufigsten auftretende Merkmalsausprägung in einer Stichprobe. (b) Falsch: die beiden Größen sind

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen

Mehr

2 Häufigkeitsverteilungen

2 Häufigkeitsverteilungen 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation An n Einheiten ω 1,,ω n sei das Merkmal X beobachtet worden x 1 = X(ω 1 ),,x n = X(ω n ) Also

Mehr

Dr. W. Kuhlisch Dresden, Institut für Mathematische Stochastik

Dr. W. Kuhlisch Dresden, Institut für Mathematische Stochastik Dr. W. Kuhlisch Dresden, 12. 08. 2014 Institut für Mathematische Stochastik Klausur Statistik für Studierende der Fachrichtungen Hydrologie und Altlasten/Abwasser zugelassene Hilfsmittel: Taschenrechner

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse

Mehr

Übungsrunde 2, Gruppe 2 LVA , Übungsrunde 1, Gruppe 2, Markus Nemetz, TU Wien, 10/2006

Übungsrunde 2, Gruppe 2 LVA , Übungsrunde 1, Gruppe 2, Markus Nemetz, TU Wien, 10/2006 1 1.2.3.4. 1.1 Angabe Übungsrunde 2, Gruppe 2 LVA 107.369, Übungsrunde 1, Gruppe 2, 24.10. Markus Nemetz, markus.nemetz@tuwien.ac.at, TU Wien, 10/2006 Bestimmen Sie für den Datensatz bulb.dat die Quartile,

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester 2015 Aufgabe 1 In der aktuellen

Mehr

Übungsaufgaben zu Kapitel 2 und 3

Übungsaufgaben zu Kapitel 2 und 3 Inhaltsverzeichnis: Übungsaufgaben zu Kapitel 2 und 3... 2 Aufgabe 1... 2 Aufgabe 2... 2 Aufgabe 3... 2 Aufgabe 4... 3 Aufgabe 5... 3 Aufgabe 6... 3 Aufgabe 7... 4 Aufgabe 8... 4 Aufgabe 9... 5 Aufgabe

Mehr

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert Universität Flensburg Zentrum für Methodenlehre Tutorium Statistik I Modus oder Modalwert (D) : - Geeignet für nominalskalierte Daten - Wert der häufigsten Merkmalsausprägung - Es kann mehrere Modalwerte

Mehr

Übungen mit dem Applet Rangwerte

Übungen mit dem Applet Rangwerte Rangwerte 1 Übungen mit dem Applet Rangwerte 1 Statistischer Hintergrund... 2 1.1 Verteilung der Einzelwerte und der Rangwerte...2 1.2 Kurzbeschreibung des Applets...2 1.3 Ziel des Applets...4 2 Visualisierungen

Mehr