Die Gauß sche Glockenform lässt sich wie folgt beschreiben (Kennzeichen der Normalverteilung): Sie ist Kennzeichen der Normalverteilung:

Größe: px
Ab Seite anzeigen:

Download "Die Gauß sche Glockenform lässt sich wie folgt beschreiben (Kennzeichen der Normalverteilung): Sie ist Kennzeichen der Normalverteilung:"

Transkript

1 aus der Vorlesung: Normalverteilung Die Normalverteilung Die Normalverteilung ist eine Sonderform einer symmetrischen Verteilung, bekannt durch die charakteristische Glockenform, auch genannt die Gauß sche Glocke. Carl Friedrich Gauß war nicht nur Mathematiker, sondern auch Astronom, und er beobachtete die Sterne und hat dabei seine Messfehler dokumentiert. Anhand dieser Aufzeichnungen wurde deutlich, dass diese Messfehler IMMER eine charakteristische Verteilungsform haben, nämlich die Normalverteilung. Die Normalverteilung hat eine besondere Bedeutung in der Statistik und in der Wahrscheinlichkeitstheorie, denn die Messfehler sind zufällig und daher ist die Normalverteilung eine Zufallsverteilung. Wann immer wir es mit dem Zufall oder mit einem zufällig zustande gekommenen Merkmal zu tun haben, liegt eine Normalverteilung vor. Die Gauß sche Glockenform lässt sich wie folgt beschreiben (Kennzeichen der Normalverteilung): Sie ist Kennzeichen der Normalverteilung: symmetrisch und eingipfelig (Der Mittelwert entspricht dem Median) folgende Intervallkriterien treffen zu: zwischen dem Mittelwert ± 1 x Standardabweichung liegen 67% der Fälle zwischen dem Mittelwert ± 1,96 x Standardabweichung liegen 95% der Fälle zwischen dem Mittelwert ± 2,58 x Standardabweichung liegen 99% der Fälle VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 1

2 Merkmale wie die Körpergröße etwa, die durch viele verschiedene, voneinander unabhängige Faktoren bestimmt wird (die Körpergröße der Mutter + die Körpergröße des Vaters + das Klima + die Wohnregion + die Ernährung + der Hormonhaushalt + das Geburtsjahr + ), sind meist annähernd normalverteilt. Das Einkommen jedoch, welches durch zahlreiche voneinander abhängige Faktoren bestimmt wird (die Bildung des Vaters die Bildung der Mutter das Sozialkapital (Sprache, Wohnsituation, Vermögen, ) die eigene Bildung. der Beruf, ) ist NICHT normalverteilt. Meist sind Indizes normalverteilt: Indizes sind Variablen, die sich aus vielen Einzelitems zusammen-setzen, welche (einigermaßen aber niemals ganz!) voneinander unabhängig sind, z.b. die Punkte aus dem IQ-Test = aufsummierte Ergebnisse aus vielen Einzeltests. Perfekte Normalverteilungen sind empirisch äußerst selten, weshalb wir in der Sozialwissenschaft von annähernd normalverteilten Merkmalen sprechen. Auch das oben dargestellte Musterbeispiel mit der Körpergröße wurde künstlich erzeugt. Eine empirische Normalverteilung kann also - je nach Fallzahl und untersuchtem Merkmal - unterschiedlich aussehen ABER: die genannten Intervallkriterien Die Normalverteilung hat besondere Bedeutung als Wahrscheinlichkeitsverteilung, hier wird sie zur Vorhersage von Zufallsexperimenten, zur Berechnung von Schwankungsbreiten (Konfidenzintervall) und zur Bestimmung der Wahrscheinlichkeit von Prüfmaßen (Hypothesentestung) verwendet. Oft benutzt man dabei auch eine Art Rechenschablone, nämlich die Standardnormalverteilung. Die Skala der Standardnormalverteilung wurde z- transformiert, das heißt: sie ist so skaliert, dass Mittelwert = 0 ist und Standardabweichung = 1 ist. Das ist insofern praktisch, weil man jede Verteilung auf diese Skala trans-ferieren kann und dann gleich erkennt, wie weit ein Wert vom Mittelwert der Verteilung entfernt ist. Beispielsweise werden mit der Rechenschablone Standardnormalverteilung Kennwerte aus der Stichprobe mit 95%-Sicherheit (Wahrscheinlichkeit) auf die Grundgesamtheit geschätzt, indem man vom Kennwert (Anteilswert oder Mittelwert) den Zufallsfehler genau 1,96 mal abzieht und hinzuzählt. In diesem (Konfidenz-)Intervall liegt dann der Kennwert mit 95%-Sicherheit auch in der Grundgesamtheit. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 2

3 Standardnormal-Verteilung: Der Mittelwert ist immer = 0 Die Standardabweichung ist = 1 Eine Variable wird standardnormalverteilt durch die z-transformation: Anders dargestellt: Wert z auf der Standard-NV Kumulierte Prozent = Fläche BIS zu diesem Wert -2,58 0,5% -2,5 0,6% -2 2,3% -1,96 2,5% -1,5 7% -1 16% -0,5 31% 0 50% 0,5 69% 1 84% 1,5 93% 1,96 97,5% 2 98% 2,5 99,4% 2,58 99,5% Fläche INNERHALB des Intervalls Mittelwert 67% 95% 99% Diese Zuordnungen der sogenannten z-werte zu den kumulierten %-Werten finden sich meist im Anhang statistischer Lehrbücher. Diese Rechenschablone werden wir noch brauchen. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 3

4 Die Standardnormalverteilung brauchen wir.. zur Berechnung eines Konfidenzintervalls: Mithilfe der Standardnormalverteilung kann das Konfidenzintervall (Zufallsschwankung des Mittelwerts in der GG) mit einer 95%igen Sicherheit berechnet werden. Die Zahl 1,96 ergibt sich aus den standardisierten Intervallen der Normalverteilung: Interpretation: Der "wahre" (geschätzte) Mittelwert ( ) in der Grundgesamtheit liegt mit 95%oger Sicherheit zwischen "Untergrenze" und "Obergrenze". Sehen Sie sich jetzt die Formel zum Konfidenzintervall für einen Anteilswert auf Seite 12 genau an: Hier finden Sie auch die Zahl z = 1,96 zur Bestimmung der Schwankungsbreite mit 95%iger Sicherheit. Den Anteilswert (p) können Sie durch den Mittelwert ( ) ersetzen, die Formel bleibt gleich. zur Bestimmung der Zufalls-Wahrscheinlichkeit eines Prüfmaßes bei der Signifikanztestung: Für jedes Testergebnis aus der Stichprobe kann anhand dieser Zufallsverteilung ermittelt werden, wie wahrscheinlich dieser Testwert bei Zufall wäre ODER wie wahrscheinlich es ist, dass der Testwert zufällig zustande gekommen ist, ODER: Wie groß der Fehler wäre, wenn wir eine Gesetzmäßigkeit (also das Gegenteil vom Zufall) behaupten würden. Damit es nicht zu einfach ist, gibt es nicht nur die Standardnormalverteilung, es gibt noch viele andere Zufallsverteilungen, passend zu jedem Prüfmaß (=Testergebnis). Es gibt: die Standardnormalverteilung = die URMUTTER aller Wahrscheinlichkeitsverteilungen ("z") und ihre Töchter: die Chi-Quadratverteilung (= quadrierte Standardnormalverteilung für das Prüfmaß ) die t-verteilung (geeignet für kleine Stichproben und das Prüfmaß "t") die F-Verteilung (für das Prüfmaß "F" wenn Varianzen verglichen werden) und etliche andere. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 4

5 empirische Normalverteilung Standardnormalverteilung ist eine theoretische Normalverteilung = Wahrscheinlichkeitserteilung Mittelwert = 0, Standardabweichung = 1 VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 5

6 Meist werden zur Erhebung von Messdimensionen (z.b. ANGST) Fragebatterien mit vielen Einzelitems verwendet. Beispiel unten: Messdimension Angst wird mit 17 Items gemessen. Vier Items sind angeführt: Was passiert, wenn frau viele Einzelitems zu einem Summenindex aufsummiert: es ergibt sich annähernd eine Normalverteilung. Warum? Viele mehr oder weniger voneinander unabhängige oder abhängige Variablen oder Einflussfaktoren wirken zusammen. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 6

7 Konfidenzintervall oder Schwankungsbreiten Die folgende Tabelle zeigt diese Schwankungsbreiten mit 95%iger Sicherheit für einen Anteilswert nach der Größe der Stichprobe (n) (Berechnet mit Hilfe der Normalverteilung - dazu später): Dabei wird deutlich: Je größer die Stichprobe, desto kleiner der Zufallsfehler! % % % % % % % % % Anteil n ,4 4,4 6,0 7,1 8,0 8,7 9,2 9,8 10, ,4 3,1 4,2 5,0 5,7 6,1 6,5 6,9 7, ,0 2,5 3,5 4,1 4,6 5,0 5,3 5,7 5, ,7 2,2 3,0 3,6 4,0 4,3 4,6 4,9 5, ,5 1,9 2,7 3,2 3,6 3,9 4,1 4,4 4, ,2 1,6 2,2 2,6 2,9 3,2 3,3 3,6 3, ,1 0,4 1,9 2,3 2,5 2,7 2,9 3,1 3, ,0 1,2 1,7 2,0 2,3 2,4 2,6 2,8 2, ,9 1,1 1,5 1,8 2,1 2,2 2,4 2,5 2, ,8 1,0 1,3 1,6 1,8 1,9 2,0 2,2 2, ,7 0,9 1,2 1,4 1,6 1,7 1,8 2,0 2, ,6 0,8 1,1 1,3 1,5 1,6 1,7 1,8 1, ,6 0,7 1,0 1,2 1,4 1,5 1,5 1,6 1, ,5 0,7 0,9 1,1 1,3 1,4 1,4 1,5 1, ,5 0,6 0,8 1,0 1,1 1,2 1,3 1,4 1, ,4 0,5 0,7 0,8 0,9 1,0 1,1 1,1 1, ,3 0,4 0,6 0,7 0,8 0,9 0,9 1,0 1,0 Lesebeispiel: Konfidenzintervall (KI) 27% von 100 Befragten geben an, täglich Alkohol zu trinken. Zeile n = 100, Spalte 30:70 Fehler ± 9% Zwischen 18% und 36% der Grundgesamtheit trinken täglich Alkohol. 27% von 1500 Befragten geben an, täglich Alkohol zu trinken. Zeile n = 1500, Spalte 30:70 Fehler ± 2,4% Zwischen 25% und 29% der Grundgesamtheit trinken täglich Alkohol. Formel für die Untergrenze: VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 7

8 Beispiele: VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 8

9 Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie Konfidenzintervall Statistische Analyse von Stichproben Der Datensatz aus der Übung (social survey) besteht aus Daten, die aus einer Zufalls-stichprobe stammen. Basieren unsere Analysen nur auf einer Teilmenge der Grundgesamtheit (einer Stichprobe), so müssen wir davon ausgehen, daß die statistischen Maßzahlen, Verteilungen, Beziehungen zwischen Variablenwerten, Parameterschätzwerte,... die wir aus derartigen Stichproben ermitteln, nicht unbedingt exakt den tatsächlichen Werten, Verteilungen, Beziehungen... in der Grundgesamtheit entsprechen. Die aus den Stichproben ermittelten Statistiken werden mit einem (größeren oder kleineren) Stichprobenfehler behaftet sein. Schauen wir uns daher einmal an, was eigentlich alles passieren kann, wenn wir mit Stichproben arbeiten. Zur Veranschaulichung sei folgende (fiktive) Situation betrachtet. Grundgesamtheit für unsere Analysen sei eine Gruppe aus N=100 Studierenden, die einen Statistikkurs besuchen. 40% der Teilnehmenden geben zu Beginn des Kurses an, zumindest über Grundkenntnisse in Statistik zu verfügen, der Rest von 60% behauptet, noch nie etwas von Statistik gehört zu haben. Die einzige, die zu Beginn des Kurses bereits umfangreiches statistisches Wissen besitzt, ist die Lehrveranstaltungsleiterin. Da sie vor dem Kurs eigentlich nur einen groben Überblick über das statistische Vorwissen der Teilnehmenden haben möchte, verzichtet sie auf eine Vollerhebung (Befragung) bei allen Studierenden und befragt nur eine zufällig ausgewählte Teilgruppe um ihre statistischen Vorkenntnisse. Welchen Fehler bei der Abschätzung des Prozentsatzes an Kursteilnehmerinnen, die über statistisches Vorwissen verfugen, kann die Lehrveranstaltungsleiterin erwarten, wenn sie z.b, nur eine Zufallsstichprobe von n=10 Studierende befragt? Um diese Frage zu beantworten, betrachten wir vorerst einmal Abbildung 1. Aus einer Grundgesamtheit von N=100, in der der wahre Anteilswert von Eins-Werten bei π = 0.40 liegt, wurden insgesamt 1000 verschiedene Zufallsstichproben der Größe n = 10 gezogen werden. Für jede der 1000 Zufallsstichproben wurde dann der Stichprobenanteilswerte der Eins-Werte berechnet. In der Abbildung findet sich die Verteilung dieser 1000 Stichprobenanteilswerte. Werden ein zweites mal 1000 Zufallsstichproben gezogen, so wird diese Verteilung wahrscheinlich etwas ander aussehen, die Grundform wird sich aber nicht verändern. Wie aus der folgenden Abbildung zu erkennen ist, wurde 'nur' für 260 oder 26% der 1000 Zufallsstichproben ein Stichprobenanteilswert ermittelt, der exakt jenem in der Grundgesamtheit (π = 0.40) entspricht. Insgesamt liegen aber immerhin = 686 oder fast 70% aller Stichprobenanteilswerte aus den 1000 Zufallsstichproben im Intervall [0.3, 0.5], d.h. zumindest sehr nahe dem realen Wert. Bei = 47 Zufallsstichproben (knapp 5% aller Stichproben) ergibt sich ein Anteil an Studierenden mit Statistikvorkenntnissen von unter 10% und bei = 10 Zufallstichproben (1% aller Stichproben) ein Anteil von 80% und darüber. Wenn wir Pech haben, kann der in einer Stichprobe beobachtete Anteilswert doch recht massiv vom wahren Wert in der Grundgesamtheit abweichen. Insgesamt ergibt sich über alle 1000 Stichproben hinweg ein mittlerer Stichprobenanteilswert von sowie eine Standardabweichung für den Stichprobenanteilswert von VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 9

10 Verteilung von 1000 Stichprobenanteilswerten N = 300, π = 0.40, n = 10 Die diskrete Verteilung der Stichprobenanteilswerte, die in obiger Abbildung dargestellt ist, ähnelt einer Normalverteilung. Würden wir nicht nur 1000, sondern bis unendlich viele Zufallsstichproben ziehen, so nähert sich die diskrete Verteilung der Stichprobenanteilswerte einer kontinuierlichen Normalverteilung immer mehr an. Der Mittelwert dieser Normalverleihung der Stichprobenanteilwerte liegt dann genau beim wahren Anteilswert in der Grundgesamtheit, d.h. bei (1) Für die Standardabweichung der Normalverteilung der Stichprobenanteilswerte ergibt sich ein Wert von 1 (2) Aus der theoretischen Statistik ist nun bekannt, daß bei einer Normalverteilung 68.27% aller Beobachtungswerte im Intervall ± eine Standardabweichung um den Mittelwert liegen müssen, 95.45% aller Beobachtungswerte im Intervall ± zwei Standardabweichungen um den Mittelwert, 1 Wenn wir wie in unserem Fall mit kleinen Grundgesamtheiten arbeiten, muß die Varianz der Stichprobenanteilswerte eigentlich noch um den Faktor (N-n)/(N-1) bereinigt werden. Für unser Beispiel ergibt sich ein Korrekturfaktor von (100-10)/(100-1)= Unter Berücksichtigung dieses Korrekturfaktors liegt die Standardabweichung der theoretischen Normalverteilung der Stichprobenanteilswerte bei VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 10

11 99.73% aller Beobachtungswerte im Intervall ± drei Standardabweichungen um den Mittelwert. Wenn wir nur gerundete Prozentwerte betrachten, so können wir grob folgendes festhalten: Bei einer Normalverteilung liegen genau 95% aller Beobachtungen im Intervall ± 1.96 Standardabweichungen um den Mittelwert und 90% aller Beobachtungen im Intervall ± 1.68 Standardabweichungen um den Mittelwert. Unter Verwendung dieses Ergebnisses zur Normalverteilung aus der theoretischen Statistik und unter Verwendung der Werte für den Mittelwert und die Standardabweichung der Normalverteilung der Stichprobenanteilswerte aus den Formeln (1) und (2) können wir nun folgendes behaupten: Wenn wir unendliche viele Stichproben der Größe n = 10 aus einer Grundgesamtheit ziehen, bei der der wahre Stichprobenanteilswert bei π = 0.40 liegt, so können wir davon ausgehen, daß 95% der Stichprobenanteilswerte im Intervall 0.40 ± 1.96 * 0.155, d.h. im Intervall [0.096, 0.704] liegen. 2 Ziehen wir eine einzige Zufallsstichprobe, so können wir daher auch sagen, daß der Stichprobenanteilswert mit einer Wahrscheinlichkeit von 95% im Intervall ± 1.96 * um den wahren Wert 0.40 liegt, d.h. im Intervall [0.096, 0.704]. In der Realität ist es nun so, daß wir erstens nur eine einzige Stichprobe ziehen und nicht unendlich viele und zweitens den wahren Anteilswert in der Grundgesamtheit nicht kennen - den wollen wir ja gerade über unsere Stichprobe schätzen. Wir müssen daher in einem nächsten (Denk)Schritt obige Aussage noch einmal umformulieren: Wenn wir eine Zufallsstichprobe verwenden, um einen Anteilswert für die Grundgesamtheit zu schätzen, so können wir davon ausgehen, daß der wahre Anteilswert n in der Grundgesamtheit mit einer Wahrscheinlichkeit von 95% im Intervall ± 1.96 * σ π um den geschätzten Stichprobenanteilswert p liegt. Die Standardabweichung σ π des Stichprobenanteilswertes schätzen wir dabei über die Formel (3) Nehmen wir an, die Lehrveranstaltungsleiterin in unserem fiktiven Beispiel hätte 10 zufällig ausgewählte Studierende um ihre Statistikvorkenntnisse befragt. In der Stichprobe finden sich 30% Studierende mit Statistikgrundkenntnissen. Bei der Konzeption der Lehrveranstaltung kann sie daher davon ausgehen, daß die wahre Anteil der KursbesucherInnen mit Statistikvorkenntnissen in der Gesamtgruppe mit einer Wahrscheinlichkeit von 95% bei (4) 2 Unter Berücksichtigung des Korrekturfaktors für kleine Grundgesamtheiten ergibt sich ein Intervall von 0.40 ± 1.96 * oder [0.11, 0.69]. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 11

12 liegt, d.h. im Intervall [0.02, 0.58]. Das Intervall ist aufgrund der kleinen Stichprobe in unserem Beispiel relativ groß, mit einer Wahrscheinlichkeit von α = 100%- 95% = 5% kann es sogar sein, daß der wahre Wert in der Grundgesamtheit außerhalb des Intervalles liegt. Grundsätzlich gibt es nun zwei unterschiedliche Möglichkeiten, das geschätzte Konfidenzintervall für den wahren Anteilswert in der Grundgesamtheit zu verkleinern: Erstens kann die Signifikanz unseres Konfidenzintervalls, die bisher auf 95% gesetzt wurde, verkleinert werden. Wenn wir zulassen, daß der wahre Wert in der Grundgesamtheit mit einer Wahrscheinlichkeit von α = 10% auch außerhalb des von uns angegebenen Konfidenzintervalles liegen könnte, so müssen wir ein Intervall um den Stichprobenmittelwert konstruieren, in dem 90% aller Fälle liegen. D.h. in Formel (4) setzen wir anstelle des 95%-Wertes von z = 1.96 den 90%-Wert von z = 1.68 aus der theoretischen Normalverteilung ein. Für unser Beispiel ergibt sich für eine Stichprobe mit p = 0.30 ein 90%-Konfidenzintervall von [0.06,0.54]. Zweitens können wir die Stichprobengröße erhöhen. Werden von der Lehrveranstaltungsleilerin nicht 10, sondern n = 15 Studierende befragt und ergibt sich auch in dieser Stichprobe ein Anteilswert von p = 0.30, so liegt das 95%-Konfidenzintervall für den Anteil der Studierenden mit Statistikvorkenntnissen in der Gesamigruppe bei [0.07, 0.53] 3. (5) Wie zu erkennen ist, bringt die relativ kleine Erhöhung der Stichprobengröße eine deutlichere Verkleinerung des Konfidenzintervalles als die Herabsetzung des Signifikanzniveaus. Würde die Lehrveranstaltungsleiterin n = 30 Studierende um ihre Statistikvorkenntnisse befragen, so könnte sie das 95%-Konfidenzintervall auf den Bereich ± 16 % um den geschätzten Stichprobenanteilswert reduzieren. 4 Je größer die Stichprobe absolut ist, desto größer ist die Wahrscheinlichkeit, daß der Anteil der Studierenden mit Statistikvorkenntnissen dem wahren Wert in der Grundgesamtheit recht gut entspricht. Auch wenn die Wahrscheinlichkeit sehr klein ist, kann sie natürlich immer auch zufällig eine Stichprobe ziehen, mit der sie völlig daneben liegt. So könnten sich in der Stichprobe zufällig natürlich auch lauter Studierende finden, die alle über Statistikgrundkenntnisse verfügen. Das Kurskonzept könnte aufbauend auf einem derartigen Ergebnis dann auch viel zu viel an Vorkenntnissen voraussetzen. In unserem fiktiven Beispiel würde die statistisch bewanderte Lehreranstaltungsleiterin wahrscheinlich doch alle 100 Studierenden befragen, um einen Überblick über die Statistikvorkenntnisse bei den Kursteilnehmerlnnen zu erhalten. Der Erhebungsaufwand zwischen einer Stichprobe aus 30 Studierenden, bei der ein halbwegs verläßlicher Schätzwert über die Vorkenntnisse zu ermitteln ist und einer Vollerhebung bei allen 100 Studierenden unterscheidet sich kaum. 3 Unter Berücksichtigung des Korrekturfaktors für kleine Grundgesamtheiten ergibt sich ein Konfidenzintervall von [0.085, 0.515]. 4 Unter Berücksichtigung des Korrekturfaktors für kleine Grundgesamtheiten reduziert sich der Schwankungsbereich für das Konfidenzintervall auf ± 14% um den Stichprobenanteilswert. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 12

13 Generell - und diese Aussage gilt nicht nur für die Schätzung von Anteilswerten - sollten wir uns merken, daß die Genauigkeit unserer Aussagen, die wir auf Basis von Stichproben treffen können, zwar sehr stark von der Stichprobengröße abhängt, aber nicht von der Größe unserer Grundgesamtheit. Ganz egal, ob wir die Statistikkenntnisse in einer Grundgesamtheit aus 100, 1000, oder gar Studierenden ermitteln wollen, ergibt sich bei einer Stichprobengröße von n = 30 für den wahren Anteilswert ein Konfidenzintervall von ± 16% um einen Stichprobenanteilswert von p=0.30. Hinweis: Nur wenn wir mit sehr kleinen Grundgesamtheiten oder extrem kleinen Stichproben (wie in unserem Beispiel) arbeiten, müssen wir in unseren Formeln für das Konfidenzintervall eigentlich Korrekturfaktoren berücksichtigen. Während endliche Grundgesamtheiten und extrem kleine Stichproben etwa in der medizinischen Forschung eine relativ große Bedeutung haben, treffen wir in der sozialwissenschaftlichen Praxis im Regelfall unsere statistische Aussagen auf Basis relativ großer Stichproben für relativ große Grundgesamtheiten. Eine Stichprobe sollte generell dann als sehr klein betrachtet Werden, wenn der Wert n * π * (1- π) < 9 ist. Grob können wir uns daher auch merken, daß wir auch einfache statistische Analysen erst ab Stichprobengrößen zwischen 35 und 100 Individuen (Personen) durchführen sollten. Untersuchen wir Phänomene, die relativ häufig sind - die insgesamt mit einer Wahrscheinlichkeit zwischen 25% und 50% auftreten - so reichen Stichprobengrößen zwischen 35 und 50 Individuen aus, um einfache statistische Analysen durchzuführen. Untersuchen wir Phänomene, die relativ selten auftreten - die insgesamt etwa nur mit einer Wahrscheinlichkeit zwischen 5% und 10% auftreten - so sollte unsere Stichprobengröße auch für einfache statistische Analysen zumindest zwischen 100 und 200 liegen. Auch statistische Aussagen für/über bestimmte Teilgruppen sollten nur dann gemacht werden, wenn Mindestgruppengrößen von in der Stichprobe vorliegen. Die Berechnung von Anteilswerten (relativen Häufigkeiten) bildet die Grundform der Auswertung von Stichprobendaten mit kategorialem Datenniveau. In der folgenden Tabelle findet sich ein Überblick darüber, mit welchem Stichprobenfehler, d.h. mit welcher Schwankungsbreite um den ermittelten Stichprobenanteilswert, wir rechnen müssen, je nachdem, wie groß wir unsere Stichprobe wählen und je nachdem wie hoch der Anteilswert liegt. 5 In der Tabelle sind die Abweichungen um die geschätzten Stichprobenwerte angegeben, aus denen das 95%-Konfidenzintervall für den wahren Anteilswert in der Grundgesamtheit ermittelt werden kann. Ganz grob können wir uns merken, daß Stichprobengrößen von n = 100 ausreichen, um einfache statistische Analysen (etwa Anteilswertberechnungen) durchzuführen, bei denen wir eine Ungenauigkeit im Ausmaß von ± 10% in Kauf nehmen (Anm. isa hager: siehe roter Kreis). 5 Wie aus Formel (3) zu sehen ist, hängt die Standardabweichung der Verteilung der Stichprobenanteilswerte von der Stichprobengröße sowie dem Anteilswert p selbst ab. Der größte Wert im Zähler - und damit auch die größte Standardabweichung bei gegebener Stichprobengröße - ergibt sich, wenn der Anteil p bei 0.50 liegt. Die Konfidenzinterfvalle für p>0.50 sind in der Tabelle nicht extra angerührt da sich für p und (1-p) die gleichen Werte im Zähler in Formel (3) ergeben. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 13

14 Konfidenzintervalle für geschätzte Anteilswerte in Stichproben Stichprobengrößen um n = 500, wie sie etwa bei telefonischen Umfragen der Meinungsforschungsinstitute üblich sind, reichen aus, um einfache statistische Analysen insgesamt mit einer Ungenauigkeitsgrad von ± 5% durchzuführen. Diese Stichprobengröße reicht auch aus, um die statistischen Aussagen für größere Subgruppen in der Bevölkerung zu differenzieren. Stichprobengrößen von n = 2000, wie sie in größeren sozialwissenschaftlichen Forschungsprojekten üblich sind, erlauben einfache statistische Analysen mit einem Genauigkeitsgrad von immerhin etwa ± 2%. Auch für Teilgruppen in der Bevölkerung können mit einer derartigen Stichprobengröße bereits relativ detaillierte statistische Analysen durchgeführt werden. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 14

15 Anselm Eder (2003): Statistik für Sozialwissenschaftler, Skriptum für Soziologie-Statistik, facultas, S. 87 ff (Ausschnitte) Normalverteilung und Konfidenzintervall Die Normalverteilung Es war einmal ein Herr Gauß, der sich u. a. dafür interessierte, ob es möglich ist, mit einem Fernrohr die Position eines Sterns exakt zu bestimmen. Ein Fernrohr besteht im Prinzip aus mindestens zwei ineinander verschiebbaren Röhren mit mindestens zwei Linsen. Ein in der Ferne liegender Stern bildet sich durch Lichtbrechungen im Fernrohr auf der dem Betrachter zugewandten Linse ab. Nun sind auch heute noch Fernrohre nicht so exakt gebaut, dass man sich darauf verlassen kann, dass der Stern auch wirklich genau dort ist, wo der Astronom ihn sieht. Diese Abweichung der Sternenposition von dem Ort, wo ihn der Astronom sieht, enthält zwei Fehlerquellen: 1. Es gibt Unexaktheiten, die sich bei jeder Messung des Sternenposition immer wieder reproduzieren: Sie resultieren daraus, dass eine der Linsen etwas schief eingesetzt ist, eine Rohrführung schief positioniert ist, o.ä. Ein solches Fernrohr bildet den Stern aufgrund von fehlerhaften Brechungen immer auf einer anderen Position ab. Diesen Typus von Messfehler nennen wir Bias (systematischen Messfehler, reproduzierbare Abweichung). 2. Der zweite Typus von Unexaktheiten resultiert daraus, dass die Führung der beiden Rohre nicht so exakt ist: einmal verschiebt sie sich nach links, einmal etwas nach rechts, ein anderes Mal etwas nach oben oder nach unten. Bei unterschiedlichen Messungen ergeben sich unterschiedliche Messresultate. Dies ist ein Messfehler, der sich aufgrund der Unexaktheit des Gerätes ergibt. Diesen Typus von Messfehler nennen wir Error (oder Zufallsfehler) Die Messung eines Sterns, die Messung einer psychologischen Dimension, die Messung einer Einstellung jede Messung ist fehlerbehaftet. Und jeder Messfehler besteht aus zwei Komponenten einer systematischen und einer Zufallskomponente. Der Unterschied zwischen beiden Komponenten besteht darin, dass wir den systematischen Fehler, wenn wir ihn kennen, rechnerisch beheben können. Den Zufallsfehler erkennt man daran, dass sich die Sternenpositionen desselben Sterns scheinbar ändert (anders abbildet), wenn man den Messvorgang mehrmals wiederholt. Die Frage ist, ob wir auch den Zufallsfehler bei der Messung eines Sterns so wie den systematischen Fehler rechnerisch beheben können? Wir könnten zunächst den empirischen Weg gehen und uns die empirische Verteilung dieser Sternenposition aufzeichnen und könnten bei oftmaligem Messen vielleicht eine empirische Verteilung der einzelnen Messungen vorfinden: VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 15

16 Abbildung 6.6 (Wiederholung von Abb. 3.5) Frequency Wie wird die Wahrscheinlichkeitsverteilung für diese Vielzahl an Messungen sein? Warum werden in der Mitte der Verteilung sehr viele Messergebnisse liegen? Wir können davon ausgehen, dass die Prozesse, die dazu führen, dass das Fernrohr von seiner optimalen Exaktheit abweicht, nicht ein einziger Prozess, sondern viele kleine Prozesse sind: Es gibt viele Hebel, viele Achsen, viele Röhren, die irgendwie verschoben oder verwackelt sein können. Wir können das Problem deshalb modellhaft so betrachten, als ob jeder einzelne mögliche Beitrag zu einer fehlerhaften Fernrohrposition so etwas wie der Wurf einer Münze wäre. Die Prozesse, die die einzelnen Fehler verursachen, hängen ja in der Regel nicht voneinander ab. Jeder Beitrag zum Messfehler durch das Fernrohr ist ein eigener, individueller, von den anderen unabhängiger Beitrag wie bei den Münzen, bei denen die Wahrscheinlichkeit, dass eine Münze auf eine bestimmte Seite fällt, nicht davon abhängt, wie die anderen Münzen fallen (voneinander unabhängige Ereignisse). Die normale Verteilung natürlicher Messfehler, abgekürzt: Normalverteilung Graphisch dargestellt, entspricht diese Verteilung der durchgezogenen Linie des untenstehenden Diagramms (vgl. Abb. 3.5) Abb. 6.6: Normalverteilung Frequency VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 16

17 Aber wahrscheinlich noch sehr viel wichtiger als diese technische Beschreibung der Normalverteilung ist die inhaltliche Beschreibung, die auf die Frage Antwort gibt, was alles in der Realität überhaupt normalverteilt sein kann. Es gibt sehr viele Messgrößen, die nicht normalverteilt sind. Welche Ereignisse in der sozialen Wirklichkeit sind normalverteilt bzw. verhalten sich so wie die Messfehler beim Fernrohr, die aus einer sehr großen Anzahl von Fehlermöglichkeiten ausgewählt werden? Die Körpergröße entwickelt sich häufig nach demselben Modell wie die Messfehler beim Fernrohr. Sie ist das Resultat einer sehr großen Zahl von einzelnen Einflüssen. Nach Meinung Mancher hängt sie mit dem Mond zusammen, andere sprechen vom Einfluss der Ernährung oder der Gene, der Sonnentage etc. Diese einzelnen Ereignisse sind im Großen und Ganzen voneinander stochastisch unabhängig. Bei der Köpergröße stimmt dies nicht völlig. Die Menschen am Erdball unterliegen nicht alle derselben Gruppe von Einflüssen, aber man kann für einzelne Bevölkerungen und geographische Regionen vereinfachend sagen, dass die Körpergröße ungefähr normalverteilt ist. Messgrößen, die in ihrer Entstehung so zustande kommen, dass sie eine Reihe von Stadien durchlaufen, wobei es zu je Stadium voneinander unabhängigen Einflüssen kommt, werden in der Regel normalverteilt sein. Die Entstehungsbedingungen für die Körpergröße der Menschen sind also hinreichend ähnlich den Bedingungen, nach denen normalverteilte Zufallsvariable entstehen, weil es in der Genese der Variable Körpergröße eine Vielzahl von Einflussfaktoren gibt, die sich wahrscheinlichkeitstheoretisch gesprochen so ähnlich wie das Münzwurfproblem verhalten. Es ist relativ unwahrscheinlich, dass zufällig sämtliche Einflussfaktoren der Körpergröße, denen ein Mensch unterliegt, in die Richtung gehen, dass er groß wird oder dass sämtliche Einflussfaktoren in die Richtung gehen, dass er klein wird. Wahrscheinlicher ist es, dass manche der Einflussfaktoren in Richtung auf groß und die anderen in Richtung auf klein wirksam werden. Da, wo aber die Körpergröße als Summe aller dieser Einflussfaktoren sichtbar wird, ist das Modell, nach dem die Körpergröße entsteht, sehr ähnlich wie dasjenige, nach dem die Summe von Einsern bei einem Wurf von Münzen entsteht. Wir können uns dies so denken: Die erste Münze ist die Körpergröße des Vaters, die Zweite ist die Körpergröße der Mutter, die Dritte ist das Klima, die vierte Münze ist die Ernährung, die fünfte Münze ist die geographische Region etc. Wenn alle diese Faktoren wachstumsfördernd wirken, entspricht dies dem Ereignis, dass die erste Münze auf Eins fällt, die zweite Münze auf Eins fällt, die dritte Münze auf Eins fällt usw. bis zur n-ten Münzen alle weisen die Eins auf. Dass alle diese Einflussfaktoren in die Gegenrichtung wirken, dass also ein Mensch klein wird, entspricht dem Ereignis, dass die erste Münze auf keinen Einser ( Nicht-Einser ) fällt, ebenso die Zweite usw. bis zur n-ten Münze. Dass ungefähr die Hälfte der Faktoren wachtumsfördernd wirksam werden, die andere Hälfte in Richtung auf eine kleine Körpergröße, entspricht dem Ereignis: eine Hälfte der Münzen fällt auf den Einser; die andere Hälfte der Münzen fallen auf die Nicht-Einser. Dabei spielt es für die Wahrscheinlichkeit des Auftretens von k Einflüssen keine Rolle, welche Münzen auf den Einser fallen, solange es nur k=n/2 Münzen sind. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 17

18 Es gibt eine Reihe von Prozessen in der sozialen Welt, die ungefähr nach dem Modell des Münzwurfs funktionieren. Aber nicht alle. Die Einflussfaktoren müssen einigermaßen gleichwertig sein. Ein Maß der Gleichwertigkeit ist die Wahrscheinlichkeit des Auftretens der einzelnen Faktoren. Im Münzexperiment hat die Wahrscheinlichkeit für jede einzelne Münze auf Eins zu fallen den Wert 0,5. In der Wirklichkeit (etwa bei der Körpergröße) ist dies nicht so; es gibt sehr viele Einflussfaktoren; die Wahrscheinlichkeit jedes einzelnen Ereignisses oder Einflussfaktors ist nicht 0,5, sondern etwas anderes. Die Formel dafür aufzuschreiben, wäre viel komplizierter. Je größer das n wird, desto dramatischer steigt die Anzahl der Möglichkeiten an, einen Wert in der Nähe des Erwartungs- oder Mittelwertes zu erhalten. Andere Beispiele für normalverteilte Messgrößen Intelligenz als die Summe von vielen Einzelleistungen in voneinander einigermaßen unabhängigen Intelligenztests, die gerade auf ihre Unabhängigkeit hin konstruiert wurden ist normalverteilt, bzw. genau genommen, die Messergebnisse auf Intelligenztests sind normalverteilt. Ob die Intelligenz selbst normalverteilt ist, ist eine sehr viel kompliziertere Frage. Die entscheidende Frage in Bezug auf die Normalverteilung ist: Von welchem Typus von Variablen können wir annehmen, dass sie normalverteilt sind? Dies ist wichtig, weil die Qualität der statistischen Auswertung u. a. mit der richtigen Einschätzung der Verteilung von Variablen steht und fällt. Betrachten wir eine Variable als normalverteilt, ohne dass sie dies ist, dann kommen wir zu falschen Schlüssen. Von welchem Typus von Variablen können wir nun annehmen, dass er normalverteilt ist? Variablen, die auf eine ganz bestimmte Art und Weise konstruiert sind, sind Kandidaten für die Normalverteilung. Zu diesem Konstruktionsprinzip gehört, dass diese Messgrößen 1. aus einer Summe vieler Einzelgrößen zusammengesetzt sind, wobei 2. diese Einzelgrößen voneinander stochastisch unabhängig (unkorreliert) sind und 3. keine von ihnen in ihrem Einfluss überwiegt. Zu 3) Wenn die Körpergröße vor allem von der Ernährung abhinge und von allen übrigen Einflussgrößen nur wenig, dann wäre die Verteilung der Körpergrößen im Wesentlichen eine Verteilung der Ernährungsgewohnheiten. Bei allen bisher genannten Beispielen sind die zweite und die dritte Bedingung nur sehr unvollständig gegeben (oft sind Einzeleinflüsse z.t. voneinander abhängig, oft gibt es überwiegende Einzeleinflüsse). Aber auch wenn alle Einflussgrößen wenigstens einigermaßen gleich viel bewirken, dann ist schon eine brauchbare Annäherung an die daraus resultierende Verteilung durch die Normalverteilung gegeben. Genau genommen besteht zwischen der 2. und 3. Bedingung für eine Normalverteilung kein wesentlicher Unterschied. Sie sind im Grunde Formulierungen desselben Sachverhalts. Sind Schulnoten normalverteilt? Obgleich sie als Summe von lauter Einzelleistungen von Schülern, also Einzeleinflüssen, gesehen werden können, sind sie empirisch nicht sehr normalverteilt. Woran liegt das? VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 18

19 1. die Schulpolitik hat einen Einfluss; 2. soll es Fächer geben, wo man grundsätzlich keinen 5er gibt etc. Es gibt also Prozesse, die bewirken, dass Schulnoten nicht besonders exakt normalverteilt sind. Anders ist es mit Notendurchschnitten. Der Prototyp einer normalverteilten Variable ist der Mittelwert einer anhand einer Stichprobe gemessenen Größe: Die Summe aller Messwerte, gebrochen durch ihre Anzahl. Hier haben wir unsere unabhängigen Einflüsse. Die einzelnen Elemente einer Stichprobe sind unabhängige Einflüsse. Dies sogar auch dann, wenn die von uns gemessenen Variablen überhaupt nicht normalverteilt sind; ihre Stichprobenmittelwerte sind es zumeist trotzdem. Die Normalverteilung ist eine Verteilung eines ganz bestimmten Typs von Variablen: einer Zufallsvariablen. Die Zufallsvariable ist etwas, von dem wir eine Wahrscheinlichkeitsverteilung bestimmen können; von dem wir uns ausrechnen können, wie wahrscheinlich es ist, dass sie bestimmte Werte oder Wertebereiche annimmt. Die standardisierte Normalverteilung Da für die Normalverteilung errechenbar ist, wie viele Werte in welchen Intervallen rund um den Mittelwert anzutreffen sind, ist es äußerst nützlich, Variable, die normalverteilt sind, zu standardisieren: Eine solche Standardisierung normalverteilter Variablen hat Anwendungen im Bereich des Schlusses von Stichproben auf Grundgesamtheiten, im Bereich des Testens von Hypothesen, u.a. Technisch gesprochen: Hat eine normalverteilte Variable x den Mittelwert x und die Standardabweichung s x, x x dann hat eine lineare Transformation s x den Mittelwert 0 und die Standardabweichung 1. Haben wir daher einen empirischen Wert einer Variablen ermittelt, dann können wir durch Subtraktion des Mittelwertes und Division durch die Standardabweichung (oder eine Schätzung für diese) ermitteln, wie die Wahrscheinlichkeit für unseren empirisch ermittelten Wert war. Konfidenzintervalle Wenn wir die Information haben, welche Art der Verteilung eine Variable hat, wenn wir ferner über die Parameter dieser Verteilung Bescheid wissen, dann können wir uns ausrechnen, wie viele Werte der Verteilung in einem gegebenen Intervall um den Mittelwert herum liegen. Eine Anwendung dieses Gedankens besteht darin, danach zu fragen, wo die Werte in einer Grundgesamtheit wahrscheinlich sind, und dafür eine Stichprobe zu verwenden. Eine andere, sehr wichtige Anwendung besteht in der Frage, in welchem Intervall um den Mittelwert einer Stichprobe wohl der Mittelwert der Grundgesamtheit liegen dürfte. Diese Frage ist zwar leider nicht beantwortbar, da wir den Mittelwert der Grundgesamtheit eben nicht kennen. Sie ist aber vernünftig annäherbar durch eine andere Frage: In welchem Intervall rund um den Mittelwert einer Stichprobe haben wir die Mittelwerte aller denkbaren anderen Stichproben der Größe n zu erwarten? VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 19

20 Aus der Dichtefunktion der Normalverteilung können wir die Intervalle errechnen, in denen die einzelnen Werte einer Stichprobe rund um den Mittelwert liegen. Wenn wir uns z.b. dafür interessieren, wie groß das Intervall um den Mittelwert ist, in dem 95% der Realisierungen einer Stichprobe liegen, dann wissen wir, dass dieses Intervall die Größe x ± 1,96.s hat. Nun haben wir es aber nicht mit der Frage zu tun, in welchem Intervall die einzelnen Realisierungen einer Stichprobe liegen, sondern damit, in welchem Intervall jene Mittelwerte liegen, die aus Stichproben der Größe n errechnet worden sein könnten. Es ist einleuchtend, dass die vernünftigste Schätzung für den Erwartungswert aller Mittelwerte von Stichproben der Größe n der Mittelwert x jener Stichprobe ist, die wir tatsächlich gezogen haben. Die Standardabweichung aller Mittelwerte von Stichproben der Größe n ist: Da wir von der Normalverteilung schon von früher wissen, dass z.b. im Bereich x ± 1, 96sx 95% aller zu erwartenden Fälle liegen, können wir diese Erkenntnis auch auf die Mittelwerte aller denkbaren Stichproben der Größe n anwenden und sagen: Der Bereich, in dem wir 95% aller denkbaren Mittelwerte von Stichproben der Größe n erwarten können, ist gegeben durch x ±.96s, das ist also 1 x Dieses Intervall x ± 1.96 s x n sx x ± k trägt auch die Bezeichnung Konfidenzintervall. n k ist dabei eine Konstante, die danach gewählt wird, wie viele Werte aller denkbaren Stichprobenmittelwerte in dem gesuchten Intervall liegen sollen. Für k=1.96 sind es, wie oben gesagt, 95%. Für k=2.58 sind es 99%. Die oben stehende Beziehung lässt erkennen, dass das Konfidenzintervall immer kleiner wird, je größer die Stichprobe wird. Das ist einleuchtend: aufgrund einer großen Stichprobe lässt sich ein Mittelwert einer Grundgesamtheit genauer schätzen als aufgrund einer kleinen Stichprobe. Und eine Schätzung ist umso weniger zuverlässig, je kleiner eine Stichprobe ist. Wozu brauchen wir Konfidenzintervalle in der Praxis? Die Konfidenzintervalle sind, wie so vieles in der Statistik, in der Industrie entwickelt worden. Betrachten wir z.b. eine Produktion von Schnüren. Wir wollen die Reißfestigkeit dieser Schnüre feststellen. Wir wollen, dass 95% aller Schnüre in einem bestimmten Intervall von Reißfestigkeit liegen. Um die Reißfestigkeit festzustellen, können wir diese Schnüre nur zerreißen. Sind die Schnüre allerdings einmal zerrissen, kann man sie nicht mehr verkaufen. Das Prüfen der Reißfestigkeit ist mit Kosten verbunden, die man feststellen kann. x s x = s x n (6) 6 Anmerkung von isa hager: Diesen Ausdruck erhalten wir dadurch, indem wir die Varianz noch mal durch n dividieren, oder eben die Standardabweichung durch die Wurzel aus n; Warum: Die normale durchschnittliche Abweichung vom Mittelwert einer empirischen Variable wird bei ihrer Berechnung einmal durch n dividiert; Die Varianz einer Zufallsvariable aus Mittelwerten muss noch einmal durch n dividiert werden, weil alle Einzelwerte Mittelwerte sind und wir die durchschnittliche Streuung schätzen wollen. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 20

21 Nun gibt es zwei Möglichkeiten: entweder wir sparen bei der Prüfung und prüfen nur wenige Schnüre, und nehmen damit aber in Kauf, dass ein großer Teil der Produktion schlecht ist. Oder wir zerreißen alle Schnüre, und wissen damit verlässlich, ob alle diese Schnüre die geforderte Reißfestigkeit gehabt haben. Leider können wir dann aber keine Schnüre mehr verkaufen. Nun gilt es, die billigste Variante zwischen diesen beiden Dilemmata zu finden. Dies können wir aufgrund der Beziehung zwischen Stichprobengröße und zu erwartendem Ausschuss tun. Wenn wir den zu erwartenden Ausschuss bewerten können (ermitteln, was er uns kostet), und auch wissen, wie viel uns zerrissene Schnüre kosten, dann können wir berechnen, mit welcher Stichprobengröße wir am kostengünstigsten durchkommen. Dieses Kalkül wird offenbar anders ausfallen, je nachdem ob es sich um Gardinenschnüre handelt oder um Reißleinen für Fallschirme. In der Produktion von sozialwissenschaftlichem Wissen ist es schon nicht mehr so ganz einfach. Denn es ist nicht so ganz einfach zu ermitteln, was es kostet, wenn Sie die Durchschnittsgröße der Österreicher falsch schätzen. Wenn Sie als Soziologe eine Hypothese aufstellen, bei der Sie eine Schätzung abgeben, und das Ergebnis stellt sich als falsch heraus, dann ist es schwer, die Kosten davon zu berechnen. In der Marktforschung geht das noch eher. Daher kann man sich ausrechnen, wie groß die gewählte Stichprobe sein muss, um den Mittelwert, den man schätzen will, in einem noch vertretbaren Intervall zu schätzen. Je genauer man schätzen will, desto größer muss die Stichprobe angelegt sein. Ein weiterer Anwendungsbereich sind Mikrozensusberechnungen. Bei den Erhebungen des Statistischen Zentralamts stehen beim Ergebnis oft Angaben wie: +/- 4 %, +/- 9%, +/-3%, o.ä. Irgendwo in den Anmerkungen steht dann, dass die Intervalle Konfidenzintervalle sind, auf dem 96, 91, 97 %-Niveau. D.h. es gibt zu jeder Schätzung, die auf einer Hochrechnung aufgrund einer Stichprobe basiert, die Angabe, innerhalb von welchem Intervall wahrscheinlich 95%, 97%, o.ä., aller Fälle in der Grundgesamtheit liegen werden. Warum ist das wichtig? Wenn Sie im Mikrozensus lesen, dass etwa in einem bestimmten Bereich Ausländer ein Durchschnittseinkommen von 900, Österreicher aber eines von 1100 hätten, dann ist es wichtig, wenn dabei steht: +/-10%. Dann bedeutet das nämlich, dass das Durchschnittseinkommen der Ausländer in der Grundgesamtheit auch 810 oder auch 990 betragen könnte. Jenes der Österreicher könnte statt 1100 auch 990 oder 1210 ausmachen. Es könnte also in diesem fiktiven Beispiel in der Grundgesamtheit mit akzeptabler Wahrscheinlichkeit auch sein, dass das Einkommen von Ausländern und Österreichern mit 990 genau gleich ist. In anderen Worten: Erst mit Hilfe des Konfidenzintervalls können wir Unterschiede, die aufgrund von Stichprobenerhebungen ausgewiesen werden, interpretieren. VO 4 Statistik für Pflegewissenschaft (Hager) Konfidenzintervall 21

Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie

Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie Konfidenzintervall Statistische Analyse von Stichproben Der Datensatz aus der Übung (social survey 2003) besteht

Mehr

Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie

Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie Konfidenzintervall Statistische Analyse von Stichproben Der Datensatz aus der Übung (social survey 1993) besteht

Mehr

= 3. Kapitel 4: Normalverteilung.. und Standardnormalverteilung und: das Konfidenzintervall..

= 3. Kapitel 4: Normalverteilung.. und Standardnormalverteilung und: das Konfidenzintervall.. Kapitel : Normalverteilung.. und Standardnormalverteilung und: das Konfidenzintervall.. Mittelwert = Summe aller Einzelwerte / n = durchschnittliche Ausprägung, wenn alle gleich viel hätten. Streuung =

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.

Mehr

Stichproben Parameterschätzung Konfidenzintervalle:

Stichproben Parameterschätzung Konfidenzintervalle: Stichproben Parameterschätzung Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.b. ausrechnen,

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

SozialwissenschaftlerInnen II

SozialwissenschaftlerInnen II Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Wahrscheinlichkeitsfunktionen

Mehr

1. Einführung in die induktive Statistik

1. Einführung in die induktive Statistik Wichtige Begriffe 1. Einführung in die induktive Statistik Grundgesamtheit: Statistische Masse, die zu untersuchen ist, bzw. über die Aussagen getroffen werden soll Stichprobe: Teil einer statistischen

Mehr

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Konfidenzintervalle so einfach wie möglich erklärt

Konfidenzintervalle so einfach wie möglich erklärt Konfidenzintervalle so einfach wie möglich erklärt Wolfgang Ludwig-Mayerhofer, Universität Siegen, FB 1, Fach Soziologie Das Problem SozialwissenschaftlerInnen erheben sehr oft Daten aus Stichproben. Es

Mehr

Beschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit

Beschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit Beschreibende Statistik Deskriptive Statistik Schließende Statistik Inferenzstatistik Beschreibung der Stichprobe Schluss von der Stichprobe auf die Grundgesamtheit Keine Voraussetzungen Voraussetzung:

Mehr

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Stetige Zufalls-Variable Erweitert man den Begriff der diskreten Zufallsvariable

Mehr

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007 Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte

Mehr

Zentraler Grenzwertsatz/Konfidenzintervalle

Zentraler Grenzwertsatz/Konfidenzintervalle / Statistik I Sommersemester 2009 Statistik I ZGWS/ (1/37) Kann Ahmadinejad die Wahl gewonnen haben? Im wesentlichen Dreiteilung der polit. Elite 2005: 17.3 Millionen Stimmen (Stichwahl), Wahlbeteiligung

Mehr

Stichwortverzeichnis. Symbole

Stichwortverzeichnis. Symbole Stichwortverzeichnis Symbole 50ste Perzentil 119 A Absichern, Ergebnisse 203 Abzählbar unendliche Zufallsvariable 146 Alternativhypothese 237 238 formulieren 248 Anekdote 340 Annäherung 171, 191 Antwortquote

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind: Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

3 Konfidenzintervalle

3 Konfidenzintervalle 3 Konfidenzintervalle Konfidenzintervalle sind das Ergebnis von Intervallschätzungen. Sicheres Wissen über Grundgesamtheiten kann man anhand von Stichproben nicht gewinnen. Aber mit Hilfe der Statistik

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler 6.6 Normalverteilung Die Normalverteilung kann als das wichtigste Verteilungsmodell der Statistik angesehen werden. Sie wird nach ihrem Entdecker auch Gaußsche Glockenkurve genannt. Die herausragende Stellung

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung 0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau

Mehr

Statistik Einführung // Stichprobenverteilung 6 p.2/26

Statistik Einführung // Stichprobenverteilung 6 p.2/26 Statistik Einführung Kapitel 6 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Leydold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // 6 p.0/26 Lernziele 1. Beschreiben

Mehr

Standardnormalverteilung

Standardnormalverteilung Standardnormalverteilung 1720 erstmals von Abraham de Moivre beschrieben 1809 und 1816 grundlegende Arbeiten von Carl Friedrich Gauß 1870 von Adolphe Quetelet als "ideales" Histogramm verwendet alternative

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

Übungen mit dem Applet Zentraler Grenzwertsatz

Übungen mit dem Applet Zentraler Grenzwertsatz Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3

Mehr

Notgepäck Genauigkeit

Notgepäck Genauigkeit Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X. Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im

Mehr

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,

Mehr

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Typisierung der stetigen theoretischen Verteilungen Bibliografie:

Mehr

Übungen mit dem Applet

Übungen mit dem Applet Übungen mit dem Applet 1. Visualisierung der Verteilungsform... 1.1. Normalverteilung... 1.. t-verteilung... 1.3. χ -Verteilung... 1.4. F-Verteilung...3. Berechnung von Wahrscheinlichkeiten...3.1. Visualisierung

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau

Mehr

Schließende Statistik

Schließende Statistik Schließende Statistik [statistical inference] Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Verteilung von Summen

Verteilung von Summen Verteilung von Summen Beispiel: Würfelwurf Frage: Wie verhält sich die Verteilung der Augensumme von -Würfeln bei wachsendem? Zur Beantwortung führen wir ein Simulationseperiment durch. 6 Würfe mit 1 Würfel

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilung diskreter Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 2008/2009

Mehr

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch. Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert die

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Inhaltsbereich Wahrscheinlichkeit und Statistik

Inhaltsbereich Wahrscheinlichkeit und Statistik Inhaltsbereich Wahrscheinlichkeit und Statistik AG Mathematik, Sankt Pölten 11.11.2009 Markus Binder Modell für die zentrale srp im Schulversuch Teil I: Aufgaben mit 15-25 Items Teil II: 6-8 Aufgaben,

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Konkretes Durchführen einer Inferenzstatistik

Konkretes Durchführen einer Inferenzstatistik Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Einfache Varianzanalyse für unabhängige Stichproben

Einfache Varianzanalyse für unabhängige Stichproben Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,

Mehr

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind. Bsp 1) Die Wahrscheinlichkeit dafür, dass eine Glühbirne länger als 200 Stunden brennt, beträgt 0,2. Wie wahrscheinlich ist es, dass von 10 Glühbirnen mindestens eine länger als 200 Stunden brennt? (Berechnen

Mehr

VS PLUS

VS PLUS VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen - Inferenzstatistik 1 [Übungsaufgaben und Lösungenn - Inferenzstatistik 1] ÜBUNGSAUFGABEN

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler

Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler Noémie Becker & Dirk Metzler 15. April 2016 Inhaltsverzeichnis 1 Der Standardfehler 1 1.1 Ein Versuch............................................

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch. Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert nämlich

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-31 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei

Mehr

4.1. Nullhypothese, Gegenhypothese und Entscheidung

4.1. Nullhypothese, Gegenhypothese und Entscheidung rof. Dr. Roland Füss Statistik II SS 8 4. Testtheorie 4.. Nullhypothese, Gegenhypothese und Entscheidung ypothesen Annahmen über die Verteilung oder über einzelne arameter der Verteilung eines Merkmals

Mehr

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1 SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf SBP Mathe Aufbaukurs 1 # 0 Antwort Diese Lernkarten sind sorgfältig erstellt worden, erheben aber weder Anspruch auf Richtigkeit noch auf Vollständigkeit. Das

Mehr

Bereiche der Statistik

Bereiche der Statistik Bereiche der Statistik Deskriptive / Exploratorische Statistik Schließende Statistik Schließende Statistik Inferenz-Statistik (analytische, schließende oder konfirmatorische Statistik) baut auf der beschreibenden

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 017 4 Spezielle Zufallsgrößen Einführung 1 Wahrscheinlichkeit: Definition

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilung diskreter Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

Univ.-Prof. Dr. Georg Wydra

Univ.-Prof. Dr. Georg Wydra Univ.-Prof. Dr. Georg Wydra Methoden zur Auswertung von Untersuchungen 1 SKALENTYPEN UND VARIABLEN 2 ZUR BEDEUTUNG DER STATISTIK IN DER FORSCHUNG 3 STATISTIK ALS VERFAHREN ZUR PRÜFUNG VON HYPOTHESEN 4

Mehr

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 7. Grenzwertsätze Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Mittelwerte von Zufallsvariablen Wir betrachten die arithmetischen Mittelwerte X n = 1 n (X 1 + X 2 + + X n ) von unabhängigen

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

Klausurvorbereitung - Statistik

Klausurvorbereitung - Statistik Aufgabe 1 Klausurvorbereitung - Statistik Studenten der Politikwissenschaft der Johannes Gutenberg-Universität wurden befragt, seit wie vielen Semestern sie eingeschrieben sind. Berechnen Sie für die folgenden

Mehr

Einführung 17. Teil I Kopfüber eintauchen in die Statistik 23. Kapitel 1 Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente 25

Einführung 17. Teil I Kopfüber eintauchen in die Statistik 23. Kapitel 1 Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente 25 Inhaltsverzeichnis Einführung 17 Über dieses Buch 17 Törichte Annahmen über den Leser 19 Wie dieses Buch aufgebaut ist 19 Teil I: Kopfüber eintauchen indie Statistik 19 Teil II: Von Wahrscheinlichkeiten,

Mehr

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Übung 1: Wiederholung Wahrscheinlichkeitstheorie Übung 1: Wiederholung Wahrscheinlichkeitstheorie Ü1.1 Zufallsvariablen Eine Zufallsvariable ist eine Variable, deren numerischer Wert solange unbekannt ist, bis er beobachtet wird. Der Wert einer Zufallsvariable

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Konfidenzintervalle. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Konfidenzintervalle. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Konfidenzintervalle Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Münzspiel Experiment 100 Münzwürfe: Stefan gewinnt bei "Kopf" Hypothesen H 0 : Stefan wird so oft gewinnen

Mehr

GRUNDPRINZIPIEN statistischen Testens

GRUNDPRINZIPIEN statistischen Testens Fragestellungen beim Testen GRUNDPRINZIPIEN statistischen Testens. Vergleiche Unterscheidet sich die Stichprobenbeobachtung von einer vorher spezifizierten Erwartung ( Hypothese ) mit ausreichender Sicherheit?

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Wiederholung. Statistik I. Sommersemester 2009

Wiederholung. Statistik I. Sommersemester 2009 Statistik I Sommersemester 2009 Statistik I (1/21) Daten/graphische Darstellungen Lage- und Streuungsmaße Zusammenhangsmaße Lineare Regression Wahrscheinlichkeitsrechnung Zentraler Grenzwertsatz Konfidenzintervalle

Mehr

Übungsaufgaben zu Statistik II

Übungsaufgaben zu Statistik II Übungsaufgaben zu Statistik II Prof. Dr. Irene Prof. Dr. Albrecht Ungerer Die Kapitel beziehen sich auf das Buch: /Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler 4 Übungsaufgaben

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

Statistik für Dummies

Statistik für Dummies Bearbeitet von Deborah Rumsey, Reinhard Engel 3. aktualisierte Auflage 2015. Buch. 368 S. Softcover ISBN 978 3 527 71156 7 Format (B x L): 17,6 x 24 cm Wirtschaft > Betriebswirtschaft: Theorie & Allgemeines

Mehr

Jost Reinecke. 7. Juni 2005

Jost Reinecke. 7. Juni 2005 Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung

Mehr

T-Test für den Zweistichprobenfall

T-Test für den Zweistichprobenfall T-Test für den Zweistichprobenfall t-test (unbekannte, gleiche Varianzen) Test auf Lageunterschied zweier normalverteilter Grundgesamtheiten mit unbekannten, aber gleichen Varianzen durch Vergleich der

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 25. Januar 2013 1 Der χ 2 -Anpassungstest 2 Exakter Test nach Fisher Mendelsche Erbregeln als Beispiel für mehr

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36) Statistik I Sommersemester 2009 Statistik I I (1/36) Wiederholung Grenzwertsatz Konfidenzintervalle Logik des 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I I (2/36) Zum Nachlesen Agresti/Finlay: Kapitel 6+7

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Einführung Fehlerrechnung

Einführung Fehlerrechnung Einführung Fehlerrechnung Bei jeder Messung, ob Einzelmessung oder Messreihe, muss eine Aussage über die Güte ( Wie groß ist der Fehler? ) des Messergebnisses gemacht werden. Mögliche Fehlerarten 1. Systematische

Mehr

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 1. Ein Chemiestudent hat ein Set von 10 Gefäßen vor sich stehen, von denen vier mit Salpetersäure Stoff A), vier mit Glyzerin Stoff

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung R. Brinkmann http://brinkmann-du.de Seite 5.05.0 Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung Erwartungswert binomialverteilter Zufallsgrößen Wird ein Bernoulli- Versuch, bei

Mehr

Probleme bei kleinen Stichprobenumfängen und t-verteilung

Probleme bei kleinen Stichprobenumfängen und t-verteilung Probleme bei kleinen Stichprobenumfängen und t-verteilung Fassen wir zusammen: Wir sind bisher von der Frage ausgegangen, mit welcher Wahrscheinlichkeit der Mittelwert einer empirischen Stichprobe vom

Mehr

Übungsblatt 9 (25. bis 29. Juni)

Übungsblatt 9 (25. bis 29. Juni) Statistik 2 Dr. Andrea Beccarini Dipl.-Vw. Dipl.-Kffr. Heike Bornewasser-Hermes Sommersemester 2012 Übungsblatt 9 (25. bis 29. Juni) Stetiges Verteilungsmodell und Gemeinsame Verteilung Stetiges Verteilungsmodell

Mehr

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet.

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet. 11.01.2012 Prof. Dr. Ingo Klein Klausur zur VWA-Statistik Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet. Aufgabe 1:

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

Statistik-Klausur vom

Statistik-Klausur vom Statistik-Klausur vom 09.02.2009 Bearbeitungszeit: 90 Minuten Aufgabe 1 a) Ein Unternehmen möchte den Einfluss seiner Werbemaßnahmen auf den erzielten Umsatz quantifizieren. Hierfür werden die jährlichen

Mehr