Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)



Ähnliche Dokumente
Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Tutorial: Homogenitätstest

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Statistik im Versicherungs- und Finanzwesen

Statistische Thermodynamik I Lösungen zur Serie 1

4. Erstellen von Klassen

QM: Prüfen -1- KN

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Ein möglicher Unterrichtsgang

Einfache Varianzanalyse für abhängige

9. Schätzen und Testen bei unbekannter Varianz

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Grundlagen der Inferenzstatistik

R ist freie Software und kann von der Website.

Die Optimalität von Randomisationstests

1.3 Die Beurteilung von Testleistungen

W-Rechnung und Statistik für Ingenieure Übung 11

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Informationsblatt Induktionsbeweis

Der Provider möchte möglichst vermeiden, dass die Werbekampagne auf Grund des Testergebnisses irrtümlich unterlassen wird.

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Statistik II für Betriebswirte Vorlesung 2

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Berechnung der Erhöhung der Durchschnittsprämien

Data Mining: Einige Grundlagen aus der Stochastik

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Schleswig-Holstein Kernfach Mathematik

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Statistische Auswertung:

1 Mathematische Grundlagen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Professionelle Seminare im Bereich MS-Office

Primzahlen und RSA-Verschlüsselung

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Statistik I für Betriebswirte Vorlesung 11

1 topologisches Sortieren

Statistik für Studenten der Sportwissenschaften SS 2008

Anwendungshinweise zur Anwendung der Soziometrie

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

Anleitung über den Umgang mit Schildern

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Konzepte der Informatik

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

Erstellen von x-y-diagrammen in OpenOffice.calc

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Info zum Zusammenhang von Auflösung und Genauigkeit

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Grundlagen der Theoretischen Informatik, SoSe 2008

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Einführung in die Algebra

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Kleine Einführung in die lineare Regression mit Excel

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe B

Risiko und Symmetrie. Prof. Dr. Andrea Wirth

Einfache statistische Auswertungen mit dem Programm SPSS

Gleichungen und Ungleichungen

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Lineare Gleichungssysteme

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

7 Rechnen mit Polynomen

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Berufsreifeprüfung Mathematik Lehrplan laut Berufsreifeprüfungscurriculaverordnung Volkshochschule Floridsdorf Herbsttermin 2013

Lösung. Prüfungsteil 1: Aufgabe 1

Korrelation (II) Korrelation und Kausalität

Schnellstart - Checkliste

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Beweisbar sichere Verschlüsselung

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A

Zahlen auf einen Blick

Zeichen bei Zahlen entschlüsseln

Überblick über die Tests

Überblick über die Verfahren für Ordinaldaten

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

AUTOMATISIERTE HANDELSSYSTEME

Forschungsstatistik I

Korrigenda Handbuch der Bewertung

Praktikum Physik. Protokoll zum Versuch: Geometrische Optik. Durchgeführt am

Einfache statistische Auswertungen mit dem TI-Nspire

1. Allgemeine Hinweise

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Transkript:

Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!! 1

Inhaltsangabe 1 Vom Histogramm zur Wahrscheinlichkeitsdichte... 3 2 Die Normalverteilung... 5 3 Stichprobe versus Grundgesamtheit... 7 3.1 Einleitung... 7 3.2 Der zentrale Grenzwertsatz... 8 4 Test auf Mittelwertunterschied (eine Stichprobe)... 9 4.1 Testidee... 9 4.2 Test auf Mittelwertunterschied... 12 2

1 Vom Histogramm zur Wahrscheinlichkeitsdichte Betrachten wir noch einmal näher ein Histogramm mit der relativen Häufigkeit auf der y- Achse und zur Erleichterung der Interpretation mit einer Klassenbreite von eins. Dann entspricht die Fläche jedes Balkens der Wahrscheinlichkeit, dass die Variable, deren Wertebereich auf der x-achse abgetragen ist, einen Wert zwischen der unteren und der oberen Grenze eines Balkens annimmt. Zum Beispiel in Abbildung 1: Die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen -0.5 und 0.5 annimmt beträgt ca. 34.5%. Histogramm rel. Häufigkeit 0.4 0.3 0.2 0.1 0 kleiner/gleich -3.5 (-3.5;-2.5] (-2.5;-1.5] (-1.5;-0.5] (-0.5;0.5] (0.5;1.5] (1.5;2.5] (2.5;3.5] größer 3.5 Klasse Abbildung 1: Histogramm der Variablen X. (X wurde gewonnen, indem in Excel 1000 standardnormalverteilte Zufallsvariablen erzeugt wurden.) Eine etwas andere Darstellung wäre, die Klassenmitten beim Histogramm zu verbinden. So könnte man die Häufigkeitsverteilung auch als durchgezogene Linie darstellen (siehe Abbildung 2). Diese Linie nennt man Häufigkeitspolygon. Histogramm 0.4 0.3 0.2 0.1 0 kleiner/gleich -3.5 (-3.5;-2.5] (-2.5;-1.5] (-1.5;-0.5] (-0.5;0.5] (0.5;1.5] rel. Häufigkeit (1.5;2.5] (2.5;3.5] größer 3.5 Klasse Abbildung 2: Histogramm und Häufigkeitspolygon einer Variablen X. (X wurde gewonnen, indem in Excel 1000 standardnormalverteilte Zufallsvariablen erzeugt wurden.) 3

Wenn man nun die Intervalle sprich Klassenbreiten immer feiner werden lässt, kann man sich vorstellen zur so genannten Dichtefunktion zu gelangen, in unserem Fall zur Dichtefunktion der Normalverteilung, genauer genommen zur Standardnormalverteilung (siehe Abbildung 3). Die Fläche unter der Dichtefunktion gibt die Wahrscheinlichkeit wider, dass die Variable X Werte zwischen der unteren und der oberen Grenze der Flächenberechnung annimmt. f(x) -3-2 -1 0 1 2 x 3 Abbildung 3: Dichtefunktion der Standardnormalverteilung Im Falle der Normalverteilung existiert für diese durchgezogene Linie ein analytischer Ausdruck (vgl. Formel 1) und die Fläche kann (näherungsweise) zum Beispiel mit Excel bequem ausgerechnet werden. 2 1 ( ) 1 x µ f x = exp, (Formel 1) 2πσ 2 σ wobei µ der Erwartungswert der Variablen X, σ die Standardabweichung der Variablen und exp(.) die Exponentialfunktion ist. Für die Standardnormalverteilung gilt, dass der Erwartungswert null und die Standardabweichung 1 sind. Beispiel zur Berechnung der Wahrscheinlichkeit einer standardnormalverteilten Variable X mit Excel. X sei also eine standardnormalverteilte Variable, dann hat sie einen Mittelwert (Erwartungswert) von null und eine Standardabweichung von 1. Um mit Hilfe von Excel die Wahrscheinlichkeit angeben zu können, dass X Werte zwischen -0.8 und 0.9 annimmt, muss als erster Schritt folgendes in Excel eingegeben werden: 4

Das Ergebnis 0.815939875 gibt die Wahrscheinlichkeit an, dass die Variable X Werte zwischen minus unendlich und 0.9 annimmt. (Da die Standardnormalverteilung eine asymptotische Verteilung ist, ist ihr Wertebereich von minus unendlich bis plus unendlich definiert.) Excel berechnet immer die Wahrscheinlichkeit von minus unendlich bis zu dem eingegebenen X-Wert. Nun benötigt man noch die Wahrscheinlichkeit, dass die Variable X einen Wert kleiner gleich -0.8 annimmt. Das Ergebnis - berechnet mit Excel - lautet 0.2118554. Die beiden Wahrscheinlichkeiten (Flächen) müssen nun voneinander subtrahiert werden, um die gesuchte Wahrscheinlichkeit zu erhalten. Damit ist die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen -0.8 und 0.9 annimmt cirka 60.4%. 2 Die Normalverteilung Die Normalverteilung oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ kontinuierlicher Wahrscheinlichkeitsverteilungen. 5

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert (also für n ) normalverteilt ist 1. Viele natur-, wirtschafts- und ingenieurswissenschaftliche Vorgänge lassen sich durch die Normalverteilung in sehr guter Näherung beschreiben. Die Normalverteilung benutzt man zum Beispiel zur Beschreibung von Geschwindigkeiten, Messfehlern, Beobachtungsfehlern. In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen. In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen. Die Standardabweichung beschreibt die Breite der Normalverteilung. Berücksichtigt man die tabellierten Werte der Verteilungsfunktion gilt näherungsweise folgende Aussage: 68.27 % aller Messwerte haben eine Abweichung von höchstens einer Standardabweichung vom Mittelwert 95.45 % aller Messwerte haben eine Abweichung von höchstens 2 Standardabweichungen vom Mittelwert 99.73 % aller Messwerte haben eine Abweichung von höchstens 3 Standardabweichungen vom Mittelwert. 2 Somit kann neben dem Mittelwert auch der Standardabweichung eine praktische Bedeutung zugeordnet werden. 2 Wenn eine Variable X normalverteilt ist, kann man auch kurz schreiben: ~ N( µ, σ ) X. Beispiel: Die jährlichen Provisionen der Außenhandelsvertreter der Firma seien normalverteilt mit µ = 40000 und σ = 5000. a) Wie viel Prozent der Außenhandelsvertreter verdienen mehr als 42000 pro Jahr? b) Wie viel Prozent verdienen zwischen 32000 und 35000? c) Der Verkaufsmanager möchte einen Bonus von 1000 an die Mitarbeiter mit den höchsten Provisionen vergeben. Er möchte 20% der Mitarbeiter belohnen. Wo liegt die Provisionsgrenze für den extra Bonus? Lösung: 2 Wir wissen, dass X (Provisionen): ( 40000,5000 ) ad a) N. 1 Dazu näheres später. 2 Tipp: Rechnen Sie diese Werte mit einer von Ihnen gewählten Normalverteilung im Excel aus. 6

Cirka 34.46% der Außenhandelsvertreter verdienen mehr als 42000 pro Jahr. ad b) Cirka 10.4% verdienen zwischen 32000 und 35000. ad c) Ab einer jährlichen Provision von cirka 44208 werden zusätzlich 1000 ausgezahlt. 3 Stichprobe versus Grundgesamtheit 3.1 Einleitung Wie können aufgrund von Ergebnissen, die anhand einer kleinen Zahl von Personen/Objekten/Merkmalsträgern bzw. einer kleinen Stichprobe gefunden wurden, allgemeingültige Aussagen über die Grundgesamtheit getroffen werden? Dazu benötigt man eine repräsentative Stichprobe, mit deren Hilfe man nun versucht die Parameter der Grundgesamtheit zu schätzen sowie ein Konfidenzintervall für diese Punktschätzung anzugeben. Typische Parameter sind der Mittelwert, die Standardabweichung oder zum Beispiel der Anteilswert. 7

Tabelle 1: Kleines Symbolverzeichnis für Parameter der Grundgesamtheit und der Stichprobe Parameter in der Grundgesamtheit Stichprobe Bezeichnung µ x Erwartungswert/Mittelwert µˆ N n Anzahl der Merkmalsträger σ s Standardabweichung σˆ π p Anteilswert πˆ Bezeichnung des Schätzers für den Parameter in der Grundgesamtheit Es wird aus der gezogenen Stichprobe ein Schätzwert als Punktschätzung für z.b. den Mittelwert, die Standardabweichung oder den Anteilswert ermittelt. Schätzwerte, die sich als Ergebnis von Stichproben errechnen lassen, sollten erwartungstreu (Fehlen eines bias) und konsistent sein, d.h. sie sollten nicht verzerrt sein und mit größerem Stichprobenumfang bessere Schätzungen liefern. Weiters sollte ein Schätzer effizient sein d.h. ein Schätzer sollte für jeden Stichprobenumfang die kleinstmögliche Streuung haben. In der Statistik kann gezeigt werden, dass der Mittelwert und der Anteilswert berechnet aus der Stichprobe in diesem Sinne die besten Punktschätzer für die entsprechenden Parameter in der Grundgesamtheit sind. Für den Schätzer der Standardabweichung muss allerdings folgende Formel verwendet werden: n 1 2 n ˆ σ = ( xi x) = s (Formel 2) n 1 n i= 1 1 In der Statistik ist es üblich Schätzer mit einem.ˆ über dem Symbol des Parameters zu kennzeichnen. Der einzelne Schätzwert wird in der Regel nie mit dem wahren Wert aus der Grundgesamtheit übereinstimmen. Bei einem Punktschätzwert wird keine Aussage über die Qualität der Schätzung geliefert (außer über die oben genannten Eigenschaften des Schätzers). Die Punktschätzung ist aber der erste Schritt auf dem Weg zur Intervallschätzung. Mit Hilfe der gezogenen Stichprobe wird auch ein Intervall um den Punktschätzwert konstruiert, das den zu schätzenden, unbekannten Parameter mit einer großen Wahrscheinlichkeit (mindestens 90%, häufig 95%) überdeckt. Diese Intervalle heißen auch Konfidenzintervalle. Dafür wird das Ergebnis des zentralen Grenzwertsatzes verwendet. 3.2 Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz ist ein Hauptsatz in der theoretischen Statistik und besagt im allgemeinen, dass die Summe von stochastisch unabhängigen Zufallsvariablen annähernd normalverteilt ist. Der zentrale Grenzwertsatz lässt sich nutzen, um die Stichprobenverteilung bestimmter Kennzahlen wie zum Beispiel von X anzugeben. Er besagt in diesem Fall: Wenn man eine Zufallsstichprobe von genügend großem Umfang n aus einer Grundgesamtheit mit Zurücklegen zieht, in der ein Merkmal X mit dem Erwartungswert µ und der Varianz σ 2 verteilt ist, dann folgt X approximativ der Normalverteilung mit den 8

Parametern µ und der Varianz werden muss. 2 σ n, ohne dass etwas über die Verteilung von X vorausgesetzt Voraussetzungen und Bedingungen: n sollte nach einer groben Faustformel mindestens 30 sein, damit die Summenformel als so gut wie normalverteilt angesehen werden kann. Der Verteilungstyp muss nicht bekannt sein, die Zufallsvariablen müssen nicht symmetrisch verteilt sein, allerdings muss eine Varianz existieren und die Verteilung darf nicht absurd, z.b. einer Arcustangensverteilung, folgen. Die Stichprobenvariablen müssen voneinander stochastisch unabhängig sein. Falls die Grundgesamtheit, aus der gezogen wird, normalverteilt ist, ist nicht approximativ, sondern genau normalverteilt. Die Stichprobe kann dann auch von kleinem Umfang sein. Da die Standardabweichung der Grundgesamtheit in den seltensten Fällen bekannt ist, muss sie durch die Standardabweichung der Stichprobe (s) geschätzt werden. Trotzdem kann unter der Voraussetzung einer normalverteilten Grundgesamtheit und eines Stichprobenumfanges von mehr als 30 der zentrale Grenzwertsatz wie folgt angewandt werden zur Beschreibung der 2 s Verteilung des Stichprobenmittelwertes: X ~ N µ,. n 1 Die Standardabweichung dieser Verteilung wird oft auch Standardfehler genannt. Da man nun die Verteilung der Mittelwerte kennt, kann man diese Verteilung benutzen, um einerseits ein Konfidenzintervall anzugeben, andererseits um statistische Tests durchführen zu können. 4 Test auf Mittelwertunterschied (eine Stichprobe) 4.1 Testidee Am besten lässt sich die Idee an einem Anwendungsbeispiel zeigen. Beispiel 1: Ein Produzent von Abfüllmaschinen behauptet, dass die Abfüllmenge seiner Maschine normalverteilt sei mit einem Erwartungswert (µ) von 1000ml. Bevor Sie die Maschine kaufen, dürfen Sie die Maschine ein Monat testen. Sie erheben eine Stichprobe, indem Sie 60 Packungen abfüllen lassen und genau die Menge nachmessen. Sie stellen fest, dass durchschnittlich 980ml abgefüllt wurden mit einer Standardabweichung (s) von 50ml. Wie wahrscheinlich ist das Auftreten eines derartigen Stichprobenmittelwertes oder kleiner? 9

Lösung: Die Parameter laut Angabe sind: µ = 1000, n = 60, x = 980, s = 50. 2 50 Wir wissen laut zentralem Grenzwertsatz, dass X ~ N 1000, und laut Angabe suchen 59 wir die folgende Wahrscheinlichkeit: -3-2 -1 µ = 1000 0 1 2 3 980 Abbildung 4: Gesuchte Wahrscheinlichkeit bzw. Fläche unter der Dichtefunktion der zugehörigen Normalverteilung. In Excel gibt man folgendes ein: 10

Die Wahrscheinlichkeit für das Auftreten eines Stichprobenmittelwertes von 980 oder kleiner, wenn der Erwartungswert 1000 ist, beträgt cirka 0.001. Damit ist also das Auftreten des Stichprobenmittelwertes unter der Annahme eines Erwartungswertes von 1000 sehr gering! Beispiel 2: Dole Pineapple, Inc. befürchtet, dass ihre neue Maschine in die 500g Dosen im Schnitt zu viele Ananas-Stücke abfüllt. Eine Stichprobe von 35 Dosen ergab ein durchschnittliches Gewicht von ca. 504g mit einer Standardabweichung von ca. 6g. (Nehmen Sie an, dass das Abfüllgewicht normalverteilt sei.) Wie wahrscheinlich ist ein Durchschnittsgewicht von 504g oder noch größer? Was befürchten Sie bezüglich der Justierung der Maschine? Lösung: Die Parameter laut Angabe sind: µ = 500, x = 504, s = 6, n = 35 Damit wissen wir, dass approximativ gilt: 36 X ~ N 500, und die Eingabe in Excel ergibt: 34 Damit erhalten wir als gesuchte Wahrscheinlichkeit cirka 1-0.9999 ~ 0.0000. Wieder ist die Wahrscheinlichkeit, einen Stichprobenmittelwert von 504 oder noch größer mit einem Erwartungswert von 500 zu erhalten sehr klein. Daher würde ein Statistiker argumentieren, dass er die Annahme eines Erwartungswertes von 500 nicht halten würde. Zusammenfassung der Idee Wir schauen nach, wie wahrscheinlich der ermittelte Stichprobenmittelwert auftritt, wenn die Verteilung den vermuteten Erwartungswert und die aus der Stichprobe ermittelte 11

Standardabweichung hat. Wenn diese Wahrscheinlichkeit sehr klein ist, dann glauben wir nicht, dass der vermutete Erwartungswert stimmt. 4.2 Test auf Mittelwertunterschied Bei einem Test auf Mittelwertunterschied soll geklärt werden, ob ein auftretender Mittelwertunterschied sich mit zufälligen Schwankungen erklären lässt oder nicht. Wenn Schwankungen nicht mehr zufällig sind, spricht man von einem signifikanten Unterschied. Um einen Test durchzuführen muss man zuerst die Hypothesen festlegen, die dann statistisch überprüfbar sind. Dazu stellt man eine Alternativhypothese und eine Nullhypothese auf. Die Alternativhypothese (H1) ist eine hypothetisch formulierte Alternative, die überprüft wird, um zu klären, ob die Realität dadurch besser beschrieben wird als durch die H0. Die Nullhypothese (H0) ist eine Hypothese, mit der behauptet wird, dass die zur Alternativhypothese komplementäre Aussage richtig sei. Betrachtet man noch einmal Beispiel 1 so würden die beiden Hypothesen wie folgt lauten: H0: µ = 1000 und H1: µ 1000. Hypothesen können gerichtet und ungerichtet formuliert werden, für Beispiel 2 z.b. H0: µ 500 und H1: µ > 500 gerichtete Hypothese oder H0: µ = 500 und H1: µ 500 ungerichtete Hypothese Als zweiten Schritt muss die Irrtumswahrscheinlichkeit bzw. das Signifikanzniveau α festgelegt werden. Die Irrtumswahrscheinlichkeit (das Signifikanzniveau) ist die Wahrscheinlichkeit, sich zu irren, wenn man die Nullhypothese verwirft und die Alternativhypothese annimmt. Bei welcher Irrtumswahrscheinlichkeit man sich entschließt, die Nullhypothese zu verwerfen und die Alternativhypothese anzunehmen, bleibt im Prinzip jedem selbst überlassen bzw. hängt vom Sachverhalt ab. Im allgemeinen werden folgende Wahrscheinlichkeiten gewählt: α 0,05 signifikant * α 0,01 sehr signifikant ** α 0,001 höchst signifikant *** Im dritten Schritt führt man den statistischen Test durch (vorausgesetzt die Annahmen für das Testverfahren sind erfüllt). In unserem Fall heißt das zu ermitteln, wie wahrscheinlich das Auftreten des Stichprobenmittelwertes oder eines noch größeren (noch kleineren) Wertes ist. Anschließend wird diese Wahrscheinlichkeit mit dem Signifikanzniveau verglichen. Bei einem einseitigen Test (gerichtete Hypothesen) vergleicht man die berechnete Wahrscheinlichkeit für den Stichprobenmittelwert mit dem gesamten Signifikanzniveau. Bei einem zweiseitigen Test halbiert man das Signifikanzniveau: 12

α/2 α/2 Abbildung 5: Aufteilung des Signifikanzniveaus α bei einem zweiseitigen Test. Ist die Wahrscheinlichkeit kleiner als das Signifikanzniveau, dann wird die Alternativhypothese angenommen, ansonsten muss die Nullhypothese beibehalten werden. Anhand des folgenden Beispiels sollen diese Schritte durchgeführt werden: Das Qualitätsmanagement muss dafür Sorge tragen, dass ein bestimmtes Bauelement im Durchschnitt eine Dicke von 200 mm aufweist. Trotz äußerst aufwändiger Fertigungsprozesse weicht die tatsächliche Dicke jedes produzierten Bauteils geringfügig nach oben oder unten ab. Um die Präzision der Bauteile zu kontrollieren, wird eine Stichprobe von 40 Bauteilen nachgemessen. Im Schnitt betrug die Dicke 202 mm und es ergab sich eine Standardabweichung von 3 mm. Welche Schlussfolgerungen ziehen Sie? Gehen Sie davon aus, dass die Dicke der Bauteile normalverteilt ist. 1. Schritt: Aufstellen des Hypothesenpaars (Dieser Schritt sollte eigentlich IMMER vor der Durchführung der Studie bzw. bevor die Stichprobenresultate vorliegen durchgeführt werden, ist aber bei einem Rechenbeispiel hier nicht möglich.) H0: µ = 200 und H1: µ 200 und damit ein zweiseitiger Test 2. Schritt: Festlegen des Signifikanzniveaus Signifikanzniveau α = 5% 3. Schritt: Durchführung des Tests 9 X ~ N 200, 39 Im Excel 13

Als Wahrscheinlichkeit erhalten wir so cirka 0.0000157. 4. Schritt: Vergleich mit dem festgelegten Signifikanzniveau und Entscheidung Da es sich um einen zweiseitigen Test handelt wird das Signifikanzniveau halbiert. Der Vergleich ergibt 0.0000157 < 0.025 und damit wird die Alternativhypothese angenommen, der Unterschied ist signifikant und man befürchtete, dass die Dicke der Bauteile im Schnitt nicht 200 mm ist. 14