10. Statistische Verteilungen

10. Statistische Verteilungen Übung Röntgenpraxis XVI Die Patienten der Röntgenpraxis unterscheiden sich durch unterschiedliche Fitness. Daher benötigen die MTRA unterschiedliche Zeiten, um die Patienten auf den jeweiligen Wegen durch die Praxis zu begleiten. Die Begleitzeiten durch die MTRA sind gemäß folgender Abbildung zu implementieren. N(3,1) N(10,3) N(2,1) N(3,1) N(5,3) N(2,1) N(3,3) 171

Gliederung 1. Grundkenntnisse zur Simulation 2. Einführung in ProModel 3. Grundbausteine von ProModel 4. Path Networks 5. Variablen und Counter 6. User Distributions 7. Attribute 8. Uhrzeitabhängiges Routing und Schichtkalender 9. Statistische Auswertung der Simulationsdaten 10. Statistische Verteilungen 11. Aufbereitung empirischer Daten 12. Arbeiten mit ProActive X, Kosten 13. Fallstudie 172

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Goodness-of-Fit Test 173

Prozess einer Verteilungsanpassung Datenaufbereitung Datenaufbereitung Mögliche Verteilung auswählen Repräsentativen Zeitraum der zu analysierenden Daten auswählen Goodness-of-Fit Test Entsprechende Daten vergangenheitsbezogen aus vorhandenen IT-Systemen ermitteln 174

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Mögliche Verteilung auswählen Beurteilung der Ist-Daten mittels Histogramm und Hintergrundinformationen Goodness-of-Fit Test Auswahl möglicher Verteilungen (siehe Kapitel 10) 175

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Goodness-of-Fit Test Schätzwert soll Erwartungstreu sein, d.h. die Schätzfunktion entspricht zumindest im Mittel dem richtigen Wert E Θ ˆ ( X,..., X )]=Θ [ 1 n, X1,,Xn sind beobachtete Zufallsvariablen Daneben soll die Schätzfunktion konsistent sein. Dies ist der Fall, wenn sie mit steigender Zahl an Beobachtungen eine immer kleiner werdende Abweichung von der realen Funktion zeigt. P( Θˆ Θ > ε ) 0 für jedesε > 0 n n 176

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Untersuchung der Güte des geschätzten Parameters mittels der Methode Mittlerer quadratischer Fehler (MSE = mean squared error) Goodness-of-Fit Test MSE = E( Θˆ Θ) 2 = E( Θˆ 2 ) 2ΘE( Θˆ ) + Θ 2 2 = E( Θˆ ) [ E( Θˆ )] + [ E( Θˆ )] ˆ ˆ 2 = Var ( Θ) + [ E( Θ) Θ] 2 2 2ΘE( Θˆ ) + Θ 2 Beispiel für eine Methode zur Ermittlung solcher Parameter ist die Maximum-Liklihood Methode 177

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Goodness-of-Fit Test Goodness-of-Fit Test Definition der Nullhypothese H0 und der Alternativhypothese H1. Bei Bestätigung der Hypothese H0 wird die Behauptung als wahr angesehen. Festlegung des Signifikanzniveaus α, das die Wahrscheinlichkeit der fälschlichen Ablehnung von H0 angibt. Bestimmung einer Stichproben- bzw. Testfunktion V Definition eines Verwerfungsbereiches B sowie die Beachtung der Entscheidungsregel, die besagt, dass H0 genau dann abgelehnt wird, wenn der Wert der Testfunktion V im Verwerfungsbereich B liegt 178

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Goodness-of-Fit Test Goodness-of-Fit Test - Chi-Quadrat-Test Festlegung H0 und H1 H0: Die, durch die Grundgesamtheit beschriebene Verteilung entspricht der vermuteten Verteilung H1: Die, durch die Grundgesamtheit beschriebene Verteilung entspricht nicht der vermuteten Verteilung Festlegung des Signifikanzniveaus α Je kleiner α gewählt wird, umso kleiner ist die Wahrscheinlichkeit, dass die Hypothese H0 abgelehnt wird, obwohl diese stimmt. Problematisch ist jedoch, dass mit einer immer kleineren Wahl von α auch eine Ablehnung von H0 immer unwahrscheinlicher wird, obwohl diese Behauptung falsch ist. Häufig wird α als 10%, 5% oder 1% gewählt. Intervall der Grundgesamtheit in k Klassen unterteilen und die Anzahl der beobachteten Werte (beobachtete Häufigkeit) O i mit i=1, k je Klasse feststellen. Mit dieser Zahl wird jeweils die Anzahl an Werten verglichen E i mit i=1, k, die erwartet werden, wenn die Grundgesamtheit der speziellen Verteilung folgt. 179

Prozess einer Verteilungsanpassung Datenaufbereitung Mögliche Verteilung auswählen Goodness-of-Fit Test Auswertung der Testfunktion Sobald für die Testfunktion gilt: V > χ k 2 1;1 α Goodness-of-Fit Test - Chi-Quadrat-Test Betrachtung folgender Prüfgröße V = k i= 1 ( Oi Ei ) E i 2 Unter der Annahme, dass die Anzahl der beobachteten Werte O i ausreichend groß ist, kann diese Prüfgröße als annähernd Chi-Quadrat-verteilt mit k-1 Freiheitsgraden angenommen werden. Verwerfungsbereich B festlegen Die linke Grenze dieses Intervalls wird bestimmt durch den Quantilswert der oben genannten Chi-Quadrat-Verteilung. Das Intervall lautet: B 2 ( χ1 ; ) = α ist der Funktionswert Element von B und es wird die Nullhypothese H0 abgelehnt. Die Funktionswerte der Chi-Quadrat-Verteilung sind in Tabellen dokumentiert und können daher in Abhängigkeit des gewählten a und k direkt abgelesen werden. 180

Ergebnis einer Datenerhebung? Wie bringe ich meine gemessenen Daten in eine Simulation?. 181

Statistische Verteilungsfunktionen schätzen: Datenaufbereitung Per Hand sehr aufwändig Mögliche Verteilung auswählen Berechnungen mit Hilfe des Statistikprogramms R. Goodness-of-Fit Test 182

Vorgehen: 1. Daten zur Berechnung aufbereiten Daten zeilenweise getrennt in ein Dokument schreiben (z.b.:.txt,.xls, ) Dokument, sofern möglich und kein Schreibschutz, in den R-Ordner unter C:\Programme\R\R-2.4.0 speichern (Ansonsten beim Aufruf des Dokuments in R Angabe des kompletten Pfades beim Einlesen der Daten nötig, bspw. F:\Untersuchungsdauer.txt" Programm R öffnen 183

Workspace: 184

2. Vorauswahl möglicher Familien von Verteilungsfunktionen treffen (sichte Histogramme, Wertebereiche, ) für anzupassendem Datensatz Variablennamen bereithalten (hier: y) anzupassende Daten einlesen und Variablennamen zuweisen: > y<-scan("f:\untersuchungsdauer.txt") R zeigt Anzahl der eingelesenen Daten(zeilen) an: Read 274 items Histogramm des Datensatzes y anzeigen: > hist(y) 185

3., Anpassung an mögliche Verteilungsfunktionen Package MASS aufrufen (umfasst u.a. die Maximum-Likelihood Methode zur Anpassung univariater Verteilungen) > library(mass) Datensatz an erste vermutete Verteilungsfunktion anpassen (), bspw. Gamma > fitdistr(y, gamma ) R gibt die geschätzten Parameter zurück: shape rate 4.33999743 0.63093527 (0.35876018) (0.05529361) 186

4. Goodness-of-Fit Test (Güte der Anpassung evaluieren) Kolmororov-Smirnov-Test (ks-test) > ks.test(y,"pgamma",shape=4.33999743,rate=0.63093527) R gibt Güte zurück: One-sample Kolmogorov-Smirnov test data: y D = 0.0925, p-value = 0.01896 alternative hypothesis: two-sided p-wert sollte - je nach Festlegung - über α = 0.05 (5%) oder 0.01 (1%) liegen (übliche Signifikanz-Level in der Statistik-Literatur) Hier: 1%-Signifikanz-Level: Wir akzeptieren die Nullhypothese dass die Daten einer Gammaverteilung folgen. 5%-Signifikanz-Level: Nullhypothese wird verworfen andere Verteilung suchen 187

Graphische Darstellung der Dichtefunktionen Unseres Datensatzes: > plot(density(y)) Vergleichend die angepasste Gamma- Funktion darüberlegen: > gamma<-rgamma(10000,shape=4.33999743,rate=0.63093527) > lines(density(gamma),col=2) plot erstellt die Graphik neu lines schreibt in geöffnete Graphik hinzu 188

Implementierung der Verteilungsfunktion in ProModel gemäß Folie 155 Befehle für weitere Verteilungsfunktionen: Anmerkung: Bei der Implementierung in ProModel von in R ermittelten Parametern für Gammafunktionen kann es vorkommen, daß vom rate - Parameter der Kehrwert eingesetzt werden muß, um die Generierung korrekter Zufallswerte zu gewährleisten ( stets prüfen!!!) 189

10. Statistische Verteilungen Aufgabe Lassen Sie die Simulation Schreinerei XVI laufen. Die Bearbeitungszeiten auf Mill und Maschine 2 werden in einem externen File ausgelesen. Bereiten Sie diese Daten auf und ermitteln Sie mit Hilfe des Statistik-Programms R die entsprechende Verteilungsfunktion. Welchen Schluß ziehen Sie beim Vergleich der implementierten Funktion in ProModel und der mit R ermittelten Funktion? 190

10. Statistische Verteilungen Aufgabe Suchen Sie passende Verteilungsfunktionen zu den im Excel-Dokument angegebenen Meßwerten. Probieren Sie dabei möglichst viele Funktionen aus. Wählen Sie die mit dem höchsten p-wert. 191