VII.Praktischer Umgang mit Daten

Transkript

1 Gliederung I. Motivation II. III. IV. Lesen mathematischer Symbole Wissenschaftliche Argumentation Matrizenrechnung V. Metriken VI. Algorithmen VII.Praktischer Umgang mit Daten Seite 126

2 VII. Praktischer Umgang mit Daten Datenanalyse: Bei der Analyse von Daten lassen sich in 3 Grundaufgaben der Statistik unterscheiden: Deskription: Die deskriptive Statistik dient zur Beschreibung und graphischen Aufbereitung von Daten (besonders bei großen Datenmengen). Sie umfasst 1.) die Darstellung und Verdichtung von Daten in Grafiken (Diagramme & Verlaufskurven) Tabellen Kenngrößen (Mittelwert, Streuung, etc.) 2.) die Datenvalidierung 3.) die Gewinnung erster Eindrücke oder Ideen zur weiteren Analyse Seite 127

3 VII. Praktischer Umgang mit Daten Exploration: Die Exploration baut auf der deskriptiven Analyse auf. Über die Darstellung der Daten hinaus befasst sie sich mit der Suche nach Strukturen und Besonderheiten in den Daten. Sie kann richtungweisend sein, wenn die Fragestellung nicht genau definiert ist und bei der Wahl eines geeigneten Modells helfen. Darüber hinaus kann die Exploration empirische Evidenz für bestimmte Tatsachen oder Forschungshypothesen liefern. Induktion: Grundsätzlich lässt sich die induktive Statistik in die Bereiche der Schätz- und Testprobleme unterteilen: 1.) Bei Schätzproblemen ist die Aufgabe, Parameter aus den gemessenen Daten zu schätzen (z.b. den Erwartungswert der zugrundeliegenden Verteilung). 2.) Bei Testproblemen überprüft man, ob eine bestimmte Behauptung (z.b. dass der Erwartungswert der Verteilung, der den Daten zugrunde liegt, einen bestimmten Wert annimmt) von den Daten unterstützt wird. Seite 128

4 VII. Praktischer Umgang mit Daten Elementare Grundbegriffe: Statistische Einheit: Objekt, an denen interessierende Größen erfasst werden. Grundgesamtheit: Menge aller für die Fragestellung relevanten statistischen Einheiten. Teilgesamtheit: Teilmenge der Grundgesamtheit. Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit. Markmale: Interessierende Größen (= Variablen). Merkmalsausprägung: Konkreter Wert des Merkmals für eine bestimmte statistische Einheit. Seite 129

5 VII. Praktischer Umgang mit Daten Seite 130

6 VII. Praktischer Umgang mit Daten Statistische Einheit: Mensa in Saarbrücken, Unigelände. Grundgesamtheit: Menge aller Mensen, die es weltweit gibt. Teilgesamtheit: Menge aller deutschen Uni-Mensen. Stichprobe: Menge aller Uni-Mensen, für die genug Stimmen abgegeben werden. Markmale: Freundlichkeit, Auswahl, Service, Atmosphäre, Geschmack, Wohnort. Merkmalsausprägung: Freundlichkeit(SB,1) = 5Tabletts, Auswahl(SB,1) = 4Tabletts, etc. Seite 131

7 VII. Praktischer Umgang mit Daten Merkmalstypen diskret: endlich oder abzählbar unendlich viele Ausprägungen stetig: alle Werte eines Intervalls sind mögliche Ausprägungen (überabzählbar unendlich viele Ausprägungen) nominalskaliert: ordinalskaliert: intervallskaliert: Ausprägungen sind Namen, keine Ordnung möglich Ausprägungen können geordnet, Abstände aber nicht interpretiert werden Ausprägungen sind Zahlen, Interpretation der Abstände möglich verhältnisskaliert:ausprägungen besitzen sinnvollen absoluten Nullpunkt qualitativ: endlich viele Ausprägungen, höchstens ordinalskaliert quantitativ: Ausprägungen geben Intensität wieder Seite 132

8 VII. Praktischer Umgang mit Daten Beispiele: Alter: Name: Geschlecht: Einkommen: Temperatur (in Kelvin): diskret, intervallskaliert, quantitativ diskret, nominalskaliert, qualitativ diskret, nominalskaliert, qualitativ stetig (oder diskret), verhältnisskaliert, quantitativ stetig, verhältnisskaliert, quantitativ Anzahl Tabletts bei Mensaumfrage: diskret, ordinalskaliert, qualitativ Benzinverbrauch in Liter: stetig, verhältnisskaliert, quantitativ Seite 133

9 VII. Praktischer Umgang mit Daten Versuchsplan: Erfasst man Merkmale, um eine bestimmte Fragestellung zu untersuchen, so ist dafür die Erstellung eines Versuchsplans erforderlich. Dieser Versuchsplan muss festhalten 1.) welches Ziel mit dem Experiment oder welche Studie verfolgt wird, 2.) wie dieses Ziel erreicht werden kann, 3.) welche statistischen Methoden geeignet sind, um die erzielten Resultate statistisch zu manifestieren. Es muss vor dem Erheben der Stichprobe festgelegt werden, wie groß der Stichprobenumfang zu sein hat, um eine gewünschte Präzision zu erreichen. Außerdem ist zu bestimmen, welche Erhebungsart geeignet ist, um diese Stichprobe zu ziehen. Seite 134

10 VII. Praktischer Umgang mit Daten Bemerkung: Sind die interessierenden Daten bereits vorhanden (z.b. Verkaufszahlen eines Unternehmens), spricht man beim Ziehen einer Stichprobe von einer Erhebung. Wird die Erhebung speziell in Hinblick auf die aktuelle Fragestellung ausgeführt, spricht man von einer primärstatistischen Erhebung. Wird auf bereits vorhandene Originaldaten zurückgegriffen, bezeichnet man dies als sekundärstatistische Erhebung. Stehen nur bereits transformierte oder komprimierte Daten zur Verfügung, nennt man dies eine tertiärstatistische Erhebung. Müssen die Daten erst in geeigneter Weise Erzeugt werden (z.b. in einer Klinischen Studie), spricht man von Experiment. Seite 135

11 VII. Praktischer Umgang mit Daten Stichproben: Einfache Zufallsstichprobe: Bei einer einfachen Zufallsstichprobe werden Teilmengen der Grundgesamtheit so erhoben, dass jeder dieser Teilmengen dieselbe Wahrscheinlichkeit besitzt gezogen zu werden. Daraus folgt sofort, dass auch jede Untersuchungseinheit mit derselbe Wahrscheinlichkeit gezogen wird. Die Umkehrung gilt jedoch nicht, d.h. alleine aus der Tatsache, dass jedes Element aus der Grundgesamtheit mit derselben Wahrscheinlichkeit gezogen wird, kann noch nicht auf das Vorliegen einer einfachen Stichprobe geschlossen werden. Um eine einfache Stichprobe ziehen zu können, müssen die Elemente der Grundgesamtheit nummerierbar sein und zumindest theoretisch als Liste vorliegen. Seite 136

12 VII. Praktischer Umgang mit Daten Geschichtete Zufallsstichprobe: Bei geschichteten Zufallsstichproben wird die Grundgesamtheit in sich nicht überlappende Schichten zu zerlegen und anschließend aus jeder Schicht eine einfache Zufallswahl zu ziehen. Dieses Vorgehen ist nicht nur einfacher umzusetzen, sondern führt in der Regel auch zu genaueren Schätzungen für die eigentlich interessierende Größe in der Grundgesamtheit, d.h., dass eine geschichtete Stichprobe häufig informativer ist, als eine einfache Stichprobe. Beispiel: Interessiert das durchschnittliche Einkommen der Bundesbürger, so bietet sich beispielsweise eine Schichtung nach Bildungsgrad, Alter oder nach Berufsfeldern. Seite 137

13 VII. Praktischer Umgang mit Daten Klumpenstichprobe: Bei einer geschichteten Zufallsstichprobe wird die Schichtenbildung künstlich durchgeführt. Bei sogenannten Klumpen hingegen zerfällt die Stichprobe auf natürliche Weise in derartige Schichten (z.b. Gemeinden). Bei einer Klumpenstichprobe wird die praktische Anwendbarkeit weiter erhöht, da aus der Gesamtheit aller Klumpen einige wenige ausgewählt werden, die dann vollständig erfasst werden. Beispiele: Es werden einige wenige Gemeinden zufällig ausgewählt, in denen dann alle Bürger befragt werden. Es werden wenige Tage festgelegt, in denen alle Patienten im Krankenhaus erfasst werden. Bemerkung: Eine solche Erhebung ist nur sinnvoll, wenn die einzelnen Klumpen hinsichtlich der Untersuchungsvariable sehr heterogen sind (also kleine Abbilder der Grundgesamtheit) und die Klumpen untereinander sehr homogen sind. Seite 138

14 VII. Praktischer Umgang mit Daten Mehrstufige Auswahlverfahren: Meistens ist eine direkte Ziehung der Untersuchungseinheiten nur schwer oder gar nicht umzusetzen. Dann muss die Auswahl der eigentlichen Untersuchungseinheiten stufenweise Erfolgen. Beispiel: In der ersten Stufe könnten alle deutschen Städte zugrunde liegen und aus ihnen eine Stichprobe gezogen werden. Im nächsten Schritt können dann aus den gezogenen Städten Schulen ausgewählt werden. Erst im dritten Schritt kann man aus den Schülern dieser Schulen eine Zufallsauswahl treffen. Seite 139

15 VII. Praktischer Umgang mit Daten Bewusstes Auswahlverfahren: Neben der Zufallsstichprobe werden bei Meinungsumfragen häufig Verfahren eingesetzt, denen zwar ein bestimmter Stichprobenplan zugrunde liegt, die aber nicht mehr als zufällig angesehen werden können. Sei werden mit dem Ziel durchgeführt, die Repräsentativität der gezogenen Stichprobe zu erhöhen. Beispiele: Quotenpläne, die die Quoten für verschiedene Merkmale (z.b. Geschlecht) enthalten. Auswahl typischer Fälle, bei der nach subjektiven Kriterien des Verantwortlichen für die Untersuchungseinheiten als typische Vertreter der Grundgesamtheit ausgewählt werden. Seite 140

16 VII. Praktischer Umgang mit Daten Studiendesigns: Querschnittsstudie: Es wird an einer bestimmten Anzahl an Objekten, den statistischen Einheiten, zu einem bestimmten Zeitpunkt ein oder mehrere Merkmale erfasst. Zeitreihe: Es wird ein Objekt hinsichtlich eines Merkmals über einen ganzen Zeitraum hinweg beobachtet. Längsschnittstudie: Es wird eine ganze Gruppe gleichartiger Objekte über einen ganzen Zeitraum hinweg beobachtet. Seite 141

17 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Stamm-Blatt-Diagramm (Steam-leaf display): Das Stamm-Blatt-Diagramm ist eine semigrafische Darstellungsform für metrische Merkmale bei mittlerem Datenumfang. Das Diagramm wird in 2 Schritten erstellt: 1. Teile den Datenbereich in Intervalle gleicher Breite ein. Trage die erste(n) Ziffer(n) der Werte im jeweiligen Intervall links von einer senkrechten Linie der Größe nach geordnet ein. Dies ergibt den Stamm. 2. Runde die beobachteten Werte auf die Stelle, die nach den Ziffern des Stamms kommt. Diese werden zeilenweise, der Größe nach geordnet, rechts vom Stamm eingetragen. Diese Ziffern nennt man Blätter. Stamm-Blatt-Diagramme besitzen den Vorteil, dass sie alle Werte der Stichprobe enthalten und somit einen guten Einblick in die Datenstruktur ermöglichen. Bei großen Datensätzen wird das Diagramm jedoch sehr unübersichtlich. Seite 142

18 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Die folgenden Daten werden beobachtet: Seite 143

19 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: Seite 144

20 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Histogramm: Für große Datensätze ist es zweckmäßig, die Daten zu gruppieren und die resultierende Häufigkeiten der Gruppen in einem Histogramm zu visualisieren. Es wird dabei von einem ordinalskalierten Merkmal ausgegangen, das in vielen Ausprägungen vorliegt. Für die Gruppierung wählt man benachbarte Intervalle. Nun wird das Histogramm so konstruiert, dass die Fläche über den Intervallen gleich oder proportional zu den absoluten bzw. relativen Häufigkeiten ist (Prinzip der Flächentreue). Dazu werden über den Intervallen Rechtecke gezeichnet, mit: Breite: Höhe: gleich (oder proportional zu) Fläche: gleich (oder proportional zu) Seite 145

21 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Falls es möglich und sinnvoll ist, sollten die Klassenbreiten gleichgroß gewählt werden. Dadurch können als Höhe der Rechtecke direkt die absoluten bzw. relative Häufigkeiten verwendet werden. Da die Anzahl der Klassen und damit die Wahl der Klassenbreite den Eindruck über die Daten entschieden beeinflussen kann, existieren Faustregeln für die Zahl der Klassen. Bsp.: Anzahl Klassen: Seite 146

22 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: Seite 147

23 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Histogramme zu 4000 normalverteilten Werten: Seite 148

24 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Das Histogramm ist ein erster Schätzer für die Dichte, der die Daten zugrunde liegen. Der Schätzer ist umso genauer, je kleiner die Intervalle gewählt werden. Grund: Für eine beliebige differenzierbare Verteilungsfunktion gilt: Seite 149

25 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Kerndichteschätzer: Ein Nachteil beim Histogramm besteht darin, dass man als geschätzte Dichte eine unstetige Treppenfunktion in erhält. Über den Kerndichteschätzer erhält man ein rollierendes Histogramm, welches die Dichte in der Umgebung eines jeden abschätzt. Die Grundidee ist dabei die selbe, wie im Histogramm: Der Wert entspricht im Histogramm der Höhe des Rechtecks mit der Breite. Lässt man dieses Rechteck nun über die x-achse gleiten, so erhält man den Graphen des gleitende Histogramms. Dieses gleitende Histogramm lässt sich über ein Rechteckfenster, das mit über die Zahlenachse gleitet wie folgt schreiben:, mit Seite 150

26 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Es werden hier also zunächst für jeden -Wert genau so viele Rechteckshöhen aufaddiert, wie Beobachtungen im Intervall liegen und anschleißend durch die Zahl aller Beobachtungen dividiert. Da hier unstetige Rechteckfenster aufaddiert werden, ergibt sich als Kerndichteschätzer immer noch eine unstetige Treppenfunktion. Um einen stetigen Kerndichteschätzer zu erhalten, muss man an Stelle des unstetigen Rechteckkerns einen stetigen Kern verwenden. Beispiele: Seite 151

27 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Gegeben seien die Beobachtungen: Damit ergibt sich mit dem Rechteckkern der folgende Kerndichteschätzer: Seite 152

28 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Gegeben seien die Beobachtungen: Damit ergibt sich mit dem Rechteckkern der folgende Kerndichteschätzer: Seite 153

29 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: Über den Epanechnikow-Kern erhält man für die Dichte: Seite 154

30 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Fortsetzung Beispiel: Über den Gauß-Kern erhält man für die Dichte: Seite 155

31 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Für die 30 Beobachtungen von vorhin ergibt sich somit als Kerndichteschätzer: Seite 156

32 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Quantile und Box-Plot: Das p%-quantil einer Verteilung trennt die Daten so in zwei Teile, dass p% der Daten darunter und (100-p)% darüber liegen. Der Median ist damit gerade das 50%-Quantil. Quantile und die daraus abgeleiteten Box-Plots als graphische Zusammenfassung sind geeignete Mittel, um die Streuung der Daten zu charakterisieren. Sie sind somit sehr gut zum Vergleich verschiedener Verteilungen geeignet. Mit Hilfe der Box-Plots lässt sich schnell ein Eindruck darüber gewinnen, ob die Beobachtungen z.b. annähernd symmetrisch verteilt sind, oder ob Ausreißer in dem Datensatz auftreten. Seite 157

33 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Ein Box-Plot ist bestimmt durch 1. x 0,25 = Anfang der Schachtel ( box ) x 0,75 x 0,75 -x 0,25 = Ende der Schachtel = Länge der Schachtel 2. Der Median wird durch einen Strich in der Box markiert. 3. Zwei Linien ( whiskers ) außerhalb der Box gehen bis zu x min und x max Seite 158

34 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Beispiel: Seite 159

35 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Über die aufgeführten graphischen Werkzeuge kann man eine Idee davon erhalten, welche Verteilungsfamilien auf den Datensatz passen können und in die nähere Auswahl gezogen werden sollten. Auf den nachfolgenden Seiten findet sich eine Auswahl der wichtigsten Verteilungsfamilien Seite 160

36 VII. Praktischer Umgang mit Daten: Graphische Darstellung von Daten Exkurs: Gammafunktion Seite 161

37 VII. Praktischer Umgang mit Daten: Diskrete Verteilungen Binomialverteilung: Seite 162

38 VII. Praktischer Umgang mit Daten: Diskrete Verteilung Poisson-Verteilung: Seite 163

39 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Beta-Verteilung: Seite 164

40 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Cauchy-Verteilung: Seite 165

41 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Exponentialverteilung: Seite 166

42 VII. Praktischer Umgang mit Daten: Stetige Verteilungen F-Verteilung: Seite 167

43 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Gamma-Verteilung: Seite 168

44 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Log - Normalverteilung: Seite 169

45 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Normalverteilung: Seite 170

46 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Gleichverteilung: Seite 171

47 VII. Praktischer Umgang mit Daten: Stetige Verteilungen Weibull-Verteilung: Seite 172

48 VII. Praktischer Umgang mit Daten: Parameterschätzung Fortsetzung Beispiel: Aus der bisherigen Datenanalyse kann man erkenne, dass wir eine stetige Verteilung benötigen und dass die realisierten Daten ausschließlich positive Werte annehmen (Zufall? Woher kommen die Daten?). Außerdem scheinen Werte nahe Null tendenziell häufiger aufzutreten, als große Werte. Damit kommen von den vorhin aufgeführten Verteilungen die Exponential-, F-, Gamma-, Log-Normal- und Weibull-Verteilung in Frage. Im nächsten Schritt müssen nun die Parameter für diese Verteilungen geschätzt werden, um anschließend testen zu können, durch welche Verteilung die Daten repräsentiert werden können. Seite 173

49 VII. Praktischer Umgang mit Daten: Parameterschätzung Schätzfunktion Eine Schätzfunktion oder Schätzstatistik für einen gesuchten Parameter ist eine Funktion in den Stichprobenvariablen. Der aus den Realisationen resultierende numerische Wert ist der zugehörige Schätzwert. Seite 174

50 VII. Praktischer Umgang mit Daten: Parameterschätzung Maximum Likelihood-Schätzfunktion Sind die Parameter einer Verteilung bekannt, kann über die Dichte die Wahrscheinlichkeit dafür ausgerechnet werden, dass bestimmte Werte realisiert werden. Beispiele: Poisson-Verteilung mit dem Parameter : Normalverteilung mit den Parametern : Seite 175

51 VII. Praktischer Umgang mit Daten: Parameterschätzung Sind die Variablen unabhängig und identisch Verteilt, mit den Parametern, so kann dann die Wahrscheinlichkeit bzw. die Dichte dafür, dass eine bestimmte Kombination an realisierten Werten beobachtet wird wie folgt berechnet werden: Bei der Parameterschätzung sind nun aber nicht die Parameter, sondern Realisationen bekannt. Dabei muss die Dichte dann für die festen Realisationen als Funktion in aufgefasst werden: Bemerkung: Im Folgenden wird das Vektorzeichen zur besseren Übersichtlichkeit weggelassen. Seite 176

52 VII. Praktischer Umgang mit Daten: Parameterschätzung Maximum Likelihood-Schätzfunktion Ansatz: Wähle zu als Parameterschätzung diejenigen Parameter, für die die Likelihood maximal ist, d.h. bzw. Es werden also zu den Beobachtungen diejenigen Parameter gesucht, für welche die Wahrscheinlichkeit (bzw. Dichte), dass grade diese Werte auftreten am größten ist. Anders gesagt: Man sucht zu den Realisationen diejenigen Parameter, welche die plausibelste Erklärung für das Zustandekommen dieser Werte liefern. Seite 177

53 VII. Praktischer Umgang mit Daten: Parameterschätzung In den meisten Fällen kann das Maximum der Likelihood-Funktion über die erste Ableitung bestimmt werden. Da diese Funktion sich aus dem Produkt vieler einzelner Faktoren zusammensetzt, empfiehlt es sich die Likelihood-Funktion vorab zu logarithmieren und die Ableitung der daraus resultierenden Log-Likelihood-Funktion zu betrachten: Seite 178

54 VII. Praktischer Umgang mit Daten: Parameterschätzung Beispiel: Es wird eine Poisson-Verteilung unterstellt und es wurden die Realisationen beobachtet. Seite 179

55 VII. Praktischer Umgang mit Daten: Parameterschätzung Beispiel: Es wird eine Normalverteilung unterstellt und es wurden die Realisationen beobachtet. Seite 180

56 VII. Praktischer Umgang mit Daten: Güte der Anpassung Nachdem die Parameter geschätzt wurden, stellt sich die Frage, ob die angepasste Verteilung wirklich auf die Daten passt. Dazu können zum einen graphische Ansätze verwendet werden, um einen ersten Eindruck über die Qualität der Anpassung zu gewinnen und alternative Verteilungen miteinander zu vergleichen. Die letztendliche Entscheidung über die Annahme / Ablehnung der Verteilungsannahme sollte über einen Test getroffen werden. Seite 181

57 VII. Praktischer Umgang mit Daten: Güte der Anpassung Kerndichteschätzer vs. theoretische Verteilung Zunächst sollte der Verlauf des Kerndichteschätzers, der direkt die beobachteten Häufigkeiten abbildet mit der theoretischen Verteilung verglichen werden. Fortsetzung Beispiel: Seite 182

58 VII. Praktischer Umgang mit Daten: Güte der Anpassung Q-Q-Plot Im Q-Q-Plot werden die theoretischen Quantile den beobachteten Quantilen gegenübergestellt. Dazu werden die Quantile als Punkte der Form (x,y) = (theoretisches Quantil, beobachtetes Quantil) in ein Koordinatensystem abgetragen. Passt die Verteilung auf die Daten, müssten die Punkte in etwa auf der ersten Winkelhalbierenden liegen. Seite 183

59 VII. Praktischer Umgang mit Daten: Güte der Anpassung Fortsetzung Beispiel: Seite 184

60 VII. Praktischer Umgang mit Daten: Güte der Anpassung Kolmogorov-Smirnov-Test Annahmen: Die einzelnen Zufallsvariablen sind identisch und unabhängig Verteilt. Die unbekannte Verteilungsfunktion ist stetig. Nullhypothese: Gegenhypothese: Teststatistik: mit ist die empirische Verteilungsfunktion zu. Die Nullhypothese wird für ein vorgegebenes Signifikanzniveau abgelehnt, wenn, bzw. wenn für den entsprechenden p-wert gilt:. Seite 185

61 VII. Praktischer Umgang mit Daten: Güte der Anpassung Fortsetzung Beispiel: Bei Normalverteilungsannahme ergibt sich ein Wert für die Teststatistik von: KS = 0,1469. Der zugehörige p-wert beträgt: KS = 0,4908. Die Verteilungsannahme kann also nicht verworfen werden. Bei Log-Normalverteilungsannahme ergibt sich ein Wert für die Teststatistik von: KS = 0,1272. Der zugehörige p-wert beträgt: KS = 0,6697. Die Verteilungsannahme kann also ebenfalls nicht verworfen werden. Seite 186