Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!) - Arithmetisches Mittel o Das arithmetische Mittel (auch Durchschnitt) ist ein Mittelwert, der als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte definiert ist: Alternativ: = - Geometrisches Mittel o Das geometrische Mittel ist ein Mittelwert; es ist in der Statistik ein geeignetes Mittelmaß für Größen, von denen das Produkt anstelle der Summe interpretierbar ist, z. B. von Verhältnissen oder Wachstumsraten. o Durchschnittliche Änderung in % - Median Ein Wert m ist Median einer Stichprobe, wenn höchstens die Hälfte der Beobachtungen in der Stichprobe einen Wert < m und höchstens die Hälfte einen Wert > m hat. Sortiert man die Beobachtungswerte der Größe nach, geordnete Stichprobe oder Rang, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft. Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median einer geordneten Stichprobe also: von n Messwerten ist dann
- Varianz Wenn Beobachtungen gegeben sind: = 1 ( ) Wenn Verteilung f 1,, f k gegeben ist: - Standardabweichung Wenn Beobachtungen gegeben sind: = ( ) = 1 ( ) Wenn Verteilung f 1,, f k gegeben ist: = ( ) - Darstellung Häufigkeitsverteilung o Histogramm Wie konstruiert man ein Histogramm? Klasse der Intervalle bestimmen Klasse Häufigkeit h j Intervallbreite d j Absolute Häufigkeitsdichte h j /d j Relative Häufigkeitsdichte f j /d j Die Rechtecksfläche zeigt die Häufigkeit = Zeigt wie dicht die Werte im Intervall (sind) liegen o Boxplot Die Box beinhaltet die zentralen 50%, der untere und obere Whisker jeweils 25%, diese dürfen maximal 1,5 Boxlängen lang sein. Ausreißer werden mit Punkten markiert. Falls die Daten näherungsweise normalverteilt sind, ist der 3 Sigma Bereich analog zu den Whiskern und der Box o Baum-/Blattdiagramm Hier bedeutet 2 5 = 25 Sek.
o Balkendiagramm Relative Häufigkeit Für stetige Variablen ungeeignet - Sigma-Regeln Sofern die Daten näherungsweise normalverteilt sind, gilt: 68,27 % aller Messwerte haben eine Abweichung von höchstens 1σ vom Mittelwert 95,45 % aller Messwerte haben eine Abweichung von höchstens 2σ vom Mittelwert 99,73 % aller Messwerte haben eine Abweichung von höchstens 3σ vom Mittelwert - Schiefe (nur am Bild beurteilen) - Kurtosis Y 2 = 0 => meso-kurtisch Y 2 > 0 => lepto-kurtisch Y 2 < 0 => platy-kurtisch
Induktive Statistik Schließen von Daten (Beobachtungen) auf allgemeinere Prinzipien. Baut auf der deskriptiven Statistik auf. - Wahrscheinlichkeitsbaum - Konfidenzintervall für p o Ein Intervall von plausiblen Zahlen für p o Die Größe des Intervalls sollte indirekt proportional zur Anzahl der Befragten sein o Das Intervall sollte so konstruiert sein, dass wir VERTRAUEN haben können, dass der wahre Wert von p darin liegt o Der Vertrauensgrad (= Konfidenzniveau) sollte hoch sein o Berechnung: Standardisierung: ~,(1 ) ~, (1 ) 1.96 (1 ) 1,96= 0,95 P in die Mitte bringen: 1.96 (1 ) +1.96 (1 ) = 0,95 Approximatives 95% Konfidenzintervall für den unbekannten Anteil p ist: ±1.96 (1 ) Jeder Wert im Konfidenzintervall ist eine plausible Schätzung für den unbekannten Parameter. Wie groß sollte n sein, damit das KI durchschnittlich halb so groß ist, wie das gerade beobachtete? => Stichprobenumfang 4x so groß wie vorher
- Konfidenzniveau Konfidenzniveau ist meist 95% oder größer Es besagt, mit welcher Sicherheit man sagen kann, dass sich der Parameter in dem Intervall befindet. (100% wären 0-1, also unsinnig) - Signifikanztest Erklärung an einem Beispiel: In der Vergangenheit hatte ein TV-Programm typische Einschaltquoten von 10%, für einen bestimmten Tag wird ermittelt, dass 350 von 4000 Personen der Zufallsstichprobe das Programm gesehen haben. - War das ein typischer Tag? Falls es ein typischer Tag war: ~ (4000,0,1) ~ (400,360) = 1 4000 ~ 0,1, 0,1 0,9 4000 Falls es ein typischer Tag war, wie wahrscheinlich ist es dann, einen Anteil p zu beobachten, der mindestens so weit von den erwarteten 10% entfernt ist wie 8,75%? Diese Wahrscheinlichkeit nennt man den p-wert der Hypothese Es war ein typischer Tag Dies kann man leicht berechnen, wenn man p standardisiert. Der p-wert ist in der Tat sehr klein kleiner als 1%! Die Frage ist nun: War es ein typischer Tag, obwohl es sehr unwahrscheinlich ist, so einen extremen Anteil von p zu beobachten? Schlussfolgerung: Entweder war es ein typischer Tag und etwas sehr Seltenes hat sich ereignet oder es war kein typischer Tag! Kritischer Bereich: Der Gemessene Wert von p liegt außerhalb des erwarteten 3- Sigma-Bereichs o Diskussion zum Fehler 1. und 2. Art Fehler erster Art: Man lehnt die Hypothese H 0 ab, obwohl diese wahr ist Fehler zweiter Art: Man lehnt die Hypothese H 0 nicht ab, obwohl diese nicht wahr ist o Signifikanztests sind so konstruiert, dass die Wahrscheinlichkeit für einen Fehler erster Art klein und unter Kontrolle ist. Sie ist höchstens so groß wie Alpha. Allerdings ist die Wahrscheinlichkeit für einen Fehler zweiter Art nicht unter Kontrolle. Sie kann so groß sein wie 1-Alpha, also 95%. Da ist eine grundsätzliche Asymmetrie in einem Signifikanztest. Das bedeutet: Wir können nur dann darauf vertrauen, dass wir etwas entdeckt haben, wenn H 0 abgelehnt wird! Aus einer nicht Ablehnung von H 0 gewinnen wir keine neue Information.
- Worauf passen welche Verteilungen? o Binomialverteilung Bei jedem Versuch ist die Erfolgswahrscheinlichkeit p gleich groß Anzahl der Erfolge bei n unabhängigen Versuchen (i). Eine Zufallsvariable X mit (=)= (1 ),=0,, heißt binomialverteilt zu den Parametern n und p. Kurz: ~ (,) Dann gilt ()= ()= (1 ) o Poissonverteilung Findet Verwendung bei Zufallsvariablen, die Ereignisse zählen, welche jederzeit eintreten können, in einem kurzen Zeitintervall aber selten sind Erfolg bei sehr vielen Versuchen mit jeweils sehr kleiner Erfolgswahrscheinlichkeit n = nicht spezifizierbar p nahe 0 Aber Erfolge passieren! ~ () = lim (1 ) =! Dann gilt ()= ()= o Normalverteilung Theoretisches Modell Dichtefunktionen der Normalverteilungen (blau), (grün) und (rot) ~ (, )
()= ()= o Standardnormalverteilung ~ (0,1) NUR für Standardnormalverteilung gibt es eine Tabelle Standardisierung von ~ (, ): = ~ (0,1) o Sind X,,X ~ N(μ,σ ) und unabhängig, dann gilt: = 1 n X ~ N(μ, σ n ) - Faustregel o Spezialfall des zentralen Grenzwertsatzes Ist X ~ B(n,p),dann gilt für großes n: ~,(1 ) ~,(1 ) : (1 )>9 (Varianz der Zahl der Erfolge) o Verallgemeinerung: Sind X 1,, X n unabhängig und identisch verteilt (=selbes stochastisches Modell) mit Erwartungswert und Varianz, dann gilt für großes n: ~ (, ) = 1 ~ (, )
Begrifflichkeiten - Daten sind das Ergebnis von Beobachtungen: Zählvorgängen Messvorgängen Komplexeren Vorgängen - Population = Gesamtheit von Objekten, für die man sich interessiert - Variable = ein interessierendes Merkmal (oder ein Attribut) eines Objektes o Eine Variable kann verschiedene Werte annehmen o Skalierung Kategorial (Nominalskaliert), falls sich nur sagen lässt, ob jeweils zwei Werte gleich sind oder nicht Rangvariable (Ordinalskaliert), falls ihre Werte angeordnet werden können Metrisch (Quantitativ), falls ihre Werte Ergebnisse eines Mess- oder Zählvorgangs sind. Man unterscheidet: Verhältnisskaliert: Die Differenz und auch das Verhältnis zweier Werte sind sinnvoll Intervallskaliert: Nur die Differenz ist sinnvoll Diskret = Kann nur isolierte Werte annehmen Stetig = Kann (theoretisch) jeden beliebigen Wert in einem Intervall Annehmen o Häufigkeitsverteilung n-beobachtungen: x 1, x 2,, x n k unterschiedliche Werte: a 1,a 2,,a n h(a j ) = # Beobachtungen mit Wert a j = absolute Häufigkeit von a j f(a j ) = h(a j )/ n = relative Häufigkeit von a j - Semantisches Differential Das semantische Differential, auch Eindrucksdifferential oder Polaritätenprofil genannt, ist ein Verfahren, welches zum Zweck der Messung von Wortbedeutungen im Jahr 1952 von Osgood entwickelt worden ist. Eine Person muss anhand einer Reihe von Items ein Objekt beschreiben. Die Items sind siebenstellige bipolare Skalen, deren Extreme durch jeweils gegensätzliche Eigenschaftswörter wie dynamisch/statisch, jung/alt, beschrieben werden. Die numerische Unterteilung der Itemskala erlaubt es, eine Ausprägung intervallskaliert anzugeben, wobei die Richtung der angegebenen Ausprägung vom Nullpunkt für die Qualität, die Distanz zum Nullpunkt für die Intensität der assoziierten Eigenschaften stehen. Objekte Variable Werte Studierende Geschlecht M, W Körpergröße in cm,167,168, Dienstage Goldpreis (US$),1004,0,1004,2, Rendite (%),-2,5,-1,7, Kunden im Supermarkt Gesamtausgabe ( ),10,33, Hat preisreduzierten Güter gekauft? Ja, Nein Beurteilung d. Angebotes Unzufrieden,,Sehr zufrieden Zahl der Positionen 1,2,3, Erwachsene in den USA Wiederaufbau von NO Ja, Nein Wochentage Zahl der zur Reparatur gebrachten Autos 0,1,2,3,
- Datensammlung o Die erste Frage ist extrem wichtig, sog. Appetizer, wird oft nicht ausgewertet o Totalerhebung oder Zensus = Die Sammlung von Daten aus der gesamten Population o Teilerhebung oder Ziehung = Die Sammlung von Daten aus einer Teilpopulation - Length Sampling Bias => systematischer Fehler - Erwartungswert o Selbes Prinzip, wie beim arithmetischem Mittel, mit Wahrscheinlichkeiten anstatt der relativen Häufigkeiten ()= (=) - Wahrscheinlichkeitsdichte o Konzept der Wahrscheinlichkeitsfunktion ist für stetige Variablen unbrauchbar, man braucht eine Dichte! ( )= () Erwartungswert: ()= ()