Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht eine unmissverständliche Beschreibung von Charakteristika eines Datensatzes, ist aber grundsätzlich mit Informationsverlust verbunden dienen dem Zweck, solche Befunde zu präzisieren und zu objektivieren x mod (lies: x-mod) Dieser lässt sich immer anwenden, also auch bei Merkmalen, deren Ausprägungen nur Kategorien sind (qualitative Merkmale). Er ist definiert als die Merkmalsausprägung mit der größten Häufigkeit. (lies: x-schlange) Natürliche Rangordnung, mittlerer Wert des geordneten Datensatzes Ungerade z.b. 5 Werte, gibt es einen genauen Median Gerade z.b. 6 Werte, nicht eindeutig bei ordinalskaliert, metrisch wird der Mittelwert gebildet Mittelwert Arithmetisches Mittel x (x quer) nur metrisch anwendbar, es werden alle Werte addiert und mit der Anzahl n dividiert. Reagiert empfindlich gegenüber extremen Werten (höhere Sensivität) Geringere Robustheit des Mittelwerts gegenüber Ausreißern, d.h. gegenüber auffällig großen oder kleinen Beobachtungswerten Folgende Gleichung beinhaltet, dass sich der Mittelwert als Schwerpunkt des Datensatzes interpretieren lässt Alternative zur Berechnung des Mittelwerts Der Mittelwert lässt sich als Summe der mit den relativen Häufigkeiten gewichteten Ausprägungen ermitteln
Welche Lageparameter ist geeignet? - Skalierung des Merkmals nominalskaliertes Merkmal > Modalwert metrisch skaliertes Merkmal > Modalwert, Median und Mittelwert - Fragestellung ist wichtig überlegen, wie robust die zu berechnende Kenngröße gegenüber Extremwerten sein soll 5.2. Streuungsmaße Definition Spannweite Charakterisiert Abstände zwischen den Merkmalsausprägungen Charakterisiert die Differenz aus größten x n und kleinsten x 1 Wert, geordneter Datensatz nach aufsteigende Größe, für metrisch skalierte Werte Nachteil: hohe Sensivität gegenüber Ausreißern Formel R (range) R x n -x 1 Varianz Auch empirische Varianz s 2 (Abkürzung) Quadratisches Streuungsmaß, bildet den Mittelwert aus den Quadraten der Abweichungen, es gilt: Formel Standardabweichung s (Abkürzung) lineares (geradliniges) Streuungsmaß, wenn aus der Varianz die Wurzel gezogen wird = anschauliches Streuungsmaß Korrigierte Varianz & Standardabweichung In der Literatur nicht einheitlich, es gibt noch folgende Formeldarstellungen zu s *2 & s *
Wichtig zu wissen zu den Formeln! Alternative Formel zur Varianz Die Unterschiede zwischen beiden Größen verschwinden mit zunehmendem n, können aber bei kleinem n ins Gewicht fallen. Die korrigierte Varianz wird beim Schätzen und Testen bevorzugt verwendet, weil sie günstigere Eigenschaften besitzen. Die Division durch n-1 wird erst im Kontext der schließenden Statistik nachvollziehbar!! Relative Häufigkeitsverteilung Liegt für ein diskretes Merkmal X mit den Ausprägungen a 1,,a k eine größere Anzahl n von Beobachtungswerten x 1,,x n (n > k) Vergleich von Grundgesamtheiten = z- Transformation (Z) Der Einsatzzweck ist, wenn unterschiedlich verteilte Zufallsvariablen miteinander vergleichen zu können jedem Element X eines Datensatzes jeweils dessen Mittelwert μ subtrahieren und die Differenz noch durch die Standardabweichung σ oder die korrigierte Standardabweichung dividieren = standardisierte Zufallsvariable mit Erwartungswert/Mittelwert 0 und Varianz/Standardabweichung 1 5.3. Quantile und Boxplots Median Makiert die Mitte eines Datensatzes, verallgemeinert q-quantile, setzt wieder ein metrisch (eindeutig) oder zumindest ordinalskaliertes Merkmal (nicht eindeutig) voraus x p (Abkürzung) hat die Eigenschaft, dass mindestens p*100% der Elemente der geordneten Folge kleiner oder gleich und mindestens (1-p)*100% größer oder gleich x p sind. Veranschaulichung Formal
Spezielle Quantile Differenz der Quantile Dezile Asymmetrische Verteilung Q x 0,75 x 0,25 Misst den Quartilabstand, auch Interquartilabstand IQR. Ferner sind noch die Dezile zu nennen, die sich bei Wahl von p=0,1; p=0,2; ;p=0,9 ergeben und oft mit D1, D2,..., D9 abgekürzt werden. Der Median stimmt also mit dem Dezil D5 überein. Die Nicht-Übereinstimmung von Median und Mittelwert einer empirischen Verteilung ist stets ein Indiz für eine Asymmetrie dieser Verteilung Linkssteile (rechtsschiefe) Verteilung Rechtssteile (linksschiefe) Verteilung http://images.slideplayer.org/1/662836/slides/slide_4.jpg Boxplot Schachtelzeichnung https://de.wikipedia.org/wiki/boxplot
Basisversion