Einige Grundbegriffe der Statistik Philipp Mitteröcker Basic terms Statistik (statistics) stammt vom lateinischen statisticum ( den Staat betreffend ) und dem italienischen statista ( Staatsmann" oder Politiker ). Historical roots 17th century Handling of demographic and economic data ( political arithmetic ) John Graunt (1662) Observations on the Bills of Mortality Development of Probability Theory by Pascal, Fermat, and Bernoulli 1794 The method of least squares was described by Carl Friedrich Gauss 19th and early 20th century Francis Galton, Florence Nightingale, Karl Pearson, Ronald A. Fischer
Historical roots Basic terms Applied statistics Descriptive statistics Inferential statistics (hypothesis tests, confirmatory a.) Exploratory analysis, modeling, data mining Mathematical statistics Basic terms Biometrics, psychometrics, econometrics, morphometrics... metron = measurement
Basic terms Measurement The process of assigning a number to an a3ribute (or phenomenon) according to a rule or set of rules. Sample A collec:on of individual observa:ons selected by a specifc procedure. Popula3on Totality of individual observa:ons about which inferences are to be made Data (sing. Datum), Informa3on, Knowledge Theory, Hypothesis Basic terms Variable A symbol that stands for a value that may vary. Univariat statistics Multivariat statistics Bivariat statistics Messungen Präzision (precision) Maß für die Verlässlichkeit bzw. Reproduzierbarkeit einer Messung (reproducibility). Genauigkeit (accuracy) Ein Maß dafür, wie nahe die experimentellen Ergebnisse dem eigentlichen Wert kommen. Verzerrung (bias) Differenz zwischen Mittelwert der Messungen und dem Referenz- oder Erwartungswert.
Messungen Messungen Estimating measurement error by repeated measures Random error Systematic error Messungen Versehen, Ausreißer (outlier) Fehler oder wich:ge Messung?
Messungen Longitudinal versus cross-sectional data Datenskalierung Nominalskala (nominal scale, categorial data) z.b. Geschlecht, Nationalität Ordinalskala (ordinal scale) z.b. Noten, Rangfolgen, viele Variablen in der Psychometrie Intervallskala (interval scale) kein natürlicher Nullpunkt, d.h. Differenzen aber keine Verhältnisse, z.b. Grad Celsius Verhältnisskala (ratio scale) z.b. Körpergröße, Anzahl der Bücher die ich besitze, Häufigkeiten, Grad Kelvin Datenskalierung Diskrete (meristische) Daten keine Zwischenwerte, z.b. natürliche Zahlen, Rangfolgen, Anzahl von Fischen in einem Teich, Skala von 1 10 Kontinuierliche Daten z.b. reelle Zahlen, cm, kg, Grad Celsius
Deskriptive Statistik Deskriptive Statistik Frequency plots Deskriptive Statistik Frequency plots
Deskriptive Statistik Scatter plot Deskriptive Statistik Zentrale Tendenz (central tendency) Mittelwert (mean), gewichteter Mittelwert (weighted mean) arithmetisches, geometrisches, harmonisches Mittel Modus (mode), Median (median) Streuung (dispersion, spread) Spanneweite (range), Varianz (variance), Standardabweichung (standard deviation), Quantilen (quantiles) Coefficient of Variation Deskriptive Statistik The problem of multimodal distributions and outliers
Datenskalierung Nominalskala (nominal scale, categorial data) mode, frequencies (contingency tables) Ordinalskala (ordinal scale) median, percentile Intervallskala (interval scale) mean, standard deviation, correlation, regression, analysis of variance Verhältnisskala (ratio scale) geometric mean, coefficient of variation, logarithms Deskriptive Statistik How to describe a bivariate distribu:on? Bivariate statistics Covariance, Correlation Korrelation -1 < r < 1 r = 0... kein linearer Zusammenhang r = 1 oder -1... streng linearer Zusammenhang 1... positiver Zusammenhang -1... negativ Zusammenhang
Bivariate Verteilung s 12 = 0.647 Equal frequency ellipses Data matrix Var. 1 Var. 2 Var. 3 Var. 4... Case 1 Case 2 Case 3 Case 4 Case 5... Statistische Räume B A 0. 7 0. 6 1 2 0.7 2 B 0. 5 3 0.5 0.6 0. 4 0.2 0.4 0.3 0. 3 0.1 0.2 0. 2 0.1 0. 1 0. 0 3 0.0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 A 0.1 0.2 0.3 0.4 0.5 0.6 1 Q-space R-space
Multivariate Verteilung Beschreibung einer multivariaten Normalverteilung durch die Varianz-Kovarianzmatrix s 1 2 s 12 s 1n s 21 s 2 2 s n1 s n 2 Multivariate Verteilung Korrelationsmatrix 1 r 12 r 1n r 21 1 r n1 1 Bivariate Verteilung 0.950 0.647 0.647 0.820 1.535 0 0 0.235 Diagonalisieren einer Kovarianzmatrix
Hauptkomponenten Hauptkomponentenanalyse Principal Component Analysis (PCA) Rotation von Datenräumen Discriminant function analysis