Letzte Vorlesung Statistik Vorlesung Datenanalyse und Statistik
Gliederung 1 Sortiert nach dem Inhalt der Vorlesung Sortiert nach Daten 2 Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse 3 Zusammenfassung
Sortiert nach dem Inhalt der Vorlesung Sortiert nach Daten Daten: Statistische Graphik Deskriptive Statistik Statistische Tests Hypothese, Alternative, Fehler 1. und 2. Art. Nachweis, α-niveau, p-werte Bonferroni Korrektur Auswahl der Tests parametrisch, nichtparametrisch, robust Lineare Modelle
Sortiert nach dem Inhalt der Vorlesung Sortiert nach Daten Univariate Statistik Bivariate Statistik Zeitreihen Zufallsfelder...
Kovarianzmatrizen Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse var(x 1 ) cov(x 1,X 2 ) cov(x 1,X 3 ) cov(x 1,X 4 ) cov(x 2,X 1 ) var(x 2 ) cov(x 2,X 3 ) cov(x 2,X 4 ) cov(x 3,X 1 ) cov(x 3,X 2 ) var(x 3 ) cov(x 3,X 4 ) cov(x 4,X 1 ) cov(x 4,X 2 ) cov(x 4,X 3 ) var(x 4 )
Klusteranalyse II Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse Y 0.5 0.0 0.5 1.0 1.5 0.5 0.0 0.5 1.0 X
X Hauptkomponentenanalyse IV Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse Y 6 4 2 0 2 4 10 5 0
Faktorenanalyse Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse X 3 1 0 1 2 Y 6 2 0 2 4 3 2 1 0 1 2 Z 3 2 1 0 1 2 Z X 3 1 0 1 2 6 4 2 0 2 4 Y
Diskriminazanalyse Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse Y 0.0 0.5 1.0 1.5 0.5 0.0 0.5 1.0 1.5 X
Zusammenfassung MV-Statistik Kovarianzmatrizen Klusteranalyse Hauptkomponentenanalyse Faktorenanalyse Diskriminazanalyse Die Klusteranalyse versucht Gruppen in den Daten zu finden. Die Hauptkomponentenanalyse versucht die Hauptrichtung der Streuung im Datensatz aufzufinden. Die Faktorenanalyse versucht unbeobachtbare gemeinsame Ursachen in den Daten zu entdecken. Die Diskriminazanalyse versucht Individuen einer Gruppe zuzuordnen.
Zeitreihen Zusammenfassung z 0.10 0.05 0.00 0.05 0 20 40 60 80 100 Tage
Eigenschaften von Zeitreihen Zusammenfassung Daten werden in regelmäßigen Zeitabständen erhoben In kurzer Zeit ändert sich nicht so viel Daten sind also stochastisch abhängig Daten verhalten sich oft zyklisch (z.b. immer große Werte im Sommer)
Methoden für Zeitreihen Zusammenfassung Test ob Abhängigkeit tatsächlich vorliegt (z.b. Ansari-Friedmann) Abhängigkeit quantifizieren durch Autokovarianzfunktion: c(h) = cov(z(t + h),z(t)) Vorhersage: Wie geht es weiter? Welche Gesetze verbergen sich hinter der Zeitreihe?
Zusammenfassung Was ist eine geostatistische Vorhersage? y 10 20 30 40 50 Observation Locations 10 20 30 40 50 x Ẑ(s) = A ( n f i=1 Z(s i ) = True value at location s i ) w i (s)z(s i ), i = 1,...,n ds
Zusammenfassung Was ist eine geostatistische Vorhersage? 10 20 30 40 50 What do we expect here? y? 10 20 30 40 50 x Ẑ(s) = A ( n f i=1 w i (s) = Kriging weights ) w i (s)z(s i ), i = 1,...,n ds
Zusammenfassung What ist geostatististische Simulation? y 10 20 30 40 50 Simulation 4 10 20 30 40 50 x reality is unkown prediction is to smooth predict conditional distribution simulating possible szenarios... many possible szenaries are qualitatively similar *but qualitatively different from reality
Zusammenfassung Komponenten addieren zu 100% Komponenten sind also abhängig und automatisch negativ korreliert. Komponenten sind einzeln Anteile, aber hängen zusammen.
Ternäre Diagramme Zusammenfassung MgO NA20.K20 Fe2O3
Zusammenfassung SD Zusammenfassung Daten mit zeitlichen Abhängigkeiten Daten mit räumlichen Abhängigkeiten Werte addieren zu 1 bzw. Summe egal.
Zusammenfassung Daten Schätzung Test Mathe Die Datenminen Riesige Halde mit nichtrepräsentativen Daten Die unwegsamen Ausreißerberge Bayes-Land Gletscherspalte der gleichen Messwerte Klippe der unüberprüfbaren Voraussetzungen Rangviertel ML-City Vorhersagebereich Vertrauensbereich Schätzervorstadt Statistika Modell-Platz Aussichtsturm Grafingen Normalviertel Klippe der unüberprüfbaren Voraussetzungen Sequenzielle Passage Momentenmethoden u. Lineare Modelle t-dorf Steppe der unwesentlich verletzten Voraussetzungen Todeswüste, der nicht erfüllten Voraussetzungen Steig der Nichtparametrik Posthoc robuster Weg Bonferroni Passage Sümpfe des multiplen Testens Benjamini Passage Nacht der angenommen Hypothesen Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs
Ich wünsche Ihnen Zusammenfassung eine bestandene Klausur schöne Ferien! ein erfolgreiches Leben