Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 20
Organisatorisches Website (Aktuelle) Informationen zur Vorlesung unter www.imise.uni-leipzig.de/lehre/semester/2014-15/statistischeslernen 2 / 20
Organisatorisches Dozenten Vorlesung: Prof. Martin Bogdan, bogdan@informatik.uni-leipzig.de Dr. Christine Pausch, christine.pausch@imise.uni-leipzig.de Dr. Fabian Schwarzenberger, fabian.schwarzenberger@imise.uni-leipzig.de Dr. Kristin Reiche, kristin.reiche@ufz.de R-Kurs: Dr. Katja Nowick, nowick@bioinf.uni-leipzig.de Markus Kreuz, markus.kreuz@imise.uni-leipzig.de 3 / 20
Organisatorisches Termine Vorlesung: Di und Mi von 11-13 Uhr im Raum 109 (bis zum 7.1.15) ab dem 13.1.15 dienstags im Raum 018 ab dem 14.1.15 mittwochs in Raum 015.1 Mi, 19.11. (Buß- und Bettag) und Di, 2.12. (dies academicus): keine Vorlesung! R-Kurs: am 04.11.14, 18.11.14, 06.01.15., 13.01.15, 20.01.15 und 03.02.15 jeweils 14-19 Uhr im Raum 006 Prüfung/Klausur: wird noch bekanntgegeben 4 / 20
Organisatorisches Literatur Grundlagen Statistik: Der Weg zur Datenanalyse von L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz (Springer 2012) Angewandte Statistik: Methodensammlung mit R von J. Hedderich, L. Sachs (Springer 2011) Statistik in Cartoons von L. Gonick, W. Smith (Vahlen 2009) Statistisches Lernen An Introduction to Statistical Learning, with Applications in R von G. James, D. Witten, T. Hastie, R. Tibshirani (Springer 2013) PDF frei verfügbar unter http://www-bcf.usc.edu/~gareth/isl/getbook.html The Elements of Statistical Learning von T. Hastie, R. Tibshirani, J. Friedman (Springer 2011) PDF frei verfügbar unter http://statweb.stanford.edu/~tibs/elemstatlearn 5 / 20
Organisatorisches Software R Project for Statistical Computing: www.r-project.org Freie und sehr leistungsfähige Software für statistische Analysen RStudio: www.rstudio.com Plattformunabhängige graphische Benutzeroberfläche für R 6 / 20
Organisatorisches Inhalte der Vorlesung Einführung in die Statistik und deskriptive Datenanlayse Zufallsvariablen und Wahrscheinlichkeitstheorie Statistisches Testen Lineare und nichtlineare Regressionsmodelle Support Vector Machines, Random Forests, neuronale Netze Unsupervised Learning Multiples Testen Modellwahl und -bewertung Regularisierung und Shrinkage Statistische Analyse von Sequenz- und Expressionsdaten 7 / 20
Was ist Statistik? 8 / 20
Anwendungen 9 / 20
Anfänge der Statistik Amtliche Statistik, z.b. Volkszählungen Demografie, z.b. Sterbetafeln Medizin Spieltheorie/Wahrscheinlichkeitsrechnung 10 / 20
Abgrenzung Deskriptive Statistik Induktive Statistik Explorative Statistik 11 / 20
Schulen Klassische Inferenz Bayes-Inferenz Entscheidungstheorie Objektivistisch Subjektivistisch Subjektivistisch Inferenzkonzept Frequentistisch Nichtfrequentistisch Nichtfrequentistisch Kognitivistisch Kognitivistisch Dezisionistisch Verwendete nur Stichproben- zusätzlich zusätzlich Information daten Vorwissen Handlungsfolgen Annahme Unbek. Parameter Unbekannter Parameter ist fix ist stochastisch 12 / 20
Grundbegriffe der Statistik I Statistische Einheit Merkmal/Variable Merkmalsausprägung Stichprobe 13 / 20
Grundbegriffe der Statistik II Grundgesamtheit/Population Zielgröße/Outcome Einflussgröße 14 / 20
Skalenniveau 1 Nominalskala 2 Ordinalskala 3 Intervallskala 4 Verhältnisskala 15 / 20
Weitere Merkmalseigenschaften Diskret/stetig/quasistetig Quantitativ/qualitativ 16 / 20
Durchführung einer Studie Planung Datenerhebung Datenaufbereitung Analyse Interpretation 17 / 20
Studientypen/Design Interventionsstudie/Beobachtungsstudie Längsschnittstudie/Querschnittstudie/Zeitreihen prospektiv/retrospektiv kontrolliert/nicht-kontrolliert verblindet/offen randomisiert/nicht-randomisiert 18 / 20
Fehlschlüsse und systematische Fehler (Bias) Scheinkorrelation Nichtberücksichtigte Einflussfaktoren Stichprobenverzerrung (selection bias) Publikationsbias... 19 / 20
Statistisches Lernen Lernen aus Daten Varianten Überwachtes Lernen (supervised learning) Unüberwachtes Lernen (unsupervised learning) 20 / 20