Statistik und Computer Efron (2001): Statistik im 20. Jahrhundert Statistische Software Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011, Einleitung Friedrich Leisch, Statistische Software 2010/2011 1 Formeln und Code Was ist Statistiksoftware? Formeln sind der bei weitem effizienteste und eleganteste Weg, um mathematische Zusammenhänge auszudrücken: 1 + e iπ = 0 Ähnliches gilt für Programmiersprachen und Computer: R> all.equal(exp(1i*pi)+1, 0+0i) [1] TRUE Das Schöne (und Schwierige?) an Statistik ist, daß wir mit Mathematik unsere Theorien beschreiben, und Computer verwenden, um Daten zu analysieren. Eine Programm, das Zahlen als Input nimmt, und daraus Tabellen (und Grafiken) erzeugt? Ein(e) (Sammlung von) Programm(en) für Exploration, Inferenz und Modellierung? Ein Werkzeug zur Verwaltung, Manipulation und Analyse von Daten? Ein Kommunikationsmedium mit CPU (Grafikarte, Drucker,... ) des Rechners? Friedrich Leisch, Statistische Software 2010/2011 2 Friedrich Leisch, Statistische Software 2010/2011 3
Kommunikationsformen Relevanz für Datenanalysen Zeichensprachen: Leicht zu lernen, oft universell verständlich, in Komplexität und Ausdrucksform limitiert. Bsp: deutsche Verkehrszeichen, Apple-GUIs, etc. Schriftsprachen: Schwer zu lernen, Festlegung auf Sprache, in Komplexität und Ausdrucksform nahezu unlimitiert. Bsp: österreichisches Deutsch, Dialekt R der Sprache S, etc. Sehen Sie Statistiksoftware (auch) als Hilfsmittel, um dem Computer mitzuteilen, wie Sie Ihre Daten analysieren wollen. Für einfache Analysen reichen einfache Kommunikationsformen, aber selbst im komplexesten GUI (*) haben Sie irgendwann das letzte Untermenü erreicht. In programmierbaren Umgebungen hängt die Decke des Möglichen bedeutend höher. (*) GUI = Graphical User Interface, Bedienung von Programmteilen durch Maus statt Tastatur Friedrich Leisch, Statistische Software 2010/2011 4 Friedrich Leisch, Statistische Software 2010/2011 5 Relevanz für Datenanalysen Anforderungen an Statistiksoftware Reproduzierbarkeit von Analysen Analysen, die Sie über ein GUI zusammenklicken, ähneln verbalen Zurufen: schnell kommuniziert und verarbeitet, schnell vergessen. Dinge, die man sich länger merken will, schreibt man sich auf dasselbe gilt für Datenanlysen. Datenhaltung: korrekter Umgang mit den wichtigsten Skalenniveaus der Statistik: nominal, ordinal, metrisch fehlenden Werten Gute Statistiksoftware unterstützt die Reproduzierbarkeit von Analysen, indem alle Kommandos auch in einer Programmiersprache abgesetzt werden können. Funktionen für Deskription, Inferenz und Modellierung Visualisierung von Daten Weiterverwendung von numerischen und graphischen Ergebnissen Friedrich Leisch, Statistische Software 2010/2011 6 Friedrich Leisch, Statistische Software 2010/2011 7
Datenhaltung Kategorische Variablen Das zentrale Datenobjekt ist meistens eine Datenmatrix: Spalten entsprechen Merkmalen, Zeilen Beobachtungen. Fehlende Werte können überall vorkommen und werden mit einem (oder mehreren) speziellen Symbol(en) markiert. Mit Zahlen rechnen ist eine weit verbreitete Operation auf Computern, Darstellung und Grundrechenarten werden direkt vom Herzstück des Rechners (CPU) erledigt. In der Statistik sind kategorische Variablen mindestens genauso wichtig. Manipulationen der Daten operieren meistens auf ganzen Blöcken von Zeilen und/oder Spalten, Änderungen einzelner Werte müssen transparent und nachvollziehbar sein. Aus Effizienzgründen werden kategorische Variablen meist als Zahlen dargestellt, die echten Namen der Stufen sind Zusatzinformation. Gute Statistiksoftware berücksichtig das Skalenniveau von Variablen trotzdem: unzulässige Operationen liefern Fehler, eingeschränkte Auswahlen in GUI-Fenstern,... Friedrich Leisch, Statistische Software 2010/2011 8 Friedrich Leisch, Statistische Software 2010/2011 9 Softwarepakete Softwarepakete Excel: Sicher die am häufigsten verwendete Software um Daten zu analysieren. Gut zur Manipulation von Daten, schlecht für ernsthafte Analysen (numerisch ungenau, keine Reproduzierbarkeit,... ) Mathematiksoftware: In der numerischen Mathematik und den Ingenieurwissenschaften ist Matlab sehr populär. Für statistische Analysen weniger populär, da kategorische Merkmale und fehlende Werte schlechter unterstützt werden. Aus historischen Gründen ist die Statistik-Funktionalität eher eingeschränkt (andere Zielgruppe). Wird bei uns am Institut hauptsächlich von Mitarbeitern am Lehrstuhl Mittnik verwendet. Die wichtigsten Statistikpakete sind derzeit (in alphabetischer Reihenfolge): R: Open Source Projekt, weit verbreitet an Universitäten für Forschung und Lehre. SAS: Kommerziell, Einsatz vor allem als Teil von integrierten Gesamtlösungen (von der Datenbank bis zum Berichtswesen) in Großunternehmen. SPSS: Kommerziell, sehr beliebt in den Geistes-, Sozial- und Wirtschaftswissenschaften. Zielgruppe eher Nicht-Statistiker. Weitere Pakete: Minitab, Statistica, Stata, S-Plus,... Friedrich Leisch, Statistische Software 2010/2011 10 Friedrich Leisch, Statistische Software 2010/2011 11
Pakete: SPSS Pakete: SAS stand früher für Statistical Package for the Social Sciences Ursprung: Nie, Hull & Bent, Universität Stanford ab 1968, später Universität Chicago. SPSS Inc. ab 1975 durch Nie & Hull. Die Hauptzielgruppe von SPSS sind Nicht-Statistiker. Datenmatrix ist zentraler Bestandteil des GUI, dazu Menüs um die wichtigsten statistischen Verfahren durchführen zu können. Viele Erweiterungsmodule zum Grundpaket von SPSS erhältlich. stand früher für Statistical Analysis Software. Als ein Wort ausgesprochen. Ursprung: Barr (ab 1966), Goodnight (ab 1968) und Kollegen an der North Carolina State University. SAS Institute ab 1976, CEO ist immer noch Goodnight. Auf der Homepage von SAS sucht man vergeblich nach einer Preis- oder Händlerliste, verkauft werden heute integrierte Gesamtlösungen, die die verschiedenste Module kombinieren. SPSS Inc. wurde 2009 von IBM übernommen. Friedrich Leisch, Statistische Software 2010/2011 12 Friedrich Leisch, Statistische Software 2010/2011 13 Pakete: R Programmierung steht immer noch für die Initialen der Autoren der ersten Version, Robert Gentleman & Ross Ihaka, Universität Auckland. Ausgesprochen wie Buchstabe in der jeweiligen Sprache. Ursprung: R implementiert einen Dialekt der Sprache S, diese wurde in den 1970er-Jahren von Chambers und Kollegen bei den Bell Labs entwickelt. Kommerzieller Vertrieb als S-Plus ab 1988 durch Statistical Sciences Inc., heute TIBCO Software Inc.. Erste Version von R 1992, Veröffentlichung unter GPL 1995, ab 1997 internationales Kernentwicklungsteam. Die meisten Benutzer sind Statistiker und andere quantitativ arbeitende Wissenschaftler an Universitäten oder in Forschungseinrichtungen von Firmen. Geübte Benutzer geben Kommandos am Prompt ein. Zum Einstieg gibt es mehrere GUIs, wir benutzen den R Commander. Alle 3 Pakete können programmiert werden: R: ist ein Interpreter für die vollwertige Programmiersprache S, weite Teile von R sind in derselben Sprache geschrieben, die auch am Prompt benutzt wird. Kürzere Programme werden auch Scripts genannt. SPSS: Zur Programmierung und Reproduktion dienen sogenannte Syntax -Dateien. SAS: Am weitesten verbreitet für repetitive Aufgaben sind sogenannte SAS- Makros, die Programmiersprache selber ist wie SAS insgesamt stark datenbankorientiert. In allen Paketen gab es klarerweise eine Evolution der Sprachen über die Zeit, und damit mehrere Schichten (Versionen,... ). Friedrich Leisch, Statistische Software 2010/2011 14 Friedrich Leisch, Statistische Software 2010/2011 15
Welches Paket für mich? Ablauf der LVA Da schwer zu prognostizieren ist, welche Software Ihr zukünftiger Arbeitgeber verwendet, sollten Sie als Statistiker(in) mit allen wichtigen Paketen zumindest oberflächlich vertraut sein. Da viele Prinzipien sehr ähnlich sind, sinkt typischerweise die Lernkurve mit jedem neuen Paket (dafür steigt die Gefahr von Verwechslungen). Auch in der Lehre kann es sein, daß Ihnen jedes der Pakete in Übungen wieder begegnet. R lernen Sie in jedem Fall noch im 4. Semester genauer kennen ( Programmieren mit statistischer Software ), und ist in der Statistik mittlerweile die am häufigsten in Forschung und Lehre verwendete Software. In Firmen begegenen Ihnen (je nach Branche) mit größerer Wahrscheinlichkeit SPSS oder SAS. Nach der heutigen Einleitung gibt es je eine zweistündige Vorlesung zu R, SAS und SPSS. Während dieser Zeit können Sie bereits die Verwendung der Pakete üben, indem Sie z.b. Aufgaben aus Vorlesung und Übung Deskriptive Statistik nachvollziehen. Ab 8. Dezember stellen wir für alle Teilnehmer personalisierte Datensätze auf der Homepage zum Download bereit. Sie sollen dieselben einfachen Aufgaben der deskriptiven Statistik in allen 3 Paketen lösen, Abgabe der Hausübung bis 21.1.2011. Bestehen der Hausübung ist Zulassungsvoraussetzung zur Klausur aus Deskriptiver Statistik. Im Januar wird es zur Unterstützung Ihrer Arbeit Tutorien geben, in denen Sie Fragen zu den Softwarepaketen stellen können. Friedrich Leisch, Statistische Software 2010/2011 16 Friedrich Leisch, Statistische Software 2010/2011 17 Ziele der LVA Ziele der LVA Hauptziel ist, Ihnen einen Überblick über die verfügbaren Pakete zu geben und deren Verwendung zu ermöglichen. Software kann man zu einem guten Teil nur durch praktische Anwendung lernen, Kurse können immer nur eine Starthilfe sein. Aufbauend auf diese ersten Erfahrungen vertiefen Sie sich dann nach Wahl in eines der beiden komplexeren Pakete (R oder SAS) im 2. Semester. Die LVA soll Ihnen wichtige Zusatzqualifikationen zu den theoretischen Inhalten des Statistik-Studiums verschaffen, um diese praktisch anwenden zu können. In vielen Lehrveranstaltungen des Studiums wird vorausgesetzt, daß Sie irgendeine Statistiksoftware beherrschen. In der Wirtschaft lassen sich SAS und SPSS Kurse teuer bezahlen (und auch R Kurse kosten für Externe bei uns Geld). Friedrich Leisch, Statistische Software 2010/2011 18 Friedrich Leisch, Statistische Software 2010/2011 19