Statistik und Computer. Statistische Software. Was ist Statistiksoftware? Formeln und Code. Efron (2001): Statistik im 20.



Ähnliche Dokumente
Statistik und Computer Statistische Software (R) Paul Fink, M.Sc. Formeln und Code Was ist Statistiksoftware?

Statistische Software (R)

1 Mathematische Grundlagen

Statistik und Computer. Statistische Software (R) Was ist Statistiksoftware? Formeln und Code. Applications. Theory. Methodology

Anleitung zum Extranet-Portal des BBZ Solothurn-Grenchen

Anleitung über den Umgang mit Schildern

Leichte-Sprache-Bilder

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Professionelle Seminare im Bereich MS-Office

Print2CAD 2017, 8th Generation. Netzwerkversionen

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Das Leitbild vom Verein WIR

Was meinen die Leute eigentlich mit: Grexit?

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Anwendungspraktikum aus JAVA Programmierung im SS 2006 Leitung: Albert Weichselbraun. Java Projekt. Schiffe Versenken mit GUI

Leitbild. für Jedermensch in leicht verständlicher Sprache

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

Datenbanken Kapitel 2

Grundlagen der Datenanalyse am Beispiel von SPSS

Statistische Datenanalyse mit SPSS

DER SELBST-CHECK FÜR IHR PROJEKT

IBM Software Demos Tivoli Provisioning Manager for OS Deployment

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

4.1 Wie bediene ich das Webportal?

PHP Kurs Online Kurs Analysten Programmierer Web PHP

MetaQuotes Empfehlungen zum Gebrauch von

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

C++11 C++14 Kapitel Doppelseite Übungen Musterlösungen Anhang

Die Post hat eine Umfrage gemacht

Primzahlen und RSA-Verschlüsselung

Grundlagen der Theoretischen Informatik, SoSe 2008

Arbeiten Sie gerne für die Ablage?

Adobe Photoshop. Lightroom 5 für Einsteiger Bilder verwalten und entwickeln. Sam Jost

Alle gehören dazu. Vorwort

Hinweise zum Übungsblatt Formatierung von Text:

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Wir machen neue Politik für Baden-Württemberg

Netzwerkversion PVG.view

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Klausur WS 2006/07 Programmiersprache Java Objektorientierte Programmierung II 15. März 2007

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Der neue persönliche Bereich/die CommSy-Leiste

Handbuch Social Linkbuilding Automatik-Software

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Zeichen bei Zahlen entschlüsseln

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

der Eingabe! Haben Sie das Ergebnis? Auf diesen schwarzen Punkt kommen wir noch zu sprechen.

Kurzeinführung Excel2App. Version 1.0.0

Einleitung. Hauptteil. Wir befinden uns nun im Demoarchiv.

SharePoint Demonstration

Erklärung zu den Internet-Seiten von

Lieber SPAMRobin -Kunde!

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Das muss drin sein. Hallo, wir sind die Partei: DIE LINKE.

Anwendungsbeispiele Buchhaltung

Urlaubsregel in David

Die Informatik-Studiengänge

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Erstellen von x-y-diagrammen in OpenOffice.calc

Die Bundes-Zentrale für politische Bildung stellt sich vor

Grundfunktionen und Bedienung

Matrix42. Matrix42 Cloud Trial Erste Schritte. Version

Diese Anleitung enthält Anweisungen, die nur durch erfahrene Anwender durchgeführt werden sollten!

IntelliRestore Seedload und Notfallwiederherstellung

Zeit lässt sich nicht wie Geld für schlechte Zeiten zur Seite legen. Die Zeit vergeht egal, ob genutzt oder ungenutzt.

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

Woche 1: Was ist NLP? Die Geschichte des NLP.

2. ZELLINHALTE UND FORMELN

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Dateien löschen und wiederherstellen

INFOBLATT FÜR DAS NEU AUFSETZEN IHRES COMPUTERS

Alle alltäglichen Aufgaben können auch über das Frontend durchgeführt werden, das in den anderen Anleitungen erläutert wird.

Umstellung des Schlüsselpaares der Elektronischen Unterschrift von A003 (768 Bit) auf A004 (1024 Bit)

Step by Step Webserver unter Windows Server von Christian Bartl

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

MOM - Medienforum Online-Medien Anleitung zum Ändern der Login-Nummer und des Passworts

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Barrierefreie Webseiten erstellen mit TYPO3

Memeo Instant Backup Kurzleitfaden. Schritt 1: Richten Sie Ihr kostenloses Memeo-Konto ein

Informationsblatt zur Anmeldung Abschlusspräsentation und zum Präsentationsportfolio (WS2015/16)

Tutorial Speichern. Jacqueline Roos - Riedstrasse 14, 8908 Hedingen, jroos@hispeed.ch -

Klicken Sie auf Weiter und es erscheint folgender Dialog

Erfahrungen mit Hartz IV- Empfängern

LineQuest-Leitfaden LineQuest Dialog-Portal. Generieren der LineQuest-Auswertungsdatei

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Der einfache Weg zum CFX-Demokonto

Ich finde immer wieder kryptische Abkürzungen. Was bedeuten sie? VO Vorlesung. UE Übung. LV Lehrveranstaltung

Internet online Update (Internet Explorer)

ALEMÃO. Text 1. Lernen, lernen, lernen

Transkript:

Statistik und Computer Efron (2001): Statistik im 20. Jahrhundert Statistische Software Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011, Einleitung Friedrich Leisch, Statistische Software 2010/2011 1 Formeln und Code Was ist Statistiksoftware? Formeln sind der bei weitem effizienteste und eleganteste Weg, um mathematische Zusammenhänge auszudrücken: 1 + e iπ = 0 Ähnliches gilt für Programmiersprachen und Computer: R> all.equal(exp(1i*pi)+1, 0+0i) [1] TRUE Das Schöne (und Schwierige?) an Statistik ist, daß wir mit Mathematik unsere Theorien beschreiben, und Computer verwenden, um Daten zu analysieren. Eine Programm, das Zahlen als Input nimmt, und daraus Tabellen (und Grafiken) erzeugt? Ein(e) (Sammlung von) Programm(en) für Exploration, Inferenz und Modellierung? Ein Werkzeug zur Verwaltung, Manipulation und Analyse von Daten? Ein Kommunikationsmedium mit CPU (Grafikarte, Drucker,... ) des Rechners? Friedrich Leisch, Statistische Software 2010/2011 2 Friedrich Leisch, Statistische Software 2010/2011 3

Kommunikationsformen Relevanz für Datenanalysen Zeichensprachen: Leicht zu lernen, oft universell verständlich, in Komplexität und Ausdrucksform limitiert. Bsp: deutsche Verkehrszeichen, Apple-GUIs, etc. Schriftsprachen: Schwer zu lernen, Festlegung auf Sprache, in Komplexität und Ausdrucksform nahezu unlimitiert. Bsp: österreichisches Deutsch, Dialekt R der Sprache S, etc. Sehen Sie Statistiksoftware (auch) als Hilfsmittel, um dem Computer mitzuteilen, wie Sie Ihre Daten analysieren wollen. Für einfache Analysen reichen einfache Kommunikationsformen, aber selbst im komplexesten GUI (*) haben Sie irgendwann das letzte Untermenü erreicht. In programmierbaren Umgebungen hängt die Decke des Möglichen bedeutend höher. (*) GUI = Graphical User Interface, Bedienung von Programmteilen durch Maus statt Tastatur Friedrich Leisch, Statistische Software 2010/2011 4 Friedrich Leisch, Statistische Software 2010/2011 5 Relevanz für Datenanalysen Anforderungen an Statistiksoftware Reproduzierbarkeit von Analysen Analysen, die Sie über ein GUI zusammenklicken, ähneln verbalen Zurufen: schnell kommuniziert und verarbeitet, schnell vergessen. Dinge, die man sich länger merken will, schreibt man sich auf dasselbe gilt für Datenanlysen. Datenhaltung: korrekter Umgang mit den wichtigsten Skalenniveaus der Statistik: nominal, ordinal, metrisch fehlenden Werten Gute Statistiksoftware unterstützt die Reproduzierbarkeit von Analysen, indem alle Kommandos auch in einer Programmiersprache abgesetzt werden können. Funktionen für Deskription, Inferenz und Modellierung Visualisierung von Daten Weiterverwendung von numerischen und graphischen Ergebnissen Friedrich Leisch, Statistische Software 2010/2011 6 Friedrich Leisch, Statistische Software 2010/2011 7

Datenhaltung Kategorische Variablen Das zentrale Datenobjekt ist meistens eine Datenmatrix: Spalten entsprechen Merkmalen, Zeilen Beobachtungen. Fehlende Werte können überall vorkommen und werden mit einem (oder mehreren) speziellen Symbol(en) markiert. Mit Zahlen rechnen ist eine weit verbreitete Operation auf Computern, Darstellung und Grundrechenarten werden direkt vom Herzstück des Rechners (CPU) erledigt. In der Statistik sind kategorische Variablen mindestens genauso wichtig. Manipulationen der Daten operieren meistens auf ganzen Blöcken von Zeilen und/oder Spalten, Änderungen einzelner Werte müssen transparent und nachvollziehbar sein. Aus Effizienzgründen werden kategorische Variablen meist als Zahlen dargestellt, die echten Namen der Stufen sind Zusatzinformation. Gute Statistiksoftware berücksichtig das Skalenniveau von Variablen trotzdem: unzulässige Operationen liefern Fehler, eingeschränkte Auswahlen in GUI-Fenstern,... Friedrich Leisch, Statistische Software 2010/2011 8 Friedrich Leisch, Statistische Software 2010/2011 9 Softwarepakete Softwarepakete Excel: Sicher die am häufigsten verwendete Software um Daten zu analysieren. Gut zur Manipulation von Daten, schlecht für ernsthafte Analysen (numerisch ungenau, keine Reproduzierbarkeit,... ) Mathematiksoftware: In der numerischen Mathematik und den Ingenieurwissenschaften ist Matlab sehr populär. Für statistische Analysen weniger populär, da kategorische Merkmale und fehlende Werte schlechter unterstützt werden. Aus historischen Gründen ist die Statistik-Funktionalität eher eingeschränkt (andere Zielgruppe). Wird bei uns am Institut hauptsächlich von Mitarbeitern am Lehrstuhl Mittnik verwendet. Die wichtigsten Statistikpakete sind derzeit (in alphabetischer Reihenfolge): R: Open Source Projekt, weit verbreitet an Universitäten für Forschung und Lehre. SAS: Kommerziell, Einsatz vor allem als Teil von integrierten Gesamtlösungen (von der Datenbank bis zum Berichtswesen) in Großunternehmen. SPSS: Kommerziell, sehr beliebt in den Geistes-, Sozial- und Wirtschaftswissenschaften. Zielgruppe eher Nicht-Statistiker. Weitere Pakete: Minitab, Statistica, Stata, S-Plus,... Friedrich Leisch, Statistische Software 2010/2011 10 Friedrich Leisch, Statistische Software 2010/2011 11

Pakete: SPSS Pakete: SAS stand früher für Statistical Package for the Social Sciences Ursprung: Nie, Hull & Bent, Universität Stanford ab 1968, später Universität Chicago. SPSS Inc. ab 1975 durch Nie & Hull. Die Hauptzielgruppe von SPSS sind Nicht-Statistiker. Datenmatrix ist zentraler Bestandteil des GUI, dazu Menüs um die wichtigsten statistischen Verfahren durchführen zu können. Viele Erweiterungsmodule zum Grundpaket von SPSS erhältlich. stand früher für Statistical Analysis Software. Als ein Wort ausgesprochen. Ursprung: Barr (ab 1966), Goodnight (ab 1968) und Kollegen an der North Carolina State University. SAS Institute ab 1976, CEO ist immer noch Goodnight. Auf der Homepage von SAS sucht man vergeblich nach einer Preis- oder Händlerliste, verkauft werden heute integrierte Gesamtlösungen, die die verschiedenste Module kombinieren. SPSS Inc. wurde 2009 von IBM übernommen. Friedrich Leisch, Statistische Software 2010/2011 12 Friedrich Leisch, Statistische Software 2010/2011 13 Pakete: R Programmierung steht immer noch für die Initialen der Autoren der ersten Version, Robert Gentleman & Ross Ihaka, Universität Auckland. Ausgesprochen wie Buchstabe in der jeweiligen Sprache. Ursprung: R implementiert einen Dialekt der Sprache S, diese wurde in den 1970er-Jahren von Chambers und Kollegen bei den Bell Labs entwickelt. Kommerzieller Vertrieb als S-Plus ab 1988 durch Statistical Sciences Inc., heute TIBCO Software Inc.. Erste Version von R 1992, Veröffentlichung unter GPL 1995, ab 1997 internationales Kernentwicklungsteam. Die meisten Benutzer sind Statistiker und andere quantitativ arbeitende Wissenschaftler an Universitäten oder in Forschungseinrichtungen von Firmen. Geübte Benutzer geben Kommandos am Prompt ein. Zum Einstieg gibt es mehrere GUIs, wir benutzen den R Commander. Alle 3 Pakete können programmiert werden: R: ist ein Interpreter für die vollwertige Programmiersprache S, weite Teile von R sind in derselben Sprache geschrieben, die auch am Prompt benutzt wird. Kürzere Programme werden auch Scripts genannt. SPSS: Zur Programmierung und Reproduktion dienen sogenannte Syntax -Dateien. SAS: Am weitesten verbreitet für repetitive Aufgaben sind sogenannte SAS- Makros, die Programmiersprache selber ist wie SAS insgesamt stark datenbankorientiert. In allen Paketen gab es klarerweise eine Evolution der Sprachen über die Zeit, und damit mehrere Schichten (Versionen,... ). Friedrich Leisch, Statistische Software 2010/2011 14 Friedrich Leisch, Statistische Software 2010/2011 15

Welches Paket für mich? Ablauf der LVA Da schwer zu prognostizieren ist, welche Software Ihr zukünftiger Arbeitgeber verwendet, sollten Sie als Statistiker(in) mit allen wichtigen Paketen zumindest oberflächlich vertraut sein. Da viele Prinzipien sehr ähnlich sind, sinkt typischerweise die Lernkurve mit jedem neuen Paket (dafür steigt die Gefahr von Verwechslungen). Auch in der Lehre kann es sein, daß Ihnen jedes der Pakete in Übungen wieder begegnet. R lernen Sie in jedem Fall noch im 4. Semester genauer kennen ( Programmieren mit statistischer Software ), und ist in der Statistik mittlerweile die am häufigsten in Forschung und Lehre verwendete Software. In Firmen begegenen Ihnen (je nach Branche) mit größerer Wahrscheinlichkeit SPSS oder SAS. Nach der heutigen Einleitung gibt es je eine zweistündige Vorlesung zu R, SAS und SPSS. Während dieser Zeit können Sie bereits die Verwendung der Pakete üben, indem Sie z.b. Aufgaben aus Vorlesung und Übung Deskriptive Statistik nachvollziehen. Ab 8. Dezember stellen wir für alle Teilnehmer personalisierte Datensätze auf der Homepage zum Download bereit. Sie sollen dieselben einfachen Aufgaben der deskriptiven Statistik in allen 3 Paketen lösen, Abgabe der Hausübung bis 21.1.2011. Bestehen der Hausübung ist Zulassungsvoraussetzung zur Klausur aus Deskriptiver Statistik. Im Januar wird es zur Unterstützung Ihrer Arbeit Tutorien geben, in denen Sie Fragen zu den Softwarepaketen stellen können. Friedrich Leisch, Statistische Software 2010/2011 16 Friedrich Leisch, Statistische Software 2010/2011 17 Ziele der LVA Ziele der LVA Hauptziel ist, Ihnen einen Überblick über die verfügbaren Pakete zu geben und deren Verwendung zu ermöglichen. Software kann man zu einem guten Teil nur durch praktische Anwendung lernen, Kurse können immer nur eine Starthilfe sein. Aufbauend auf diese ersten Erfahrungen vertiefen Sie sich dann nach Wahl in eines der beiden komplexeren Pakete (R oder SAS) im 2. Semester. Die LVA soll Ihnen wichtige Zusatzqualifikationen zu den theoretischen Inhalten des Statistik-Studiums verschaffen, um diese praktisch anwenden zu können. In vielen Lehrveranstaltungen des Studiums wird vorausgesetzt, daß Sie irgendeine Statistiksoftware beherrschen. In der Wirtschaft lassen sich SAS und SPSS Kurse teuer bezahlen (und auch R Kurse kosten für Externe bei uns Geld). Friedrich Leisch, Statistische Software 2010/2011 18 Friedrich Leisch, Statistische Software 2010/2011 19