Einführung in die Statistik mit R

Ähnliche Dokumente
Einführung in die Statistik mir R

Einführung in die Statistik mir R

Statistik II: Grundlagen und Definitionen der Statistik

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Einführung in die Statistik

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch

Skalenniveaus =,!=, >, <, +, -

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Statistik. Jan Müller

Deskriptive Statistik

Einführung in die computergestützte Datenanalyse

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Statistische Grundlagen I

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Angewandte Statistik 3. Semester

Forschungsstatistik I

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Forschungsmethoden in der Sozialen Arbeit

Die mit * gekennzeichneten Abschnitte beinhalten Themen, die über die Anforderungen des Gegenstandskatalogs hinausgehen.

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Mathematische Statistik. Zur Notation

Arbeitsbuch zur deskriptiven und induktiven Statistik

Statistische Messdatenauswertung

So lügt man mit Statistik

Allgemeine Grundlagen Seite Termin: Eindimensionale Häufigkeitsverteilung

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Statistische Datenanalyse

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

1 Stochastik deskriptive Statistik und Wahrscheinlichkeitsrechnung. Statistik und Wahrscheinlichkeitsrechnung

Grundlagen der Datenanalyse am Beispiel von SPSS

Deskriptive Statistik Erläuterungen

'+4 Elisabeth Raab-Steiner / Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 4., aktualisierte und überarbeitete Auflage

Die deskriptive (beschreibende) Statistik hat als Aufgabe, große Datenmengen durch wenige Kennzahlen. oder Grafiken zu beschreiben.

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Variablen und Skalenniveaus

Skalenniveau Grundlegende Konzepte

Statistik und Wahrscheinlichkeitsrechnung

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

Statistische Methoden der Qualitätssicherung

Auswertung mit dem Statistikprogramm SPSS:

Statistik und Wahrscheinlichkeitsrechnung

Einige Grundbegriffe der Statistik

Bitte am PC mit Windows anmelden!

Lehrinhalte Statistik (Sozialwissenschaften)

Parametrische vs. Non-Parametrische Testverfahren

Deskriptive Statistik 1 behaftet.

Modulbeschreibung Statistik

VII. Inhaltsverzeichnis

Tutorium Mathematik in der gymnasialen Oberstufe 1. Veranstaltung: Beschreibende Statistik 19. Oktober 2016

1 Einleitung und Grundlagen 1

3. Deskriptive Statistik

Biostatistik. Eine Einführung für Biowissenschaftler

Ulrich Rohland. Statistik. Erläuterung grundlegender Begriffe und Verfahren

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Kapitel 5. Prognose. Zeitreihenanalyse wird aus drei Gründen betrieben: Beschreibung des Verlaufs von Zeitreihen.

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Wolf-Gert Matthäus, Jörg Schulze. Statistik mit Excel. Beschreibende Statistik für jedermann. 3./ überarbeitete und erweiterte Auflage.

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Biostatistik Erne Einfuhrung fur Biowissenschaftler

I. Deskriptive Statistik 1

Grundlagen der empirischen Sozialforschung

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Stand: Semester: Dauer: Modulnummer: Minimaldauer 1 Semester BSTA. Regulär angeboten im: Modultyp: Pflicht WS, SS

Inhaltsverzeichnis Inhaltsverzeichnis VII Erst mal locker bleiben: Es f angt ganz einfach an! Keine Taten ohne Daten!

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Teil II: Einführung in die Statistik

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Statistik I (Deskriptive Statistik)

Teil: lineare Regression

MATHEMATISCHE STATISTIK

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Werkzeuge der empirischen Forschung

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

Mathematica kompakt. Einführung-Funktionsumfang-Praxisbeispiele von Dipl.-Math.Christian H.Weiß. Oldenbourg Verlag München

Mathematik für Biologen

Didaktik der Stochastik (Leitidee: Daten und Zufall)

Statistik I für Betriebswirte Vorlesung 9

Grundlagen der empirischen Sozialforschung

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Mathematik. Schuljahr 1

Mathematik für Biologen

I.3. Computergestützte Methoden 1. Deskriptive Statistik. Master of Science Prof. Dr. G. H. Franke WS 2009/ 2010

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Einheit 1. Einführung in R. IFAS JKU Linz c 2018 Programmieren mit Statistischer Software 1 0 / 11

Transkript:

Einführung in die Statistik mit R Bernd Weiler syntegris information solutions GmbH Neu Isenburg Schlüsselworte Statistik, R Einleitung Es ist seit längerer Zeit möglich statistische Berechnungen mit der freien Software R durchzuführen. Datenzugriffe sind über Schnittstellen zu fast allen Datenquellen (MS Office, Datenbanken, ) vorhanden. Seit einiger Zeit können mit R auch innerhalb der Oracle Datenbank Analysen erfolgen. Durch die R Integration können sich die Arbeitsabläufe verändern und Anwender haben die Möglichkeit Add-Hoc Analysen auf ihren Datenbeständen durchzuführen. Anwender ohne statistische Grundkenntnisse sind geneigt allgemein bekannte Kennzahlen und Methoden z.b. Mittelwert, Korrelation, Regression ohne Berücksichtigung der zugrunde liegenden Voraussetzungen zu verwenden. Der Vortrag wendet sich an diese Anwender und ist eine Einführung in die Statistik mit Hilfe der Software R. Anhand von Beispielen soll gezeigt werden, welche grundlegenden statistischen Kennzahlen (Lageparameter) und Analysen (Methoden) unter Berücksichtigung des Skalenniveaus (nominal, ordinal, kardinal) der betrachteten Daten verwendet werden könnten/sollten. Anhand der Beispiele wird auf einige grundlegende Besonderheiten der Sprache R eingegangen. Es wird gezeigt, wie mit Hilfe einfacher graphischer Darstellung der betrachteten Daten Fehlspezifikationen (falsche Modellannahmen) erkannt bzw. das Ergebnis statistischer Analysen dargestellt werden. Der Vortrag beschäftigt sich nicht eingehender mit der Sprache R innerhalb der Oracle Datenbank bzw. der Verbindung von der Desktopvariante von R mit Datenquellen. R R ist eine freie Programmiersprache für statistisches Rechnen und statistische Grafiken. R ist Teil des GNU-Projekts und auf vielen Plattformen verfügbar. R gilt zunehmend als die Standardsprache für statistische Problemstellungen sowohl im kommerziellen als auch im wissenschaftlichen Bereich. Benutzeroberflächen R läuft in einer Kommandozeilenumgebung. Darüber hinaus gibt es mehrere grafische Benutzeroberflächen (GUI). Jede Oberfläche hat je nach Verwendungszweck ihre Vor- und Nachteile. Im Rahmen der Ausarbeitung dieses Vortrags wurden folgende Oberflächen verwendet: RGUI RStudio

Pakete Der Funktionsumfang von R kann durch eine Vielzahl von Paketen erweitert und an spezifische statistische Problemstellungen aus diversen Anwendungsbereichen angepasst werden. Viele Pakete können dabei direkt aus einer über die R-Konsole abrufbaren Liste ausgewählt und automatisch installiert werden. Zentrales Archiv für diese Pakete ist das Comprehensive R Archive Network (CRAN). Statistik Statistik ist die Lehre von Methoden zum Umgang mit quantitativen Informationen (Daten). Sie ist eine Möglichkeit, eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen. Statistik wird einerseits als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet, andererseits als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen. Untersuchungsgegenstand der Statistik sind Vorgänge, deren Resultate nicht mit Sicherheit vorhersehbar sind und die man daher als Zufallsexperimente bezeichnet. In diesem Sinne ist jede Messung, deren Resultate streuen, z.b. die Ausbildung der individuellen Körpergröße oder das Steueraufkommen einer Region ein Zufallsexperiment. Bemerkenswert ist nun aber, daß die Ergebnisse solcher Zufallsexperimente nicht regellos (chaotisch) anfallen. Sie lassen vielmehr Gesetzmäßigkeiten erkennen, die freilich nicht als einfache Wenn-Dann-Aussagen darstellbar sind:

Niemand weiß beispielsweise das Datum seines Todes. Eine Generation stirbt aber im Verlauf eines Jahrhunderts in ganz gesetzmäßiger Weise ab. Die Menschen sind verschieden groß, ihre Körpergrößen sind aber nicht regellos verteilt. Wir wissen, daß Zwerge und Riesen nicht häufiger sind als Mittelwüchsige. Extreme Resultate des Wachstumsvorganges sind seltener als Durchschnittsresultate. Die Gesetzmäßigkeiten zufälliger Ereignisse geben dem Unvorhersehbaren einen Rahmen, machen Unsicherheit kalkulierbar. Durch geeignete Maßnahmen kann man Unsicherheit verringern. Das Fachgebiet der Statistik umfaßt einen Großteil der dazu verwendeten Methoden. Teilgebiete der Statistik Deskriptive Statistik Die deskriptive Statistik (auch beschreibende Statistik oder empirische Statistik): Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen. Bei einigen Institutionen ist wie bei der amtlichen Statistik oder beim sozio-oekonomischen Panel (SOEP) die Erstellung solcher Statistiken die Hauptaufgabe. Die induktive Statistik Die induktive Statistik (auch mathematische Statistik, schließende Statistik oder Inferenzstatistik): In der induktiven Statistik leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren. Explorative Statistik Die explorative Statistik (auch hypothesen-generierende Statistik, analytische Statistik oder Data- Mining): Dies ist methodisch eine Zwischenform der beiden vorgenannten Teilbereiche, bekommt als Anwendungsform jedoch zunehmend eine eigenständige Bedeutung. Mittels deskriptiver Verfahren und induktiver Testmethoden sucht sie systematisch mögliche Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen und will sie zugleich in ihrer Stärke und Ergebnissicherheit bewerten. Die so gefundenen Ergebnisse lassen sich als Hypothesen verstehen, die erst, nachdem darauf aufbauende, induktive Testverfahren mit entsprechenden (prospektiven) Versuchsplanungen sie bestätigten, als statistisch gesichert gelten können. Betrachtungsgegenstand der Statistik Der Betrachtungsgegenstand der Statistik sind (Zufalls-) Zahlen. Skalenniveau Quelle: http://de.wikipedia.org/wiki/skalenniveau Das Skalenniveau ist in der Empirie eine wichtige Eigenschaft von Merkmalen bzw. von Variablen. Je nach der Art eines Merkmals bzw. je nachdem, welche Vorschriften bei seiner Messung eingehalten werden können, lassen sich verschiedene Stufen der Skalierbarkeit unterscheiden:

Skalenniveau log./math. Operationen Beispiel Nominalskala =/ Geschlecht (Mann/Frau) Ordinalskala =/ ; </> Schulnoten ( sehr gut bis ungenügend ) Kardinalskala Intervallskala =/ ; </> ; +/ Zeitskala (Datum) Verhältnisskala =/ ; </> ; +/ ; / Alter (0-99 Jahre) Das Skalenniveau bestimmt die (mathematischen) Operationen, die mit einer entsprechend skalierten Variable zulässig sind. Dabei können Operationen, die bei Variablen eines bestimmten Skalenniveaus zulässig sind, grundsätzlich auch auf Variablen aller höheren Skalenniveaus durchgeführt werden. Ein auf einem bestimmten Niveau skalierbares Merkmal kann auf allen darunter liegenden Skalenniveaus dargestellt werden, jedoch nicht umgekehrt. a) welche Transformationen mit entsprechend skalierten Variablen durchgeführt werden können, ohne Information zu verlieren bzw. zu verändern. b) welche Information das entsprechende Merkmal liefert, welche Interpretationen Ausprägungen des entsprechenden Merkmals zulassen. Das Skalenniveau gibt keine Auskunft darüber, ob eine Variable diskret (kategorial) oder stetig ist. Lediglich bei der Nominalskalierung kann man sicher sagen, dass das Merkmal nicht stetig sondern diskret ist. Obwohl Skalenniveau und Anzahl der möglichen Ausprägungen unabhängige Konzeptionen darstellen, sind in der Praxis nominal- und ordinalskalierte Merkmale meist diskret und metrisch skalierte Merkmale meist stetig. Methoden der statistischen Analyse Die Schwerpunkte des Vortrages in Stichworten sind: Lageparameter: Median Modus Mittelwert Quartile

Standardabweichung (Varianz) Schiefe Graphische Darstellungen Histogramm Box Plots Line Plots Scatter Plots Methoden Korrelation Tabellen Varianzanalyse Regression Kontaktadresse: Bernd Weiler syntegris information solutions GmbH Hermannstraße 54-56, 63263 Neu-Isenburg D-00000 Stadt Telefon: +49 (0) 6102 29 86 68 Fax: +49 (0) 6102 55 88 062 E-Mail Bernd.Weiler@syntegris.de Internet: http://www.syntegris.de/