Projektarbeit UE Angewandte Statistik I MBIOB 17 Sommersemester 2015

Ähnliche Dokumente
Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Deskriptive Statistik

Univariate explorative Datenanalyse in R

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

3. Lektion: Deskriptive Statistik

Bitte am PC mit Windows anmelden!

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Universität Osnabrück

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Univariate explorative Datenanalyse in R

Kapitel 1: Deskriptive Statistik

Aufgaben zu Kapitel 1

Statistik und Wahrscheinlichkeitsrechnung

Projektarbeit. Projektarbeit. Angewandte Methoden zur Beurteilung der Materialeigenschaften von Bauholz

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Kapitel 35 Histogramme

Bivariate explorative Datenanalyse in R

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

BOXPLOT 1. Begründung. Boxplot A B C

Kapitel 1: Deskriptive Statistik

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

Ergebnisse VitA und VitVM

Biometrisches Tutorial III

Aufgaben zu Kapitel 1

Tabellen und Abbildungen Dr. Z. Shi Wiss. Arbeiten

3. Deskriptive Statistik

Statistische Software (R)

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

10. Medizinische Statistik

IDEE DER STATISTIK: Variabilität (Erscheinung der Natur) durch. Zufall (mathematische Abstraktion) modellieren.

Ü B U N G S S K R I P T S T A T I S T I K

LV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter)

Wahrscheinlichkeits - rechnung und Statistik

Deskriptive Statistik

Zufallsauswahl mit R

Phallosan-Studie. Statistischer Bericht

Übung 1 im Fach "Biometrie / Q1"

1. Datei Informationen

Wolfgang Kohn Riza Öztürk. Statistik für Ökonomen. Datenanalyse mit R und SPSS. 3., überarbeitete Auflage. 4^ Springer Gabler

WS 1.1 Aufgabenstellung: Lösung:

Forschungsstatistik I

Grafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen

Anforderungen an die Benchmarking-Berichte und den zusammenfassenden Jahresbericht. Inhalt

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Artikelaufbau. Gliederung

Aufgaben. Frage: (Aufgabe 3) Warum findet R den Befehl approx.r nicht?

Hinweise zum Verfassen von Bachelor- und Masterarbeiten

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Universität Hildesheim, Institut für Sozialwissenschaften, Fach Soziologie

Inhaltsbereich Wahrscheinlichkeit und Statistik

Inhaltsverzeichnisse

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Kapitel 25 Checklisten für die Beurteilung psychologischer Gutachten durch Fachfremde

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

UE Angewandte Statistik Termin 2 deskriptive Darstellungsmöglichkeiten

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

SPSS (20.0) Hilfe Version 1

Verfahren für metrische Variable

Musterlösung zur Übungsklausur Statistik

Statistik I für Betriebswirte Vorlesung 9

Inhalt. Übersicht über das Gerät 6. Die Hauptanwendung "Main" 7. Das Interaktivmenü 10. Variablen und Funktionen 15

Leitfaden zur Erstellung der Masterarbeit in der Erziehungswissenschaft Schwerpunkt Sozialpädagogik

Deskriptive Statistik

2. Deskriptive Statistik

Simulation einer Binomialverteilung

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2008/2009. Aufgabe 1

Statistik für Ökonomen

Wie bekomme ich einen schnellen Überblick über die bereits eingegebenen Daten?

Deskriptive Statistiken

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt

Tabellengestaltung nach APA-Standard

Statistik und Wahrscheinlichkeitsrechnung

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

1 Einleitung und Grundlagen 1

1 Univariate Statistiken

Bivariate explorative Datenanalyse in R

Testen von Unterschiedshypothesen mit parametrischen Verfahren Der t-test

5 Exkurs: Deskriptive Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

LÖSUNG 2C a. Bei HHEINK handelt es sich um eine metrische Variable.

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Inhaltsverzeichnis. Teil I Einführung

Friedrich-Ebert-Schule Brunhildenstraße Wiesbaden. Leitfaden zur Anfertigung von Projektdokumentationen

Über den Autor 7. Einführung 21

Übungen mit dem Applet Rangwerte

Übungsaufgabe Parameter und Verteilungsschätzung

Statistik K urs SS 2004

Wahrscheinlichkeitsrechnung und Statistik

Transkript:

Projektarbeit UE Angewandte Statistik I MBIOB 17 Sommersemester 2015 Projektgruppe: Namen der Teammitglieder: Aufteilung der Projektarbeit auf die einzelnen Teammitglieder: Datum:

Seite 2 von 7 Inhalt 1. Aufgabenstellung und Klassifikation des Problems... 3 2. Methoden... 3 3. Ergebnisse... 3 4. Schlussbemerkung/ Diskussion... 6 5. Referenzen... 6 6. Anhang... 6 Allgemeine Anmerkungen zum Verfassen des Berichts - In Projektberichten werden in knapper Form die Lösungen der in den Aufgaben gestellten Fragen protokolliert. Trotz der gebotenen Kürze ist der Projektbericht aber keine Abhandlung in Schlagworten, sondern ein in vollständigen Sätzen abgefasster Text, ergänzt durch mathematische Absätze, Tabellen und Grafiken. - Es ist die gängige Praxis, dass zur Lösung von statistischen Problemen einschlägige Software (wie z.b. R) verwendet wird. Trotz der Bedeutung der Software für die Problemlösung werden R-Anweisungen nicht in den Hauptteil des Berichtes aufgenommen, sondern nur im Anhang angeführt. - Fokus der Projektarbeit ist nicht das Arbeiten mit der Software R, sondern die Anwendung statistischer Methoden sowie die Dokumentation der statistischen Auswertung. Dementsprechend sind die angewendeten statistischen Methoden im Projektbericht so darzustellen, dass sie auch ohne Kenntnis der Software R verständlich sind. Dies bedeutet im Besonderen, dass im Hauptteil des Projektberichts softwareorientierten Formulierungen (wie z.b. Die Erfolgsrate wurde aus der Stichprobe geschätzt und ein 95%iges Konfidenzintervall für die Erfolgsrate mit der R-Funktion binom.test berechnet. ) zu vermeiden und durch methodenorientierte Formulierungen (wie Die Erfolgsrate wurde aus der Stichprobe geschätzt und ein exaktes 95%iges Clopper-Pearson-Konfidenzintervall für die Erfolgsrate berechnet. ) zu ersetzen sind. (Dass die Berechnung dieses Konfidenzintervalls mit der Funktion binom.test() durchgeführt wurde, kann im Anhang näher kommentiert werden.)

Seite 3 von 7 1. Aufgabenstellung und Klassifikation des Problems Dieser Abschnitt beinhaltet: Die Aufgabenstellung (ohne Daten) Eine kurze Beschreibung der Fragestellung - Worum geht es grundsätzlich? (Datenbeschreibung, Parameterschätzung) Was sind die Untersuchungseinheiten? Wie viele Untersuchungseinheiten gibt es (Stichprobengröße) Beschreibung der Variablen im Datensatz (z.b. wie viele Variablen wurden erhoben, handelt es sich jeweils um ein qualitatives/ quantitativ diskretes/ quantitativ stetiges Merkmal? Was sind die Untersuchungsmerkmale?) Ist die Stichprobe gegliedert? (Was sind die Gliederungsmerkmale?) 2. Methoden Hier geht es um die Auswahl der für die jeweilige Problemstellung zweckmäßigen Lösungsmethoden. Die Auswahl erfolgt auf der Grundlage einer detaillierten Problemanalyse. Typische Fragen sind dabei: Was kann über die Verteilung der Untersuchungsmerkmale ausgesagt werden? Stehen die empirischen Verteilungen in Widerspruch zu den angenommenen Modellverteilungen? Welche grafischen Instrumente können zur Beurteilung herangezogen werden? Sind Verteilungsparameter zu schätzen? Wenn ja, mit welchen Stichprobenfunktionen werden die Schätzungen vorgenommen? Womit kann man die Genauigkeit der Schätzungen ausdrücken? Ist die mit den Daten erreichbare Genauigkeit zufriedenstellend? Wie kann gegebenenfalls die Genauigkeit verbessert werden? Mit welcher Software werden die Auswertungen durchgeführt? Bei der Verwendung von R ist die Version anzuführen. Diese kann beim Öffnen der R-Konsole in der ersten Zeile abgelesen werden. Zusätzlich sollte R zitiert und die genaue Literaturangabe in den Referenzen angeführt werden. Die genaue Literaturangabe kann in der R-Konsole mit dem Befehl citation() aufgerufen werden. (z.b. Die statistische Auswertung erfolgte mit der Software R 3.0.2 (R Development Core Team, 2013) ) 3. Ergebnisse Über die Ergebnisse ist im Text in vollständigen Sätzen, ergänzt durch Tabellen und Grafiken, zu berichten. Ein Hineinkopieren von Software-Outputs oder Screenshots ist unüblich und zu vermeiden. Zur besseren Übersicht empfiehlt es sich, deskriptive Statistiken in tabellarischer Form anzuführen. Man beachte im Besonderen, dass die betrachteten

Seite 4 von 7 Merkmale häufig dimensionsbehaftet sind: Ergebnisse ohne Angabe der entsprechenden Einheiten sind unbrauchbar. In Grafiken sind die Achsen mit den jeweils dargestellten Größen zu beschriften und die Einheiten anzugeben (z.b. Alter in Jahren, Gewicht in kg, Wirkstoffkonzentration in mg/l usw.) Speziell sind folgende Punkte zu beachten: 3.1. Beschreibung der Stichprobe Bei der Beschreibung der Stichprobe durch deskriptive Statistiken sollten gegliederte Datensätze berücksichtigt werden und allfällige fehlende sowie extreme Werte hervorgehoben werden. 3.2. Tabellen Tabellen sind durch zu nummerieren und mit einem Text (oberhalb der Tabelle) zu ergänzen. Der Tabellentext hat eine kurze inhaltliche Beschreibung zu enthalten (z.b. Deskriptive Statistiken) sowie allenfalls verwendete Abkürzungen zu erklären (z.b. Q1 1. Quartil). Was die Tabelle aussagt, ist im Berichtstext mit einem entsprechenden Verweis auf die jeweilige Tabelle darzustellen. Beispiel: Verweis im Berichtstext z.b.: Wichtige Kennzahlen zur Beschreibung der Stichprobe sind in Tabelle 1 angeführt. Tabelle 1. Deskriptive Statistiken (n Fallzahl, NA fehlende Werte, SD Standardabweichung, min Minimum, max Maximum, Q1 1. Quartil, Q3 3. Quartil) Variable Geschlecht n NA Mittelwert SD Min Q1 Median Q3 Max Alter (Jahre) männlich 30 0 47.5 12.7 13.7 39.0 46.9 56.0 72.8 weiblich 20 0 35.2 9.7 17.3 28.0 36.7 42.6 55.2 Gewicht (kg) männlich 28 4 76.7 12.2 57.3 67.4 79.9 84.2 104.5 weiblich 19 1 59.6 6.9 47.2 56.3 59.8 62.9 71.7 Größe (m) männlich 28 4 1.80 0.12 1.58 1.71 1.78 1.90 2.04 weiblich 18 2 1.67 0.05 1.60 1.63 1.68 1.70 1.74 3.3. Abbildungen Abbildungen sind Instrumente, um verbale Ausführungen im Berichtstext zu veranschaulichen. Um gezielte Verweise auf Abbildungen zu ermöglichen, werden auch die Abbildungen unabhängig von den Tabellen durchnummeriert. Bei Abbildungen wird die Legende (der Abbildungstext) unter die Grafik gesetzt. Legende und Grafik dürfen nicht durch einen Seitenumbruch getrennt werden.

Seite 5 von 7 Werden zwei Grafiken einander gegenübergestellt (z.b. Histogramme über das Alter der Männer vs. Alter der Frauen), so sollten die Achsen angeglichen werden, d.h. die Achsen sollten in beiden Grafiken über denselben Wertebereich gehen und bei Histogrammen sollte für die beiden Grafiken die gleiche Klasseneinteilung vorgenommen werden, um einen direkten Vergleich zu ermöglichen. Bei einer ungleichen Anzahl von Beobachtungen in den beiden zu vergleichenden Datensätzen empfiehlt es sich, die relative Häufigkeit (bei diskreten Merkmalen) bzw. die Dichte (bei stetigen Merkmalen) anstelle der absoluten Häufigkeit darzustellen (siehe Abbildung 1). Bei Boxplots besteht die Möglichkeit, beide Boxplots in eine Grafik zu stellen (siehe Abbildung 2). R-spezifische Anmerkungen zum Erstellen von Grafiken: Achsenbeschriftung: Die Achsenskalierung der y-achse bzw. x-achse kann mit den Argumenten ylim bzw. xlim verändert werden. Die Beschriftung der y-achse erfolgt generell in R mit dem Argument ylab, die Beschriftung der x-achse mit dem Argument xlab. Speziell für Boxplots können mit dem Argument names einzelne Boxplots beschriftet werden. (z.b. boxplot(alter, ylab= Alter (Jahre), xlab= Geschlecht, names=c( männlich, weiblich )). Bei Histogrammen können benutzerdefinierte Klassen durch das Argument breaks erstellt werden (z.b. hist(alter[geschlecht==1],xlab== Alter (Jahre) der Männer, ylab= Klassenhäufigkeitsdichte, breaks= seq(10,80,10), ylim=c(0,0.04),freq=f). Eine in R erstellte Grafik kann entweder mit copy und paste in word eingefügt werden oder z.b. mit den R-Befehlen jpeg("grafik.jpeg") boxplot(y) dev.off() als Grafik im aktuellen Arbeitsverzeichnis abgespeichert werden und in word mit Einfügen Grafik eingefügt werden (Das aktuelle Arbeitsverzeichnis kann mit der R-Funktion getwd() aufgerufen und mit der R-Funktion setwd() oder über den Menüpunkt Datei- Verzeichnis wechseln geändert werden.) Klassenhäufigkeitsdichte 0.00 0.01 0.02 0.03 0.04 Klassenhäufigkeitsdichte 0.00 0.01 0.02 0.03 0.04 10 20 30 40 50 60 70 80 Alter(Jahre) der Männer 10 20 30 40 50 60 70 80 Alter(Jahre) der Frauen Abbildung 1. Altersverteilung der Männer (links, n = 30) und Frauen (rechts, n = 20)

Seite 6 von 7 Alter (Jahre) 20 30 40 50 60 70 männlich weiblich Geschlecht Abbildung 2. Boxplot über das Alter (in Jahren) der Männer (links, n = 30) und Frauen (rechts, n = 20). 4. Schlussbemerkung/ Diskussion In diesem Abschnitt werden die Ergebnisse in kurzen prägnanten Sätzen zusammengefasst und die Hauptaussagen formuliert. In der Diskussion wird zum Ausdruck gebracht, ob die eingangs präzisierten Fragestellungen durch die Ergebnisse beantwortet werden, wie die Antworten lauten bzw. warum eine Beantwortung nicht möglich ist. 5. Referenzen In diesen Abschnitt werden die Literaturangaben gestellt. Die Referenzen werden als nummerierte Liste angeführt. Die einzelnen Literaturangaben beinhalten jeweils die Namen des Autors/ der Autoren, die Jahreszahl, den Titel des Artikels/ Buches, das Journal bei einem Artikel bzw. den Verlag in dem das Buch erschienen ist, sowie die Seitenzahl der Seite(n) aus der/denen das Zitat entnommen wurde. Bei Internetquellen wird der genaue link angeführt, sowie das Datum an dem die Seite abgerufen wurde. 6. Anhang In den Anhang wird der vollständige strukturierte R-Code hineingestellt. Dabei sollte beachtet werden, dass alle Berechnungen und ggf. Kommentare, die im Anhang enthalten sind, auch im Bericht erwähnt werden sollten. Der Anhang dient nur dazu, den genauen Rechengang

Seite 7 von 7 der Berechnungen verfolgen zu können, die im Methoden- und Ergebnisteil beschrieben werden. Wird also beispielsweise im Anhang die R-Funktion fivenum()angeführt, so sollten die entsprechenden deskriptiven Statistiken auch im Ergebnisteil in Abschnitt 3 aufscheinen. Wird neben den R-Code ein Kommentar eingefügt, warum ein bestimmter Befehl verwendet wurde, so sollten diese Überlegungen auch bei der Beschreibung der Methoden in Abschnitt 2. berücksichtigt werden.