Wissenschaftliche Grundlagen und allgemeine Fähigkeiten I

Ähnliche Dokumente
Datenerfassung und Datenmanagement

Einführung. 2. Sie entstehen erst durch Beobachtung, Erhebung, Befragung, Experiment

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Wie bekomme ich einen schnellen Überblick über die bereits eingegebenen Daten?

Angewandte Statistik 3. Semester


Daten, Datentypen, Skalen

Übung 1 im Fach "Biometrie / Q1"

3. Merkmale und Daten

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

'+4 Elisabeth Raab-Steiner / Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 4., aktualisierte und überarbeitete Auflage

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Dateneingabe und -aufbereitung

Wahrscheinlichkeitsrechnung und Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Forschungsmethoden in der Sozialen Arbeit

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung

Statistik II: Grundlagen und Definitionen der Statistik

Variablen und Skalenniveaus

Kurzanleitung für SPSS Statistics 22

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

Statistische Grundlagen I

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

I.3. Computergestützte Methoden 1. Deskriptive Statistik. Master of Science Prof. Dr. G. H. Franke WS 2009/ 2010

Quantitative Methoden der Agrarmarktanalyse und des Agribusiness

Bitte am PC mit Windows anmelden!

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Deskriptive Statistik

Planung der Dateneingabe

Einführung in Quantitative Methoden

3. Deskriptive Statistik

1. Tutorial. Online-Tutorium-Statistik von T.B.

Eigene MC-Fragen SPSS

3. Lektion: Deskriptive Statistik

Fachrechnen für Tierpfleger

Grundlagen der Datenanalyse anhand praktischer Beispiele

INHALTSVERZEICHNIS. Einleitung 15. Kapitel 1 : Der Forschungsprozeß 17

Biometrisches Tutorial III

Statistiktutorium (Kurs Frau Jacobsen)

Statistik. Herzlich willkommen zur Vorlesung. Grundlagen Häufigkeiten Lagemaße Streuung Inferenzstatistik Kreuztabellen Gruppenunterschiede

Einige Grundbegriffe der Statistik

Univ.-Prof. Dr. Georg Wydra Methoden der Physiotherapie II Elemente einer empirischen Arbeit

Gundlagen empirischer Forschung & deskriptive Statistik. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Deskriptive Statistik Erläuterungen

Planung statistischer Erhebungen

Marold Wosnitza & Reinhold S. Jäger (Hrsg.) Daten erfassen, auswerten und präsentieren - aber wie?

Forschungsstatistik I

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Auswertung statistischer Daten 1

Skalenniveaus =,!=, >, <, +, -

Inhaltsverzeichnis. Teil I Einführung

1 Univariate Statistiken

Statistische Messdatenauswertung

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Einführung B ( )

Elisabeth Raab-Steiner/ Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 3., aktualisierte und überarbeitete Auflage

Einführung in Quantitative Methoden

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

QUANTITATIVE VS QUALITATIVE STUDIEN

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10

LV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter)

0 Einführung: Was ist Statistik

Statistik Grundbegriffe

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

STATISIK. LV Nr.: 0021 WS 2005/06 11.Oktober 2005

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Einführung in die Statistik mit R

Angewandte Marktanalyse und Marktforschung

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Stichwortverzeichnis. Symbole

Schließende Statistik

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

10. Medizinische Statistik

Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen

Statistik K urs SS 2004

Teil: lineare Regression

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Statistische Tests

Wie SAS die Datentabelle haben möchte

Der χ2-test Der χ2-test

Wolf-Gert Matthäus, Jörg Schulze. Statistik mit Excel. Beschreibende Statistik für jedermann. 3./ überarbeitete und erweiterte Auflage.

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Statistische Methoden der Qualitätssicherung

Tabellarische und Graphische Darstellung des Materials

Transkript:

Wissenschaftliche Grundlagen und allgemeine Fähigkeiten I Statistische Datenanalyse am PC Univ.-Prof. DI Dr. Andrea Berghold Institut für medizinische Informatik, Statistik und Dokumentation andrea.berghold@medunigraz.at

Einführung in die Statistik In vielen Gebieten des öffentlichen Lebens, in der Wirtschaft, der Verwaltung, der Industrie, der Forschung, in der Medizin etc. werden Entscheidungen auf der Grundlage von bestimmten Daten getroffen. Wir können somit Daten ganz allgemein als ein Material verstehen, auf dessen Grundlage Informationen gewonnen und Schlußfolgerungen gezogen werden. Wie kommt man zu Daten? Sie sind bereits da aufgezeichnet in administrativen Registern, gespeichert auf Bändern und anderen Datenträgern; Vorliegen von Krankengeschichten, Krankheitsregistern etc. Sie entstehen erst durch Beobachtung, Erhebung, Befragung, Experiment

Einführung in die Statistik Doch reicht es nicht aus, schlechthin Daten über einen Gegenstand zu sammeln, sondern man muß objektiv beurteilen können, welche Schlüsse auf Basis der vorliegenden Daten überhaupt gerechtfertigt sind. STATISTIK Statistik ist eine Zusammenfassung von Methoden, die uns erlauben, im Fall von Ungewißheit vernünftige und optimale Entscheidungen zu treffen (Abraham Wald 1902-1950)

Evidenz, Statistik und wissenschaftliches Arbeiten Statistik in der Medizin biologische Variabilität, Messungenauigkeit Biologische Daten sind dadurch gekennzeichnet, dass Beobachtungen an lebenden Objekten so gut wie nie die gleichen Ergebnisse liefern, wenn man sie wiederholt. Jedes Resultat ist mit einer Variabilität verbunden. Damit sind Voraussagen oder allgemein Entscheidungen niemals mit Gewissheit zu treffen, sondern stets mit einem gewissen Risiko behaftet (Wahrscheinlichkeitsaussagen). Objektivierung von Ergebnissen ( Evidenzbasierte Medizin )

Biostatistik (Medizinische Statistik) Biostatistik hat sich als eigenes Fachgebiet etabliert, das statistische Probleme behandelt, die sich aus medizinischen Fragestellungen ergeben. Im wesentlichen umfasst dies: Planung und Durchführung von medizinisch-wissenschaftlichen Studien (Wie komme ich zu adäquaten Daten?) Datenanalyse mit statistischen Methoden (Was mache ich mit diesen Daten?) Verwandte Begriffe sind Biometrie oder Biomathematik.

Wissenschaftliche Untersuchung 1. Systemanalyse Formulierung des Problems (führt zu Hypothesen, Annahmen) Literaturstudium, Diskussion mit Fachleuten etc. 2. Untersuchungsplanung Modellbildung Versuchs- und Erhebungsplanung 3. Durchführung Fragenkatalog, Protokoll, Aufwand Daten sammeln und überprüfen 4. Datenanalyse Statistische Auswertungen, Graphiken und Maßzahlen Darlegung und kritische Interpretation der Resultate 5. Entscheidungen und Schlußfolgerungen Diskussion der neuen Informationen neue Fragen

Ablauf einer Studie Untersuchung Planen Interpretieren Daten Erheben Daten Auswerten

Datenanalyse: Teilbereiche der Statistik Deskriptive Statistik Aufgabe der deskriptiven (beschreibenden) Statistik ist es, Methoden zur Aufbereitung und Darstellung von Daten zur Verfügung zu stellen (Kennzahlen, grafische Darstellungen). Das Ergebnis ist eine Statistik. Explorative Statistik Die explorative Statistik unterwirft Daten, über deren Gesetzmäßigkeiten noch wenig bekannt ist, verschiedenen Verfahren, um Zusammenhänge und Strukturen zu finden. Inferenz-Statistik (analytische, schließende Statistik) Die analytische Statistik schließt anhand geeigneter Beobachtungsdaten (=Zufallsstichproben) auf allgemeine Gesetzmäßigkeiten.

Begriffe und Definitionen Merkmal: Gegenstand einer statistischen Analyse sind Beobachtungseinheiten, die durch Merkmale oder Variable charakterisiert sind. Geforderte Merkmalseigenschaften: Objektivität Zuverlässigkeit Gültigkeit Beobachtungseinheit - Merkmalsträger Das Objekt der Untersuchung wird als Beobachtungseinheit bezeichnet (Patienten, Probanden, Tiere, biologisches Material: z.b.urin, Blut). Merkmalsausprägungen: Werte, die ein Merkmal annehmen kann, heißen Ausprägungen des Merkmals.

Zuverlässigkeit - Reliability Sind die Messungen wiederholbar? zuverlässig Nicht zuverlässig

Gültigkeit - Validity Wird gemessen, was gemessen werden sollte? Valide Nicht Valide

Nicht zuverlässig, nicht valide

Datenskalen Informationsgehalt Nominalskala Ordinalskala Metrische Skalen Intervallskala Verhältnisskala

Nominalskala Klassifikation oder Name (Aufzählung) Farben, Kategorien, Postleitzahlen, Autonummern männlich / weiblich rot / schwarz / grün /... Kodierung: Zahlen oder Text (0/1, m/f, ja/nein) kein Abstand definiert, keine natürliche Ordnung Relative Häufigkeiten, Prozentwerte Lagemass: Modalwert (=häufigster Wert)

Ordinalskala Rang oder Rating Präferenzen, Schweregrad einer Krankheit (Schul-)Noten, Ratings Kodierung: (ganze) Zahlen Größer-kleiner-Relation, natürliche Ordnung Kein Abstand definiert, Größenvergleich Lagemass: Median (Zentralwert)

Intervallskala (Meistens) äquidistante Intervalle. Temperatur (Grad Celsius, Grad Fahrenheit) Dioptrien Kodierung: Zahlen zur Darstellung der Intervalle. Abstand ist definiert Nullpunkt beliebig gewählt (Grad Celsius) Lagemass: arithmetischer Mittelwert

Verhältnisskala Relative Messungen. Entfernung in km Alter Kodierung: Zahlen Absoluter Nullpunkt (Grad Kelvin) Verhältnisse können gebildet werden Lagemass: Mittelwert, beim Vergleich von Verhältnissen auch geometrischer Mittelwert

Eine Fragestellung = mehrere Skalen z.b. Einkommen Zu welcher Gruppe gehören Sie: Ohne eigenes Einkommen,Kleinverdiener, Mittelstand, Millionär? Ist Ihr Einkomen kleiner als 700, 700-5000, oder größer als 5000? Welche Kategorie beschreibt Ihr Einkommen am besten: 0-700, 701-1500, Wie hoch war Ihr Einkommen im letzten Jahr? z.b. Cholesterin normal / erhöht 195

Begriffe und Definitionen Grundgesamtheit - Stichprobe Grundgesamtheit bzw. Population: Voll- oder Totalerhebung: Volkszählung Stichprobe: repräsentativ - Zufalls- oder Random-Verfahren

Datenerfassung und Datenmanagement Die zu erhebenden Daten werden im Regelfall in Form einer Tabelle dargestellt. Als Basis für alle Auswertungen wird eine sogenannte Datenmatrix - eine Tabelle, die alle Daten einer Studie enthält - erstellt. Dazu eignet sich ein Tabellenkalkulationsprogramm wie z.b. MS EXCEL, das in der Folge auch für grundlegende Auswertungen und Grafiken verwendet werden kann, aber auch ein Datenbankprogramm oder ein Statistikprogramm.

Statistikprogramme Statistische Auswertungssysteme sind heute eine aus der angewandten Statistik nicht mehr wegzudenkende Hilfe. Dies gilt insbesondere für folgende Aufgabenbereiche: - die Auswertung großer, komplex gegliederter Datenmengen - multivariate Struktur der Daten - rechenintensive Auswertungsmethoden - ständig wiederkehrende Auswertungen mit jeweils neuem Datenbestand oder mit Bewegungsdaten - numerische Verfahren, komplexe Algorithmen - graphische Aufbereitungen statistischen Datenmaterials (Visualisierung, Präsentation)

Statistikprogramme Statistik-Software: - allgemeine statistische Softwarepakete: SAS, SPSS, STATGRAPHICS, S-PLUS, R... - spezielle Pakete: STATXACT (exakte Tests), PASS, nquery Advisor (Fahlzahlschätzung)...

Datenstruktur Grundlegende Struktur Jedes Programm erwartet Eingabedaten in einer bestimmten Form, Struktur und Abfolge. Die gängigen Auswertungssysteme basieren auf einer einheitlichen, rechteckigen Datenstruktur, der sogenannten Datenmatrix. Bei der Datenmatrix sollte jede Beobachtungseinheit (z.b. Fälle, Probanden, Versuchstiere) genau einer Zeile, die Merkmale (Variablen: z.b. Alter, Gewicht, Blutdruck) den Spalten der Datei entsprechen. Beispiel: Patient Alter Geschl Gewicht SBD DBD 1 25 1 75 120 85 3 34 1 80 130 80 4 56 2 145 90 6 71 2 52 150 95 Diese Datei besteht aus 4 Beobachtungseinheiten (Patienten) und 6 Variablen. Bei Patient 4 wurde das Gewicht nicht bestimmt.

Datenstruktur Mehrere Messungen pro Beobachtungseinheit Liegen mehrere Messungen pro Beobachtungseinheit vor (z.b. wiederholte Messungen des Blutdrucks im Laufe einer Therapie), sollte für jede dieser Messungen eine Spalte angelegt werden. Beispiel: Patient SBD1 DBD1 SBD2 DBD2 1 120 85 120 80 3 130 80 125 80 4 145 90 130 90 6 150 95 135 90 Hier gibt es also zwei Messungen für den systolischen und den diastolischen Blutdruck. Oft wird auch der Zeitpunkt der Messung miterfaßt.

Datenstruktur Aufteilung in mehrere Dateien Zum Zwecke der Übersichtlichkeit kann es unter Umständen sinnvoll sein, den Gesamtdatenbestand auf mehrere Dateien aufzuteilen (z. B. Datei 1: demographische Angaben; Datei 2: Blutdruckwerte; Datei 3: Laborwerte). Dabei ist darauf zu achten, daß jede dieser Dateien nach dem oben beschriebenen Muster aufgebaut ist. Um Dateien für eine gemeinsame Auswertung kombinieren zu können, ist es wesentlich, daß in allen Dateien eine einheitliche und eindeutige Identifikationsvariable (wie z.b. die Patientennummer) existiert. Beispiel: Patient Alter Geschl Gewicht 1 25 1 75 3 34 1 80 4 56 2 6 71 2 52 Datei 1 Datei 2 Patient Neutro Eos Baso Lympho Mono 1 60 1 0 33 6 3 62 2 1 32 3 4 58 3 0 32 7 6 56 2 1 35 6

Datenstruktur Mehrfachantworten Sind Mehrfachantworten auf eine Frage möglich, so ist für jede Antwortmöglichkeit in der Datenmatrix eine Ja/Nein-Antwort vorzusehen. Beispiel: Patnr Diag1 Diag2 Diag3 Patnr Diagnose Richtig: 1 0 0 1 Falsch: 1 3 2 1 1 0 2 1 und 2

Anforderungen an Statistik-Software Ein statistisches Auswertungssystem muß im Hinblick auf statistische Prozeduren, die einen bestimmten Aufbau der Eingabedaten erfordern, in der Lage sein, die Daten entsprechend aufzubereiten. Ein statistisches Auswertungssystem benötigt ein Datenmanagementsystem, das es ermöglicht, komplexe Beziehungen zwischen den Beobachtungseinheiten darzustellen und zu beschreiben und das die gespeicherten Daten den statistischen Verfahren in geeigneter Weise zugänglich macht und den Prozeß der statistischen Auswertung steuert. ein Analysesystem, das das Repertoire der statistischen Verfahren beinhaltet. Präsentationsmöglichkeiten (Grafiken, Tabellen etc.)

Anforderungen an Statistik-Software Die statistische Auswertung besteht zumeist aus einer Abfolge von Datenmanagementoperationen und Statistikprozeduren: Beispiel: <Datenmanagement> <Statistikprozedur> <Datenmanagement> <Statistikprozedur> <Datenmanagement> <Statistikprozedur> Nehme alle Probanden Ermittle Mittelwert Körpergröße Restriktion Nichtraucher Ermittle Mittelwert Körpergröße bei Nichtrauchern Nehme alle Probanden Korrelation Körpergröße - Körpergewicht

Dateneingabe Zur Dateneingabe bieten sich 2 Möglichkeiten an: Eingabe der Daten direkt im Statistikpaket Verwendung von anderen Programmen zur Dateneingabe (z.b. MS-Excel, MS-Access etc.) Hinweis: Verwendet man ein anderes Programm zur Dateneingabe als für die Datenauswertung, so ist schon vorher darauf zu achten, ob die Daten problemlos in das nachher verwendete Statistikpaket übernommen werden können!

Dateneingabe - Einige Richtlinien Struktur der Datenmatrix: Die Variablennamen der Datenmatrix müssen in der ersten Zeile stehen. Abgesehen von dieser ersten Zeile darf die Tabelle nur Datenwerte enthalten (keine Zwischenresultate, Formeln, Graphiken, etc...). Die Beobachtungen (z.b: Patienten) stehen in den Zeilen, die Variablen stehen in den Spalten einer einzigen Tabelle. Die erste Variable soll die eindeutige Patientenkennung enthalten (z.b: Patnr).

Dateneingabe - Einige Richtlinien Codierungen Die Merkmalsausprägungen (=Einträge in die Datei) sollten in numerischer Form vorliegen. Um flexible Analysen zu ermöglichen, ist es sinnvoll bei alphanumerischen Merkmalsausprägungen (z.b. weiblich, männlich) mit numerischen Codierungen (z.b. 1,2) zu arbeiten. Manche Programme erlauben eine automatische Konvertierung von alphanumerischen zu numerischen Codierungen. Geordnete Merkmale sollen aufsteigend (ordnungserhaltend) vercodet werden. Codes für die gleichen Antwortkategorien sollen für alle Variablen gleich sein z.b: 0=nein, 1=ja.

Dateneingabe - Einige Richtlinien Werte In den Zellen dürfen nur Zahlen stehen und keine Maßeinheiten. Daher muß die gewählte Maßeinheit pro Variable für alle Eintragungen einheitlich sein. Bsp: Gewicht: 73 und nicht 73 kg. Im Falle fehlender Werte (missings) ist die entsprechende Zelle leer zu lassen (keine Leerzeichen, Nullen, etc...) bzw. ein Wert zu verwenden, der in den theoretisch möglichen Beobachtungen nicht vorkommt. Bsp.: Gewicht: -999; Statistikpakete erlauben oft die Eingabe eines Punktes (Kommas) für fehlende Werte (system missing) Zahlen sollen ohne "1000er-Trennzeichen" eingegeben werden. Bsp: 2303493 und nicht 2.303.493. Datumsvariablen müssen im Datumsformat sein. Bsp: 15. Oktober 1996 Eingabe 15.10.1996.

Dateneingabe - Einige Richtlinien Variablennamen Variablennamen sollten sprechend sein. Es sollten nur Buchstaben von A-Z, Ziffern von 0-9 und Underliner _ verwendet werden. Das erste Zeichen sollte ein Buchstabe sein. Groß- und Kleinschreibung wird nicht unterschieden. Jeder Variablenname darf nur 1x verwendet werden.

Überprüfung der Daten bei der Datenerfassung: doppelte Dateneingabe Vorschalten von Plausibilitätskontrollen (Filter): z.b. Alter > 15 und Alter < 90 formale Prüfung der Daten: Bei der formalen Prüfung der Daten ist festzustellen, ob die erfaßten Daten mit dem im Codierplan angegebenen Wertebereich und der festgelegten Codierung übereinstimmen. Oft läßt eine optische Sichtung des Datenmaterials Erfassungsfehler erkennen (z.b. eine Zelle der Matrix wurde nicht ausgefüllt; in der Datei befinden sich unzulässige, nicht interpretierbare Zeichen).

Überprüfung der Daten Weiters sollte überprüft werden, welche Merkmalsausprägungen aus dem normalen Wertebereich herausfallen, ob es Ausreißer gibt etc: Für jede metrische Variable etwa durch eine sortierte Liste, die alle Ausprägungen der Variablen enthält eine Tabelle mit deskriptiven Maßzahlen (z.b. Mittelwert, Median, Minimum, Maximum etc.) Scatterplots für ausgewählte metrische Variablen (Untersuchung der Merkmale auf ihre Plausibilität zueinander. Bsp.: Gewicht: 60 kg, Größe:196 cm) Für jede kategorielle Variable mit einer Häufigkeitstabelle aller Ausprägungen.