Wissenschaftliche Grundlagen und allgemeine Fähigkeiten I Statistische Datenanalyse am PC Univ.-Prof. DI Dr. Andrea Berghold Institut für medizinische Informatik, Statistik und Dokumentation andrea.berghold@medunigraz.at
Einführung in die Statistik In vielen Gebieten des öffentlichen Lebens, in der Wirtschaft, der Verwaltung, der Industrie, der Forschung, in der Medizin etc. werden Entscheidungen auf der Grundlage von bestimmten Daten getroffen. Wir können somit Daten ganz allgemein als ein Material verstehen, auf dessen Grundlage Informationen gewonnen und Schlußfolgerungen gezogen werden. Wie kommt man zu Daten? Sie sind bereits da aufgezeichnet in administrativen Registern, gespeichert auf Bändern und anderen Datenträgern; Vorliegen von Krankengeschichten, Krankheitsregistern etc. Sie entstehen erst durch Beobachtung, Erhebung, Befragung, Experiment
Einführung in die Statistik Doch reicht es nicht aus, schlechthin Daten über einen Gegenstand zu sammeln, sondern man muß objektiv beurteilen können, welche Schlüsse auf Basis der vorliegenden Daten überhaupt gerechtfertigt sind. STATISTIK Statistik ist eine Zusammenfassung von Methoden, die uns erlauben, im Fall von Ungewißheit vernünftige und optimale Entscheidungen zu treffen (Abraham Wald 1902-1950)
Evidenz, Statistik und wissenschaftliches Arbeiten Statistik in der Medizin biologische Variabilität, Messungenauigkeit Biologische Daten sind dadurch gekennzeichnet, dass Beobachtungen an lebenden Objekten so gut wie nie die gleichen Ergebnisse liefern, wenn man sie wiederholt. Jedes Resultat ist mit einer Variabilität verbunden. Damit sind Voraussagen oder allgemein Entscheidungen niemals mit Gewissheit zu treffen, sondern stets mit einem gewissen Risiko behaftet (Wahrscheinlichkeitsaussagen). Objektivierung von Ergebnissen ( Evidenzbasierte Medizin )
Biostatistik (Medizinische Statistik) Biostatistik hat sich als eigenes Fachgebiet etabliert, das statistische Probleme behandelt, die sich aus medizinischen Fragestellungen ergeben. Im wesentlichen umfasst dies: Planung und Durchführung von medizinisch-wissenschaftlichen Studien (Wie komme ich zu adäquaten Daten?) Datenanalyse mit statistischen Methoden (Was mache ich mit diesen Daten?) Verwandte Begriffe sind Biometrie oder Biomathematik.
Wissenschaftliche Untersuchung 1. Systemanalyse Formulierung des Problems (führt zu Hypothesen, Annahmen) Literaturstudium, Diskussion mit Fachleuten etc. 2. Untersuchungsplanung Modellbildung Versuchs- und Erhebungsplanung 3. Durchführung Fragenkatalog, Protokoll, Aufwand Daten sammeln und überprüfen 4. Datenanalyse Statistische Auswertungen, Graphiken und Maßzahlen Darlegung und kritische Interpretation der Resultate 5. Entscheidungen und Schlußfolgerungen Diskussion der neuen Informationen neue Fragen
Ablauf einer Studie Untersuchung Planen Interpretieren Daten Erheben Daten Auswerten
Datenanalyse: Teilbereiche der Statistik Deskriptive Statistik Aufgabe der deskriptiven (beschreibenden) Statistik ist es, Methoden zur Aufbereitung und Darstellung von Daten zur Verfügung zu stellen (Kennzahlen, grafische Darstellungen). Das Ergebnis ist eine Statistik. Explorative Statistik Die explorative Statistik unterwirft Daten, über deren Gesetzmäßigkeiten noch wenig bekannt ist, verschiedenen Verfahren, um Zusammenhänge und Strukturen zu finden. Inferenz-Statistik (analytische, schließende Statistik) Die analytische Statistik schließt anhand geeigneter Beobachtungsdaten (=Zufallsstichproben) auf allgemeine Gesetzmäßigkeiten.
Begriffe und Definitionen Merkmal: Gegenstand einer statistischen Analyse sind Beobachtungseinheiten, die durch Merkmale oder Variable charakterisiert sind. Geforderte Merkmalseigenschaften: Objektivität Zuverlässigkeit Gültigkeit Beobachtungseinheit - Merkmalsträger Das Objekt der Untersuchung wird als Beobachtungseinheit bezeichnet (Patienten, Probanden, Tiere, biologisches Material: z.b.urin, Blut). Merkmalsausprägungen: Werte, die ein Merkmal annehmen kann, heißen Ausprägungen des Merkmals.
Zuverlässigkeit - Reliability Sind die Messungen wiederholbar? zuverlässig Nicht zuverlässig
Gültigkeit - Validity Wird gemessen, was gemessen werden sollte? Valide Nicht Valide
Nicht zuverlässig, nicht valide
Datenskalen Informationsgehalt Nominalskala Ordinalskala Metrische Skalen Intervallskala Verhältnisskala
Nominalskala Klassifikation oder Name (Aufzählung) Farben, Kategorien, Postleitzahlen, Autonummern männlich / weiblich rot / schwarz / grün /... Kodierung: Zahlen oder Text (0/1, m/f, ja/nein) kein Abstand definiert, keine natürliche Ordnung Relative Häufigkeiten, Prozentwerte Lagemass: Modalwert (=häufigster Wert)
Ordinalskala Rang oder Rating Präferenzen, Schweregrad einer Krankheit (Schul-)Noten, Ratings Kodierung: (ganze) Zahlen Größer-kleiner-Relation, natürliche Ordnung Kein Abstand definiert, Größenvergleich Lagemass: Median (Zentralwert)
Intervallskala (Meistens) äquidistante Intervalle. Temperatur (Grad Celsius, Grad Fahrenheit) Dioptrien Kodierung: Zahlen zur Darstellung der Intervalle. Abstand ist definiert Nullpunkt beliebig gewählt (Grad Celsius) Lagemass: arithmetischer Mittelwert
Verhältnisskala Relative Messungen. Entfernung in km Alter Kodierung: Zahlen Absoluter Nullpunkt (Grad Kelvin) Verhältnisse können gebildet werden Lagemass: Mittelwert, beim Vergleich von Verhältnissen auch geometrischer Mittelwert
Eine Fragestellung = mehrere Skalen z.b. Einkommen Zu welcher Gruppe gehören Sie: Ohne eigenes Einkommen,Kleinverdiener, Mittelstand, Millionär? Ist Ihr Einkomen kleiner als 700, 700-5000, oder größer als 5000? Welche Kategorie beschreibt Ihr Einkommen am besten: 0-700, 701-1500, Wie hoch war Ihr Einkommen im letzten Jahr? z.b. Cholesterin normal / erhöht 195
Begriffe und Definitionen Grundgesamtheit - Stichprobe Grundgesamtheit bzw. Population: Voll- oder Totalerhebung: Volkszählung Stichprobe: repräsentativ - Zufalls- oder Random-Verfahren
Datenerfassung und Datenmanagement Die zu erhebenden Daten werden im Regelfall in Form einer Tabelle dargestellt. Als Basis für alle Auswertungen wird eine sogenannte Datenmatrix - eine Tabelle, die alle Daten einer Studie enthält - erstellt. Dazu eignet sich ein Tabellenkalkulationsprogramm wie z.b. MS EXCEL, das in der Folge auch für grundlegende Auswertungen und Grafiken verwendet werden kann, aber auch ein Datenbankprogramm oder ein Statistikprogramm.
Statistikprogramme Statistische Auswertungssysteme sind heute eine aus der angewandten Statistik nicht mehr wegzudenkende Hilfe. Dies gilt insbesondere für folgende Aufgabenbereiche: - die Auswertung großer, komplex gegliederter Datenmengen - multivariate Struktur der Daten - rechenintensive Auswertungsmethoden - ständig wiederkehrende Auswertungen mit jeweils neuem Datenbestand oder mit Bewegungsdaten - numerische Verfahren, komplexe Algorithmen - graphische Aufbereitungen statistischen Datenmaterials (Visualisierung, Präsentation)
Statistikprogramme Statistik-Software: - allgemeine statistische Softwarepakete: SAS, SPSS, STATGRAPHICS, S-PLUS, R... - spezielle Pakete: STATXACT (exakte Tests), PASS, nquery Advisor (Fahlzahlschätzung)...
Datenstruktur Grundlegende Struktur Jedes Programm erwartet Eingabedaten in einer bestimmten Form, Struktur und Abfolge. Die gängigen Auswertungssysteme basieren auf einer einheitlichen, rechteckigen Datenstruktur, der sogenannten Datenmatrix. Bei der Datenmatrix sollte jede Beobachtungseinheit (z.b. Fälle, Probanden, Versuchstiere) genau einer Zeile, die Merkmale (Variablen: z.b. Alter, Gewicht, Blutdruck) den Spalten der Datei entsprechen. Beispiel: Patient Alter Geschl Gewicht SBD DBD 1 25 1 75 120 85 3 34 1 80 130 80 4 56 2 145 90 6 71 2 52 150 95 Diese Datei besteht aus 4 Beobachtungseinheiten (Patienten) und 6 Variablen. Bei Patient 4 wurde das Gewicht nicht bestimmt.
Datenstruktur Mehrere Messungen pro Beobachtungseinheit Liegen mehrere Messungen pro Beobachtungseinheit vor (z.b. wiederholte Messungen des Blutdrucks im Laufe einer Therapie), sollte für jede dieser Messungen eine Spalte angelegt werden. Beispiel: Patient SBD1 DBD1 SBD2 DBD2 1 120 85 120 80 3 130 80 125 80 4 145 90 130 90 6 150 95 135 90 Hier gibt es also zwei Messungen für den systolischen und den diastolischen Blutdruck. Oft wird auch der Zeitpunkt der Messung miterfaßt.
Datenstruktur Aufteilung in mehrere Dateien Zum Zwecke der Übersichtlichkeit kann es unter Umständen sinnvoll sein, den Gesamtdatenbestand auf mehrere Dateien aufzuteilen (z. B. Datei 1: demographische Angaben; Datei 2: Blutdruckwerte; Datei 3: Laborwerte). Dabei ist darauf zu achten, daß jede dieser Dateien nach dem oben beschriebenen Muster aufgebaut ist. Um Dateien für eine gemeinsame Auswertung kombinieren zu können, ist es wesentlich, daß in allen Dateien eine einheitliche und eindeutige Identifikationsvariable (wie z.b. die Patientennummer) existiert. Beispiel: Patient Alter Geschl Gewicht 1 25 1 75 3 34 1 80 4 56 2 6 71 2 52 Datei 1 Datei 2 Patient Neutro Eos Baso Lympho Mono 1 60 1 0 33 6 3 62 2 1 32 3 4 58 3 0 32 7 6 56 2 1 35 6
Datenstruktur Mehrfachantworten Sind Mehrfachantworten auf eine Frage möglich, so ist für jede Antwortmöglichkeit in der Datenmatrix eine Ja/Nein-Antwort vorzusehen. Beispiel: Patnr Diag1 Diag2 Diag3 Patnr Diagnose Richtig: 1 0 0 1 Falsch: 1 3 2 1 1 0 2 1 und 2
Anforderungen an Statistik-Software Ein statistisches Auswertungssystem muß im Hinblick auf statistische Prozeduren, die einen bestimmten Aufbau der Eingabedaten erfordern, in der Lage sein, die Daten entsprechend aufzubereiten. Ein statistisches Auswertungssystem benötigt ein Datenmanagementsystem, das es ermöglicht, komplexe Beziehungen zwischen den Beobachtungseinheiten darzustellen und zu beschreiben und das die gespeicherten Daten den statistischen Verfahren in geeigneter Weise zugänglich macht und den Prozeß der statistischen Auswertung steuert. ein Analysesystem, das das Repertoire der statistischen Verfahren beinhaltet. Präsentationsmöglichkeiten (Grafiken, Tabellen etc.)
Anforderungen an Statistik-Software Die statistische Auswertung besteht zumeist aus einer Abfolge von Datenmanagementoperationen und Statistikprozeduren: Beispiel: <Datenmanagement> <Statistikprozedur> <Datenmanagement> <Statistikprozedur> <Datenmanagement> <Statistikprozedur> Nehme alle Probanden Ermittle Mittelwert Körpergröße Restriktion Nichtraucher Ermittle Mittelwert Körpergröße bei Nichtrauchern Nehme alle Probanden Korrelation Körpergröße - Körpergewicht
Dateneingabe Zur Dateneingabe bieten sich 2 Möglichkeiten an: Eingabe der Daten direkt im Statistikpaket Verwendung von anderen Programmen zur Dateneingabe (z.b. MS-Excel, MS-Access etc.) Hinweis: Verwendet man ein anderes Programm zur Dateneingabe als für die Datenauswertung, so ist schon vorher darauf zu achten, ob die Daten problemlos in das nachher verwendete Statistikpaket übernommen werden können!
Dateneingabe - Einige Richtlinien Struktur der Datenmatrix: Die Variablennamen der Datenmatrix müssen in der ersten Zeile stehen. Abgesehen von dieser ersten Zeile darf die Tabelle nur Datenwerte enthalten (keine Zwischenresultate, Formeln, Graphiken, etc...). Die Beobachtungen (z.b: Patienten) stehen in den Zeilen, die Variablen stehen in den Spalten einer einzigen Tabelle. Die erste Variable soll die eindeutige Patientenkennung enthalten (z.b: Patnr).
Dateneingabe - Einige Richtlinien Codierungen Die Merkmalsausprägungen (=Einträge in die Datei) sollten in numerischer Form vorliegen. Um flexible Analysen zu ermöglichen, ist es sinnvoll bei alphanumerischen Merkmalsausprägungen (z.b. weiblich, männlich) mit numerischen Codierungen (z.b. 1,2) zu arbeiten. Manche Programme erlauben eine automatische Konvertierung von alphanumerischen zu numerischen Codierungen. Geordnete Merkmale sollen aufsteigend (ordnungserhaltend) vercodet werden. Codes für die gleichen Antwortkategorien sollen für alle Variablen gleich sein z.b: 0=nein, 1=ja.
Dateneingabe - Einige Richtlinien Werte In den Zellen dürfen nur Zahlen stehen und keine Maßeinheiten. Daher muß die gewählte Maßeinheit pro Variable für alle Eintragungen einheitlich sein. Bsp: Gewicht: 73 und nicht 73 kg. Im Falle fehlender Werte (missings) ist die entsprechende Zelle leer zu lassen (keine Leerzeichen, Nullen, etc...) bzw. ein Wert zu verwenden, der in den theoretisch möglichen Beobachtungen nicht vorkommt. Bsp.: Gewicht: -999; Statistikpakete erlauben oft die Eingabe eines Punktes (Kommas) für fehlende Werte (system missing) Zahlen sollen ohne "1000er-Trennzeichen" eingegeben werden. Bsp: 2303493 und nicht 2.303.493. Datumsvariablen müssen im Datumsformat sein. Bsp: 15. Oktober 1996 Eingabe 15.10.1996.
Dateneingabe - Einige Richtlinien Variablennamen Variablennamen sollten sprechend sein. Es sollten nur Buchstaben von A-Z, Ziffern von 0-9 und Underliner _ verwendet werden. Das erste Zeichen sollte ein Buchstabe sein. Groß- und Kleinschreibung wird nicht unterschieden. Jeder Variablenname darf nur 1x verwendet werden.
Überprüfung der Daten bei der Datenerfassung: doppelte Dateneingabe Vorschalten von Plausibilitätskontrollen (Filter): z.b. Alter > 15 und Alter < 90 formale Prüfung der Daten: Bei der formalen Prüfung der Daten ist festzustellen, ob die erfaßten Daten mit dem im Codierplan angegebenen Wertebereich und der festgelegten Codierung übereinstimmen. Oft läßt eine optische Sichtung des Datenmaterials Erfassungsfehler erkennen (z.b. eine Zelle der Matrix wurde nicht ausgefüllt; in der Datei befinden sich unzulässige, nicht interpretierbare Zeichen).
Überprüfung der Daten Weiters sollte überprüft werden, welche Merkmalsausprägungen aus dem normalen Wertebereich herausfallen, ob es Ausreißer gibt etc: Für jede metrische Variable etwa durch eine sortierte Liste, die alle Ausprägungen der Variablen enthält eine Tabelle mit deskriptiven Maßzahlen (z.b. Mittelwert, Median, Minimum, Maximum etc.) Scatterplots für ausgewählte metrische Variablen (Untersuchung der Merkmale auf ihre Plausibilität zueinander. Bsp.: Gewicht: 60 kg, Größe:196 cm) Für jede kategorielle Variable mit einer Häufigkeitstabelle aller Ausprägungen.