Datenerfassung und Datenmanagement Statistische Auswertungssysteme sind heute eine aus der angewandten Statistik nicht mehr wegzudenkende Hilfe. Dies gilt insbesondere für folgende Aufgabenbereiche: - die Auswertung großer, komplex gegliederter Datenmengen - multivariate Struktur der Daten - rechenintensive Auswertungsmethoden - ständig wiederkehrende Auswertungen mit jeweils neuem Datenbestand oder mit Bewegungsdaten - numerische Verfahren, komplexe Algorithmen - graphische Aufbereitungen statistischen Datenmaterials (Visualisierung, Präsentation) Statistik-Software: - allgemeine statistische Softwarepakete: SAS, SPSS, STATGRAPHICS, S-PLUS, R... - spezielle Pakete: STATXACT (exakte Tests), PASS, nquery Advisor (Fahlzahlschätzung)... - Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 10
Datenstruktur in statistischen Auswertungssystemen Grundlegende Struktur Jedes Programm erwartet Eingabedaten in einer bestimmten Form, Struktur und Abfolge. Die gängigen Auswertungssysteme basieren auf einer einheitlichen, rechteckigen Datenstruktur, der sogenannten Datenmatrix. Bei der Datenmatrix sollte jede Beobachtungseinheit (z.b. Fälle, Probanden, Versuchstiere) genau einer Zeile, die Merkmale (Variablen: z.b. Alter, Gewicht, Blutdruck) den Spalten der Datei entsprechen. Patient Alter Geschl Gewicht SBD DBD 1 25 1 75 120 85 3 34 1 80 130 80 4 56 2 145 90 6 71 2 52 150 95 Diese Datei besteht aus 4 Beobachtungseinheiten (Patienten) und 6 Variablen. Bei Patient 4 wurde das Gewicht nicht bestimmt. Mehrere Messungen pro Beobachtungseinheit Liegen mehrere Messungen pro Beobachtungseinheit vor (z.b. wiederholte Messungen des Blutdrucks im Laufe einer Therapie; Blutzuckermessungen nüchtern, 1 Stunde und 4 Stunden nach Glukosegabe), sollte für jede dieser Messungen eine Spalte angelegt werden. Patient SBD1 DBD1 SBD2 DBD2 1 120 85 120 80 3 130 80 125 80 4 145 90 130 90 6 150 95 135 90 Hier gibt es also zwei Messungen für den systolischen und den diastolischen Blutdruck. Oft wird auch der Zeitpunkt der Messung miterfasst. Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 11
Aufteilung in mehrere Dateien Zum Zwecke der Übersichtlichkeit kann es unter Umständen sinnvoll sein, den Gesamtdatenbestand auf mehrere Dateien aufzuteilen (z. B. Datei 1: demographische Angaben; Datei 2: Blutdruckwerte; Datei 3: Laborwerte). Dabei ist darauf zu achten, daß jede dieser Dateien nach dem oben beschriebenen Muster aufgebaut ist. Um Dateien für eine gemeinsame Auswertung kombinieren zu können, ist es wesentlich, dass in allen Dateien eine einheitliche und eindeutige Identifikationsvariable (wie z.b. die Patientennummer) existiert. Datei1: Datei2: Patient Alter Geschl Gewicht 1 25 1 75 3 34 1 80 4 56 2 6 71 2 52 Patient Neutro Eos Baso Lympho Mono 1 60 1 0 33 6 3 62 2 1 32 3 4 58 3 0 32 7 6 56 2 1 35 6 Mehrfachantworten Sind Mehrfachantworten auf eine Frage möglich, so ist für jede Antwortmöglichkeit in der Datenmatrix eine Ja/Nein-Antwort vorzusehen. Richtig: Patnr Diag1 Diag2 Diag3 Patnr Diagnose 1 0 0 1 Falsch: 1 3 2 1 1 0 2 1 und 2 Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 12
Anforderungen an Statistik-Software Ein statistisches Auswertungssystem muß im Hinblick auf statistische Prozeduren, die einen bestimmten Aufbau der Eingabedaten erfordern, in der Lage sein, die Daten entsprechend aufzubereiten. Ein statistisches Auswertungssystem benötigt - ein Datenmanagementsystem, das es ermöglicht, komplexe Beziehungen zwischen den Beobachtungseinheiten darzustellen und zu beschreiben und das die gespeicherten Daten den statistischen Verfahren in geeigneter Weise zugänglich macht und den Prozeß der statistischen Auswertung steuert - ein Analysesystem, das das Repertoire der statistischen Verfahren beinhaltet - Präsentationsmöglichkeiten (Grafiken, Tabellen etc.) Die statistische Auswertung besteht zumeist aus einer Abfolge von Datenmanagementoperationen und Statistikprozeduren <Datenmanagement> <Statistikprozedur> <Datenmanagement> <Statistikprozedur> <Datenmanagement> <Statistikprozedur> Nehme alle Probanden Ermittle Mittelwert Körpergröße Restriktion Nichtraucher Ermittle Mittelwert Körpergröße bei Nichtrauchern Nehme alle Probanden Korrelation Körpergröße - Körpergewicht Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 13
Dateneingabe Zur Dateneingabe bieten sich zwei Möglichkeiten an: - Eingabe der Daten direkt im Statistikpaket - Verwendung von anderen Programmen zur Dateneingabe (z.b. EXCEL, ACCESS etc.) Hinweis: Verwendet man ein anderes Programm zur Dateneingabe als für die Datenauswertung, so ist schon vorher darauf zu achten, ob die Daten problemlos in das nachher verwendete Statistikpaket übernommen werden können! Einige Richtlinien zur Eingabe der Daten: Struktur der Datenmatrix Die Variablennamen der Datenmatrix müssen in der ersten Zeile stehen. Abgesehen von dieser ersten Zeile darf die Tabelle nur Datenwerte enthalten (keine Zwischenresultate, Formeln, Graphiken, etc...). Die Beobachtungen (z.b: Patienten) stehen in den Zeilen, die Variablen stehen in den Spalten einer einzigen Tabelle. Die erste Variable soll die eindeutige Patientenkennung enthalten (z.b: Patnr). Codierungen Die Merkmalsausprägungen (=Einträge in die Datei) sollten weitgehend in numerischer Form vorliegen. Um flexible Analysen zu ermöglichen, ist es sinnvoll bei alphanumerischen Merkmalsausprägungen (z.b. weiblich, männlich) mit numerischen Codierungen (z.b. 1,2) zu arbeiten. Geordnete Merkmale sollen aufsteigend (ordnungserhaltend) vercodet werden. Codes für die gleichen Antwortkategorien sollen für alle Variablen gleich sein z.b.: 0=nein, 1=ja. Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 14
Werte In den Zellen dürfen nur Zahlen stehen und keine Maßeinheiten. Daher muß die gewählte Maßeinheit pro Variable für alle Eintragungen einheitlich sein. Bsp: Gewicht: 73 und nicht 73 kg. Im Falle fehlender Werte (missings) ist die entsprechende Zelle leer zu lassen (keine Leerzeichen, Nullen, etc...) bzw. ein Wert zu verwenden, der in den theoretisch möglichen Beobachtungen nicht vorkommt. Bsp.: Gewicht: -999. Statistikpakete (z.b. SPSS, SAS) verwenden oft einen Punkt (Komma) als fehlenden Wert (system missing) Zahlen sollen ohne "1000er-Trennzeichen" eingegeben werden. Bsp: 2303493 und nicht 2.303.493. Datumsvariablen müssen im Datumsformat sein. Bsp: 15. Oktober 1996 Eingabe 15.10.1996. Variablennamen Variablennamen sollten sprechend sein (SPSS: max. 64 Stellen). Es sollten nur Buchstaben von A-Z, Ziffern von 0-9 und Underliner _ verwendet werden. Das erste Zeichen sollte ein Buchstabe sein. Groß- und Kleinschreibung wird nicht unterschieden. Jeder Variablenname darf nur 1x verwendet werden. Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 15
Überprüfung der Daten Eine erste Überprüfung sollte bereits während der Datenerfassung erfolgen. Dabei wird primär geprüft auf: - doppelte Dateneingabe - Vorschalten von Plausibilitätskontrollen (Filter): z.b. Alter > 15 und Alter < 90 formale Prüfung der Daten: Bei der formalen Prüfung der Daten ist festzustellen, ob die erfaßten Daten mit dem im Codierplan angegebenen Wertebereich und der festgelegten Codierung übereinstimmen. Oft läßt eine optische Sichtung des Datenmaterials Erfassungsfehler erkennen (z.b. eine Zelle der Matrix wurde nicht ausgefüllt; in der Datei befinden sich unzulässige, nicht interpretierbare Zeichen). Weiters sollte überprüft werden, welche Merkmalsausprägungen aus dem normalen Wertebereich herausfallen, ob es Ausreißer gibt etc.: 1. Für jede metrische Variable etwa durch eine sortierte Liste, die alle Ausprägungen der Variablen enthält eine Tabelle mit deskriptiven Maßzahlen (z.b. Mittelwert, Median, Minimum, Maximum etc.) Scatterplots für ausgewählte metrische Variablen (Untersuchung der Merkmale auf ihre Plausibilität zueinander. Bsp.: Gewicht: 60 kg, Größe:196 cm) 2. Für jede kategorielle Variable mit einer Häufigkeitstabelle aller Ausprägungen. Wiss. Grundlagen und allgem. Fähigkeiten I Univ.-Prof. DI Dr. Andrea Berghold 16