WI-M / HT-M: OR 2 - Statistik SS 2004 Prof. Dr. Häußler, FB AW. Übung 1: Diskriminanzanalyse: Zwei-Gruppen-Fall

Ähnliche Dokumente
3 Diskriminationsanalyse 3.1 Diskriminationsanalyse mit zwei Gruppen

WI-M / HT-M: OR 2 - Statistik SS 2004

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

3. Lektion: Deskriptive Statistik

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Lineare Diskriminanzanalyse Ein sehr kurzer Einblick

Grundlagen der empirischen Sozialforschung

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Multivariate Verfahren

Name Vorname Matrikelnummer Unterschrift

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 12 a)

Beschreibende Statistik

Übung 1 im Fach "Biometrie / Q1"

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Korrelation - Regression. Berghold, IMI

Streuungsmaße von Stichproben

5. Lektion: Einfache Signifikanztests

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Zusammenhänge zwischen metrischen Merkmalen

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Der Korrelationskoezient nach Pearson

1 Übungsaufgaben zur Regressionsanalyse

Welche der folgenden Aussagen sind richtig? (x aus 5) A Ein metrisches Merkmal, das überabzählbar viele Ausprägungen besitzt heißt diskret.

Lösung 1. die 1 angeben. Alternativ kann man auch. Variable berechnen wählen und dann die Summe von Q2_6 und Q2_7 wählen.

Kapitel 1: Deskriptive Statistik

Deskriptive Statistik

Grundlagen der Statistik

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Korrelation, Regression und diagnostische Tests

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Hintergrund und Aufbau der Untersuchung Soziodemographische Daten Glücksspielparameter Katamnesebefunde. Hintergrund

Übung 4 im Fach "Biometrie / Q1"

Prüfung aus Statistik 1 für SoziologInnen

Übungsblatt 4. Berechnen Sie für die statistischen Reihen die Varianzen, Kovarianzen und Korrelationskoeffizienten

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Kapitel 25 Diskriminanzanalyse

Kreuztabellenanalyse und Assoziationsmaße. Assoziationsmaße. Allgemeines Beispiel Graphiken Notation. Risiken. Drittvariablenkontrolle.

Statistik I für Humanund Sozialwissenschaften

Regression mit Dummyvariablen. Regression mit Dummyvariablen. Variablentypen. Regressionsmodelle. Bezug auf einzelne Variablen.

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Statistik - Übungsaufgaben

Prüfung aus Statistik 1 für SoziologInnen

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

Teil: lineare Regression

Prüfung aus Statistik 2 für SoziologInnen

Beschreibende Statistik

Wirtschaftsstatistik-Klausur am

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Musterlösung zur Übungsklausur Statistik

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Willkommen zur Vorlesung Statistik (Master)

Statistik und Wahrscheinlichkeitsrechnung

Bivariate Verteilungen

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Wiederholungsübungen zu den Kapiteln 7 bis 11

Graphische Darstellung einer univariaten Verteilung:

Diskriminanzanalyse (I)

Übungsklausur zur Vorlesung "Statistik I" (WiSe 2003/2004)

Klausur zur Vorlesung

Analyse kategorialer Variablen Schriftliche Ausarbeitung des Referats vom 23. Mai 2002

Statistik. Prof. em. Dr. Dr. h.c. Günter Bamberg PD Dr. Franz Baur Prof. Dr.Michael Krapp. 17., überarbeitete Auflage. Oldenbourg Verlag München.

Kategorielle Zielgrössen

JOHANNES GUTENBERG-UNIVERSITÄT MAINZ Psychologisches Institut Abteilung Methodenlehre & Statistik

Deskriptive Statistik Winfried Zinn

5. Übung Zusammenhänge zweier Merkmale

Multivariate Statistische Methoden

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Grundlagen der empirischen Sozialforschung

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Multivariate Statistische Methoden und ihre Anwendung

Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Regression mit Dummyvariablen

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

Skript Statistik. Gerhard Kuhn, rechnenmachtspass.de Version 3

5. Spezielle stetige Verteilungen

Assoziation & Korrelation

Assoziation & Korrelation

Zusammenhangsmaße II

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

1 Diskriminanzanalyse

Elementare Stochastik

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

1. Datei Informationen

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

Transkript:

WI-M / HT-M: OR 2 - Statistik SS 2004 Prof. Dr. Häußler, FB AW Übung 1: Diskriminanzanalyse: Zwei-Gruppen-Fall 04.05.04 (Dozentenverzeichnis: S:\ MUSTER \ HAE \ Master) Aufgabe: "Lungenkarzinom" Excel-Arbeitsmappe: lunge.xls In einer Klinik mit speziellen maschinellen Behandlungsmethoden für solche Fälle wurden die Daten von Patienten mit schweren (sonst meist tödlichen) Lungenschäden festgehalten. Aus einer Vielzahl von Variablen seien die folgenden ausgewählt: Variablenname: Erläuterung: Variablentyp / verwendbar: out Outcome (0 = gestorben, 1 = überlebt): ordinal, ja Gruppierungsvariable geschl Geschlecht (1 = männlich, 2 = weiblich) nominal binär, ja ( aber Interpretation beachten) alter Alter in Jahren metrisch, ja ursache 1) kob Ursache des Lungenschadens: (1 = Unfall, 2 = Lungenentzündung, 3 = Sonstiges) Konzentrations des Sauerstoffs in der Beatmungsluft nominal, nein! (bzw. in 3 ja/nein-variavble umwandeln) metrisch, ja gr Körpergröße cm metrisch, ja agg Aggressivität der Beatmung metrisch, ja bzeit Beatmungszeit in Std. metrisch, ja 1) Für eine erste Analyse kann das Merkmal ursache auch weggelassen werden! Aufgabe: Es soll untersucht werden, welchen Einfluß die Variablen auf die Wahrscheinlichkeit des Überlebens haben bzw. mit welchen Variablen das Überleben am besten vorhergesagt werden kann. a) Untersuchen Sie zunächst die Variablen BZEIT und GR. a1) Erstellen Sie ein Streuungsdiagramm. a2) Wie sind die Gruppen verteilt? Können die Gruppen mit einer Geraden perfekt getrennt werden? a3) Wie lauten die Korrelationen der X-Merkmale untereinander? a4) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? a5) Berechnen Sie die lineare Diskriminanzfunktion! Wie liegt diese in den Daten? Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? b) Verwenden Sie jetzt alle Merkmale außer ursache. b1) Wie lauten die Korrelationen der X-Merkmale untereinander? b2) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? b3) Berechnen Sie die lineare Diskriminanzfunktion! Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? b4) Führen Sie eine Variablenauswahl nach der Vorwärtsselektion mit dem Wilk'schen Lambda (und kleinem F-Wert) durch? Welches sind die besten drei Variablen? Wie lautet die lineare Diskriminanzfunktion? b5) Erstellen Sie die eindimensionale Verteilung der Diskriminanzwerte der Gruppen 0 und 1 in einem gemeinsamem Diagramm (z.b. mit Excel).!

Diskriminanzanalyse: Lungenkarzinom Seite - 1 - Aufgabe: Es soll untersucht werden, welchen Einfluß die Variablen auf die Wahrscheinlichkeit des Überlebens haben bzw. mit welchen Variablen das Überleben am besten vorhergesagt werden kann. a) Untersuchen Sie zunächst die Variablen BZEIT und GR. a1) Erstellen Sie ein Streuungsdiagramm. a2) Wie sind die Gruppen verteilt? Können die Gruppen mit einer Geraden perfekt getrennt werden? 70 60 50 40 30 Beatmungszeit 20 10 0 Outcome ueberlebt gestorben 80 100 120 140 160 180 200 Die Gruppen können nicht mit einer Geraden getrennt werden!!

Diskriminanzanalyse: Lungenkarzinom Seite - 2 - a) Untersuchen Sie zunächst die Variablen BZEIT und GR. a3) Wie lauten die Korrelationen der X-Merkmale untereinander? Korrelation = - 0,186 also kaum vorhanden und eher negativ, gegensinnig! eher günstig für eine verbesserte Trennungsfähigkeit! a4) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? Korrelationskoeffizient nach Pearson: Aggr. der Beatmung Y Outcome Beatmungszeit 1 -,186 -,272 1,252 je länger Beatmungszeit, umso eher gestorben (leichte negative Korrelation -0,186) je größer die, umso eher überlebt (leichte positive Korrelation +0,252) Aber nur schwache Korrelationen mit der Gruppenvariablen Outcome: Trennung nur schlecht möglich!!??

Diskriminanzanalyse: Lungenkarzinom Seite - 3 - a5) Berechnen Sie die lineare Diskriminanzfunktion! Wie liegt diese in den Daten? Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? Kanonische Diskriminanzfunktionskoeffizienten Funktion 1 Beatmungszeit,086 -,047 (Konstant) 6,830 Nicht-standardisierte Koeffizienten Diskriminanzfunktion: D(x) = 0,086*Beatmungszeit - 0,047*Körpergröße + 6,830 Beispiel: Beatmungszeit = 19, Körpergröße = 165 D(x) = 0,086*19-0,047*165 + 6,830 = 0,709 D(x) = 0,709 > 0 Einstufung in Gruppe 1 70 60 50 40 30 Diskriminanz- Gerade Beatmungszeit 20 10 0 Outcome ueberlebt gestorben 80 100 120 140 160 180 200

Diskriminanzanalyse: Lungenkarzinom Seite - 4 - Graphische Darstellung getrennter Gruppen 16 Kanonische Diskriminanzfunktion 1 Outcome = gestorben 14 12 10 8 6 4 Std.abw. = 1,22 2 Mittel =,37 0 N = 63,00-1,00 0,00 1,00 2,00 3,00 4,00 5,00 -,50,50 1,50 2,50 3,50 4,50 5,50 16 Kanonische Diskriminanzfunktion 1 Outcome = ueberlebt 14 12 10 8 6 4 2 0 1,75 1,50 1,25 1,00,75,50,25 0,00 -,25 -,50 -,75-1,00-1,25-1,50 Std.abw. =,74 Mittel = -,35 N = 68,00

Diskriminanzanalyse: Lungenkarzinom Seite - 5 - Der kanonische Korrelationskoeffizient (Korrelation zwischen Diskriminanzwerten D(xi) und Outcome) beträgt: 0,340 also keine große Korrelation, also eher schlechte Trennung! Original Anzahl % Klassifizierungsergebnisse(a) Vorhergesagte Gruppenzugehörigkeit Outcome gestorben ueberlebt Gesamt gestorben 32 31 63 ueberlebt 16 52 68 gestorben 50,8 49,2 100,0 ueberlebt 23,5 76,5 100,0 a 64,1% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. Fehlerrate etwa: 100 64,1 % = 35,9 % eher große Fehlerrate!

Diskriminanzanalyse: Lungenkarzinom Seite - 6 - b) Verwenden Sie jetzt alle Merkmale außer ursache: b1) Wie lauten die Korrelationen der X-Merkmale untereinander? b2) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? Aggr. der Geschlecht Alter Sauerstoff- Beatmungszeit Y Beatmung Konz. Outcome Aggr. der 1 -,089,171 -,039,310 -,001 -,195 Beatmung 1 -,503,225 -,046 -,186,252 Geschlecht 1 -,011 -,031,114 -,180 Alter 1 -,086,131 -,159 Sauerstoff- 1 -,034 -,183 Konz. Beatmungszeit 1 -,272 Größte Korrelation haben Körpergröße und Geschlecht mit -0,503 Ansonsten keine größeren Korrelationen der X- Merkmale Korrelationen mit dem Y-Merkmal Outcome eher niedrig die größte ist Beatmungszeit und Outcome mit -0,272 Vermutlich nicht allzugute Trennung möglich!!

Diskriminanzanalyse: Lungenkarzinom Seite - 7 - b3) Berechnen Sie die lineare Diskriminanzfunktion?! Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? Kanonische Diskriminanzfunktionskoeffizienten Funktion 1 Beatmungszeit,060 -,041 Geschlecht,133 Alter,040 Sauerstoff-Konz. 2,539 Aggr. der Beatmung,033 (Konstant) 2,121 Nicht-standardisierte Koeffizienten Die Diskriminanzfunktion lautet: D(x) = Beatmungszeit *0,060 - *0,041 + Geschlecht*0,133 + Alter*0,040 + + Sauerstoff-Konz.*2,539 + Aggr. der Beatmung*0,033 + 2,121 Original Anzahl % Klassifizierungsergebnisse(a) Vorhergesagte Gruppenzugehörigkeit Outcome gestorben ueberlebt Gesamt gestorben 38 25 63 ueberlebt 16 52 68 gestorben 60,3 39,7 100,0 ueberlebt 23,5 76,5 100,0 a 68,7% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. Fehlerrate mit allen Merkmalen nicht sehr viel besser als bei nur zwei Merkmalen!!! Eigenwerte Kanonische Funktion Eigenwert % der Varianz Kumulierte % Korrelation 1,256(a) 100,0 100,0,452 a Die ersten 1 kanonischen Diskriminanzfunktionen werden in dieser Analyse verwendet. auch (kanonische) Korrelation der Diskriminanzwerte mit Gruppe = Outcome ist 0,452, also nicht besonders hoch!!!

Diskriminanzanalyse: Lungenkarzinom Seite - 8 - b4) Führen Sie eine Variablenauswahl nach der Vorwärtsselektion mit dem Wilk'schen Lambda (und kleinem F-Wert) durch? Welches sind die besten drei Variablen? Wie lautet die lineare Diskriminanzfunktion? Variablen in der Analyse Schritt Toleranz F-Wert für den Ausschluß Wilks- Lambda 1 Beatmungszeit 1,000 10,273 2 Beatmungszeit,984 7,583,937,984 6,073,926 3 Beatmungszeit,967 5,509,888,900 8,943,911 Alter,906 4,981,884 4 Beatmungszeit,961 6,074,852,899 8,788,869 Alter,895 5,963,851 Sauerstoff- Konz.,979 5,923,851 Es werden nur die obigen Variablen in das Modell aufgenommen!!! Die drei besten Variablen sind: Beatmungszeit,, Alter Original Anzahl % Klassifizierungsergebnisse(a) Vorhergesagte Gruppenzugehörigkeit Outcome gestorben ueberlebt Gesamt gestorben 38 25 63 ueberlebt 14 54 68 gestorben 60,3 39,7 100,0 ueberlebt 20,6 79,4 100,0 a 70,2% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. Die Fehlerrate hat sich verbessert auf: 100 70,2% = 29,2%!!!

Diskriminanzanalyse: Lungenkarzinom Seite - 9 - b5) Erstellen Sie die eindimensionale Verteilung der Diskriminanzwerte! a) muß in Excel erstellt werden mit der berechneten Diskriminanzfunktion als Verteilungstabelle bzw. als Histogramm! b) Alternative: die Diskriminanzwerte in SPPS berechnen lassen und mit in die Datendatei abspeichern: Ergänzte Datendatei: ZAHN.SAV:

Diskriminanzanalyse: Lungenkarzinom Seite - 10 - Verteilung der Diskriminanzwerte (alle Variable einbezogen außer URSACHE): gestorben überlebt 0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0-3 -2-1 0 1 2 3 4 Diskriminanzwert Fazit: GESTORBENE haben (im Durchschnitt) etwas höhere Diskriminanzwerte ÜBERLEBENDE haben (im Durchschnitt) etwas niedrigere Diskriminanzwerte