WI-M / HT-M: OR 2 - Statistik SS 2004 Prof. Dr. Häußler, FB AW Übung 1: Diskriminanzanalyse: Zwei-Gruppen-Fall 04.05.04 (Dozentenverzeichnis: S:\ MUSTER \ HAE \ Master) Aufgabe: "Lungenkarzinom" Excel-Arbeitsmappe: lunge.xls In einer Klinik mit speziellen maschinellen Behandlungsmethoden für solche Fälle wurden die Daten von Patienten mit schweren (sonst meist tödlichen) Lungenschäden festgehalten. Aus einer Vielzahl von Variablen seien die folgenden ausgewählt: Variablenname: Erläuterung: Variablentyp / verwendbar: out Outcome (0 = gestorben, 1 = überlebt): ordinal, ja Gruppierungsvariable geschl Geschlecht (1 = männlich, 2 = weiblich) nominal binär, ja ( aber Interpretation beachten) alter Alter in Jahren metrisch, ja ursache 1) kob Ursache des Lungenschadens: (1 = Unfall, 2 = Lungenentzündung, 3 = Sonstiges) Konzentrations des Sauerstoffs in der Beatmungsluft nominal, nein! (bzw. in 3 ja/nein-variavble umwandeln) metrisch, ja gr Körpergröße cm metrisch, ja agg Aggressivität der Beatmung metrisch, ja bzeit Beatmungszeit in Std. metrisch, ja 1) Für eine erste Analyse kann das Merkmal ursache auch weggelassen werden! Aufgabe: Es soll untersucht werden, welchen Einfluß die Variablen auf die Wahrscheinlichkeit des Überlebens haben bzw. mit welchen Variablen das Überleben am besten vorhergesagt werden kann. a) Untersuchen Sie zunächst die Variablen BZEIT und GR. a1) Erstellen Sie ein Streuungsdiagramm. a2) Wie sind die Gruppen verteilt? Können die Gruppen mit einer Geraden perfekt getrennt werden? a3) Wie lauten die Korrelationen der X-Merkmale untereinander? a4) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? a5) Berechnen Sie die lineare Diskriminanzfunktion! Wie liegt diese in den Daten? Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? b) Verwenden Sie jetzt alle Merkmale außer ursache. b1) Wie lauten die Korrelationen der X-Merkmale untereinander? b2) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? b3) Berechnen Sie die lineare Diskriminanzfunktion! Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? b4) Führen Sie eine Variablenauswahl nach der Vorwärtsselektion mit dem Wilk'schen Lambda (und kleinem F-Wert) durch? Welches sind die besten drei Variablen? Wie lautet die lineare Diskriminanzfunktion? b5) Erstellen Sie die eindimensionale Verteilung der Diskriminanzwerte der Gruppen 0 und 1 in einem gemeinsamem Diagramm (z.b. mit Excel).!
Diskriminanzanalyse: Lungenkarzinom Seite - 1 - Aufgabe: Es soll untersucht werden, welchen Einfluß die Variablen auf die Wahrscheinlichkeit des Überlebens haben bzw. mit welchen Variablen das Überleben am besten vorhergesagt werden kann. a) Untersuchen Sie zunächst die Variablen BZEIT und GR. a1) Erstellen Sie ein Streuungsdiagramm. a2) Wie sind die Gruppen verteilt? Können die Gruppen mit einer Geraden perfekt getrennt werden? 70 60 50 40 30 Beatmungszeit 20 10 0 Outcome ueberlebt gestorben 80 100 120 140 160 180 200 Die Gruppen können nicht mit einer Geraden getrennt werden!!
Diskriminanzanalyse: Lungenkarzinom Seite - 2 - a) Untersuchen Sie zunächst die Variablen BZEIT und GR. a3) Wie lauten die Korrelationen der X-Merkmale untereinander? Korrelation = - 0,186 also kaum vorhanden und eher negativ, gegensinnig! eher günstig für eine verbesserte Trennungsfähigkeit! a4) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? Korrelationskoeffizient nach Pearson: Aggr. der Beatmung Y Outcome Beatmungszeit 1 -,186 -,272 1,252 je länger Beatmungszeit, umso eher gestorben (leichte negative Korrelation -0,186) je größer die, umso eher überlebt (leichte positive Korrelation +0,252) Aber nur schwache Korrelationen mit der Gruppenvariablen Outcome: Trennung nur schlecht möglich!!??
Diskriminanzanalyse: Lungenkarzinom Seite - 3 - a5) Berechnen Sie die lineare Diskriminanzfunktion! Wie liegt diese in den Daten? Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? Kanonische Diskriminanzfunktionskoeffizienten Funktion 1 Beatmungszeit,086 -,047 (Konstant) 6,830 Nicht-standardisierte Koeffizienten Diskriminanzfunktion: D(x) = 0,086*Beatmungszeit - 0,047*Körpergröße + 6,830 Beispiel: Beatmungszeit = 19, Körpergröße = 165 D(x) = 0,086*19-0,047*165 + 6,830 = 0,709 D(x) = 0,709 > 0 Einstufung in Gruppe 1 70 60 50 40 30 Diskriminanz- Gerade Beatmungszeit 20 10 0 Outcome ueberlebt gestorben 80 100 120 140 160 180 200
Diskriminanzanalyse: Lungenkarzinom Seite - 4 - Graphische Darstellung getrennter Gruppen 16 Kanonische Diskriminanzfunktion 1 Outcome = gestorben 14 12 10 8 6 4 Std.abw. = 1,22 2 Mittel =,37 0 N = 63,00-1,00 0,00 1,00 2,00 3,00 4,00 5,00 -,50,50 1,50 2,50 3,50 4,50 5,50 16 Kanonische Diskriminanzfunktion 1 Outcome = ueberlebt 14 12 10 8 6 4 2 0 1,75 1,50 1,25 1,00,75,50,25 0,00 -,25 -,50 -,75-1,00-1,25-1,50 Std.abw. =,74 Mittel = -,35 N = 68,00
Diskriminanzanalyse: Lungenkarzinom Seite - 5 - Der kanonische Korrelationskoeffizient (Korrelation zwischen Diskriminanzwerten D(xi) und Outcome) beträgt: 0,340 also keine große Korrelation, also eher schlechte Trennung! Original Anzahl % Klassifizierungsergebnisse(a) Vorhergesagte Gruppenzugehörigkeit Outcome gestorben ueberlebt Gesamt gestorben 32 31 63 ueberlebt 16 52 68 gestorben 50,8 49,2 100,0 ueberlebt 23,5 76,5 100,0 a 64,1% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. Fehlerrate etwa: 100 64,1 % = 35,9 % eher große Fehlerrate!
Diskriminanzanalyse: Lungenkarzinom Seite - 6 - b) Verwenden Sie jetzt alle Merkmale außer ursache: b1) Wie lauten die Korrelationen der X-Merkmale untereinander? b2) Wie lauten die Korrelationen der X-Merkmale mit dem Y-Merkmal? Interpretation? Aggr. der Geschlecht Alter Sauerstoff- Beatmungszeit Y Beatmung Konz. Outcome Aggr. der 1 -,089,171 -,039,310 -,001 -,195 Beatmung 1 -,503,225 -,046 -,186,252 Geschlecht 1 -,011 -,031,114 -,180 Alter 1 -,086,131 -,159 Sauerstoff- 1 -,034 -,183 Konz. Beatmungszeit 1 -,272 Größte Korrelation haben Körpergröße und Geschlecht mit -0,503 Ansonsten keine größeren Korrelationen der X- Merkmale Korrelationen mit dem Y-Merkmal Outcome eher niedrig die größte ist Beatmungszeit und Outcome mit -0,272 Vermutlich nicht allzugute Trennung möglich!!
Diskriminanzanalyse: Lungenkarzinom Seite - 7 - b3) Berechnen Sie die lineare Diskriminanzfunktion?! Wie hoch sind die Fehlerraten und der kanonische Korrelationskoeffizient? Kanonische Diskriminanzfunktionskoeffizienten Funktion 1 Beatmungszeit,060 -,041 Geschlecht,133 Alter,040 Sauerstoff-Konz. 2,539 Aggr. der Beatmung,033 (Konstant) 2,121 Nicht-standardisierte Koeffizienten Die Diskriminanzfunktion lautet: D(x) = Beatmungszeit *0,060 - *0,041 + Geschlecht*0,133 + Alter*0,040 + + Sauerstoff-Konz.*2,539 + Aggr. der Beatmung*0,033 + 2,121 Original Anzahl % Klassifizierungsergebnisse(a) Vorhergesagte Gruppenzugehörigkeit Outcome gestorben ueberlebt Gesamt gestorben 38 25 63 ueberlebt 16 52 68 gestorben 60,3 39,7 100,0 ueberlebt 23,5 76,5 100,0 a 68,7% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. Fehlerrate mit allen Merkmalen nicht sehr viel besser als bei nur zwei Merkmalen!!! Eigenwerte Kanonische Funktion Eigenwert % der Varianz Kumulierte % Korrelation 1,256(a) 100,0 100,0,452 a Die ersten 1 kanonischen Diskriminanzfunktionen werden in dieser Analyse verwendet. auch (kanonische) Korrelation der Diskriminanzwerte mit Gruppe = Outcome ist 0,452, also nicht besonders hoch!!!
Diskriminanzanalyse: Lungenkarzinom Seite - 8 - b4) Führen Sie eine Variablenauswahl nach der Vorwärtsselektion mit dem Wilk'schen Lambda (und kleinem F-Wert) durch? Welches sind die besten drei Variablen? Wie lautet die lineare Diskriminanzfunktion? Variablen in der Analyse Schritt Toleranz F-Wert für den Ausschluß Wilks- Lambda 1 Beatmungszeit 1,000 10,273 2 Beatmungszeit,984 7,583,937,984 6,073,926 3 Beatmungszeit,967 5,509,888,900 8,943,911 Alter,906 4,981,884 4 Beatmungszeit,961 6,074,852,899 8,788,869 Alter,895 5,963,851 Sauerstoff- Konz.,979 5,923,851 Es werden nur die obigen Variablen in das Modell aufgenommen!!! Die drei besten Variablen sind: Beatmungszeit,, Alter Original Anzahl % Klassifizierungsergebnisse(a) Vorhergesagte Gruppenzugehörigkeit Outcome gestorben ueberlebt Gesamt gestorben 38 25 63 ueberlebt 14 54 68 gestorben 60,3 39,7 100,0 ueberlebt 20,6 79,4 100,0 a 70,2% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. Die Fehlerrate hat sich verbessert auf: 100 70,2% = 29,2%!!!
Diskriminanzanalyse: Lungenkarzinom Seite - 9 - b5) Erstellen Sie die eindimensionale Verteilung der Diskriminanzwerte! a) muß in Excel erstellt werden mit der berechneten Diskriminanzfunktion als Verteilungstabelle bzw. als Histogramm! b) Alternative: die Diskriminanzwerte in SPPS berechnen lassen und mit in die Datendatei abspeichern: Ergänzte Datendatei: ZAHN.SAV:
Diskriminanzanalyse: Lungenkarzinom Seite - 10 - Verteilung der Diskriminanzwerte (alle Variable einbezogen außer URSACHE): gestorben überlebt 0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0-3 -2-1 0 1 2 3 4 Diskriminanzwert Fazit: GESTORBENE haben (im Durchschnitt) etwas höhere Diskriminanzwerte ÜBERLEBENDE haben (im Durchschnitt) etwas niedrigere Diskriminanzwerte