Übungen (HS-2010): Urteilsfehler. Autor: Siegfried Macho

Transkript

1 Übungen (HS-2010): Urteilsfehler Autor: Siegfried Macho

2 Inhaltsverzeichnis i Inhaltsverzeichnis 1. Übungen zu Kapitel 2 1

3 Übungen zu Kontingenz- und Kausalurteile 1 Übung 1-1: 1. Übungen zu Kapitel 2 Gegeben: Ein akademischer Leistungstest, der moderat mit der GPA (Grade Point Average) korreliert ist: = 0.1. Tab. 1-1 zeigt die Perzentilwerte für die beiden Tests. Die Einträge sind wie folgt zu lesen: Die besten 10% aller Personen, welche den Leistungstest absolvieren erreichen einen Wert von >750. Die besten 10% aller Personen, für welche der GPA vorliegt, haben einen Wert von > 3.7. Studenten Leistungstest GPA Obersten 10% >750 >3.7 Obersten 20% >700 >3.5 Obersten 30% >650 >3.2 Obersten 40% >600 >2.9 Obersten 50% >500 >2.5 Tab. 1-1: Perzentile der Scores für Leistungstest und GPA. 1. Angenommen eine ausgewählte Person hat beim Leistungstest einen Wert von 725 erreicht. Welchen Wert würden Sie für diese Person beim GPA vorhersagen. Begründen Sie Ihr Urteil. 2. Versuchen Sie mittels linearer Regressionsgleichung die Werte des GPA für den beobachteten Wert des Leistungstests vorherzusagen, für die Korrelationskoeffizienten: 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9. Nehmen Sie hierzu an, dass die Werte normal verteilt sind. Hinweise: (i) Aus den Daten müssen die Standardabweichungen für den Leistungstest sowie für den GPA ermittelt werden. (ii) Die Regressionsgleichung zur Vorhersage von y aufgrund von x lautet: y b x y x Hierbei gilt: y ist der Mittelwert von y. x ist der Mittelwert von x. b ist der (unstandardisierte) Regressionskoeffizient.

4 Übungen zu Kontingenz- und Kausalurteile 2 Lösung 1. Begründung: Da der Zusammenhang zwischen den beiden Tests relativ gering ist, ist der Mittelwert plus ein kleine Inkrement der korrekte Wert (z.b. GPA = 2.6). Bemerkung: Die meisten geben eine Wert von ungefähr 3.6 an. Dies entspricht ungefähr der Vorhersage, wenn keine Regression zum Mittel vorliegt, was nur der Fall ist, wenn die beiden Tests perfekt korreliert sind. 2. Berechnung mittels Regression: Zur Ermittlung der Standardabweichungen betrachte man Abb. 1-1: Die blaue Kurve repräsentiert den rechten Teil der Dichtefunktion der Normalverteilung. Die grauen vertikalen Linien zeigen die Positionen der einzelnen Prozentwerte an (vgl. die grauen Prozentwerte unterhalb der Graphik). Hieraus ergeben sich die Bereiche für die einzelnen Werte der beiden Tests % % % % % % Abb. 1-1: Lage der Werte bei Annahme normal verteilter Werte. Die rote senkrechte Linie zeigt die Position der Werte bei einer Standardabweichung. Hieraus ergeben sich die geschätzten Standardabweichungen: s 218 und 1.1. x s y Der Wert von b ergibt sich durch: sx b (für 0. 1 ergibt sich: b = ) s y Die Regressionsgleichung lautet:

5 Übungen zu Kontingenz- und Kausalurteile 3 y 2.5 b Für 0. 1 ergibt sich: y Tab. 1-2 zeigt die Ergebnisse für die verschiedenen Korrelationskoeffizienten. Korrelation Vorhergesagter GPA Tab. 1-2: Vorhergesagter Wert des GPA aufgrund des Wertes 725 für den Leistungstest (aufgrund der Daten von Tab. 1-1) Übung 1-2: Im Jahre 1976 wurde der Polizeichef von Denver mit folgender Begründung entlassen: Seit dem Amtsantritt des Polizeichefs im Jahre 1971 sei die Verbrechensrate um 14% gestiegen. Was ist an dieser Argumentation problematisch? Lösung Aufgrund der angestiegenen Kriminalität kann nicht geschlossen werden, dass die Polizei für den Anstieg verantwortlich ist. Die Argumentation berücksichtigt nämlich nicht, wie stark der Anstieg der Verbrechensrate in vergleichbaren Städten (Kansas City, Philadelphia, etc.) für den genannten Zeitraum ist. Dies bedeutet: Es fehlt ein Vergleichstandard! Veranschaulicht man dies mittels einer Kreuztabelle, so sieht man, dass relevanten Daten fehlen Denver vorhanden vorhanden Andere Städte fehlt fehlt

6 Übungen zu Kontingenz- und Kausalurteile 4 Allerdings kann der Vergleich mit anderen Städten nur einen Hinweis für die kausale Relevanz der Polizei bezüglich der Kriminalität in Denver liefern. Die erhöhte Kriminalität in Denver könnte nämlich durch eine für diese Stadt spezifische Charakteristik mit verursacht sein (Dies bedeutet, dass die Städte nicht wirklich vergleichbar sind). Derartige stadtspezifische Situationen können jedoch nur entdeckt werden, wenn man den Vergleich mit anderen Städten durchführt. Aktuelles Gewicht Übung 1-3: Geben Sie jeweils ein Beispiel zu: (a) Scheineffekten (b) Konfundierung Übung 1-4: Gegeben: Untersuchung des Zusammenhangs zwischen Blutdruck und Geburtsgewicht (Tu, Gunnell & Gilthorpe, 2008): Blutdruck Geburtsgewicht normal hoch % normal Yules Q 90 kg gering % hoch % > 90 kg gering % hoch % Tab. 1-3: Kreuztabellierung der drei Faktoren Blutdruck (normal vs. hoch), Geburtsgewicht (gering, vs. hoch) und aktuellem Gewicht( 90 kg vs. > 90kg). Gemäss Tab. 1-3 gibt es einen leicht negativen Zusammenhang zwischen Geburtsgewicht und Blutdruck: Personen mit geringem Geburtsgewicht haben einen leicht erhöhten Blutdruck (wobei der Zusammenhang allerdings nur gering ausgeprägt ist). Dies gilt sowohl für die Personen mit aktuellem Gewicht 90 kg als auch für solche mit Gewicht > 90 kg. Für die zusammengefassten Daten, summiert über das aktuelle Gewicht, ergibt sich:

7 Übungen zu Kontingenz- und Kausalurteile 5 Blutdruck Geburtsgewicht normal hoch % normal Yules Q gering % hoch % Tab. 1-4: Kreuztabellierung der drei Faktoren Blutdruck (normal vs. hoch) und Geburtsgewicht (gering, vs. hoch). Die Werte ergeben sich durch aus den Daten von Tab. 1-3 durch Summation über den Faktor aktuelles Gewicht. Für die zusammengefassten Daten, summiert über das aktuelle Gewicht, ergibt sich nun ein positiver Zusammenhang zwischen geringem Blutdruck und Geburtsgewicht: Personen mit geringerem Geburtsgewicht haben eher einen normalen Blutdruck (73% vs. 64%). Erklären Sie möglichst genau die Gründe für die beobachtete Diskrepanz in der Beziehung zwischen Geburtsgewicht und Blutdruck zwischen Tab. 1-3 und Tab Lösung 1. In Tab. 1-3 gibt es keinen Zusammenhang zwischen Geburtsgewicht und Blutdruck: Der kleine negative Zusammenhang ist von geringer Bedeutung. 2. Der positive Zusammenhang zwischen geringem Geburtsgewicht und normalem Blutdruck intab kommt wie folgt zustande: (i) Die Personen mit aktuellem Gewicht 90 kg haben eher einen normalen Blutdruck und auch ein geringeres Geburtsgewicht. (ii) Es gibt viel mehr Personen mit Gewicht 90 kg in der Kategorie niedriges Geburtsgewicht (N = 428) als solche mit Gewicht > 90 kg (N = 58) [Vgl. die relative Grösse der Kreise auf der linken Seite von Abb. 1-2]. In der Kategorie hohes Geburtsgewicht sind beide Kategorien des aktuellen Gewichts ungefähr gleich häufig (N = 276 vs. N = 238) [Vgl. die relative Grösse der Kreise auf der rechten Seite von Abb. 1-2]. (iii) Fasst man nun die Daten über das aktuelle Gewicht zusammen, so wird die die Kategorie mit geringem Geburtsgewicht durch die Anzahl Personen mit aktuellem Gewicht 90 kg, für die ja durchwegs ein normaler Blutdruck vorliegt, bestimmt (Vergleiche die relative Grösse der linken Kreise in Abb. 1-2). Daher ist der prozentuale Anteil an Personen mit normalem Blutdruck

8 Übungen zu Kontingenz- und Kausalurteile 6 eher hoch. (Der linke Endpunkt der roten Linie in Abb. 1-2 liegt viel näher zum Mittelpunkt des oberen Kreises). Hingegen ist die Kategorie mit hohem Geburtsgewicht eine Mischung aus den beiden fast gleich grossen Mengen von Personen mit aktuellem Gewicht 90 kg und >90 kg (Vergleiche die relative Grösse der rechten Kreise in Abb. 1-2). Da letztere eher einen hohen Blutdruck aufweisen, ist daher in dieser Gruppe das Verhältnis der Anzahl Personen mit hohem zu jenen mit normalem Blutdruck eher ausgeglichen (Der rechte Endpunkt der roten Linie in Abb. 1-2 liegt daher ungefähr in der Mitte zwischen den Mittelpunkten der beiden rechten Kreise). Insgesamt ist daher in der Gruppe mit geringem Geburtsgewicht das Verhältnis von normalem zu hohem Blutdruck höher als in der Gruppe mit hohem Geburtsgewicht. Dies führt zu einem positiven Zusammenhang zwischen geringem Geburtsgewicht und normalen Blutdruck (vgl. die rote Linie in Abb. 1-2). Dieser Zusammenhang ist jedoch ein Artefakt, der sich durch die Ignorierung des aktuellen Gewichts ergibt. Prozentsatz normaler Blutdruck gering Gewicht 90 kg Gewicht >90 kg Geburtsgewicht Abb. 1-2: Diagramm von Paik zur Veranschaulichung des Effekts der Summation über die Variable aktuelles Gewicht: Der leicht negative Zusammenhang zwischen geringem Geburtsgewicht und normalen Blutdruck (repräsentiert durch die gestrichelten blauen Linien) verwandelt sich in einen positiven Zusammenhang (rote Linie). hoch

9 Übungen zu Kontingenz- und Kausalurteile 7 Übung 1-5: Gegeben: Die Daten zu Bsp.2-23 (Abb. 2-8). Berechne: a) Die falsche Regression, welche die Clusterstruktur ignoriert. b) Die korrekte Regression, welche die Clusterstruktur berücksichtigt. Berichte: (1) Das Ergebnis des Signifikanztests für den Regressionsparameter für (a). (2) Die drei Regressionsgleichungen für (b). (3) Das Ergebnis des Signifikanztests für den Regressionsparameter für (b). Lösung (1) Ergebnisse der Regression, welche die Clusterstruktur unberücksichtigt lässt. Koeffizient Schätzung Standardfehler t-wert p a b (2) Ergebnisse der Regression, welche die Clusterstruktur mit einbezieht: Koeffizient Schätzung Standardfehler t-wert p a b G G (3) Die Regressionsgeraden für die 3 Klassen lauten: Klasse 1: Aggression Intelligenz Klasse 2: Aggression Intelligenz Klasse 3: Aggression Intelligenz Übung 1-6: Lords Paradoxon (Lord, 1967): Gegeben: Die Daten zweier Gruppen (vgl. Abb. 1-3)

10 Übungen zu Kontingenz- und Kausalurteile 8 Test (nachher) Sekundarstufe (N = 250) Gymnasium (N = 250) Test (vorher) Abb. 1-3: Ergebnisse eines Test für Sekundarschüler und Gymnasiasten vor Eintritt ins Gymnasium und ein Jahr danach (Simulierte Daten). Die Ellipsen repräsentieren die 95%- Konfidenzbereiche der bivariaten Normalverteilungen für die beiden Populationen, aus denen die beiden Stichproben gezogen wurden. Die kleinen offenen Kreise repräsentieren die einzelnen Datenpunkte. Eingezeichnet sind auch die beiden Regressionsgeraden, welche sich aufgrund der gezogenen Stichproben ergeben. Demonstrieren Sie aufgrund der Daten Lords Paradoxon: (a) Führen Sie eine Kovarianzanalyse durch mit Test (nachher) als abhängige und Schule als unabhängige Variable, sowie mit Test (vorher) als Kovariate. Diese Analyse sollte einen signifikanten Effekt des Faktors Schule ergeben. (b) Nun führen Sie einen t-test für unabhängige Stichproben (die beiden Schultypen) auf die Differenz nachher vorher durch. Der t-test sollte keinen signifikanten Unterschied zwischen den beiden Gruppen ergeben. Bemerkung: Anstelle der Kovarianzanalyse kann auch eine Regressionsanalyse durchgeführt werden.