Kapitel 16 Kreuztabellen
|
|
|
- Hanna Kaufer
- vor 9 Jahren
- Abrufe
Transkript
1 Kapitel 16 Kreuztabellen Eine Kreuztabelle dient dazu, die kombinierte Häufigkeitsverteilung zweier Variablen darzustellen. Sie bildet somit das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall. Erstellen Sie beispielsweise eine Häufigkeitstabelle für die Variable Geschlecht, gibt Ihnen die Tabelle an, wie viele Frauen und wie viele Männer in der betrachteten Stichprobe enthalten sind. Ebenso können Sie eine Häufigkeitstabelle für eine Variable Familienstand erstellen, aus der hervorgeht, wie viele der Personen aus der Stichprobe jeweils ledig, verheiratet, geschieden etc. sind. Wenn Sie nun eine Kreuztabelle für die beiden Variablen Geschlecht und Familienstand erstellen, gibt diese Tabelle die der ledigen Frauen, der ledigen Männer, der verheirateten Frauen, der verheirateten Männer etc. an. Es werden also Fallgruppen - in diesem Beispiel Personengruppen - betrachtet, die durch die Kombination der Merkmale aus den beiden Variablen Geschlecht und Familienstand definiert sind. Die Prozedur KREUZTABELLEN beschränkt sich jedoch nicht nur darauf, die gemeinsame Verteilung zweier Variablen in einer Tabelle darzustellen, sondern sie bietet auch statistische Tests an, mit denen untersucht werden kann, ob möglicherweise ein Zusammenhang zwischen den beiden Variablen besteht. Wenn sich beispielsweise zeigt, daß in einer bestimmten Stichprobe ein Großteil der Männer entweder ledig oder geschieden ist, während ein Großteil der Frauen verheiratet ist, läßt dies unter Umständen den Schluß zu, daß in der entsprechenden Grundgesamtheit ein Zusammenhang zwischen dem Familienstand und dem Geschlecht einer Person besteht. Um die Prozedur KREUZTABELLEN aufzurufen, wählen Sie den Befehl STATISTIK ZUSAMMENFASSEN KREUZTABELLEN... Mit dieser Prozedur lassen sich drei unterschiedliche Arten von Output erstellen: ¾ Kreuztabellen: In einer Kreuztabelle wird die gemeinsame Häufigkeitsverteilung zweier Variablen angegeben. Wie bei der Häufigkeitstabelle, in der die Häufigkeitsverteilung einer einzelnen Variablen dargestellt wird, können auch bei der Kreuztabelle nicht nur die absoluten Häufigkeiten, sondern auch ver-
2 396 Kapitel 16 Kreuztabellen schiedene relative Häufigkeiten und zudem sogenannte erwartete Häufigkeiten ausgegeben werden. Die Idee von erwarteten Häufigkeiten bildet die Grundlage für einen Signifikanztest zur Untersuchung eines möglichen Zusammenhangs zwischen den Variablen. Durch das Einbeziehen mehrerer Dimensionen in eine Kreuztabelle bzw. durch die Kombination mehrerer Tabellen läßt sich auch die gemeinsame Häufigkeitsverteilung von mehr als zwei Variablen darstellen. ¾ Chi-Quadrat-Test: Der χ 2 -Test überprüft, ob zwei Variablen vollkommen unabhängig voneinander verteilt sind oder ob ein Zusammenhang zwischen den Variablen besteht. Bei der Prozedur werden χ 2 -Tests nach unterschiedlichen Methoden berechnet. ¾ Zusammenhangsmaße: Zusammenhangsmaße versuchen, durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zum Ausdruck zu bringen. Während Kreuztabellen und der χ 2 -Test im wesentlichen für nominal- und ordinalskalierte Variablen sinnvoll angewandt werden können, stehen Zusammenhangsmaße auch für intervallskalierte Variablen zur Verfügung Kreuztabellen auswerten Das Beispiel: Demokratisches System und Wirtschaftslage in Deutschland In der 1996 durchgeführten Allbus-Bevölkerungsbefragung wurden die Befragten unter anderem um eine Bewertung des demokratischen Systems in Deutschland gebeten. Abbildung 16.1 zeigt die Frage sowie die vorgegebenen Antwortkategorien, mit denen diese Einschätzung abgefragt wurde. Alles in allem gesehen, was denken Sie, wie gut oder schlecht funktioniert das demokratische System in Deutschland heute? (Bitte nur ein Kästchen ankreuzen!) Es funktioniert gut und muß nicht verändert werden. Es funktioniert im großen und ganzen gut, muß aber in einigen Punkten verändert werden. Es funktioniert nicht gut und muß in vielen Punkten verändert werden. Es funktioniert überhaupt nicht gut und muß völlig verändert werden. Kann ich nicht sagen. Abbildung 16.1: Fragetext und Antwortkategorien für die Variable v408
3 16.1 Kreuztabellen auswerten 397 Die Antworten auf diese Frage sind in der Datendatei allbus.sav von der Begleit- CD in der Variablen v408 enthalten. Die Antwort Kann ich nicht sagen wurde in dieser Variablen durch den Wert 8 codiert, der als fehlender Wert definiert ist. 179 Die Frage nach der Einschätzung des demokratischen Systems ist recht allgemein formuliert und überläßt es den Befragten zu entscheiden, welche Anforderungen an ein demokratisches System zu stellen sind. So mag es sein, daß einige Befragte von einem demokratischen System verlangen, daß die Entscheidungsprozesse in einem Kollektiv wie beispielsweise der Gesamtbevölkerung Deutschlands auf bestimmte Weise ablaufen und somit gewährleistet ist, daß die Präferenzen der einzelnen (zur Teilnahme am Abstimmungsprozeß berechtigten) Mitglieder in geeigneter Weise zur einer Kollektiventscheidung aggregiert werden. Ist ein solcher Entscheidungsprozeß sichergestellt, könnte demnach unabhängig von dem Ergebnis dieses Entscheidungsprozesses von einem gut funktionierendem demokratischen System gesprochen werden. Denkbar ist jedoch auch, daß nicht nur der Entscheidungsprozeß, sondern auch dessen Ergebnis als relevant für die Bewertung des demokratischen Systems angesehen werden. Möglicherweise orientieren sich die Befragten bei der Beantwortung derselben Frage also an unterschiedlichen Kriterien. Neben einer Bewertung des demokratischen Systems sollten die Befragten auch eine Bewertung der allgemeinen wirtschaftlichen Lage in Deutschland vornehmen. Abbildung 16.2 zeigt den dabei verwendeten Fragetext sowie die vorgegebenen Antwortkategorien. In der Datendatei allbus.sav sind die zu dieser Frage gehörenden Antworten in der Variablen v113 enthalten. 180 Wie beurteilen Sie ganz allgemein die heutige wirtschaftliche Lage in Deutschland? Sehr gut Gut Teils gut / teils schlecht Schlecht Sehr schlecht Abbildung 16.2: Fragetext und Antwortkategorien für die Variable v113 Die allgemeine Wirtschaftslage kann als eines der wesentlichen Merkmale für den Zustand eines Landes angesehen werden. Ist die Wirtschaftslage nicht zufriedenstellend, werden häufig grundlegende Strukturen in der Organisation eines Landes in Frage gestellt. Dies betrifft auch das demokratische System als Ganzes, dessen 179 Für Befragte, die keines der Kästchen angekreuzt haben, also auch nicht die Antwort Kann ich nicht sagen, ist in der Variablen der Wert 9 eingetragen, der ebenfalls als fehlender Wert gekennzeichnet ist. Zudem gibt es Befragte, denen nicht der gesamte Fragebogen, sondern nur ein Teil des Fragenkatalogs vorgelegt wurde. Der Teil, der diesen Befragten nicht präsentiert wurde und den sie daher auch nicht beantwortet haben, schließt auch die Variable v408 ein. Die Befragten, für die aus diesem Grund keine Einschätzung des demokratischen Systems vorliegt, weisen in der Variablen v408 die Codierung 0 auf. Auch dies ist ein benutzerdefinierte fehlender Wert. Für die Variable wurden somit insgesamt drei Werte als systemdefinierte fehlende Werte gekennzeichnet: 0, 8 und Diese Variable wurde bereits in Kapitel 16, Häufigkeitstabellen, betrachtet.
4 398 Kapitel 16 Kreuztabellen Funktionsfähigkeit und Effizienz oftmals - bewußt oder unbewußt - nicht unabhängig von der Wirtschaftslage bewertet wird, denn diese stellt unter anderem das Resultat der im Rahmen des demokratischen Systems ablaufenden Entscheidungsprozesse dar. Aus diesem Grund soll im folgenden zunächst die gemeinsame Wahrscheinlichkeitsverteilung der Variablen v408 und v113 in einer Kreuztabelle dargestellt und anschließend auf einen möglichen Zusammenhang zwischen den Variablen untersucht werden Verteilungsangaben in der Kreuztabelle Tabelle erstellen Die in Abbildung 16.3 wiedergegebene Kreuztabelle für die Variablen v408 und v113 wurde mit den folgenden Schritten und Dialogfeldeinstellungen der Prozedur KREUZTABELLEN erzeugt: ¾ Fälle gewichten: Im folgenden sollen die Antworten der Befragten aus den neuen und den alten Bundesländern gemeinsam untersucht werden. In der Datendatei sind Personen aus den neuen Bundesländern jedoch überproportional häufig vertreten. 181 Wenn sich Befragte aus den beiden Bundesgebieten in ihren Antworten nun systematisch voneinander unterscheiden, würde die gemeinsame Auswertung der beiden Personengruppen ohne eine vorherige Korrektur der disproportionalen Stichprobenziehung zu falschen Ergebnisse führen. Die Überrepräsentation der Befragten aus den neuen Bundesländern kann dadurch korrigiert werden, daß die Fälle für Personen aus den alten Ländern entsprechend höher gewichtet werden. Hierzu enthält die Datendatei bereits eine Variable mit geeigneten Gewichten, dies ist v434. Verwenden Sie zur Gewichtung der Fälle den Befehl DATEN, FÄLLE GEWICHTEN, wählen Sie in dem damit geöffneten Dialogfeld die Option Fälle gewichten mit, und fügen Sie die Variable v434 in das entsprechende Feld ein, bevor Sie das Dialogfeld wieder mit OK schließen. ¾ Variablen für die Kreuztabelle: Fügen Sie in dem Dialogfeld der Prozedur KREUZTABELLEN die Variable v113 in das Feld Zeilen und v408 in das Feld Spalten ein. ¾ Zellen: Wählen Sie in dem Dialogfeld der Schaltfläche Zellen die beiden Optionen Beobachtet (Gruppe Häufigkeiten) und Spaltenweise (Gruppe Prozentwerte). Bei allen übrigen Optionen der Dialogfelder werden die Voreinstellungen unverändert übernommen. 181 Ein solches Oversample wurde bei der Datenerhebung bewußt vorgenommen, damit eine hinreichend große an Personen aus den neuen Bundesländern befragt werden konnte, um fundierte Aussagen speziell für die neuen Länder aus den Umfrageergebnissen ableiten zu können.
5 16.1 Kreuztabellen auswerten 399 Inhalte der einzelnen Felder Die Kreuztabelle bildet aus den Wertekombinationen der beiden kreuztabellierten Variablen insgesamt 20 Felder. Die in den Feldern enthaltenen Angaben wurden beim Ausführen der Prozedur in dem Dialogfeld der Schaltfläche Zellen bestimmt, so daß sie von Tabelle zu Tabelle variieren können. In der hier dargestellten Tabelle werden die absoluten Häufigkeiten der verschiedenen Wertekombinationen sowie deren Anteile an der jeweiligen Spalte (Spaltenprozente) angegeben. V113 * V408 Kreuztabelle V113 Gesamt SEHR GUT GUT TEILS TEILS SCHLECHT SEHR SCHLECHT % von V408 % von V408 % von V408 % von V408 % von V408 % von V408 ES FUNKTIONIERT ETWAS ZU V408 VIELES ZU VOELLIG ZU GUT VERAENDERN VERAENDERN VERAENDERN Gesamt ,1%,9%,7% ,4% 14,0% 6,2% 4,8% 13,4% ,5% 52,0% 44,1% 9,5% 49,4% ,6% 28,5% 37,9% 47,6% 29,8% ,4% 4,6% 11,8% 38,1% 6,7% ,0% 100,0% 100,0% 100,0% 100,0% Abbildung 16.3: Kreuztabelle für die Variablen v113 (Bewertung der Wirtschaftslage) und v408 (Bewertung des demokratischen Systems) Das Feld in der dritten Zeile und der zweiten Spalte gibt an, daß 349 der Befragten Personen der Auffassung sind, an dem demokratischen System sei etwas zu verändern und die allgemeine Wirtschaftslage sei teils gut / teils schlecht. 182 Dies sind 52% aller Personen, die durch die zweite Spalte repräsentiert werden (Spaltenprozent = Prozent innerhalb der Variablen v408). Inhaltlich besagt dies, daß etwa die Hälfte aller Personen, die am demokratischen System etwas verändern würden, die aktuelle Wirtschaftslage als teils gut / teils schlecht einschätzen. Aus der Gruppe der Personen, die am demokratischen System vieles zu verändern wünschen, beträgt der Anteil der Leute, nach deren Auffassung die Wirtschaftslage teils gut / teils schlecht ist, nur 44,1%. Als absolute Zahl sind dies 86 Personen. 182 Beachten Sie hierbei, daß die Tabelle auf gewichteten Fällen basiert. Die Aussage 349 Personen seien der Auffassung... ist daher genaugenommen unpräzise oder sogar falsch, denn die Zahl 349 kommt zustande, indem die jeweiligen Gewichte auf die einzelnen Personen, die diesem Tabellenfeld zuzuordnen sind, angewandt werden. Die tatsächliche Personenanzahl wird daher mehr oder weniger stark von dem Wert 349 abweichen, die Gewichte sind allerdings so gewählt, daß die tatsächliche Personenzahl von der gewichteten im allgemeinen - und dies ist auch bei der hier betrachteten Tabelle der Fall - nicht sehr stark abweicht. Im folgenden wird trotz der sprachlichen Ungenauigkeit weiter von Personen und nicht von gewichteten Fällen gesprochen, wobei wir die Tatsache, daß Gewichte verwendet wurden, im Hinterkopf behalten sollten.
6 400 Kapitel 16 Kreuztabellen Randverteilung der Kreuztabelle Die der insgesamt durch eine Spalte repräsentierten Personen wird in der untersten Zeile mit der Beschriftung Gesamt angegeben. Für die erste Spalte findet sich dort der Wert 91. Dies ist somit die Gesamtanzahl der Personen, nach deren Meinung das demokratische System gut funktioniert der Befragten sind der Auffassung, es gäbe am demokratischen System etwas zu verändern, 195 Personen würden vieles und 21 Befragte das gesamte System völlig verändern. Die unterste Zeile gibt somit die einfache Häufigkeitsverteilung der Variablen v408 an, die auch aus einer einfachen Häufigkeitstabelle für diese Variable hervorgehen würde. 184 Entsprechend gibt die letzte Spalte der Tabelle die einfache Häufigkeitsverteilung der Variablen v113 an. Dort ist zum Beispiel abzulesen, daß 66 Befragte die aktuelle Wirtschaftslage in Deutschland im Jahr 1996 als sehr schlecht eingestuft haben. Da sich die Tabelle insgesamt auf 978 Personen bezieht, war dies ein Anteil von 66 / 978 = 0,0674 = 6,74%. Dieser Anteil wird in der Tabelle als Spaltenprozent ausgewiesen. Die einfachen Häufigkeitsverteilungen der beiden Variablen in der untersten Zeile und der letzten Spalte werden als Randverteilungen der Kreuztabelle bezeichnet. An der Randverteilung für die Variable v113 ist zu erkennen, daß die Personen mit einer negativen Bewertung der allgemeinen Wirtschaftslage die Befragten mit positiven Einschätzung deutlich überwogen. In bezug auf das demokratische System will dagegen der weitaus überwiegende Teil der Befragten das System im wesentlichen beibehalten Möglicher Zusammenhang zwischen den Variablen Vergleich der relativen Häufigkeiten 29,8% der Befragten waren der Auffassung, die allgemeine Wirtschaftslage Deutschlands im Jahr 1996 sei schlecht gewesen. In den Gruppen der Personen, die eine eher positive Einschätzung von dem Funktionieren des demokratischen Systems vertraten (erste und zweite Spalte), war dieser Anteil mit 17,6% bzw. 28,5% jedoch etwas geringer, während der entsprechende Anteil unter den Personen, die für umfangreiche Änderungen am demokratischen System plädierten, deutlich über 30% lag. Ähnlich sieht die Verteilung der Werte aus der Variablen v408 innerhalb der untersten Zeile aus, also innerhalb der Gruppe der Personen, die die Wirtschaftslage für sehr schlecht befunden haben. Dagegen kehren sich die Verhältnisse in den drei oberen Zeilen um. In den durch diese drei Zeilen reprä- 183 Der Wert 100% in der untersten Zeile gibt formal an, daß die 91 Personen genau 100% der durch die erste Spalte dargestellten Personen bilden. Der entsprechende Anteil beträgt natürlich in jeder Spalten 100%. 184 Wenn Sie allerdings eine Häufigkeitstabelle für die Variable v408 erstellen, wird diese zum Teil andere Werte ausweisen als die unterste Zeile der Kreuztabelle. Dies liegt daran, daß von der Kreuztabelle alle Fälle ausgeschlossen wurden, die in mindestens einer der Variablen v408 und v113 einen fehlenden Werte enthalten. Aus der einfachen Häufigkeitstabelle würden dagegen nur die Fälle mit einem fehlenden Wert in v408 ausgeschlossen, so daß sich diese wahrscheinlich auf eine größere von Fällen beziehen würde.
7 16.1 Kreuztabellen auswerten 401 sentierten Personengruppen sind die Spaltenprozente in den Gruppen der Personen mit eher positiver Einstellung zum derzeitigen demokratischen System jeweils größer als bei den Personen, die mit dem derzeitigen System eher unzufrieden sind. Stark vereinfachend läßt sich diese Beobachtung auf folgende Aussage reduzieren: Personen, die die aktuelle Wirtschaftslage tendenziell positiv bewertet haben, sind zu einem größeren Anteil auch mit dem Funktionieren des demokratischen Systems zufrieden. Umgekehrt möchten Befragte, die die Wirtschaftslage eher negativ bewerteten, in der Tendenz auch weitreichendere Änderungen am demokratischen System vornehmen. Aus dieser Beobachtung sollten jedoch keine zu weitreichenden Schlüsse gezogen werden. Der beschriebene Zusammenhang gilt eindeutig für die Personen aus der Stichprobe. Daraus läßt sich jedoch weder auf einen kausalen Zusammenhang zwischen den beiden Variablen schließen, noch kann ohne weiteres gefolgert werden, daß dieser Zusammenhang auch in der Grundgesamtheit gilt. Es ist möglich, daß die Verteilung der Werte aus der Variablen v408 innerhalb jeder Gruppe der Variablen v113 in der Grundgesamtheit identisch ist, daß also die Spaltenprozente der einzelnen Felder innerhalb einer Spalte alle identisch sind. Dies müßte der Fall sein, wenn überhaupt kein Zusammenhang zwischen den beiden Variablen besteht. 185 Ob aus dem in der Stichprobe beobachteten Zusammenhang zwischen den Variablen auf einen entsprechenden Zusammenhang in der Grundgesamtheit geschlossen werden kann, wird unten mit Hilfe eines Signifikanztests, dem χ 2 -Test, überprüft. Erwartete Häufigkeiten Wenn die beiden Variablen vollkommen unabhängig voneinander verteilt sind, dürften die Verteilungen der einen Variablen innerhalb der verschiedenen Kategorien der jeweils anderen Variablen nicht wesentlich voneinander abweichen und müßten somit auch der Gesamtverteilung der Variablen entsprechen. Da 29,8% aller Befragten die allgemeine Wirtschaftslage als schlecht eingestuft haben, müßte dies bei unabhängiger Verteilung der beiden Variablen somit auch für die Teilgruppe der Personen gelten, die das demokratische System als gut funktionierend bewertet haben. Dies waren insgesamt 91 Personen. 29,8% von diesen 91 Personen wären 0, Personen. Dieser Wert von 27 Personen wird als erwartete Häufigkeit bezeichnet. Es ist der Wert, der bei gegebener Randverteilung der beiden Variablen unter der Annahme, daß die Variablen unabhängig voneinander verteilt sind, zu erwarten ist. Anders formuliert gilt: Wenn 291 von insgesamt 978 Personen die Wirtschaftslage als schlecht bewerten und 91 der 978 Personen von einem guten Funktionieren des demokratischen Systems ausgehen, 185 Statt der Spaltenprozente könnten auch stets die Zeilenprozente (prozentualer Anteil der durch ein Feld repräsentierten Personen an den in der gesamten Zeile enthaltenen Personen) betrachtet werden. Sind die beiden Variablen vollkommen unabhängig voneinander verteilt, müßten alle Zeilenprozente der einzelnen Felder innerhalb einer Zeile (weitgehend) übereinstimmen. Auch die Zeilenprozente können mit dem Prozedur KREUZTABELLEN ausgewiesen werden.
8 402 Kapitel 16 Kreuztabellen dann müßten, wenn die Bewertung des demokratischen Systems unabhängig von der Einschätzung des Wirtschaftslage erfolgt, 27 Personen gleichzeitig die Wirtschaftslage als schlecht und das demokratische System als gut funktionierend bewerten. Wenn die tatsächlich beobachteten Häufigkeiten deutlich von den erwarteten Häufigkeiten abweichen, deutet dies darauf hin, daß die Variablen möglicherweise nicht unabhängig voneinander verteilt sind. Die Betrachtung der erwarteten Häufigkeiten stellt lediglich eine andere Perspektive des oben angestellten Vergleichs der relativen Häufigkeiten dar. Für das Feld in der ersten Spalte und der vierten Zeile beträgt die erwartete Häufigkeit wie berechnet 27, beobachtet wurde dagegen eine von 46 Personen. Zumindest in diesem Feld liegt offenbar eine starke Abweichung zwischen beobachteter und erwarteter Häufigkeit vor. Für das Feld in der zweiten Spalte und der dritten Zeile beträgt die erwartete Häufigkeit Auch hier weicht die beobachtete Häufigkeit von 349 etwas von der erwarteten Häufigkeit ab. Um einen umfassenden Vergleich der erwarteten mit den beobachteten Häufigkeiten vorzunehmen, können beide Häufigkeitswerte in den Kreuztabellen von SPSS ausgewiesen werden (s.u.). Auch der im folgenden durchgeführte χ 2 -Test basiert auf einem Vergleich der erwarteten mit den beobachteten Häufigkeiten Chi-Quadrat-Test Anpassen der Daten Damit der χ 2 -Test durchgeführt werden kann, müssen bestimmte Anforderungen von den Daten erfüllt werden. 186 Eine dieser Anforderungen besteht darin, daß die erwarteten Häufigkeiten in den einzelnen Tabellenfeldern nicht zu gering sein dürfen. Als Mindestanforderung sollte die erwartete Häufigkeit in keinem Feld kleiner als fünf sein. In der Tabelle aus Abbildung 16.3 wird dieser Wert jedoch in mehreren Feldern unterschritten. So beträgt die erwartete Häufigkeit für das Feld in der fünften Zeile und der vierten Spalte , Auch für andere Felder ergeben sich ähnlich geringe erwartete Häufigkeiten, so daß der χ 2 -Test für diese Tabelle nicht zuverlässig durchgeführt werden kann. Aus diesem Grund werden zunächst in jeder der beiden Variablen einzelne Kategorien zusammengefaßt. Für die Variable v408 (Funktionieren des demokratischen Sy- 186 Siehe hierzu im einzelnen Abschnitt , Voraussetzungen des χ2-tests, S. 406.
9 16.2 Chi-Quadrat-Test 403 stems) werden die beiden ersten Spalten (Es funktioniert gut und Etwas zu verändern) zu einer Kategorie (Eher gut) und die beiden letzten Spalten zu der Kategorie Eher schlecht zusammengefaßt. In der Variablen v113 werden jeweils die beiden ersten (Sehr gut und gut) sowie die beiden letzten Zeilen (Schlecht und Sehr schlecht) vereint. Die neuen Codierungen sind in den Variablen v113_2 und v408_2 enthalten. Abbildung 16.4 gibt die Kreuztabelle für diese beiden Variablen mit den beobachteten und den erwarteten Häufigkeiten wieder. 187 V113_2 * V408_2 Kreuztabelle V113_2 Gesamt Gut Teils / Teils Schlecht Erwartete Erwartete Erwartete Erwartete V408_2 Eher Eher gut schlecht Gesamt ,5 30,5 138, ,1 106,9 484, ,4 78,6 356, ,0 216,0 978,0 Abbildung 16.4: Kreuztabelle mit erwarteten und beobachteten Häufigkeiten für die umcodierten Variablen v113_2 und v408_2 In dieser Tabelle beträgt die geringste erwartete Häufigkeit eines Feldes 30,5, so daß die Voraussetzungen für den χ 2 -Test erfüllt sind. Der Preis, der hierfür zu zahlen ist, besteht in einem Verzicht an Information. Die Tabelle aus Abbildung 16.4 ist weniger differenziert als die aus Abbildung Während in der neuen Tabelle nur zwischen zwei bzw. drei Kategorien unterschieden wird, liegen in den Ursprungsdaten Informationen über vier bzw. fünf unterschiedliche Kategorien der beiden Variablen vor. Auf diesen höheren Grad an Differenzierung muß jedoch verzichtet werden, um den Signifikanztest zuverlässig anwenden zu können. Auch in dieser Tabelle weichen die beobachteten Häufigkeiten deutlich und systematisch von den erwarteten Häufigkeiten ab. Wiederum haben die Personen, die eine positive Einschätzung der Wirtschaftslage vorgenommen haben, dem demokratischen System häufiger ein gutes Funktionieren attestiert, als es den erwarteten Häufigkeiten entsprochen hätte. Daraus folgt unmittelbar, daß dieselbe Personengruppe im Vergleich zu den erwarteten Häufigkeiten seltener zu dem Ergebnis gekommen ist, das demokratische System funktioniere schlecht. Entsprechend ergeben sich auch in den anderen beiden Zeilen sowie in den Spalten der Tabelle Abweichungen zwischen erwarteten und beobachteten Häufigkeiten. 187 Zum Erstellen dieser Tabelle wurde die Variable v408_2 als Spaltenvariable und v113_2 als Zeilenvariable angegeben. In dem Dialogfeld der Schaltfläche Zellen wurden nur die beiden Optionen Beobachtet und Erwartet aus der Gruppe Häufigkeiten angekreuzt.
10 404 Kapitel 16 Kreuztabellen Berechnung des χ 2 Zur Durchführung des Signifikanztests wird das Prüfmaß Chi-Quadrat berechnet. Für eine Tabelle mit n Zeilen und m Spalten erfolgt die Berechnung dieses Prüfmaßes nach folgender Formel: χ 2 = n m i= 1j= 1 ( n nˆ ) Dabei bezeichnet n ij die beobachtete Häufigkeit in dem Feld aus Zeile i und Spalte j. nˆ ij ist die entsprechende erwartete Häufigkeit. Bei der Berechnung werden für jedes Feld der Tabelle die quadrierten Abweichungen der erwarteten von den tatsächlichen Häufigkeiten durch die erwarteten Häufigkeiten dividiert. Die Summe dieser Quotienten über alle Felder der Kreuztabelle bildet den χ 2 -Wert. Durch das Quadrieren der Differenzen wird erreicht, daß negative und positive Abweichungen gleichermaßen in das Maß eingehen und sich nicht gegenseitig aufheben. Die Division durch die erwarteten Häufigkeiten ist erforderlich, da sich andernfalls bei insgesamt vielen Beobachtungen auch mehr Abweichungen ergeben würden. Bei Beobachtungen wird die Summe der (quadrierten) Abweichungen unter sonst gleichen Umständen größer sein als bei 100 Beobachtungen. Je größer die Abweichung in einem Feld der Tabelle ist, desto größer wird auch der χ 2 -Wert ausfallen. Ein großer χ 2 -Wert ist also mit großen Abweichungen verbunden und deutet auf einen Zusammenhang zwischen den beiden Variablen hin. Es ist jedoch auch möglich, daß sich die beobachteten Abweichungen zwischen zwei Variablen nur zufällig in der jeweils betrachteten Stichprobe ergeben haben, obwohl in der Grundgesamtheit aller Fälle kein Zusammenhang zwischen den Variablen besteht. Aus wahrscheinlichkeitstheoretischen Überlegungen läßt sich eine Verteilung für das Prüfmaß χ 2 herleiten, die in Abhängigkeit von der der Zeilen und Spalten der Kreuztabelle angibt, mit welcher Wahrscheinlichkeit sich ein bestimmter χ 2 -Wert auch dann ergeben kann, wenn die Variablen in der Grundgesamtheit unabhängig voneinander verteilt sind. Der Zusammenhang wird mit Hilfe der Freiheitsgrade der Kreuztabelle dargestellt: Aus der Zeilen- und Spaltenanzahl wird die der Felder ermittelt, denen bei gegebener Randverteilung beliebige Häufigkeiten zugeordnet werden können. Handelt es sich zum Beispiel um eine Tabelle mit 2 2 Feldern, so ergeben sich aus der Häufigkeit in einem der Felder bei gegebener Randverteilung unmittelbar die Häufigkeiten aller übrigen Felder. Weist das Feld links oben in der Tabelle die Häufigkeit 3 auf und ist die Gesamthäufigkeit der oberen Zeile durch die Randverteilung mit 7 angegeben, so muß das rechte obere Feld eine Häufigkeit von 4 aufweisen. Auf die gleiche Weise sind auch die Häufigkeiten der beiden anderen Felder festgelegt. In einer 2 2-Tabelle kann also nur die Häufigkeit eines Feldes frei gewählt werden. Die Tabelle hat daher einen Freiheitsgrad. Allgemein ergibt sich die Zahl der Freiheitsgrade einer Kreuztabelle als Freiheitsgrade = (Zeilenanzahl - 1) (Spaltenanzahl - 1). ij nˆ ij 2 ij
11 16.2 Chi-Quadrat-Test 405 Die Kreuztabelle aus Abbildung 16.4 mit zwei Spalten und drei Zeilen besitzt somit (2-1) (3-1) = 2 Freiheitsgrade. Mit Hilfe des Wertes χ 2 und der der Freiheitsgrade läßt sich die Wahrscheinlichkeit bestimmen, mit der sich die vorliegende Abweichung zwischen beobachteten und erwarteten Häufigkeiten bei gegebener an Freiheitsgraden auch dann ergeben kann, wenn zwischen den Variablen in der Grundgesamtheit kein Zusammenhang besteht. Dabei gilt, daß bei gegebenem Zusammenhang zwischen den Variablen die Möglichkeit einer guten statistischen Absicherung des Ergebnisses mit wachsender Felderzahl und damit größeren Freiheitsgraden abnimmt. Das Zusammenfassen einzelner Werte einer Variablen kann daher auch dann sinnvoll sein, wenn die erwartete Häufigkeiten in jedem Tabellenfeld ohnehin größer als fünf ist Interpretation des χ 2 -Tests Abbildung 16.5 zeigt das Ergebnis des χ 2 -Tests für die Kreuztabelle aus Abbildung Der Test wird in den Dialogfeldern der Prozedur KREUZTABELLE mit der Option Chi-Quadrat aus dem Dialogfeld der Schaltfläche Statistik angefordert. Chi-Quadrat-Tests Wert df Asymptotische Signifikanz (2-seitig) Chi-Quadrat nach Pearson 37,136 a 2,000 Likelihood-Quotient 38,186 2,000 Zusammenhang linear-mit-linear 36,409 1,000 der gültigen Fälle 978 a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 30,48. Abbildung 16.5: χ 2 -Test für die umcodierten Variablen v113_2 und v408_2 Neben dem üblichen Pearson schen χ 2 -Test wurden automatisch zwei weitere Tests durchgeführt. Der Likelihood-Test basiert auf der Maximum-Likelihood- Theorie und liefert bei großen Stichproben das gleiche Ergebnis wie Pearsons χ 2 - Test. Der als Zusammenhang linear-mit-linear ausgewiesene Test mißt den linearen Zusammenhang zwischen den Variablen und ist damit nur für Variablen geeignet, die mindestens Ordinalskalenniveau besitzen. Dieser Test ist auch als Mantel-Haenszel-Test bekannt. Für den Pearson schen Test wird ein χ 2 -Wert von 37,136 ausgewiesen. Für diesen Wert ergibt sich bei den vorliegenden zwei Freiheitsgraden eine Signifikanz von 0,000 (bzw. 0,0%). Wenn kein Zusammenhang zwischen den beiden getesteten Variablen besteht, kann sich ein χ 2 -Wert der Größe 37,136 also mit einer Wahr-
12 406 Kapitel 16 Kreuztabellen scheinlichkeit von 0,0% ergeben. 188 Diese Wahrscheinlichkeit ist so gering, daß eine Unabhängigkeit der beiden Variablen sehr unwahrscheinlich ist. Man sagt, die Nullhypothese, derzufolge kein Zusammenhang zwischen den Variablen besteht, kann zurückgewiesen werden. Wenn man nun diese Nullhypothese zurückweist und davon ausgeht, es bestehe ein Zusammenhang zwischen den Variablen, begeht man mit einer sehr geringen Wahrscheinlichkeit von 0, % einen Irrtum. Diese Wahrscheinlichkeit wird häufig auch als Irrtumswahrscheinlichkeit bezeichnet. Je geringer diese Irrtumswahrscheinlichkeit, desto größer ist umgekehrt die Wahrscheinlichkeit, daß in der Grundgesamtheit ein Zusammenhang zwischen den Variablen besteht. Im Rahmen einer Stichprobenbetrachtung kann jedoch auch mit Hilfe eines Signifikanztests nie mit Sicherheit geklärt werden, ob ein solcher Zusammenhang vorliegt oder nicht. Oft wird als Richtwert angegeben, daß bei einer Irrtumswahrscheinlichkeit von 5% und weniger das Vorliegen eines Zusammenhangs angenommen werden kann. Dieser Grenzwert besitzt jedoch keine allgemeine Gültigkeit, sondern ist stets vor dem Hintergrund der untersuchten Fragestellungen sowie der jeweiligen Datenlage zu bewerten. Wenn mit einem fehlerhaften Zurückweisen der Nullhypothese gravierende negative Konsequenzen verbunden sind, wie dies zum Beispiel beim Testen von Medikamenten auf Nebenwirkungen der Fall sein kann, wird man einen wesentlich geringeren Signifikanzwert fordern. Ggf. wird man die Nullhypothese nur bei einer Irrtumswahrscheinlichkeit von 0,1% oder erst bei unter 0,01% zurückweisen. Deutet der Signifikanztest darauf hin, daß ein Zusammenhang zwischen den betrachteten Variablen besteht, läßt dies keine Rückschlüsse auf eine Kausalität zu. Es besagt lediglich, daß bestimmte Werte der einen Variablen tendenziell gemeinsam mit bestimmten Werten der jeweils anderen Variablen auftreten. Die Ursache davon kann allein mit statistischen Verfahren nicht ermittelt werden. Vielmehr sind hierzu entsprechende theoretische Überlegungen erforderlich, die der statistischen Analyse im allgemeinen vorausgehen. Führen diese Überlegungen zu der Hypothese, es bestehe ein Zusammenhang zwischen den Variablen, kann die Vereinbarkeit dieser Hypothese mit der empirischen Beobachtung durch statistische Verfahren - wie hier mit dem χ 2 -Test - untersucht werden Voraussetzungen des χ 2 -Tests Der χ 2 -Test liefert nicht unter allen Bedingungen zuverlässige Ergebnisse. Die folgenden Einschränkungen sind bei der Anwendung des Tests zu beachten: ¾ Die erwartete Häufigkeit sollte in jedem Feld der Kreuztabelle mindestens fünf betragen. Andernfalls ist das Testergebnis nicht mehr zuverlässig. Zum Teil wird diese Forderung abgeschwächt formuliert. Es wird dann gefordert, daß nicht mehr als 20% der Felder eine erwartete Häufigkeit unter fünf haben dürf- 188 Der Wert 0,000 ist ein gerundeter Wert, den man sich im Ausgabenavigator genauer anzeigen lassen kann. Er wird dort mit 8, e-009 ausgewiesen. Ein χ 2 -Wert von 37,136 ergibt sich bei zwei Freiheitsgraden also mit einer Wahrscheinlichkeit von 0, %, wenn in der Grundgesamtheit kein Zusammenhang zwischen den Variablen besteht.
13 16.3 Kontrollvariable verwenden 407 en. Bei der Berechnung eines χ 2 -Tests wird in den Ergebnissen von SPSS stets die kleinste in der Tabelle vorkommende erwartete Häufigkeit angegeben. Bei dem zuletzt durchgeführten Test beträgt diese 30,48. Zusätzlich wird die der Felder ausgewiesen, in denen die erwartete Häufigkeit kleiner als fünf ist. ¾ Nach Möglichkeit sollten die Tabellen mehr als fünf Felder umfassen. Bei 2 2-Tabellen mit geringer Fallzahl können sich Einschränkungen in der Zuverlässigkeit des Tests ergeben. Beinhaltet eine 2 2-Tabelle ein Feld mit erwarteter Häufigkeit unter fünf, berechnet SPSS zusätzlich Fisher s exakten Test. Dieser basiert auf einer hypergeometrischen Verteilung und ist für kleine Stichproben mit geringen erwarteten Häufigkeiten der genaueste Test. Für alle 2 2-Tabellen wird zum Pearson schen Test zusätzlich Yates Korrektur ausgewiesen. Die Korrektur besteht darin, daß bei der Berechnung des χ 2 -Wertes vor dem Quadrieren die absoluten Abweichungen der beobachteten von den erwarteten Häufigkeiten um 0,5 verringert werden. Dadurch ergibt sich ein kleineres χ 2 und somit ein schlechteres Signifikanzniveau. Diese Korrektur ist jedoch umstritten. ¾ Der χ 2 -Test bietet sich insbesondere für Variablen mit Nominalskalenniveau an. Er ist zwar auch für höhere Skalenniveaus durchführbar, für diese stehen jedoch auch wesentlich leistungsfähigere Tests zur Verfügung, die dem χ 2 - Test im allgemeinen überlegen sind Kontrollvariable verwenden Bisher wurde die Frage, ob ein Zusammenhang zwischen der Einschätzung der Wirtschaftslage und der Bewertung des demokratischen Systems besteht, für alle Befragten aus der Stichprobe gemeinsam untersucht. Dabei hat sich gezeigt, daß offenbar ein solcher Zusammenhang angenommen werden kann. Im folgenden soll überprüft werden, ob sich die Befragten aus den neuen Bundesländern in dieser Hinsicht von den Befragten aus den alten Bundesländern unterscheiden. Sowohl bei der Bewertung der Wirtschaftslage als auch in bezug auf die Einschätzung des demokratischen Systems wäre es plausibel, wenn sich Befragte aus den alten Bundesländern an anderen Kriterien orientieren als Personen aus den neuen Ländern. Um dies zu untersuchen, werden die bisher verwendeten Dialogfeldeinstellungen der Prozedur KREUZTABELLEN weitgehend unverändert übernommen. Es wird lediglich zusätzlich die Variable v3, die das Erhebungsgebiet für jeden Fall angibt, im Hauptdialogfeld der Prozedur in das Feld Schicht eingefügt. Beachten Sie, daß auch hier nicht die Variablen v113 und v408, sondern die umcodierten Variablen v113_2 und v408_2 verwendet werden. Abbildung 16.5 zeigt die mit diesen Einstellungen erzeugt Kreuztabelle. Der obere Teil der Tabelle bezieht sich auf das alte Bundesgebiet, der untere Tabellenteil auf die neuen Bundesländer. Es zeigt sich, daß in jedem der beiden Gebiete Abweichungen zwischen den beobachteten und den erwarteten Häufigkeiten aufgetreten sind. Im übrigen wäre es auch sehr ungewöhnlich, wenn die beobach-
14 408 Kapitel 16 Kreuztabellen teten Häufigkeiten mit den erwarteten vollkommen übereinstimmten. Zusätzlich ist aber zu erkennen, daß die Abweichungen auch das bereits oben beobachtete Muster aufweisen: Personen, die mit der Wirtschaftslage zufrieden sind, bestätigen zu einem überproportional hohen Anteil auch dem demokratischen System ein gutes Funktionieren. Umgekehrt äußern Personen mit negativer Bewertung der Wirtschaftslage besonders häufig auch Kritik am demokratischen System. Dieses Muster ist sowohl in den neuen als auch in den alten Bundesländern zu beobachten. Die Abweichungen zwischen beobachteten und erwarteten Häufigkeiten sind in den neuen Bundesländern zwar absolut geringer, jedoch liegen für die neuen Länder auch insgesamt weniger Beobachtungen vor, so daß sich aus den geringeren absoluten Abweichungen nicht unmittelbar auf einen geringeren Zusammenhang zwischen den Variablen schließen läßt. V113_2 * V408_2 * V3 Kreuztabelle V3 ALTE BUNDESLAENDER NEUE BUNDESLAENDER V113_2 Gesamt V113_2 Gesamt Gut Teils / Teils Schlecht Gut Teils / Teils Schlecht % von V408_2 % von V408_2 % von V408_2 % von V408_2 % von V408_2 % von V408_2 % von V408_2 % von V408_2 V408_2 Eher Eher gut schlecht Gesamt ,0% 5,8% 15,0% ,2% 40,9% 49,4% ,9% 53,3% 35,6% ,0% 100,0% 100,0% ,4% 6,3% 10,6% ,5% 41,8% 50,0% ,1% 51,9% 39,4% ,0% 100,0% 100,0% Abbildung 16.5: Kreuztabelle für die Variablen v113_2 und v408_2, kontrolliert für die Variable v3 (Erhebungsgebiet) Nicht nur die Kreuztabelle, sondern auch der χ 2 -Test wurde getrennt für die neuen und die alten Bundesländer durchgeführt. Abbildung 16.6 zeigt die Ergebnisse dieses Tests. Für die alten Bundesländer wird der Signifikanzwert wieder mit 0,000 ausgewiesen. Läßt man sich im Ausgabenavigator den genauen Wert anzeigen, ist allerdings zu erkennen, daß die Irrtumswahrscheinlichkeit mit 0, bzw. 0,0002% größer ist als der oben für das gesamte Bundesgebiet berechnete Wert. Dabei ist die Irrtumswahrscheinlichkeit jedoch noch immer derart gering, daß man die Hypothese, es bestehe kein Zusammenhang zwischen den Variablen, eindeutig zurückweisen wird. Auch in den neuen Bundesländern ist der ausgewiesene Signifikanzwert größer als der des gesamten Bundesgebiets, hier ist der Anstieg sogar noch wesentlich stär-
15 16.3 Kontrollvariable verwenden 409 ker ausgefallen. Die Irrtumswahrscheinlichkeit beträgt hier 0,01. Es besteht somit eine Wahrscheinlichkeit von 1%, beim Zurückweisen der Hypothese, es bestehe kein Zusammenhang zwischen den Variablen, einen Fehler zu begehen. V3 ALTE BUNDESLAENDER NEUE BUNDESLAENDER Chi-Quadrat-Tests Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear der gültigen Fälle Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear der gültigen Fälle Wert 26,236 a 2,000 27,130 2,000 25,711 1, ,264 b 2,010 9,341 2,009 8,830 1,003 a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 20,55. b. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 8, df Asymptotische Signifikanz (2-seitig) Abbildung 16.6: χ 2 -Tests für die Variablen v113_2 und v408_2, kontrolliert für die Variable v3 (Erhebungsgebiet) Die Tatsache, daß die Signifikanzwerte in den beiden Teilgebieten größer sind als im gesamten Gebiet, könnte beispielsweise so interpretiert werden, daß ein Teil des für das gesamte Gebiet beobachteten Zusammenhangs zwischen den beiden Variablen in Wirklichkeit auf das unterschiedliche Erhebungsgebiet zurückzuführen ist. Personen des einen Gebiets mögen sowohl in bezug auf das demokratische System als auch bezüglich der Wirtschaftslage eine tendenziell negative Bewertung vornehmen, während die Bewertungen beider Größen in dem anderen Gebiet in der Tendenz positiver ausfallen. Ein derartiger Effekt kann so weit gehen, daß innerhalb jedes Gebiets kein Zusammenhang zwischen den Variablen besteht, bei einem Zusammenfassen der beiden Gebiete jedoch ein positiver (oder negativer) Zusammenhang vorzuliegen scheint. In Wirklichkeit spiegelt dies jedoch nur zum Teil einen Zusammenhang zwischen den beiden betrachteten Variablen wider und ist zum anderen auf unterschiedliche Erfahrungen oder Bewertungen in den beiden Teilgebieten zurückzuführen. Es sei jedoch auch darauf hingewiesen, daß sich die beiden Tests bei der getrennten Analyse der zwei Teilgebiete jeweils auf eine geringere Fallzahl stützen als die Analyse des gesamten Gebiets. Selbst wenn der Zusammenhang zwischen den Variablen in beiden Teilgebieten ein gleich starkes Ausmaß hat, wird die Irrtumswahrscheinlichkeit für das gesamte Bundesgebiet geringer sein als für die Teilgebiete, da das gesamte Gebiet eine größere Stichprobe darstellt und damit zuverlässigere Aussagen erlaubt. Dies ist auch sehr gut vereinbar mit der Beobachtung, daß die Irrtumswahrscheinlichkeit für die neuen Bundesländer höher ist als für das
16 410 Kapitel 16 Kreuztabellen alte Bundesgebiet, da für die neuen Bundesländer eine geringere von Beobachtungen vorliegt Zusammenhangsmaße Zusammenhangsmaße dienen dem Zweck, die Stärke eines Zusammenhangs zweier Variablen zu messen und durch die Berechnung einer Maßzahl zu quantifizieren. Dabei gibt es jedoch kein allgemein anwendbares Maß, das für alle Arten von Daten geeignet wäre. Insbesondere hängt die Anwendbarkeit eines Zusammenhangsmaßes von dem Skalenniveau der betrachteten Variablen ab. Für die unterschiedlichen Skalenniveaus stehen verschiedene Maße zur Verfügung: ¾ Nominalskala: Für nominalskalierte Variablen sind bei SPSS zwei Arten von Zusammenhangsmaßen verfügbar. Die eine Gruppe beruht auf dem χ 2 - Konzept (Phi, Cramers V und Kontingenzkoeffizient), die andere auf dem Konzept der proportionalen Fehlerreduktion (Lambda und Goodman & Kruskals Tau). ¾ Ordinalskala: Die Maßzahlen für Ordinalskalen bei SPSS basieren auf dem Konzept der Rangkorrelation. Sie können die Maße Gamma, Somers d, Kendall s tau-b und Kendall s tau-c berechnen. ¾ Intervallskala: Für intervallskalierte Variablen können Sie den Pearson schen Korrelationskoeffizienten sowie das Maß Eta berechnen Zusammenhangsmaße für Nominalskalen χ 2 -basierte Maße Für nominalskalierte Variablen kann mit einem χ 2 -Test geprüft werden, ob ein Zusammenhang zwischen zwei Variablen besteht. Kommt man zu dem Ergebnis, daß ein solcher Zusammenhang vorliegt, ist es jedoch nicht möglich, aus der Höhe der Irrtumswahrscheinlichkeit oder aus dem χ 2 -Wert selbst auf die Stärke des Zusammenhangs zu schließen. Dies ist schon deshalb nicht möglich, weil sich bei gegebenem Zusammenhang zwischen den Variablen in der Grundgesamtheit mit steigender Stichprobengröße auch ein größerer χ 2 -Wert und damit eine geringere Signifikanz ergibt. In der Kreuztabelle für die neuen Bundesländer beträgt beispielsweise die beobachtete Häufigkeit im linken oberen Feld 16 und die erwartete Häufigkeit 12,6. Damit liefert dieses Feld bei der Berechnung des χ 2 -Wertes einen Beitrag von: ( 16 12,6) 12,6 2 = 0,917 Wäre nun die Stichprobe bei unveränderten Relationen doppelt so groß gewesen, würde die beobachtete Häufigkeit 32 und die erwartete Häufigkeit 25,2 betragen.
17 16.4 Zusammenhangsmaße 411 Damit würde das linke obere Feld auch einen doppelt so großen Beitrag zum χ 2 - Wert leisten: ( 32 25,2) = 1,83 25,2 Durch Verdoppelung der Stichprobengröße verdoppelt sich (im theoretischen Ideal) also auch der χ 2 -Wert. Da sich die Signifikanz bei gegebenem χ 2 nur noch nach der der Freiheitsgrade und damit nach der der Zeilen und Spalten in der Kreuztabelle richtet, verbessert sich mit steigender Stichprobengröße unter sonst gleichen Umständen also die Signifikanz, ohne daß sich der Zusammenhang der Variablen in der Grundgesamtheit verbessert. Er läßt sich aufgrund der größeren Stichprobe lediglich mit höherer Sicherheit identifizieren. Ein großer χ 2 -Wert kann sich also auch für schwache (aber durchaus vorhandene) Zusammenhänge ergeben, wenn die Stichprobe ausreichend groß ist. Dennoch basieren einige Zusammenhangsmaße auf dem Wert χ 2. Dabei wird versucht, den Wert so zu normieren, daß er gegenüber der Stichprobengröße unempfindlich wird. In der Art der Normierung liegt der einzige Unterschied zwischen den verschiedenen χ 2 -basierten Maßen. ¾ Kontingenzkoeffizient C: Dieser Koeffizient wurde von Pearson entwickelt. Er ist so normiert, daß er zwischen den Werten 0 und 1 liegt, wobei der maximal erreichbare Wert innerhalb des Bereichs zwischen 0 und 1 in Abhängigkeit von der Felderzahl der Kreuztabelle variiert. Der Wert berechnet sich als 2 C = χ 2 χ 2 + N Dabei bezeichnet N den Umfang der Stichprobe. Da der maximal erreichbare Wert von C mit der Felderzahl der Tabelle variiert, sind die Werte für Tabellen mit unterschiedlicher Felderzahl nur bedingt miteinander vergleichbar. ¾ Phi: Dieser Koeffizient normiert den χ 2 -Wert, indem er ihn durch den Umfang der Stichprobe dividiert und aus dem Quotienten die Wurzel zieht: φ = 2 χ N Für 2 2-Tabellen liegt der Wert zwischen 0 und 1, und sein Betrag ist mit dem Korrelationskoeffizienten von Pearson identisch. Für größere Tabellen ist der Wert dagegen eher ungeeignet, da er Werte über 1 annehmen kann und nicht mehr normiert ist, so daß Interpretationsschwierigkeiten auftreten können.
18 412 Kapitel 16 Kreuztabellen ¾ Cramers V: Cramers V liegt zwischen 0 und 1, wobei der Wert 1 auch bei allen Tabellen unabhängig von ihrer Größe erreicht werden kann. Der Wert berechnet sich nach der Formel: V = χ N k 2 ( 1) Enthält die Tabelle weniger Zeilen als Spalten, bezeichnet k die der Zeilen, andernfalls die der Spalten. Für eine 3 4-Tabelle beträgt k somit 3. Für Tabellen, bei denen k den Wert 2 annimmt, also zum Beispiel bei 2 3-Tabellen, sind Cramers V und φ identisch. Für die Kreuztabelle, die sich auf das gesamte Bundesgebiet bezieht, ergeben sich die in Abbildung 16.7 dargestellten χ 2 -basierten Zusammenhangsmaße. Dabei wurden die neu codierten Variablen v113_2 und v408_2 verwendet.. Nominal- bzgl. Nominalmaß der gültigen Fälle Symmetrische Maße Phi Cramer-V Kontingenzkoeffizient a. Die Null-Hyphothese wird nicht angenommen. Näherungsweise Wert Signifikanz,195,000,195,000,191, b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. Abbildung 16.7: χ 2 -basierte Zusammenhangsmaße für Nominalskalen, hier für die Variablen v113_2 und v408_2 Cramers V und Phi sind für die hier betrachtete Tabelle identisch, da diese nur zwei Spalten enthält und damit k bei der Berechnung von Cramers V einen Wert von 2 hat. Auch der Kontingenzkoeffizient liegt nahe bei dem Wert der beiden anderen Maße. Da die Zusammenhangsmaße mit einem Wert von 0,195 deutlich unterhalb von 1 liegen, scheint der Zusammenhang zwischen den beiden betrachteten Variablen nicht sehr stark zu sein. Allerdings ist zu beachten, daß ein Wert in der Nähe von 1 auch nur sehr selten erreicht wird. Eine präzise Aussage über die Stärke des Zusammenhangs ist auch anhand der Zusammenhangsmaße nicht möglich. Diese Maße sind vor allem dazu geeignet, eine Einschätzung von der Stärke des Zusammenhangs auf der Basis von Erfahrungswerten über ähnliche Sachverhalte sowie durch den direkten Vergleich mit inhaltlich verwandten Tabellen vorzunehmen. Maße auf der Basis proportionaler Fehlerreduktion Neben den auf χ 2 basierenden Zusammenhangsmaßen können mit SPSS für nominalskalierte Variablen auch Koeffizienten nach dem Konzept der proportionalen Fehlerreduktion berechnet werden. All diese Maße beruhen auf dem gleichen
19 16.4 Zusammenhangsmaße 413 Prinzip: Es wird betrachtet, mit welcher Fehlerwahrscheinlichkeit eine Vorhersage für die Werte der abhängigen Variablen getroffen werden kann, wenn als Grundlage der Vorhersage lediglich die Informationen über die betreffende Variable verwendet werden. Anschließend wird die Genauigkeit einer Vorhersage für den Fall untersucht, daß Informationen über beide kreuztabellierten Variablen einbezogen werden. Aus einem Vergleich der Fehlerwahrscheinlichkeiten beider Vorgehensweisen wird ein Maß für den Zusammenhang zwischen den Variablen berechnet. In dem Maße, in dem sich durch die erklärende Variable eine Verbesserung der Prognose ergibt, wird auf einen entsprechend starken Zusammenhang zwischen den Variablen geschlossen. Lambda Abbildung 16.8 stellt noch einmal die Kreuztabelle für das gesamte Bundesgebiet mit den umcodierten Werten (Variablen v113_2 und v408_) dar. Diese Tabelle wurde bereits in Abbildung 16.4, S. 403 wiedergegeben, allerdings werden in Abbildung 16.7 neben den beobachteten Häufigkeiten die prozentualen Anteile eines Feldes an der gesamten Tabelle mitgeteilt. V113_2 * V408_2 Kreuztabelle V113_2 Gesamt Gut Teils / Teils Schlecht % der Gesamtzahl % der Gesamtzahl % der Gesamtzahl % der Gesamtzahl V408_2 Eher Eher gut schlecht Gesamt ,8% 1,3% 14,1% ,4% 9,1% 49,5% ,7% 11,7% 36,4% ,9% 22,1% 100,0% Abbildung 16.8: Kreuztabelle für das gesamte Bundesgebiet auf der Basis umcodierter Werte mit beobachteten Häufigkeiten und prozentualen Anteilen an der gesamten Tabelle Soll für eine beliebige Person, deren Einschätzung der Wirtschaftslage unbekannt ist, eine Prognose ihrer Einschätzung vorgenommen werden, wobei sich die Prognose allein auf die vorhandenen Informationen über die Variable v113_2 stützen kann, wird man für diese Person die Einschätzung teils / teils prognostizieren, denn dies ist die am häufigsten gewählte Kategorie. Mit einer Wahrscheinlichkeit von 49,5% wird eine Person, über die keine weiteren Informationen vorliegen, diese Einschätzung vertreten. Dies bedeutet jedoch auch, daß 50,5% der Personen eine andere Einschätzung vorgenommen haben, so daß die Prognose mit dieser Wahrscheinlichkeit falsch ist. Ohne weitere Informationen ist eine Verbesserung der Prognose jedoch nicht möglich. In der Kreuztabelle liegen aber nicht nur Informationen über die einfache Verteilung der Variablen v113_2 vor, sondern es läßt sich auch die gemeinsame Verteilung der Variablen v113_2 und v408_2 ablesen. Bezieht man diese Informationen in die Prognose mit ein, läßt sich die Vorhersage möglicherweise verbessern und
20 414 Kapitel 16 Kreuztabellen damit die Fehlerwahrscheinlichkeit verringern. Dies ist jedoch nur möglich, wenn ein Zusammenhang zwischen den Variablen besteht. Sind die beiden Variablen dagegen vollkommen unabhängig voneinander verteilt, kann durch die Berücksichtigung der Variablen v408_2 keine Verbesserung der Prognose erreicht werden. Ist bereits bekannt, daß eine Person das derzeitige demokratische System als reformbedürftig (eher schlecht) einstuft, wird man für die Bewertung der Wirtschaftslage die Einschätzung Schlecht prognostizieren, dann dies ist die innerhalb der rechten Spalte am häufigsten vertretene Position. Für 114 der insgesamt 216 Personen aus dieser Spalte wäre die Vorhersage richtig gewesen. Dies ist ein Anteil von 52,7%. Für Personen mit positiver Bewertung des demokratischen Systems (linke Spalte) würde man in bezug auf die Wirtschaftslage nach wie vor die Einschätzung teils / teils vorhersagen, dabei nun aber 395 von 762 Personen und damit 51,8% richtig einstufen. Insgesamt wären bei der differenzierten Vorgehensweise = 469 von insgesamt 978 Personen falsch eingestuft worden. Dies entspricht einer Fehlerwahrscheinlichkeit von 469 / 978 = 47,9%. Ohne Berücksichtigung der zweiten Variablen betrug die Fehlerwahrscheinlichkeit bei der bestmöglichen Prognose 50,5%. Die Fehlerwahrscheinlichkeit konnte damit durch Einbeziehung der zweiten Variablen um 50,5% 47,9% = 5,1% 50,5% verringert werden. Dieser Grad an Fehlerreduktion stellt das Zusammenhangsmaß λ dar. Allgemein berechnet sich der Wert als Fehler bei Prognose1- Fehler bei Prognose 2 λ =. Fehler bei Prognose1 Da der Nenner nicht größer als der Zähler sein kann und beide Werte stets positiv sind, liegt λ immer zwischen 0 und 1. Je näher die Fehlerwahrscheinlichkeiten beider Prognosen beieinanderliegen, desto weniger hilfreich ist die zweite Variable für die Prognose und desto geringer wird λ. Bewirkt die Berücksichtigung der zweiten Variablen überhaupt keine Verbesserung der Prognose, hat der Zähler und damit auch λ den Wert 0. Besteht dagegen ein perfekter Zusammenhang zwischen den Variablen, dann ist durch Einbeziehung der zweiten Variablen eine fehlerfreie Prognose möglich, und es ergibt sich ein λ von 1. Goodman und Kruskals Tau Goodman und Kruskals τ beruht auf dem gleichen Prinzip wie λ, auch hier wird die Güte der Vorhersage ohne Berücksichtigung der zweiten Variablen mit der Vorhersagegüte bei Einbeziehung der zweiten Variablen verglichen. Der Unterschied zu λ besteht darin, daß die Prognosen hier auf andere Art vorgenommen werden.
21 16.4 Zusammenhangsmaße 415 ¾ Vorhersage ohne erklärende Variable: Hier wird nicht eine einzelne Prognose, sondern eine große von Prognosen betrachtet, wobei unterstellt wird, daß nicht bei jeder Prognose der gleiche Wert vorhergesagt wird. Vielmehr werden die unterschiedlichen Werte ihrem Anteil in der Stichprobe entsprechend prognostiziert. Für die Variable v408_2 aus der Tabelle in Abbildung 16.8 würde somit in 77,9% der Prognosen der Wert Eher gut und in 22,1% der Wert Eher schlecht vorhergesagt. Der in einer bestimmten Vorhersage zu prognostizierende Wert wird dabei zufällig ausgewählt. In einer konkreten Prognose wird also mit einer Wahrscheinlichkeit von 77,9% die Einschätzung Eher gut vorhergesagt. Mit der gleichen Wahrscheinlichkeit hat die betrachtete Person auch tatsächlich diese Einschätzung abgegeben. Die Prognose ist richtig, wenn beide Ereignisse zusammentreffen, wenn also sowohl die Person als auch die Prognose die Einschätzung Eher gut gewählt haben. Dies geschieht mit einer Wahrscheinlichkeit von 0,779 2 = 60,68%. Zusätzlich ist die Prognose auch dann richtig, wenn sowohl bei der Vorhersage als auch von der betrachteten Person die Kategorie Eher schlecht gewählt wurde. Dies geschieht mit einer Wahrscheinlichkeit von 0,221 2 = 4,88%. Eine richtige Prognose ergibt sich bei dieser Vorgehensweise daher mit einer Wahrscheinlichkeit von 4,88% + 60,68% = 65,56%. Umgekehrt liegt die Fehlerwahrscheinlichkeit bei 1-65,56% = 34,44%. ¾ Vorhersage mit erklärender Variablen: Wird die erklärende Variable in die Prognose einbezogen, erfolgt die Vorhersage für jede Kategorie dieser Variablen getrennt. Beispielsweise wird für eine Person, die die Wirtschaftslage als Gut einschätzt, in 125 / 138 = 90,58% der Vorhersagen eine positive Bewertung des demokratischen Systems prognostiziert. Da die Person auch mit dieser Wahrscheinlichkeit die prognostizierte Einstellung vertritt, ist die Vorhersage in 0, = 82,05% der Fälle richtig. Zudem trifft die Prognose einer eher negativen Bewertung des demokratischen Systems mit einer diese Auffassung vertretenen Person mit einer Wahrscheinlichkeit von (13 / 138) 2 = 0,89% zusammen. Insgesamt ergibt sich für die oberste Tabellenzeile also mit einer Wahrscheinlichkeit von 82,05% + 0,89% = 82,94% eine richtige Prognose, die Fehlerwahrscheinlichkeit beträgt somit 1-82,94% = 17,06%. Auf die gleiche Weise lassen die Wahrscheinlichkeiten einer richtigen Prognose für die zweite und die dritte Zeile der Tabelle berechnen. Diese betragen = 70% bzw. + = 56,4% Die erste Zeile, für die in 82,94% der Fälle eine richtige Prognose angestellt wird, repräsentiert 14,1% aller Personen, die zweite Zeile enthält 49,5% und die dritte 36,4% der Stichprobe. Damit ergibt sich die durchschnittliche Wahrscheinlichkeit einer richtigen Prognose für die gesamte Tabelle als 14,1% 82,94% + 49,5% 70% + 36,4% 56,4% = 66,87%. 2 2
22 416 Kapitel 16 Kreuztabellen Entsprechend beträgt die Fehlerwahrscheinlichkeit 1-66,87% = 33,13%. Gegenüber der Fehlerwahrscheinlichkeit von 34,44%, die sich ohne Berücksichtigung der zweiten Variablen ergab, beträgt die Reduktion 34,44% 33,13% = 3,8%. 34,44% Diese Verringerung der Fehlerwahrscheinlichkeit wird im Output von SPSS als Goodman und Kruskals Tau ausgewiesen. Abbildung 16.9 zeigt den SPSS-Output für Lambda und Goodman und Kruskals τ. Dort ist zu erkennen, daß sich in Abhängigkeit davon, welche der beiden Variablen als abhängige Variable (deren Werte prognostiziert werden sollen) betrachtet wird, unterschiedliche Fehlerreduktionswerte ergeben. Im Beispiel wurde bei der Berechnung von λ die Variable v113_2 als abhängige Variable betrachtet. Der errechnete Wert von 5,1% wird auch in der Tabelle ausgewiesen. Für die Variable v408_2 ergibt sich dagegen eine Fehlerreduktion von 0,0%. Bei der Berechnung von Goodman und Kruskals τ bildete in dem Beispiel dagegen v408_2 die abhängige Variable. Entsprechend findet sich der Fehlerreduktionswert von 3,8% in der Zeile v408_2 abhängig. Wird v113_2 als abhängige Variable angesehen, fällt der Fehlerreduktionswert nur halb so groß aus. Nominal- bzgl. Nominalmaß Lambda Goodman-und- Kruskal-Tau Symmetrisch V113_2 abhängig V408_2 abhängig V113_2 abhängig V408_2 abhängig a. Die Null-Hyphothese wird nicht angenommen. Richtungsmaße b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Kann nicht berechnet werden, weil der asymptotische Standardfehler gleich Null ist. d. Basierend auf Chi-Quadrat-Näherung Asymptotischer Näherungsweises Näherungsweise Wert Standardfehler a T b Signifikanz,035,020 1,757,079,051,028 1,757,079,000,000, c, c,019,007,000 d,038,012,000 d Abbildung 16.9: Lambda und Goodman und Kruskals τ für die Variablen v113_2 und v408_2 für das gesamte Bundesgebiet Zusammenhangsmaße für Ordinalskalen Für ordinal skalierte Variablen können bei SPSS vier Zusammenhangsmaße berechnet werden, die alle auf dem gleichen Grundgedanken beruhen. Dabei werden alle Wertepaare der beiden Variablen (ein Wertepaar besteht aus den beiden Werten der Variablen in demselben Fall) jeweils paarweise miteinander verglichen (es werden also jeweils zwei Wertpaare gemeinsam betrachtet) und daraufhin überprüft, ob die Reihenfolge der beiden Werte einer Variablen mit der Reihenfolge der beiden Werte aus der anderen Variablen übereinstimmt. Ist dies der Fall, so werden die Paare als konkordant bezeichnet. Ist das Gegenteil der Fall, so daß das Paar, das in einer Variablen einen höheren Wert hat, in der anderen Variablen ei-
23 16.4 Zusammenhangsmaße 417 nen niedrigeren Wert aufweist als das jeweils andere Paar, werden die Paare als diskordant bezeichnet. Zwei Paare, die in einer oder beiden Variablen jeweils den gleichen Wert haben, nennt man gebunden. Aus der der konkordanten, diskordanten und gebundenen Paare werden verschiedene Maße für den Zusammenhang der beiden Variablen berechnet: ¾ Kendall s tau b: τ b = k d ( k + d + v ) ( k + d + ) x v y Hierbei bezeichnet k die der konkordanten und d die der diskordanten Paare. Mit v x und v y werden die in der Variablen x bzw. der Variablen y enthaltenen gebundenen Fälle angegeben. τ b kann Werte zwischen +1 und -1 annehmen, sofern keine der Randverteilungen in der Tabelle 0 beträgt, sofern also in jeder Zeile und jeder Spalte mindestens eine Beobachtung enthalten ist. Wenn τ b einen Wert von +1 hat, stimmen alle aus den Wertepaaren gebildeten Paare in der Reihenfolge der Werte überein. Bei einem Wert von -1 ist die Reihenfolge der Werte genau umgekehrt, es besteht also ein sehr starker negativer Zusammenhang zwischen den Variablen. ¾ Kendall s tau c: τ c = 2m N 2 ( k d) ( m 1) N ist der Stichprobenumfang, und m nennt den kleineren Wert von Zeilen- und Spaltenanzahl der betrachteten Tabelle. τ c kann für jede Kreuztabelle Werte zwischen +1 und -1 annehmen. Im Ergebnis liegen τ b und τ c häufig sehr nahe beieinander. ¾ Gamma: γ = k d k + d Dieses Maß wurde von Goodman und Kruskal entwickelt. Liegen alle Werte innerhalb der Kreuztabelle in der Hauptdiagonalen (dies ist die Folge der von links oben nach rechts unten verlaufenden Tabellenfelder), nimmt Gamma einen Wert von +1 an. Sind die Variablen vollkommen unabhängig voneinander, ergibt sich der Wert 0. Dieser Wert kann sich jedoch auch dann ergeben, wenn keine vollständige Unabhängigkeit der beiden Variablen vorliegt. ¾ Somers d: d = k d k + d + v y Somers d betrachtet eine der beiden Variablen als abhängig und die andere als unabhängig. Die in der abhängigen Variablen y verbundenen Fälle v y werden mit in den Nenner des Koeffizienten γ aufgenommen. Bei SPSS werden stets drei Werte für Somers d berechnet: Zwei der Koeffizienten betrachten jeweils eine der beiden Variablen als abhängige Variable, ein dritter Wert unterstellt eine symmetrische Beziehung, eignet sich also für Variablen, bei denen keine eindeutige Erklärungsrichtung angenommen werden kann.
24 418 Kapitel 16 Kreuztabellen Zusammenhangsmaße für Intervallskalen Allgemein gibt es zahlreiche Zusammenhangsmaße für intervallskalierte Variablen. Von diesen stehen bei der Prozedur KREUZTABELLEN von SPSS zwei zur Verfügung: ¾ Pearson scher Korrelationskoeffizient: Der Koeffizient unterstellt einen streng linearen Zusammenhang zwischen den beiden Variablen. Er kann Werte zwischen +1 und -1 annehmen. Ein Wert von +1 weist auf einen perfekten positiven und ein Wert von -1 auf einen perfekten negativen linearen Zusammenhang hin. Ein Wert von 0 ergibt sich, wenn kein (linearer) Zusammenhang zwischen den Variablen besteht. ¾ Eta: Dieser Koeffizient unterscheidet zwischen abhängiger und unabhängiger Variable. Er ist für den Fall geeignet, daß die abhängige Variable Intervallskalenniveau besitzt, während die unabhängige Variable nominal- oder ordinalskaliert ist. Das quadrierte η mißt den Teil der Streuung in der abhängigen Variablen, der durch die unabhängige Variable erklärt werden kann. Dabei muß der Zusammenhang zwischen den Variablen nicht linear sein Erstellen von Kreuztabellen Abbildung zeigt das Hauptdialogfeld der Prozedur KREUZTABELLEN. Dieses Dialogfeld wird aufgerufen mit dem Befehl STATISTIK ZUSAMMENFASSEN KREUZTABELLEN... Abbildung 16.10: Dialogfeld des Befehls STATISTIK, ZUSAMMENFASSEN, KREUZTABELLEN
25 16.5 Erstellen von Kreuztabellen 419 Variablen angeben In der Variablenliste des Dialogfelds werden sämtliche Variablen aus der Datendatei aufgeführt. Wählen Sie aus dieser Liste die Variablen für die Kreuztabelle aus: ¾ Zeilen: Fügen Sie in das Feld Zeilen die Variable ein, deren Werte in der Kreuztabelle jeweils eine Zeile bilden sollen. ¾ Spalten: Geben Sie in dem Feld Spalten die Variable an, durch deren Werte jeweils eine Spalte der Kreuztabelle gebildet werden soll. Wenn Sie jeweils eine Spalten- und eine Zeilenvariable angegeben haben, ist eine Kreuztabelle hinreichend beschrieben. Sie können nun mit der Schaltfläche OK eine Kreuztabelle erstellen, für die bei den übrigen Optionen die Voreinstellungen verwendet werden, Sie können diese Voreinstellungen jedoch auch zunächst abändern. Mehrere Zeilen- und Spaltenvariablen: Sie können sowohl für die Spalten als auch für die Zeilen mehrere Variablen angeben. Es wird dann für jede mögliche Kombination der Zeilen- mit den Spaltenvariablen jeweils eine Kreuztabelle erstellt. Wenn Sie zwei Zeilen- und zwei Spaltenvariablen angeben, werden somit insgesamt vier Kreuztabellen erstellt. Diese Tabellen sind vollkommen unabhängig voneinander, so daß Sie prinzipiell auch die Prozedur KREUZTABELLEN viermal nacheinander jeweils mit einer anderen Variablenkombination aufrufen könnten. ¾ Schicht: Um die Kreuztabellen weiter zu untergliedern und nicht nur zwei Variablen miteinander zu vergleichen, können Sie eine oder mehrere Variablen in das Feld Schicht einfügen. Wenn Sie eine Variable in dem Feld Schicht angeben, werden die Kreuztabellen, die durch die Zeilen- und Spaltenvariablen gebildet werden, für jeden Wert der Schicht-Variablen getrennt erstellt. In Abschnitt 16.3, Kontrollvariable verwenden, S. 407 wurde die zuvor betrachtete Kreuztabelle unterteilt, um Personen aus den neuen und den alten Bundesländern getrennt untersuchen zu können. Mehrere Schichten bilden: Indem Sie eine Variable zur Bildung einer Schicht angeben, erstellen Sie quasi eine dreidimensionale Kreuztabelle. Sie können noch weitere Schichten erstellen, indem Sie, nachdem die erste Schicht definiert ist, auf die Schaltfläche Weiter klicken. Daraufhin wird wieder ein leeres Schichtenfeld angezeigt, und Sie können eine neue Variable einfügen, um die vierte Dimension zu definieren. Die Kreuztabellen, die durch die angegebenen Zeilen- und Spaltenvariablen gebildet werden, werden anschließend für jede Wertekombination der beiden Schichtvariablen getrennt erstellt. Auf diese Weise können Sie mit der Weiter-Schaltfläche weitere Schichten definieren. Mit den Schaltflächen Weiter und Zurück können Sie zwischen den bestehenden Schichten hin und her blättern. Über dem Feld wird die aktuell angezeigte Schicht sowie die der insgesamt bestehenden Schichten angegeben.
26 420 Kapitel 16 Kreuztabellen Mehrere Variablen in einer Schicht: Wenn Sie zwei oder mehr Variablen in einer Schicht angeben, wird die Schicht jeweils einmal durch jede der aufgeführten Variablen gebildet. Die Dimension der Gruppierung erhöht sich also nicht. Geben Sie zwei Variablen in einer Schicht an, werden zunächst für jeden Wert der einen Variablen getrennte Tabellen erstellt, danach werden für jeden Wert der zweiten Variablen getrennte Tabellen erstellt. Keine Tabellen: Sollen für die angegebenen Variablen keine Tabellen erstellt, sondern lediglich Statistiken berechnet werden, kreuzen Sie die Option Keine Tabellen an. Sobald Sie diese Option ankreuzen, werden die Schaltflächen Zellen und Format deaktiviert. Gruppierte Balkendiagramme anzeigen: Ein gruppiertes Balkendiagramm bietet die Möglichkeit, die gemeinsame Häufigkeitsverteilung aus der Kreuztabelle in einem zweidimensionalen Diagramm darzustellen. Soll ein solches Diagramm für die Kreuztabelle(n) erstellt werden, kreuzen Sie diese Option an. Zellinhalte der Kreuztabellen bestimmen Per Voreinstellung werden in den einzelnen Feldern der Tabelle lediglich die beobachteten Häufigkeiten ausgewiesen. In dem Dialogfeld der Schaltfläche Zellen können Sie jedoch weitere Angaben anfordern bzw. die beobachteten Häufigkeiten abwählen. Abbildung stellt dieses Dialogfeld dar. Abbildung 16.11: Dialogfeld der Schaltfläche Zellen Sie können eine oder mehrere Angaben für die Inhalte der Tabellenfelder auswählen. Damit eine Tabelle erstellt wird, muß mindestens eine der Angaben ausgewählt sein. Häufigkeiten ¾ Beobachtet: Es wird die der Fälle angegeben, in denen die durch ein Feld repräsentierte Wertekombination vorkommt. ¾ Erwartet: Für jedes Feld der Tabelle werden die unter der Annahme der Unabhängigkeit beider Variablen erwarteten absoluten Häufigkeiten ausgewiesen. Diese ergeben sich aus dem Produkt der beiden zu dem Feld gehörenden Häu-
27 16.5 Erstellen von Kreuztabellen 421 figkeiten aus der Randverteilung, dividiert durch die der Fälle in der gesamten Tabelle. Prozentwerte ¾ Zeilenweise: Gibt den Anteil der Fälle eines Feldes an den Fällen der gesamten Zeile an. ¾ Spaltenweise: Gibt den Anteil der Fälle eines Feldes an den durch die gesamte Spalte repräsentierten Werten an. ¾ Gesamt: Gibt den Anteil eines Feldes an der gesamten Tabelle an. Der Anteil ergibt sich aus der absoluten Häufigkeit des Feldes, dividiert durch die der in der gesamten Tabelle enthaltenen Fälle. Residuen ¾ Nicht standardisiert: Gibt die Differenz zwischen beobachteter und erwarteter Häufigkeit als beobachtete minus erwartete Häufigkeit an. ¾ Standardisiert: Standardisiert die Residuen, indem die Differenz aus beobachteter und erwarteter Häufigkeit durch die Quadratwurzel der erwarteten Häufigkeiten dividiert wird. ¾ Korrigiert standardisiert: Die Residuen werden standardisiert, indem sie durch eine Schätzung des Standardfehlers dividiert werden. Statistiken auswählen Aus der Kreuztabelle gewinnt man im allgemeinen einen ersten Eindruck von einem möglichen Zusammenhang zwischen den kreuztabellierten Variablen. Um jedoch etwas präzisere Aussagen formulieren zu können, stehen in dem Dialogfeld der Schaltfläche Statistik verschiedene Maßzahlen sowie ein Signifikanztest zur Verfügung. Das Dialogfeld Statistik wird in Abbildung wiedergegeben. Abbildung 16.12: Dialogfeld der Schaltfläche Statistik ¾ Chi-Quadrat: Mit dieser Option fordern Sie Signifikanztests für einen Zusammenhang zwischen den kreuztabellierten Variablen an. Es werden der χ 2 -
28 422 Kapitel 16 Kreuztabellen Test nach Pearson, der Likelihood-Quotient und der Mantel-Haenszel-Test ausgewiesen. Für 2 2-Tabellen wird zusätzlich Yates korrigiertes χ 2 berechnet. Für 2 2-Tabellen, in denen eine erwartete Häufigkeit von weniger als 5 vorkommt, wird auch Fishers exakter Test ausgewiesen. ¾ Korrelationen: Wählen Sie diese Option, um Pearsons Korrelationskoeffizienten sowie Spearmans Korrelationskoeffizienten zu berechnen. Korrelationen können ausschließlich für numerische Variablen berechnet werden und sind nur sinnvoll, wenn die Variablen mindestens Intervallskalenniveau besitzen. ¾ Kappa-Koeffizient: Es wird Cohens Kappa berechnet, um zu messen, wie sehr zwei Personen bei der Beurteilung desselben Sachverhalts übereinstimmen. Bei einem Wert von 1 liegt vollkommene Übereinstimmung vor, bei einem Wert von 0 liegen nur Übereinstimmungen vor, die sich auch zufällig ergeben können. Dieses Maß kann nur für quadratische Tabellen berechnet werden. Zudem müssen die beiden kreuztabellierten Variablen beide numerisch sein und den gleichen Wertebereich aufweisen. ¾ Relatives Risiko: Mißt den Zusammenhang zwischen dem Eintreten eines Ereignisses und dem Vorliegen eines Sachverhalts. Dabei werden die Häufigkeiten, mit denen das Ereignis bei vorliegendem Sachverhalt eintritt, mit denen bei nicht gegebenem Sachverhalt verglichen. Bei einem Wert von 1 kann kein Zusammenhang gemessen werden. Das relative Risiko kann nur für 2 2-Tabellen berechnet werden. ¾ McNemar: Dies ist ein nichtparametrischer Test, der auch auf der χ 2 - Verteilung basiert. Der Test ist auf zwei dichotome Variablen (Variablen mit nur zwei unterschiedlichen Merkmalsausprägungen) ausgerichtet. Nominalskalierte Daten ¾ Kontingenzkoeffizient: Berechnet den auf χ 2 basierenden Kontingenzkoeffizienten C. ¾ Phi und Cramers V: Die beiden auf χ 2 basierenden Kontingenzkoeffizienten Phi und Cramers V werden berechnet. ¾ Lambda: Nach dem Prinzip der proportionalen Fehlerreduktion werden die Maße Lambda und Goodman und Kruskals Tau berechnet. Für λ werden neben den beiden asymmetrischen Werten auch ein symmetrischer Wert ausgewiesen. ¾ Unsicherheitskoeffizient: Dies ist ebenfalls ein auf proportionaler Fehlerreduktion basierendes Maß. Es werden die beiden asymmetrischen sowie der symmetrische Unsicherheitskoeffizient berechnet. Die Werte der Koeffizienten liegen zwischen 0 und 1. Bei einem Koeffizienten von 1 ist der Wert der abhängigen Variablen durch die Werte der unabhängigen Variablen eindeutig determiniert.
29 16.5 Erstellen von Kreuztabellen 423 Ordinalskalierte Daten Die vier folgenden Maße für ordinale Werte beruhen alle auf dem Prinzip des Vergleichs der Wertepaare, die durch die beiden tabellierten Variablen gebildet werden. ¾ Gamma: Für Tabellen mit mehr als zwei Dimensionen werden für die zweidimensionalen Teiltabellen jeweils bedingte Gammawerte berechnet. ¾ Somers d: Berechnet die beiden asymmetrischen sowie das symmetrische Somers d. ¾ Kendall s Tau b: Berechnet Kendall s τ b. ¾ Kendall s Tau c: Berechnet Kendall s τ c. Intervallskalierte Daten ¾ Eta: Dieses Maß ist sinnvoll für eine intervallskalierte abhängige und eine nominal- oder ordinalskalierte unabhängige Variable. Daher werden zwei Werte berechnet, jeweils eine für die beiden möglichen Annahmen darüber, welche der Variablen die abhängige Variable bildet. Zellformate festlegen Mit der Schaltfläche Format öffnen Sie das Dialogfeld aus Abbildung Legen Sie hier fest, ob die durch die Zeilen der Kreuztabelle repräsentierten Kategorien in aufsteigender oder in absteigender Reihenfolge der die Kategorien bildenden Werte sortiert werden sollen. Abbildung 16.13: Dialogfeld der Schaltfläche Format
Hypothesentests mit SPSS
Beispiel für einen chi²-test Daten: afrikamie.sav Im Rahmen der Evaluation des Afrikamie-Festivals wurden persönliche Interviews durchgeführt. Hypothese: Es gibt einen Zusammenhang zwischen dem Geschlecht
Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau
Lösungen zum Aufgabenblatt 2 1 Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau Nach dem Laden des Datensatzes (G:\DATEN\METH2\DATEN\EUROBAR\ Euba30.sav) ist zunächst der
Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen
Arbeitsblatt SPSS Kapitel 8 Seite Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen Wie in allen Kapiteln gehen wir im Folgenden davon aus, dass Sie die Datei elporiginal.sav geöffnet haben.
Bivariater Zusammenhang in der Vierfeldertafel PEΣO
Bivariater Zusammenhang in der Vierfeldertafel PEΣO 12. Oktober 2001 Zusammenhang zweier Variablen und bivariate Häufigkeitsverteilung Die Bivariate Häufigkeitsverteilung gibt Auskunft darüber, wie zwei
Der χ 2 -Test (Chiquadrat-Test)
Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von
5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest
Empirische Wirtschaftsforschung Prof. Dr. Ralf Runde 5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest Ein wesentliches Merkmal nichtparametrischer Testverfahren ist, dass diese im Allgemeinen weniger
Was sind Zusammenhangsmaße?
Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten
Bivariate Kreuztabellen
Bivariate Kreuztabellen Kühnel, Krebs 2001 S. 307-342 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33 Häufigkeit in Zelle y 1 x 1 Kreuztabellen Randverteilung x 1... x j... x J Σ
Tutorial:Unabhängigkeitstest
Tutorial:Unabhängigkeitstest Mit Daten aus einer Befragung zur Einstellung gegenüber der wissenschaftlich-technischen Entwicklungen untersucht eine Soziologin den Zusammenhang zwischen der Einstellung
Ergebnisse VitA und VitVM
Ergebnisse VitA und VitVM 1 Basisparameter... 2 1.1 n... 2 1.2 Alter... 2 1.3 Geschlecht... 5 1.4 Beobachtungszeitraum (von 1. Datum bis letzte in situ)... 9 2 Extraktion... 11 3 Extraktionsgründe... 15
Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.
Bivariate Analyse: Tabellarische Darstellung: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Beispiel: Häufigkeitsverteilung
Bivariater Zusammenhang in der Mehrfeldertafel PEΣO
Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001 Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen
Bivariate Verteilungen
Bivariate Verteilungen Tabellarische Darstellung: Bivariate Tabellen entstehen durch Kreuztabulation zweier Variablen. Beispiel: X Y Student(in) Herkunft Fakultät 0001 Europa Jura 000 Nicht-Europa Medizin
Kapitel 22 Partielle Korrelationen
Kapitel 22 Partielle Korrelationen Bereits im vorhergehenden Kapitel wurden mit der Prozedur KORRELATION, BIVARIAT Korrelationskoeffizienten berechnet. Korrelationskoeffizienten dienen allgemein dazu,
Parametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
Statistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
Kapitel 40 Zeitreihen: Autokorrelation und Kreuzkorrelation
Kapitel 40 Zeitreihen: Autokorrelation und Kreuzkorrelation Bei Zeitreihendaten ist häufig das Phänomen zu beobachten, daß die Werte der Zeitreihe zeitverzögert mit sich selbst korreliert sind. Dies bedeutet,
entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.
Bsp 1) Die Wahrscheinlichkeit dafür, dass eine Glühbirne länger als 200 Stunden brennt, beträgt 0,2. Wie wahrscheinlich ist es, dass von 10 Glühbirnen mindestens eine länger als 200 Stunden brennt? (Berechnen
Chi-Quadrat Verfahren
Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz
Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1
LÖSUNG 4B a.) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Mit "Deskriptive Statistiken", "Kreuztabellen " wird die Dialogbox "Kreuztabellen" geöffnet. POL wird in das Eingabefeld von
FH- Management & IT. Constantin von Craushaar FH-Management & IT Statistik Angewandte Statistik (Übungen)
FH- Management & IT Folie 1 Rückblick Häufigkeiten berechnen Mittelwerte berechnen Grafiken ausgeben Grafiken anpassen und als Vorlage abspeichern Variablenoperationen Fälle vergleichen Fälle auswählen
Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -
wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit
Statistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
Statistik I. Sommersemester 2009
I Sommersemester 2009 I Wiederholung/Einführung χ 2 =?!? I Wiederholung/Einführung χ 2 =?!? Nächste Woche: Maße für ordinale, nominal/intervallskalierte und intervallskalierte Daten I Zum Nachlesen Agresti/Finlay:
Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS
Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick Kreuztabellen 1. Ziel der Kreuztabellierung 2. Übersicht CROSSTABS - Syntax
Alternative Darstellung des 2-Stcihprobentests für Anteile
Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut
fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse
Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)
Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln
Der χ2-test Der χ2-test
Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln
Kapitel 35 Histogramme
Kapitel 35 Histogramme In einem Histogramm können Sie die Häufigkeitsverteilung der Werte einer intervallskalierten Variablen darstellen. Die Werte werden zu Gruppen zusammengefaßt und die Häufigkeiten
Chi Quadrat-Unabhängigkeitstest
Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland
1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n
3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:
Skalenniveaus =,!=, >, <, +, -
ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,
Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005
Sitzung 4: Bivariate Zusammenhänge 27. Januar 2005 Inhalt der letzten Sitzung Übung: ein Index Umgang mit missing values Berechnung eines Indexes Inhalt der letzten Sitzung Übung: ein Index Umgang mit
Kapitel 41 Interaktive Diagramme
Kapitel 41 Interaktive Diagramme Bei den Interaktiven Grafiken handelt es sich um eine Gruppen von Diagrammen, die bei SPSS erst seit der Version 8.0 zur Verfügung stehen. Vom grundlegenden Diagrammtyp
5.5 PRE-Maße (Fehlerreduktionsmaße) 6
359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.
erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:
Verfahren zur Analyse von Nominaldaten Chi-Quadrat-Tests Vier-Felder Kontingenztafel Mehrfach gestufte Merkmale Cramers V, Kontingenzkoeffizient, Phi-Koeffizient Muster aller Chi-Quadrat-Verfahren eine
Statistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
Kreuztabellen mit Häufigkeiten und Prozenten
H. Giegler: Weiche multivariate Analysemodelle Kreuztabellen mit Häufigkeiten und Prozenten * Kreuztabelle Gesamt 1,00 2,00 3,00 Anzahl % von % von % der Gesamtzahl Anzahl % von % von % der Gesamtzahl
Einführung in die sozialwissenschaftliche Statistik
Einführung in die sozialwissenschaftliche Statistik Sitzung 4 Bivariate Deskription Heinz Leitgöb in Vertretung von Katrin Auspurg Sommersemester 2015 04.05.2015 Überblick 1. Kontingenztabellen 2. Assoziationsmaße
Analyse von Kontingenztafeln
Analyse von Kontingenztafeln Mit Hilfe von Kontingenztafeln (Kreuztabellen) kann die Abhängigkeit bzw. die Inhomogenität der Verteilungen kategorialer Merkmale beschrieben, analysiert und getestet werden.
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
Bivariate Zusammenhänge
Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne
Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister
Quantitative Auswertung II Korpuslinguistik Heike Zinsmeister 16.12.2011 Unterschiedstest Fall 1: unabhängige Stichproben Daten eine unabhängige Variable auf Nominal- oder Kategorialniveau eine abhängige
Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.
Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird
Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
Sommersemester Marktforschung
Dipl.-Kfm. Sascha Steinmann Universität Siegen Lehrstuhl für Marketing [email protected] Sommersemester 2010 Marktforschung Übungsaufgaben zu den Themen 3-6 mit Lösungsskizzen Aufgabe 1:
Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle
Vl. 5.12.11 3. Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen schnell mittel langsam 3 Arten von Häufigkeitstabellen: Absolute Häufigkeitstabelle relative Häufigkeitstabelle
Angewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
Übungsblatt 3: Bivariate Deskription I (Sitzung 4)
1 Übungsblatt 3: Bivariate Deskription I (Sitzung 4) Aufgabe 1 Eine Kreuztabelle beinhaltet unterschiedliche Verteilungen. a) Geben Sie an, wie diese Verteilungen heißen und was sie beinhalten. b) Welche
Zusammenhangsmaße II
Sommersemester 2009 Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins: Kapitel
Grundlagen der empirischen Sozialforschung
Grundlagen der empirischen Sozialforschung Sitzung 11 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 5. Januar 2009 1 / 22 Online-Materialien Die Materialien
Analytische Statistik II
Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Das Testen von Hypothesen Während die deskriptive Statistik die Stichproben nur mit Hilfe quantitativer Angaben charakterisiert,
Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren
Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei
Prüfung aus Statistik 2 für SoziologInnen
Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.
Tutorial: Anpassungstest
Tutorial: Anpassungstest An einem Institut gibt es vier UniversitätslehrerInnen, die auch Diplomarbeiten betreuen. Natürlich erfordert die Betreuung einer Diplomarbeit einiges an Arbeit und Zeit und vom
3. Lektion: Deskriptive Statistik
Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive
Medizinisches Beispiel
Problemstellung Stimmen zwei oder mehrere Beobachter in ihrer Einschätzung überein? (im engl.: rater agreement oder interrater agreement) Beispiel: Zwei Professoren beurteilen die Referate oder Seminararbeiten
Wie liest man Konfidenzintervalle? Teil I. Premiu m
Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall
Statistik II: Signifikanztests /1
Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 [email protected] Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test
Assoziation & Korrelation
Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den
Zusammenhangsmaße II
Sommersemester 2009 Wiederholung/ Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins:
Wiederholung. Statistik I. Sommersemester 2009
Statistik I Sommersemester 2009 Statistik I (1/21) Daten/graphische Darstellungen Lage- und Streuungsmaße Zusammenhangsmaße Lineare Regression Wahrscheinlichkeitsrechnung Zentraler Grenzwertsatz Konfidenzintervalle
Prof. Dr. Achim Bühl SPSS 16. Einführung in die moderne Datenanalyse. 11., überarbeitete und erweiterte Auflage
Prof. Dr. Achim Bühl SPSS 16 Einführung in die moderne Datenanalyse 11., überarbeitete und erweiterte Auflage ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario
Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist
Eigene MC-Fragen SPSS 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist [a] In der Variablenansicht werden für die betrachteten Merkmale SPSS Variablen definiert. [b] Das Daten-Editor-Fenster
Zwei kategoriale Merkmale. Homogenität Unabhängigkeit
121 Zwei kategoriale Merkmale Homogenität Unabhängigkeit 122 Beispiel Gründe für die Beliebtheit bei Klassenkameraden 478 neun- bis zwölfjährige Schulkinder in Michigan, USA Grund für Beliebtheit weiblich
Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:
1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das
Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.
Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht. Wissenschaftliche Vorgehensweise beim Hypothesentest Forscher formuliert eine Alternativhypothese H 1 (die neue Erkenntnis, die
Assoziation & Korrelation
Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es systematische Zusammenhänge oder Abhängigkeiten
Brückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München
Bivariate Statistik: Kreuztabelle
Bivariate Statistik: Kreuztabelle Beispiel 1: Im ALLBUS wurde u.a. nach dem Nationalstolz und nach dem Gefühl der Überfremdung gefragt: Würden Sie sagen, dass Sie sehr stolz, ziemlich stolz, nicht sehr
2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:
2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer
3.Wiederholung: Toleranzbereiche Für EX Geg:
3.Wiederholung: Toleranzbereiche Für EX Geg: Vl. 24.2.2017 Schätzfunktion für Güte: Ist X Problem: Feb 17 13:21 > Wir berechnen Bereiche (Toleranzbereiche) für sind untere und obere Grenzen, berechnet
Kapitel 9: Verfahren für Nominaldaten
Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Zweidimensionaler und Vierfelder Chi²-Test 5 Literatur 6 Eindimensionaler Chi²-Test Berechnen der Effektgröße w² Die empirische Effektgröße
Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08
Computergestützte Methoden Master of Science Prof. Dr. G. H. Franke WS 07/08 1 Seminarübersicht 1. Einführung 2. Recherchen mit Datenbanken 3. Erstellung eines Datenfeldes 4. Skalenniveau und Skalierung
Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie
"Korrelation" bei Nominaldaten: Kontingenz
"Korrelation" bei Nominaldaten: Kontingenz j 1 2 3 beobachtete Häufigkeiten (KSV Tabelle 6.3): i Augenfar be Haarfarb e blau braun grün 1 blond 42 1 6 2 braun 12 5 22 3 schwarz 0 26 2 4 rot 8 4 0 175 i
Analyse von Kontingenztafeln bei ordinalskalierten Merkmalen
Analyse von Kontingenztafeln bei ordinalskalierten Merkmalen Weisen die in einer Kontingenztafel dargestellten Merkmale zusätzlich Ordinalskalenniveau auf, so kommen auch Kenngrößen zum Einsatz, die in
Kreuztabellenanalyse. bedingte Häufigkeiten
Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Kreuztabellenanalyse bedingte Häufigkeiten 07. Dezember 2007 Michael Tiemann, Bundesinstitut für Berufsbildung,
Kreuztabellenanalyse und Assoziationsmaße. Assoziationsmaße. Allgemeines Beispiel Graphiken Notation. Risiken. Drittvariablenkontrolle.
FB 1 W. Ludwig-Mayerhofer Zusammenhänge zwischen Merkmalen 1 Kreuztabellenanalyse und FB 1 W. Ludwig-Mayerhofer Zusammenhänge zwischen Merkmalen 2 Kreuztabellen eignen sich zur Darstellung und Analyse
5.5 PRE-Maße (Fehlerreduktionsmaße)
5.5 PRE-Maße (Fehlerreduktionsmaße) 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.
Klassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
2. Zusammenhangsmaße
2. Zusammenhangsmaße Signifikante χ²-werte von Kreuztabellen weisen auf die Existenz von Zusammenhängen zwischen den zwei untersuchten Variablen X und Y hin. Für die Interpretation interessieren jedoch
Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007
Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte
