Kapitel 13 Häufigkeitstabellen

Ähnliche Dokumente

Kapitel 34 Boxplots und Fehlerbalken

Einfache statistische Auswertungen mit dem Programm SPSS

4. Erstellen von Klassen

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Laufende Auswertung von Feedback-Fragebögen Eine Vorlage zur Auswertung eines Fragebogens und die Präsentation erstellen...

QM: Prüfen -1- KN

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Stammdatenanlage über den Einrichtungsassistenten

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

Datenaufbereitung in SPSS. Daten zusammenfügen

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Erstellen von x-y-diagrammen in OpenOffice.calc

Professionelle Diagramme mit Excel 2010 erstellen. Peter Wies. 1. Ausgabe, 2. Aktualisierung, März Themen-Special W-EX2010DI

Zahlen auf einen Blick

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Gantt-Diagramm - Diagramm zur Projektverfolgung

Statistische Auswertung:

Primzahlen und RSA-Verschlüsselung

104 WebUntis -Dokumentation

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Anwendungshinweise zur Anwendung der Soziometrie

Professionelle Seminare im Bereich MS-Office

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Dokumentation. estat Version 2.0

Berechnung der Erhöhung der Durchschnittsprämien

Word 2010 Grafiken exakt positionieren

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

MS Excel 2010 Kompakt

Anleitung zur Erstellung einer Gefährdungsbeurteilung

Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht

4. BEZIEHUNGEN ZWISCHEN TABELLEN

1 Mathematische Grundlagen

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Animationen erstellen

Excel Pivot-Tabellen 2010 effektiv

1 Darstellen von Daten

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Einfache statistische Auswertungen mit dem TI-Nspire

STATISTIK. Erinnere dich

Sonderrundschreiben. Arbeitshilfe zu den Pflichtangaben in Immobilienanzeigen bei alten Energieausweisen

Excel Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

1. Allgemeine Hinweise

Das Wachstum der deutschen Volkswirtschaft

Mediator 9 - Lernprogramm

Handbuch zum Statistiktool Pentaho Stand: Dezember 2013

Microsoft Access 2010 Navigationsformular (Musterlösung)

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

MS Access 2010 Kompakt

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

teamsync Kurzanleitung

Statistik Augsburg interaktiv

Daten sammeln, darstellen, auswerten

Plotten von Linien ( nach Jack Bresenham, 1962 )

Berechnungen in Access Teil I

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Umgang mit Schaubildern am Beispiel Deutschland surft

So geht s Schritt-für-Schritt-Anleitung

R ist freie Software und kann von der Website.

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

Gezielt über Folien hinweg springen

2. Im Admin Bereich drücken Sie bitte auf den roten Button Webseite bearbeiten, sodass Sie in den Bearbeitungsbereich Ihrer Homepage gelangen.

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Bedingungen. Bedingungen. Bedingungen

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Hilfedatei der Oden$-Börse Stand Juni 2014

So gehts Schritt-für-Schritt-Anleitung

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

FTV 1. Semester. Spalte A Spalte B Spalte C Spalte D. Zeile 1 Zelle A1 Zelle B1 Zelle C1 Zelle D1. Zeile 3 Zelle A3 Zelle B3 Zelle C3 Zelle D3

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Wie Sie mit Mastern arbeiten

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

ECDL Europäischer Computer Führerschein. Jan Götzelmann. 1. Ausgabe, Juni 2014 ISBN

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Datenbanken Kapitel 2

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Satzhilfen Publisher Seite Einrichten

3. Die tägliche -Flut effizient verwalten

Datenbanken Microsoft Access 2010

Fallbeispiel: Eintragen einer Behandlung

Schnelle Antwort, gute klare Beratung. Ich bin wirklich sehr zufrieden. Auswertung der Mandantenbefragung 2007

Handreichung zu Datenauswertungen im TILL Stand:

Zeichen bei Zahlen entschlüsseln

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

Arbeitsmarkteffekte von Umschulungen im Bereich der Altenpflege

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Transkript:

Kapitel 13 Häufigkeitstabellen Die gesammelten und erfaßten Daten erscheinen in der Datendatei zunächst als unübersichtliche Liste von Werten. In dieser Form sind die Daten jedoch wenig aussagekräftig und lassen sich kaum interpretieren. Bei größeren Datendatei ist es geradezu unmöglich, auch nur eine grobe Struktur in den Daten zu erkennen. Um auf Basis der Daten zu fundierten Aussagen zu gelangen, sind im allgemeinen mehr oder weniger aufwendige Analysemethoden erforderlich. Ein Großteil dieser Analysemethoden kann jedoch nur sinnvoll angewandt werden, wenn bereits eine Theorie über mögliche Strukturen oder Zusammenhänge in den Daten vorliegt. Um zunächst einmal einen ersten Überblick über die gesammelten Daten zu erhalten, ist oftmals eine Häufigkeitstabelle sehr hilfreich. Diese gibt für eine Variable aus der Datendatei an, mit welcher Häufigkeit die unterschiedlichen Werte in der Variablen vorkommen. Die Informationen aus einer Häufigkeitstabelle lassen sich auch anschaulich in grafischer Form (z.b. als Balkendiagramm) darstellen. Sowohl Häufigkeitstabellen als auch deren grafische Darstellung können Sie bei SPSS mit dem Befehl STATISTIK ZUSAMMENFASSEN HÄUFIGKEITEN... erstellen. Diese Prozedur liefert die folgenden zusammenfassenden Informationen über einzelne Variablen aus der Datendatei: ¾ Häufigkeitstabellen: Eine Häufigkeitstabelle gibt in tabellarischer Form die absoluten Häufigkeiten an, mit denen die einzelnen Werte in einer Variablen enthalten sind. Zusätzlich werden relative sowie kumulierte Häufigkeiten angegeben. Fehlende Werte werden zum Teil gesondert berücksichtigt. ¾ Grafiken: Für diskrete Variablen können Sie sich die Häufigkeiten der einzelnen Werte in einem Balkendiagramm darstellen lassen. Bei stetigen Variablen (die eine Vielzahl unterschiedlicher Werte enthalten) können Sie ein Histogramm für die Darstellung der Häufigkeitsverteilung verwenden. ¾ Statistische Maßzahlen: Zur Kennzeichnung der Verteilung der Variablenwerte können Sie mehrere Maßzahlen berechnen lassen. Neben Perzentilwer-

336 Kapitel 13 Häufigkeitstabellen ten können Sie Lagemaße wie den Mittelwert oder den Median sowie Streuungsmaße wie zum Beispiel die Varianz anfordern. 13.1 Häufigkeitstabellen interpretieren Beispieldaten Auf der Begleit-CD dieses Buches befindet sich die Datendatei allbus.sav. Diese Datei enthält eine Stichprobe aus den Ergebnissen einer 1996 in Deutschland durchgeführten Bevölkerungsbefragung. In dieser wurden von März bis Juni 1996 volljährige deutschsprachige Personen in bezug auf zahlreiche sozialwissenschaftlich relevante Themengebiete nach ihrer persönlichen Situation sowie nach ihren Einschätzungen und Einstellungen befragt. Ein großer Teil der Fragen hatte dabei die wirtschaftlichen Verhältnisse der Befragten sowie die Lage der Gesamtwirtschaft zum Gegenstand. Eine dieser Fragen wird einschließlich der vorgegebenen der Antwortkategorien in Abbildung 13.1 dargestellt. Die Antworten sind in der Variablen v113 gespeichert. Wie beurteilen Sie ganz allgemein die heutige wirtschaftliche Lage in Deutschland? Sehr gut Gut Teils gut / teils schlecht Schlecht Sehr schlecht Abbildung 13.1: Fragetext und Antwortkategorien für die Variable v113 Häufigkeitstabelle für Westdeutschland erstellen Einen ersten Überblick über die Verteilung der Antworten auf die fünf Antwortkategorien bietet eine Häufigkeitstabelle. Im folgenden sollen ausschließliche die Antworten der Befragten aus den alten Bundesländern betrachtet werden. Daher werden die Fälle, die sich auf Befragte aus den neuen Bundesländern beziehen, herausgefiltert. 155 Um die in Abbildung 13.2 wiedergegebene Häufigkeitstabelle zu erstellen, verschieben Sie in dem Dialogfeld der Prozedur HÄUFIGKEITEN die Variable v113 in das Feld Variable(n). Bei den übrigen Optionen des Dialogfelds wurden die Voreinstellungen verwendet. Mit Ausnahme der drei untersten Zeilen bezieht sich jede Zeile der Tabelle auf jeweils eine Antwortkategorie. Die unterste Zeile mit der Beschriftung Gesamt 155 Um die Fälle der neuen Bundesländer aus der folgenden Analyse auszuschließen, wählen Sie den Befehl DATEN, FÄLLE AUSWÄHLEN. Dieser öffnet ein Dialogfeld, in dem Sie die Option Wenn Bedingung zutrifft verwenden müssen. Klicken Sie auf die zu dieser Option gehörende Schaltfläche Falls, und geben Sie in dem damit geöffneten Dialogfeld die Bedingung v3 = 1 ein. Zum Umgang mit dem Befehl DATEN, FÄLLE AUSWÄHLEN siehe im einzelnen Kapitel 10, Fälle aufbereiten, und dort Abschnitt 10.4, Einzelne Fälle zur Analyse auswählen, S. 276.

13.1 Häufigkeitstabellen interpretieren 337 enthält Angaben über die gesamten Stichproben. Beachten Sie hierbei, daß die gesamte Stichprobe in diesem Fall ausschließlich aus den Befragten der alten Bundesländer besteht, da die Fälle der Befragten aus den neuen Bundesländern in der Datendatei deaktiviert wurden. In der Spalte Häufigkeit ist in der untersten Zeile abzulesen, daß die hier betrachtete Stichprobe 705 Personen umfaßt. V113 Gültig Fehlend Gesamt SEHR GUT GUT TEILS TEILS SCHLECHT SEHR SCHLECHT Gesamt WN Gültige Kumulierte Häufigkeit Prozent Prozente Prozente 6,9,9,9 95 13,5 13,5 14,4 344 48,8 49,0 63,4 208 29,5 29,6 93,0 49 7,0 7,0 100,0 702 99,6 100,0 3,4 705 100,0 Abbildung 13.2: Häufigkeitstabelle für die Variable v113 (Einschätzung der allgemeinen wirtschaftlichen Lage in Deutschland) für die Befragten aus den alten Bundesländern Absolute Häufigkeiten Die zweite Zeile von unten weist die Beschriftung Fehlend WN auf. Diese Zeile beschreibt eine Kategorie (einen Wert) der Variablen v113. WN ist das Wertelabel des entsprechenden Variablenwertes (dies ist im übrigen der Wert 8) und die Abkürzung für den Ausdruck Weiß nicht. 156 In der Spalte Häufigkeit ist somit abzulesen, daß 3 der insgesamt 705 befragten Personen aus den alten Bundesländer auf die Frage nach der allgemeinen wirtschaftlichen Lage in Deutschland mit Weiß nicht geantwortet haben. Da dies keine gültige Antwort darstellt, wurde der Wert 8, durch den die Antwort Weiß nicht in der Variablen v113 codiert ist, als fehlender Wert definiert. In der Häufigkeitstabelle ist dies daran zu erkennen, daß neben dem Wertelabel WN der Ausdruck Fehlend erscheint. Die sechs obersten Zeilen der Tabelle (Sehr gut bis Gesamt) beziehen sich ausschließlich auf die Fälle mit gültigen Antworten. Die Beschriftung Gültig ist als gemeinsame Überschrift dieser sechs Zeilen anzusehen. Die oberste Zeile gibt an, daß nur 6 der 705 Befragten die allgemeine wirtschaftliche Lage in Deutschland 1996 als Sehr gut eingeschätzt haben. Die Kategorie am anderen Ende der Skala, Sehr schlecht, haben dagegen 49 der Befragten ausgewählt. Die meisten Antworten konnte allerdings die mittlere Kategorie Teils gut / Teils schlecht auf sich ver- 156 Wenn bei Ihnen in der Tabelle nicht die Wertelabel, sondern die Variablenwerte ausgewiesen werden, haben Sie sehr wahrscheinlich in dem Dialogfeld des Befehls BEARBEITEN, OPTIONEN eine entsprechende Einstellung vorgenommen. Möchten Sie erreichen, daß nicht die Werte, sondern die Wertelabels ausgewiesen werden, schlagen Sie in diesem Dialogfeld das Register Beschriftung der Ausgabe auf, und wählen Sie in der Dropdown-Liste Variablenwerte in Beschriftung anzeigen als die Option Labels.

338 Kapitel 13 Häufigkeitstabellen einigen. Diese Beobachtung läßt zwei unterschiedliche Interpretationen zu: Zunächst liegt es nahe, dies so zu interpretieren, daß tatsächlich fast die Hälfte der 705 Befragten der Auffassung waren, daß die wirtschaftliche Lage 1996 sowohl positive als auch negative Entwicklungen aufwies, so daß eine Zuordnung zu einer insgesamt eher positiven oder eher negativen Lage nicht möglich war. Denkbar ist jedoch auch, daß ein Teil der Antworten in der mittleren Kategorie dadurch zu erklären ist, daß sich die Befragten zuvor noch nicht ernsthaft mit der Fragestellung auseinandergesetzt haben oder sich aus anderen Gründen nicht wirklich in der Lage sehen, die Frage qualifiziert zu beantworten. In solchen Situationen neigen die Befragten im allgemeinen dazu, die neutrale, mittlere Kategorie zu wählen und damit eine klare Stellungnahme scheinbar zu vermeiden. Dieser Effekt kann bei Befragungen sehr leicht auftreten. In manchen Fällen ist es daher sinnvoll, bei den vorgegebenen Antwortkategorien auf eine neutrale Alternative zu verzichten und die Befragten damit zu zwingen, sich zumindest für eine Tendenz (z.b. eher positiv oder eher negativ) zu entscheiden. Insgesamt ist zu erkennen, daß die allgemeine wirtschaftliche Situation in Deutschland 1996 von den Befragten eher pessimistisch eingeschätzt wurde: 101 Personen charakterisierten die Lage als Gut oder Sehr gut, aber mehr als doppelt so viele, nämlich insgesamt 257 der Befragten, bewerteten die wirtschaftliche Lage als Schlecht oder Sehr schlecht. Relative Häufigkeiten Während die Spalte Häufigkeit die absoluten Häufigkeiten der einzelnen Antwortkategorien angibt, können Sie in der Spalte Prozent die entsprechenden relativen Häufigkeiten ablesen. Die 6 Personen, die die wirtschaftliche Lage als Sehr gut angesehen haben, nehmen an der aus 705 Personen bestehenden Gesamtstichprobe einen Anteil von 0,9% ein. 7,0% der Befragten haben die Lage als Sehr schlecht, 29,5% als Schlecht und 48,8% als Teils gut / teils schlecht eingestuft. Von den 705 Befragten weisen nur 0,4% einen fehlenden Wert in der Variablen v113 auf und haben folglich mit Weiß nicht geantwortet. Umgekehrt liegen für 99,6% der Befragten gültige Antworten vor. Dies ist im übrigen ein sehr hoher Anteil gültiger Antworten, der bei allgemeinen Bevölkerungsbefragungen nur recht selten erreicht wird. Aufgrund des geringen Anteils fehlender Werte sind die Angaben in der Spalte Prozent nahezu identisch mit denen aus der Spalte Gültige Prozente. Letztere gibt den Anteil der auf eine Kategorie entfallenen Antworten an der Gesamtheit der gültigen Antworten wieder. Dagegen beziehen sich die Anteilswerte aus der Spalte Prozent auf die Anzahl der Befragten einschließlich der Personen, für die keine gültige Antwort vorliegt. Es gilt somit, daß 344 = 48,8% 705

13.1 Häufigkeitstabellen interpretieren 339 aller Befragten angegeben haben, die wirtschaftliche Lage als Teils gut / teils schlecht einzuschätzen. Von den Befragten, die überhaupt eine Einschätzung der wirtschaftlichen Lage vorgenommen haben, wählten 344 = 49,0% 702 diese Kategorie. Die Unterscheidung zwischen dem Anteil der auf eine Kategorie entfallenen Antworten an der Anzahl der befragten Personen einerseits und an der Anzahl gültiger Antworten andererseits scheint in diesem Beispiel nur wenig relevant zu sein, kann jedoch in anderen Fällen mit einer größeren Anzahl fehlender Werte zu deutlich verschiedenen Aussagen führen. Kumulierte Häufigkeiten Die letzte Spalte, mit der Überschrift Kumulierte Prozente, gibt die kumulierten relativen Häufigkeiten für die gültigen Werte wieder. Die kumulierte relative Häufigkeit in einer Zeile ergibt sich als Summe der relativen Häufigkeiten der Kategorien dieser und aller darüberliegenden Zeilen. So berechnet sich die kumulierte relative Häufigkeit für die Zeile der Kategorie Teils/Teils als 0,9% + 13,5% + 49,0% = 63,4%. Dieser Wert besagt, daß 63,4% der Befragten, von denen eine gültige Antwort vorliegt, die allgemeine wirtschaftliche Lage in Deutschland als teils gut / teils schlecht oder besser bewertet haben. Entsprechend ist in der darüber liegenden Zeile abzulesen, daß 14,4% der Befragten mit gültiger Antwort die Wirtschaftslage als gut oder sehr gut kennzeichneten. Die kumulierte relative Häufigkeit der untersten gültigen Kategorie beträgt stets 100%. Formal gibt dieser Wert an, welcher Prozentsatz der gültigen Antworten auf eine der Kategorien Sehr schlecht oder besser entfällt. Da natürlich jede gültige Antwort genau einer dieser Kategorien angehört, beträgt der entsprechende Anteil 100%. Beim Erstellen der Häufigkeitstabelle können Sie festlegen, ob die Kategorien in der Tabelle in auf- oder in absteigender Reihenfolge der Codierungen oder geordnet nach ihren Häufigkeiten aufgeführt werden sollen. 157 In der Häufigkeitstabelle aus Abbildung 13.2, S. 337 werden die Kategorien in aufsteigender Reihenfolge der Variablenwerte wiedergegeben. (Die oberste Kategorie, Sehr gut, wird in der Variablen v113 durch den Wert 1 codiert, die zweite Kategorie, Gut, durch den Wert 2 etc.) Eine Änderung dieser Reihenfolge hat Auswirkungen auf die ausgewiesenen kumulierten Häufigkeiten. Da sich die für eine Kategorie angegebene kumulierte Häufigkeit auf die betreffende und die ihr vorhergehenden Kategorien bezieht, hängt die jeweils berechnete kumulierte Häufigkeit von der Reihenfolge ab, in der die Kategorien in der Tabelle aufgeführt werden. 157 Die Reihenfolge können Sie in dem Unterdialogfeld der Schaltfläche Format mit den Optionen der Gruppe Sortieren nach festlegen, siehe auch Abbildung 13.10, S. 354.

340 Kapitel 13 Häufigkeitstabellen 13.2 Grafiken In der Häufigkeitstabelle läßt sich die Verteilung der Antworten auf die verschiedenen Antwortkategorien sehr detailliert nachvollziehen. Insbesondere bei einer überschaubaren Anzahl unterschiedlicher Kategorien läßt sich mit Hilfe einer Häufigkeitstabelle schnell ein Überblick über die Einschätzungen der Befragten gewinnen. Wesentlich anschaulicher kann die Antwortverteilung jedoch in einem Diagramm dargestellt werden, denn eine Grafik vermittelt bereits auf den ersten Blick einen intuitiven Eindruck von der Häufigkeitsverteilung. Verschiedene Diagrammtypen, die für die grafische Darstellung der Werte aus einer Häufigkeitsverteilung geeignet sind, können unmittelbar mit der Prozedur HÄUFIGKEITEN erstellt werden. Für alle mit dieser Prozedur erstellten Grafiken gilt, daß in diesen ausschließlich die gültigen Werte der jeweiligen Variablen berücksichtigt werden. 13.2.1 Balkendiagramme Enthält die betrachtete Variable nur eine geringe Anzahl unterschiedlicher Werte, ist eine Darstellung in einem Balkendiagramm sinnvoll. (Als Alternative zu einem Balkendiagramm kommt im allgemeinen auch ein Kreisdiagramm in Frage, das ebenfalls direkt mit der Prozedur HÄUFIGKEITEN erstellt werden kann.) Abbildung 13.3 gibt das Balkendiagramm wieder, das die Häufigkeitstabelle aus Abbildung 13.2 grafisch umsetzt. Zum Erstellen dieses Diagramms wurden in dem Dialogfeld der Schaltfläche Diagramme die Optionen Balkendiagramme und Prozente gewählt. Bei allen übrigen Optionen wurden auch hier die Voreinstellungen beibehalten. 60 WIRTSCHAFTSLAGE IN DER BRD HEUTE 50 49 40 30 30 20 Prozent 10 0 SEHR GUT 14 GUT 7 TEILS TEILS SEHR SCHLECHT SCHLECHT Abbildung 13.3: Balkendiagramm für die Bewertung der allgemeinen Wirtschaftslage in Deutschland 1996 durch die Befragten aus den alten Bundesländern

13.2 Grafiken 341 Jeder Balken des Diagramms bezieht sich auf eine Kategorie der Variablen v113 (Beurteilung der allgemeinen Wirtschaftslage in Deutschland durch die Befragten). Die Höhe eines Balkens kennzeichnet die relative (nicht die absolute) Häufigkeit, mit der die betreffende Kategorie von den Befragten aus der Stichprobe gewählt wurde. 158 Zunächst ist auf den ersten Blick zu erkennen, daß der größte Anteil der Antworten auf die mittlere Kategorie Teils / Teils entfallen ist. Die relative Häufigkeit, mit der diese Kategorien gewählt wurde, wird in dem Balken mit 49% angegeben. 159 Weiterhin wird unmittelbar deutlich, daß sich die Antworten, die nicht auf die mittlere Kategorie entfielen, nicht gleichmäßig zu beiden Seiten der mittleren Kategorie verteilen. Vielmehr sind die beiden Kategorien, die einer negative Einschätzung der Wirtschaftslage entsprechen, deutlich stärker vertreten als die beiden positiven Antwortkategorien. Die Grafik vermittelt somit auf einen Blick einen groben Eindruck von der Verteilung der Antworten auf die fünf gültigen Kategorien, der sich anhand der Tabelle erst nach der Betrachtung der einzelnen Häufigkeitswerte ergibt. 13.2.2 Histogramme Enthält eine Variable zahlreiche unterschiedliche Werte, verliert die Darstellung der Häufigkeitsverteilung in einem Balkendiagramm an Aussagekraft. Insbesondere bei Variablen mit Intervallskalenniveau ist eine sinnvolle Interpretation von Balkendiagrammen oftmals nicht möglich. Beispielsweise wurden die Befragten in der ALLBUS-Umfrage unter anderem nach ihrem monatlichen Nettoeinkommen gefragt. Der Fragetext hierzu lautete: Wie hoch ist Ihr eigenes monatliches Nettoeinkommen? Ich meine dabei die Summe, die nach Abzug der Steuern und Sozialversicherungsbeiträge übrigbleibt. Diese Frage wurde als offene Frage gestellt, es wurden also keine Antwortkategorien vorgegeben, sondern die Befragten sollten den Betrag ihres Nettoeinkommens möglichst genau angeben. Nun ist es aber im allgemeinen so, daß nur wenige der Befragten über ein genau gleich hohes Nettoeinkommen verfügen. Selbst bei Personen, die im wesentlichen gleich viel verdienen, möglicherweise den gleichen Beruf ausüben und die gleiche Familiensituation aufweisen, treten leicht Einkommensunterschiede von 10, 100 oder noch mehr DM auf. Damit liefert die offene Frage nach dem Nettoeinkommen eine Vielzahl unterschiedlicher Antworten, von denen sich viele jedoch nur geringfügig voneinander unterscheiden. Umgekehrt 158 Das Diagramm stellt die relativen Häufigkeiten dar, weil wir beim Ausführen der Prozedur HÄUFIGKEITEN in dem Unterdialogfeld der Schaltfläche Diagramme die Option Prozente gewählt haben. Hätten wir dagegen die Option Häufigkeiten gewählt, würden an der Ordinate die absoluten Häufigkeiten abgetragen. Die Höhe, die die Balken im Verhältnis zueinander haben, würde sich dadurch jedoch nicht ändern, so daß auch das Erscheinungsbild der Grafik das gleiche wäre, lediglich die Werte an der Ordinate sowie die in den Balken angegebenen Werte wären andere. 159 Die Angabe dieser Häufigkeiten in den einzelnen Balken wird von SPSS per Voreinstellung nicht vorgenommen, sondern muß nachträglich im Grafikeditor veranlaßt werden. Hierzu dient dort der Befehl FORMAT, BALKENBESCHRIFTUNG, siehe im einzelnen Kapitel 31, Diagramme - Überblick.

342 Kapitel 13 Häufigkeitstabellen wird jede einzelne Einkommensangabe nur von sehr wenigen oder sogar nur von einem Befragten genannt werden. Entsprechend weist die Variable v261, in der die Antworten auf die Frage nach dem Nettoeinkommen enthalten sind, eine große Anzahl unterschiedlicher Werte auf, die alle in etwa mit der gleichen Häufigkeit vorkommen, nämlich mit einer geringen Häufigkeit zwischen 1 und 10. Stellt man nun die Verteilung der Antworten in einem Balkendiagramm dar, ist dies nur wenig aussagekräftig. Abbildung 13.4 zeigt das Balkendiagramm für die Variable v261 aus der Datendatei allbus.sav, wobei hier an der Ordinate nicht die relativen, sondern die absoluten Häufigkeiten abgetragen werden. Zahlreiche kleine Balken haben exakt die gleiche Höhe und repräsentieren eine absolute Häufigkeit von 1. Dazwischen tauchen immer wieder einzelne Werte mit einer deutlich größeren Häufigkeit auf. Dies sind vor allem glatte Werte. So tritt etwa der Wert 1.000 mit einer Häufigkeit von 13 und der Wert 2.000 mit einer Häufigkeit von 24 auf. Daß diese glatten Werte vergleichsweise häufig vorkommen, deutet darauf hin, daß die Befragten von sich aus nicht ihr exaktes Einkommen, sondern gerundete Einkommenswerte angegeben haben. Wenn sich alle Befragten konsequent so verhalten hätten, hätte dies im wesentlichen den gleichen Effekt gehabt, wie wenn ihnen von vornherein Einkommenskategorien vorgegeben worden wären. 30 BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE 20 10 Häufigkeit 0 150 480 750 1022 1650 2150 2700 3500 4400 7000 400 600 950 1272 1900 2500 3100 3800 5300 BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE Abbildung 13.4: Balkendiagramm mit der Häufigkeitsverteilung der intervallskalierten Variablen v261 (monatliches Nettoeinkommen der Befragten) Insgesamt ist das Balkendiagramm wenig aussagekräftig, da sich jeder Balken auf eine einzelne Kategorie (einen einzelnen Einkommenswert) bezieht, die Häufigkeit eines einzelnen Wertes bei diskreten Variablen jedoch im allgemeinen nicht von Interesse ist. So lassen sich kaum Erkenntnisse daraus erzielen, daß zwei der Befragten über ein Nettoeinkommen von 560 DM und drei Befragte über eines von 580 DM im Monat verfügen. Aussagekräftiger wäre dagegen der Anteil oder die absolute Anzahl der Personen, die über ein Einkommen zwischen 400 DM und 600 DM oder zwischen 300 DM und 700 DM verfügen. Denn während die exakte

13.2 Grafiken 343 Einkommenshöhe einer Person durch zahlreiche und zum Teil zufällige Einflußfaktoren bestimmt wird, ist die etwas gröbere Einkommenskategorie auf wesentlich systematischere Weise durch eine wesentlich geringere Anzahl von Faktoren bestimmt. Um Aussagen über Wertebereiche anstatt über einzelne Werte zu erhalten, müssen die Einkommensangaben in gruppierter Form betrachtet werden. Dies geschieht automatisch bei der Darstellung der Häufigkeitsverteilung in einem Histogramm. Abbildung 13.5 stellt das Histogramm für die Einkommensvariable v261 dar. Um das Histogramm zu erstellen, wurden bei der Prozedur Häufigkeiten in dem Unterdialogfeld der Schaltfläche Diagramme die Optionen Histogramme, Mit Normalverteilung und Häufigkeiten ausgewählt. Die Angabe der Werte in den einzelnen Balken wurde auch hier nachträglich im Grafikeditor mit dem Befehl FORMAT, BALKENBESCHRIFTUNG eingefügt. BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE 70 60 50 51 62 56 40 30 20 35 32 39 28 Häufigkeit 10 0 17 4000,0 3000,0 6 7 5 6000,0 5000,0 5 8000,0 7000,0 10000,0 9000,0 Std.abw. = 1601,00 Mittel = 2420,3 N = 354,00 2000,0 1000,0 0,0 BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE Abbildung 13.5: Histogramm mit Normalverteilungskurve für die intervallskalierte Variable v261 (monatliches Nettoeinkommen der Befragten) Jeder Balken des Histogramms bezieht sich auf einen Wertebereich und nicht auf einzelne Werte. Die Werteklassen wurden von SPSS automatisch gebildet. Sie wurden so gewählt, daß jeder Wert genau einer Klasse zugeordnet ist und alle Klassen die gleiche Breite haben. In diesem Fall beträgt die einheitliche Klassenbreite 500 DM. Die Beschriftung der Säulen auf der Abszisse gibt jeweils die Klassenmitte an. Die dritte Säule, mit der Beschriftung 1.000, umfaßt somit alle Haushalte mit einem Einkommen zwischen 750 DM und unter 1.250 DM. Diese Klasse beinhaltet 51 Haushalte. Die Anzahl der Haushalte kommt zum einen durch die Höhe des Balkens zum Ausdruck und wird zum anderen in dem Balken exakt angegeben. Da von der kleinsten bis zur größten in der Stichprobe vorkommenden Einkommensangabe alle Werte in dem Diagramm berücksichtigt werden sollen und zudem die Einkommensklassen alle die gleiche Breite haben, ist es möglich, daß

344 Kapitel 13 Häufigkeitstabellen Einkommensklassen entstehen, in denen kein Wert aus der Stichprobe enthalten ist. In dem Histogramm werden auch diese leeren Klassen mit aufgenommen, damit das Bild von der Verteilung der Werte nicht verzerrt wird. In dem Histogramm aus Abbildung 13.5 sind beispielsweise die Kategorien mit den Klassenmitten 6.500, 7.500, 8.500 und 9.500 leer. Dennoch werden auch diese vier Klassen auf der Abszisse berücksichtigt, indem ein entsprechender Platz zwischen den einzelnen Säulen frei bleibt. Wäre dies nicht der Fall, würde zum Beispiel die Säule für die Klasse von 6.750 bis 7.250 unmittelbar an die Säule für die Klasse von 5.750 bis 6.250 angrenzen, und die Verteilung der Werte würde kompakter erscheinen, als sie es tatsächlich ist. Die schwarze geschwungene Linie in dem Histogramm stellt die Normalverteilungskurve dar. Die Normalverteilung ist eine glockenförmige symmetrische Zufallsverteilung, der in der Statistik eine große Bedeutung zukommt. Die Glockenform der Verteilung bedeutet, daß der überwiegende Teil der Werte in der Nähe des Mittelwertes liegt und mit zunehmender Entfernung vom Mittelwert immer weniger Werte beobachtet werden. Für viele statistische Verfahren wird gefordert, daß die Werte einzelner Variablen annähernd normalverteilt sind. Durch den Vergleich der Normalverteilungskurve mit dem Bild, das sich aus den Balken des Histogramms ergibt, läßt sich ein Eindruck davon gewinnen, ob die Annahme normalverteilter Variablenwerte plausibel ist. Der Mittelwert der Einkommensangaben beträgt 2.420,30 DM, die Standardabweichung 1.601. Diese Werte werden neben der Grafik mitgeteilt. In einem Histogramm für eine Stichprobe von Werten mit diesem Mittelwert und dieser Varianz müßten die Säulen, wenn die Werte tatsächlich normalverteilt wären, ungefähr den durch die Normalverteilungskurve eingezeichneten Verlauf aufweisen. Für die betrachtete Einkommensvariable ist dies offensichtlich nicht der Fall. Werte in der Nähe sowie etwas unterhalb des Mittelwertes treten in der Stichprobe deutlich häufiger auf, als es bei Zugrundeliegen der Normalverteilung zu erwarten wäre. Die tatsächlich beobachtete Verteilung ist damit spitzer als die theoretische Normalverteilung. In diesem Zusammenhang ist auf eine Besonderheit von Variablen wie etwa der Einkommensvariablen hinzuweisen. Die Variable enthält natürlicherweise ausschließlich positive Werte, denn ein negatives Einkommen tritt, zumindest bei Anwendung des allgemeinen Sprachgebrauchs, nicht auf. Die Normalverteilung erstreckt sich dagegen auch auf negative Werte. Die Kurve ist in Abbildung 13.5 am linken Rand abgeschnitten, setzt sich jedoch tatsächlich im negativen Bereich symmetrisch zum Verlauf rechts vom Mittelwert fort. Aus diesem Grund kann für Einkommensvariablen ohnehin nicht erwartet werden, daß deren Verteilung vollkommen der Normalverteilung folgt. Dies bedeutet jedoch nicht, daß derartige Variablen niemals in statistischen Verfahren verwendet werden dürfen, die eine Normalverteilung voraussetzen. Vielmehr ist diese Einschränkung bei der Prüfung der Normalverteilung zu berücksichtigen, so daß die Annahme der Normalverteilung nicht vorschnell abgelehnt werden sollte. 160 160 In Kapitel 15, Explorative Datenanalyse, wird ausführlicher auf das Testen der Annahme, eine Variable sei normalverteilt, eingegangen.

13.3 Statistische Maßzahlen 345 13.3 Statistische Maßzahlen Zur Ergänzung der Häufigkeitstabelle und der Diagramme können Sie mit der Prozedur HÄUFIGKEITEN auch statische Maßzahlen für die einzelnen Variablen berechnen lassen. Die in dieser Prozedur zur Verfügung stehenden Maßzahlen beschreiben die Lage und die Streuung der Werte sowie die Form ihrer Verteilung. Bei der Aggregation aller Werte einer Stichprobe zu einer einzelnen Kennziffer geht stets eine Fülle von Informationen verloren. Wenn man zur Auswertung der Daten ausschließlich derartige Maßzahlen betrachtet, setzt man sich daher der Gefahr aus, relevante Informationen, die in der Datendatei ohne weiteres in differenzierter Form zur Verfügung stehen, nicht in die Schlußfolgerungen einzubeziehen. Auf der anderen Seite bieten aggregierte Kennziffern jedoch den erheblichen Vorteil, die unüberschaubare Menge an Werten in einer Stichprobe so stark zu verdichten, daß die darin enthaltenen Informationen ohne erheblichen Aufwand erfaßt und mit den entsprechenden Ergebnissen für andere Variablen oder andere Stichproben verglichen werden können. Statistische Maßzahlen stellen daher eine höchst wertvolle und unverzichtbare Ergänzung zu ausführlicheren Übersichten dar, man sollte jedoch der Versuchung widerstehen, sich zu sehr oder gar ausschließlich auf die Betrachtung der Maßzahlen zu beschränken. Abbildung 13.6 gibt eine Tabelle mit zahlreichen statischen Maßzahlen für die Einkommensvariable v261 wieder. Die einzelnen Maßzahlen können bei der Prozedur HÄUFIGKEITEN in dem Unterdialogfeld der Schaltfläche Statistik angefordert werden. Statistiken V261 N Mittelwert Standardfehler des Mittelwertes Median Modus Standardabweichung Varianz Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite Minimum Maximum Summe Perzentile Gültig Fehlend 25 50 75 354 351 2420,30 85,09 2200,00 2000 1601,00 2563207 1,662,130 4,375,259 9850 150 10000 856785 1237,50 2200,00 3000,00 Abbildung 13.6: Statistische Maßzahlen für die Variable v261

346 Kapitel 13 Häufigkeitstabellen Lagemaße und Perzentile Zur Kennzeichnung der Lage der Werte können Sie den Mittelwert, den Median, den Modalwert, die Summe der Werte und zahlreiche Perzentilwerte berechnen lassen. ¾ Mittelwert: Der Mittelwert (das arithmetische Mittel) ergibt sich aus der Summe aller gültigen Werte, dividiert durch die Anzahl dieser Werte: Mittelwert = 1 N N X i i= 1 Der Mittelwert kann nur bei Variablen mit Intervall- oder Ratioskala sinnvoll interpretiert werden. Stellen die Werte dagegen nur eine Codierung dar, haben Sie zum Beispiel 50 verschiedene Nationalitäten mit den Werten 1 bis 50 codiert, so ergibt eine Durchschnittsnationalität keinen Sinn. Für die Einkommensvariable macht es dagegen durchaus Sinn, einen Mittelwert zu berechnen. Im vorliegenden Fall beträgt dieser 2.420,30 DM. Im Gegensatz zu dem Modus oder den Perzentilwerten werden bei der Berechnung des Mittelwertes alle gültigen Werte einbezogen, so daß er von der gesamten Verteilung der Werte geprägt ist. Er liefert damit in einer Kennzahl eine sehr kompakte Aussage über alle gültigen Werte. Dabei verdient die Tatsache, daß sich die hier berechneten Kennzahlen nur auf die gültigen Werte beziehen, zum Teil eine besondere Beachtung. Als ungültig wurden in der Variablen v261 nicht nur solche Werte deklariert, die eine fehlende Antwort auf die Frage nach dem Einkommen kennzeichnen, sondern auch der Einkommenswert 0. Personen ohne eigenes Einkommen sind damit aus der Betrachtung ausgeschlossen, so daß der Mittelwert nicht als durchschnittliches Nettoeinkommen aller Befragten mit gültiger Antwort interpretiert werden kann. ¾ Median: Der Median, auch Zentralwert, basiert auf geordneten Werten. Es ist der Wert, der in der Mitte der geordneten Verteilung liegt. Die Hälfte aller Werte ist kleiner als der Median, die andere Hälfte ist größer. Bei einer ungeraden Anzahl von Fällen wird genau der mittlere Wert angegeben, es liegen also jeweils ½ (n-1) Werte über und unter dem Median: Median bei ungerader Anzahl an Werten = X n 1 + 1 Bei einer geraden Anzahl an Werten wird das arithmetische Mittel aus den beiden mittleren Werten gebildet: Median bei gerader Anzahl an Werten = 2 X n + X 2 n +1 2 Für die Einkommensvariable wurde ein Median von 2.200 DM berechnet. Somit liegt das Einkommen von 50% der Befragten, die ein Nettoeinkommen über null aufweisen und eine gültige Antwort abgegeben haben, über 2.200 DM, während das Einkommen der übrigen 50% unter diesem Wert liegt. 1 2

13.3 Statistische Maßzahlen 347 Für nominalskalierte Variablen kann ein Median nicht sinnvoll berechnet werden, da die Werte keine natürliche Reihenfolge aufweisen und sich daher nicht ordnen lassen. Im Gegensatz zum arithmetischen Mittel liefert der Median jedoch sinnvolle Aussagen für ordinale Werte. Häufig ist nicht nur der Wert von Interesse, der die Daten genau in zwei Hälften teilt, sondern auch weitere Werte, die zum Beispiel genau das erste Drittel der Werte abgrenzen. Derartige Kennzahlen können als zusätzliche Perzentilwerte berechnet werden (s.u.). Der Median stellt lediglich einen besonders häufig betrachteten Perzentilwert dar. ¾ Modalwert: Der Modalwert oder Modus ist der in der Stichprobe am häufigsten vorkommende Wert. Auch der Modus wird ausschließlich anhand der gültigen Werte ermittelt. Gibt es mehrere Werte, die mit der gleichen Häufigkeit öfter als alle übrigen Werte vertreten sind, so gibt SPSS den Wert aus, der in der Häufigkeitstabelle als erstes aufgeführt wird. Der Modus der Nettoeinkommen beträgt 2.000 DM. Dies war also die häufigste Angabe auf die Frage nach dem Einkommen. (Der Wert ist 24mal in der Stichprobe enthalten.) Bei einer intervallskalierten Variablen ist dieser Wert jedoch wenig aussagekräftig. Bei nominalskalierten Variablen hat der Modus einen höheren Aussagegehalt und ist auch deshalb von größerer Bedeutung, weil andere Werte wie der Median hier keinen Sinn ergeben. ¾ Summe: Dies ist die Summe aller gültigen Werte der betrachteten Variablen. Sie liefert insbesondere für intervallskalierte Variablen eine sinnvolle Größe. Bei nominalskalierten Werten ist die Berechnung einer Summe sinnlos. Die 354 Personen, deren Nettoeinkommen in der Variablen v261 erfaßt wurde, haben in der Summe ein Nettoeinkommen von 856.785,00 DM. Ohne eine konkrete Fragestellung ist auch diese Größe zunächst nur beschränkt aussagekräftig. ¾ Perzentilwerte: Perzentilwerte sind Werte, unterhalb derer ein bestimmter Anteil aller Werte liegt. Ein 30%-Perzentil zum Beispiel ist der Wert, unterhalb dem genau 30% aller (gültigen) Werte der Verteilung liegen. Das 50%- Perzentil wird auch als Median oder Zentralwert bezeichnet. In Abbildung 13.6 werden die 25%-, 50%- sowie 75%-Perzentile angegeben. Diese Perzentile werden auch als Quartile bezeichnet, da sie die Werte in vier gleich große Gruppen unterteilen. Das 75%-Perzentil gibt an, daß 75% der Befragten, die die Antwort nicht verweigerten und über ein eigenes Einkommen verfügen, ein monatliches Nettoeinkommen von weniger als 3.000 DM haben. Da die Werte für die Berechnung von Perzentilen in aufsteigender Folge geordnet werden müssen, ist die Berechnung für nominalskalierte Werte nicht sinnvoll möglich. Streuungsmaße Die Lagemaße einer Verteilung wie zum Beispiel der Mittelwert oder der Median vermitteln bereits einen ersten Eindruck von dem Niveau der Werte. Dennoch charakterisieren sie die gesamte Stichprobe nur sehr unzulänglich, da sie keinerlei

348 Kapitel 13 Häufigkeitstabellen Auskunft über die Streuung der Werte geben. Für das Nettoeinkommen ergibt sich zum Beispiel ein Mittelwert von 2.420,30 DM. Es ist jedoch ein erheblicher Unterschied, ob jede Person exakt diesen Betrag verdient, oder ob 2 / 3 der Personen nur ein minimales Einkommen haben, während das übrige Drittel über ein Einkommen verfügt, das deutlich oberhalb des Mittelwertes liegt. Um eine Verteilung präziser zu beschreiben, ist es daher oftmals hilfreich, neben Lagemaßen auch Streuungsmaße zu betrachten. ¾ Varianz / Standardabweichung: Die Varianz (bzw. die Standardabweichung, die sich als Quadratwurzel der Varianz ergibt) ist sicherlich das am häufigsten betrachtete Streuungsmaß. Sämtliche gültigen Werte der Variablen gehen in die Berechnung der Varianz ein. Um die Streuung der Werte zu kennzeichnen, werden die Abweichungen der einzelnen Werte von dem Mittelwert betrachtet. Damit sich negative und positive Abweichungen nicht gegenseitig aufheben, werden die Abweichungen zunächst quadriert und die Quadrate anschließend addiert. Die sich dadurch ergebende Summe hängt natürlich sehr stark von der Anzahl der berücksichtigten Werte und damit von der Stichprobengröße ab, so daß die Summen verschiedener Verteilungen nicht direkt vergleichbar sind. Aus diesem Grund wird die Summe der quadrierten Abweichungen durch die Stichprobengröße dividiert. Oftmals wird als Nenner allerdings nicht die Stichprobengröße, sondern die um 1 verringerte Stichprobengröße N-1 verwendet, so auch bei SPSS. Die Varianz, die häufig mit S 2 bezeichnet wird, ergibt sich somit als: S 2 1 N = ( X i X) N 1 i= 1 Je näher die Werte an dem Mittelwert liegen, desto kleiner wird die Varianz. Sind alle Werte mit dem Mittelwert identisch - sind also alle Werte der Verteilung gleich -, ergibt sich eine Varianz von null. Streuen die Werte dagegen sehr weit um den Mittelwert, so ergibt sich auch eine sehr große Varianz. Für die Einkommensvariable wird eine Varianz von 2.563.207 angegeben. Diese Zahl hat nicht die Einheit der Variablenwerte, wird also nicht in DM gemessen, da die Varianz aus den quadrierten Abweichungen ermittelt wird. Zieht man jedoch die Quadratwurzel aus der Varianz, so erhält man eine Größe in der Dimension der betrachteten Werte. Die Quadratwurzel der Varianz wird als Standardabweichung bezeichnet. Sie beträgt für die Einkommensvariable 1601. ¾ Spannweite: Dies ist die Differenz zwischen dem größten und dem kleinsten gültigen Wert in der Stichprobe. Diese beiden Werte können Sie sich ebenfalls ausweisen lassen, und zwar als Minimum und Maximum. Das geringste beobachtete Einkommen beträgt 150 DM, der höchste Wert wird mit 10.000 DM angegeben. Die Spannweite beträgt dementsprechend 9.850 DM. Da die Spannweite durch einzelne Ausreißer stark erhöht werden kann, ist sie nur ein sehr grobes Maß für die Streuung der Werte. In der Einkommensverteilung stellt zum Beispiel der Wert 10.000 einen solchen Ausreißer dar. Er wurde nur von zwei Befragten genannt, und der nächstkleinere Wert ist 9.000. Wären die beiden Personen mit dem Nettoeinkommen von 10.000 also zufällig nicht in 2

13.3 Statistische Maßzahlen 349 der Stichprobe enthalten, wäre die Spannweite um 1.000 kleiner und würde nur 8.850 betragen. ¾ Standardfehler: Die einer Untersuchung zugrundeliegenden Daten stellen in aller Regel nur eine Stichprobe aus einer sehr viel größeren Grundgesamtheit dar. Die daraus errechneten statistischen Maßzahlen wie beispielsweise der Mittelwert geben zunächst einmal nur Auskunft über die Werte der Stichprobe und noch nicht über die Werte der Grundgesamtheit. Hätte man zufällig eine andere Stichprobe gezogen, so ergäbe sich höchstwahrscheinlich auch ein anderer Mittelwert. Bei mehreren Stichproben würde man also auch mehrere verschiedene Stichprobenmittelwerte erhalten, die alle mehr oder weniger stark um den wahren Mittelwert der Grundgesamtheit streuen. Der Standardfehler (ohne Zusatz ist der Standardfehler des Mittelwerts gemeint) ist ein Maß für die Größe dieser Streuung. So wie die Standardabweichung die Streuung der einzelnen Werte einer Stichprobe um den Stichprobenmittelwert beschreibt, so ist der Standardfehler ein Maß für die Streuung der Mittelwerte verschiedener Stichproben um den Mittelwert der Grundgesamtheit. Der Standardfehler des Mittelwerts wird berechnet als: S S X =. N Dabei bezeichnet S die Standardabweichung der Stichprobe (siehe hierzu S. 348), die wegen des Fehlens besserer Informationen als Approximation für die Standardabweichung in der Grundgesamtheit verwendet wird. N gibt die Anzahl der in der Stichprobe enthaltenen (gültigen) Werte an. Für die Einkommensvariable ergibt sich damit ein Standardfehler von 1601 = 85,09. 354 Dieser Wert wird auch in Abbildung 13.6, S. 345 in der Zeile Standardfehler des Mittelwertes ausgewiesen. Verteilungsmaße Die folgenden Maße geben Auskunft über die Form der Verteilung: ¾ Schiefe: Eine Verteilung wird als schief bezeichnet, wenn sie nicht symmetrisch ist. Wenn die Werte auf der rechten Seite der Verteilung (also bei den höheren Werten) stärker streuen als auf der linken Seite, nennt man die Verteilung rechtsschief, linkssteil oder positiv schief. Streuen die kleinen Werte und damit die Werte auf der linken Seite der Verteilung stärker, wird sie als linksschief, rechtssteil oder negativ schief bezeichnet. Wird für die Schiefe von SPSS ein positiver Wert ausgewiesen, so ist die Verteilung rechtsschief. Ein negativer Wert kennzeichnet eine linksschiefe Verteilung. Für eine symmetrische Verteilung ergibt sich ein Schiefe-Wert von 0.

350 Kapitel 13 Häufigkeitstabellen Für die Verteilung der Einkommenswerte wird eine Schiefe von 1,662 ausgewiesen. Die höheren Werte streuen somit stärker als die niedrigeren, so daß die Verteilung linkssteil ist. Dies war auch in dem Histogramm aus Abbildung 13.5, S. 343 deutlich zu erkennen und wurde dort zum Teil damit erklärt, daß die Einkommensangaben natürlicherweise bei dem Wert null abgeschnitten werden, da negative Einkommen im allgemeinen nicht auftreten. ¾ Kurtosis: Mit der Kurtosis (auch Exzeß) wird die Steilheit einer Verteilung gemessen. Ist die Verteilung steiler als die zum Vergleich herangezogene Normalverteilung, wird ein positiver Exzeß errechnet. Die Werte der Verteilung häufen sich dann stärker an einer Stelle der Verteilung. Für flachere Verteilungen, bei denen sich die Werte nicht so stark häufen, ergibt sich ein negativer Exzeß. Die hier betrachtete Einkommensverteilung ist steiler als die Normalverteilung, die die Referenzgröße bildet. Die Kurtosis beträgt 4,375. Auch bei einem Vergleich des Histogramms mit der Normalverteilungskurve in Abbildung 13.5 ist deutlich zu erkennen, daß die empirische Verteilung steiler ist als die Normalverteilung. 13.4 Erstellen einer Häufigkeitstabelle 13.4.1 Allgemeine Vorgehensweise Um eine Häufigkeitstabelle oder eine der in diesem Kapitel beschriebenen Grafiken und Statistiken zu erstellen, wählen Sie den Befehl STATISTIK ZUSAMMENFASSEN HÄUFIGKEITEN... Dieser Befehl öffnet das in Abbildung 13.7 dargestellte Dialogfeld. Abbildung 13.7: Dialogfeld des Befehls STATISTIK, ZUSAMMENFASSEN, HÄUFIGKEITEN

13.4 Erstellen einer Häufigkeitstabelle 351 Nehmen Sie in diesem Dialogfeld die folgenden Einstellungen vor: ¾ Variablen auswählen: In der Variablenliste werden alle Variablen der aktuell geöffneten Datendatei aufgeführt. Wählen Sie die Variable(n) aus, für die Sie eine Häufigkeitstabelle und/oder Grafiken oder Maßzahlen berechnen möchten, und verschieben Sie diese in das Feld Variable(n). Wenn Sie mehrere Variablen angeben, werden die Häufigkeitstabellen und Grafiken für jede Variable getrennt erstellt. Sie erhalten damit den gleichen Output, den Sie auch bei wiederholtem Ausführen der Prozedur mit jeweils einer einzelnen Variablen bekommen würden. Wenn Sie auch statistische Maßzahlen berechnen lassen, können Sie in dem Dialogfeld der Schaltfläche Format wählen, ob für jede Variable eine eigene Tabelle erstellt oder ob die Maßzahlen für alle Variablen in einer Tabelle nebeneinander aufgeführt werden sollen, siehe hierzu S. 354. ¾ Häufigkeitstabelle: Per Voreinstellung wird für jede ausgewählte Variable eine Häufigkeitstabelle mit den absoluten und relativen Häufigkeiten sowie den gültigen relativen und den gültigen kumulierten Häufigkeiten erstellt. Die einzelnen Werte der Variablen sind in dieser Tabelle in aufsteigender Reihenfolge angeordnet. Wenn Sie lediglich eine solche Tabelle für jede der ausgewählten Variablen erstellen möchten, können Sie das Dialogfeld nach der Angabe der Variablen mit der Schaltfläche OK schließen und damit die Prozedur starten. Sie können die Voreinstellungen jedoch auch abändern: In dem Dialogfeld der Schaltfläche Format können Sie die Reihenfolge ändern, in der die Werte in der Häufigkeitstabelle aufgeführt werden. Möchten Sie überhaupt keine Häufigkeitstabelle, sondern lediglich Grafiken oder eine Tabelle mit statischen Maßzahlen erstellen, können Sie die Option Häufigkeitstabellen anzeigen abwählen. ¾ Grafiken, Statistiken und Formatierungen: In den Dialogfeldern der Schaltfläche Statistik, Diagramme und Format können Sie weiteren Output anfordern und formatieren (siehe hierzu die folgenden Abschnitte). 13.4.2 Grafiken Die Schaltfläche Diagramme öffnet das Dialogfeld aus Abbildung 13.8, in dem Sie zwischen verschiedenen Diagrammtypen für die grafische Darstellung der Werteverteilung wählen können. Per Voreinstellung wird keine Grafik erstellt. Diese Voreinstellung können Sie ändern, indem Sie in der Gruppe Diagrammtyp eine der drei folgenden Grafiken auswählen: ¾ Balkendiagramme: Balkendiagramme sind vor allem für Variablen mit Nominal- oder Ordinalskalenniveau geeignet, die nur relativ wenig unterschiedliche Werte (Kategorien) enthalten. Oben wurde die Häufigkeitsverteilung der Variablen v113 in einem Balkendiagramm dargestellt, siehe Abbildung 13.3, S. 340. Für Balkendiagramme können Sie in der Gruppe Diagrammwerte zwischen den beiden folgenden Optionen wählen: y Häufigkeiten: Auf der Skalenachse des Balkendiagramms werden die absoluten Häufigkeiten abgetragen. Diese Option ist voreingestellt.

352 Kapitel 13 Häufigkeitstabellen y Prozente: Auf der Skalenachse des Balkendiagramms werden die relativen Häufigkeiten als Prozentwerte abgetragen. ¾ Kreisdiagramme: Ein Kreisdiagramm ist grundsätzlich eine Alternative zu Balkendiagrammen. Auch Kreisdiagramme bieten sich vor allem für nominalund ordinalskalierte Variablen mit wenigen unterschiedlichen Werten (Kategorien) an. Wie bei Balkendiagrammen können Sie auch für Kreisdiagramme in der Gruppe Diagrammwerte wählen, ob die absoluten oder die relativen Häufigkeiten in der Grafik angegeben werden sollen. ¾ Histogramme: Mit dieser Option können Sie für numerische Variablen ein Histogramm erstellen. Haben Sie in dem Hauptdialogfeld eine oder mehrere Textvariablen ausgewählt, ist die Option zwar aktiv, die Diagramme werden jedoch nur für die ausgewählten numerischen Variablen erstellt. Die Anzahl der Intervalle in einem Histogramm hängt von den Werten der jeweiligen Variablen ab, es werden aber höchstens 21 Intervalle gebildet. Alle Intervalle haben die gleiche Breite. Für Histogramme können Sie zusätzlich die folgende Option wählen: y Mit Normalverteilung: Wenn Sie diese Option ankreuzen, wird in das Histogramm zusätzlich eine Normalverteilungskurve für die Normalverteilung mit dem empirisch beobachteten Mittelwert und der empirischen Varianz eingefügt. In Abbildung 13.5, S. 343 wird die Einkommensverteilung der Befragten in einem Histogramm mit Normalverteilungskurve dargestellt. Abbildung 13.8: Dialogfeld der Schaltfläche Diagramme 13.4.3 Statistiken Statische Maßzahlen können mit der Prozedur HÄUFIGKEITEN nur für numerische Variablen berechnet werden. Auch der Modalwert wird für Textvariablen nicht ausgegeben. Um statistische Maßzahlen zu berechnen, öffnen Sie mit der Schaltfläche Statistik das in Abbildung 13.9 dargestellte Dialogfeld.

13.4 Erstellen einer Häufigkeitstabelle 353 Abbildung 13.9: Dialogfeld der Schaltfläche Statistik Per Voreinstellung werden keine Maßzahlen berechnet, Sie können jedoch mit den folgenden Optionen Statistiken anfordern. Zur Bedeutung der Maßzahlen siehe auch Abschnitt 13.3, Statistische Maßzahlen, S. 345. Werte sind Gruppenmittelpunkte Wenn die Werte der betrachteten Variablen jeweils einen Wertebereich repräsentieren und von diesem gerade den Mittelpunkt bilden, können Sie die Option Werte sind Gruppenmittelpunkte ankreuzen, damit dies bei der Berechnung der Maßzahlen berücksichtigt wird. Perzentilwerte ¾ Quartile: Die Quartile unterteilen die Werte in vier gleich große Gruppen. Es werden also das 25%-, das 50%- und das 75%-Perzentil berechnet. ¾ Trennen n gleiche Gruppen: Geben Sie in das Eingabefeld die Anzahl der Gruppen an, in die die Werte der Variablen unterteilt werden sollen. Per Voreinstellung werden zehn Gruppen gebildet, so daß das 10%-, das 20%-,... und das 90%-Perzentil berechnet werden. Sie können die Werte in 2 bis 100 gleich große Gruppen unterteilen. ¾ Perzentile: Sie können beliebige Perzentile (mit bis zu drei Dezimalstellen) angeben. Zum Beispiel können Sie sich das 53,715%-Perzentil berechnen lassen. Schreiben Sie den gewünschten Prozentwert in das Eingabefeld dieser Option, und klicken Sie anschließend auf die Schaltfläche Hinzufügen. Geben Sie auf diese Weise alle gewünschten Perzentile an. Um versehentlich falsch eingegebene Perzentile zu korrigieren, stehen die üblichen Schaltfläche Ändern und Entfernen zur Verfügung.

354 Kapitel 13 Häufigkeitstabellen Lagemaße / Streuung / Verteilung Markieren Sie in diesen Gruppen die gewünschten Maßzahlen. Zur Bedeutung der einzelnen Maßzahlen siehe im einzelnen Abschnitt 13.3, Statistische Maßzahlen, S. 345. 13.4.4 Formate Um die Sortierreihenfolge, den Umfang und den Aufbau der Häufigkeitstabellen sowie der Tabellen mit statistischen Maßzahlen zu bestimmen, öffnen Sie mit der Schaltfläche Format das in Abbildung 13.10 dargestellte Dialogfeld. Abbildung 13.10: Dialogfeld der Schaltfläche Format Sortieren nach In dieser Gruppe legen Sie die Reihenfolge fest, in der die gültigen Werte in der Häufigkeitstabelle aufgeführt werden. Fehlende Werte (sowohl system- als auch benutzerdefinierte fehlende Werte) werden stets am Ende der Tabelle aufgeführt. Die Reihenfolge der Werte ist nicht nur eine rein äußerliche Formateinstellung, sondern beeinflußt auch die Werte der kumulierten Häufigkeiten. ¾ Aufsteigenden Werten: Die Werte werden in aufsteigender Folge nach ihrer Größe geordnet. Textwerte werden alphabetisch geordnet. Diese Reihenfolge ist voreingestellt. ¾ Absteigenden Werten: Die Werte werden in absteigender Reihenfolge nach ihrer Größe geordnet. ¾ Aufsteigenden Häufigkeiten: Die Werte werden in aufsteigender Folge ihrer Häufigkeiten aufgeführt. Werte mit gleichen Häufigkeiten werden in aufsteigender Folge ihrer Größe geordnet. ¾ Absteigenden Häufigkeiten: Die Werte werden in absteigender Folge ihrer Häufigkeiten aufgeführt. Werte mit gleichen Häufigkeiten werden in absteigender Folge ihrer Größe geordnet.

13.4 Erstellen einer Häufigkeitstabelle 355 Mehrere Variablen Wenn Sie in dem Hauptdialogfeld der Prozedur mehr als eine Variable ausgewählt haben, können Sie mit den beiden folgenden Optionen die Gliederung der Ergebnisdarstellung steuern: ¾ Variablen vergleichen: Wenn Sie auch statistische Maßzahlen mit der Prozedur berechnen, werden mit dieser Option die Maßzahlen für alle Variablen in einer Tabelle nebeneinander aufgeführt, so daß sie direkt miteinander verglichen werden können. ¾ Ausgabe nach Variablen ordnen: Mit dieser Option wird bei der Berechnung statistischer Maßzahlen für jede Variable eine eigene Tabelle erstellt. Häufigkeitstabellen werden unabhängig von der in dieser Gruppe gewählten Option für jede Variable getrennt erstellt. Allerdings werden die Tabellen im Ausgabenavigator unmittelbar hintereinander aufgeführt, wenn Sie die Option Variablen vergleichen ankreuzen. Bei der Option Ausgabe nach Variablen ordnen werden alle Elemente des Output, die sich auf eine Variable beziehen (Überschriften, Häufigkeitstabelle, Grafiken, Tabelle mit statischen Maßzahlen), zusammenhängend dargestellt, so daß die Häufigkeitstabellen unterschiedlicher Variablen nicht unmittelbar hintereinander erscheinen. Keine Tabellen mit mehr als n Kategorien Um das Entstehen sehr großer Häufigkeitstabellen zu vermeiden, können Sie diese Option ankreuzen und in das Eingabefeld einen bis zu dreistelligen Höchstwert für die in einer Tabelle darzustellenden Kategorien eingeben. Für Variablen, in denen mehr unterschiedliche Werte enthalten sind, werden dann keine Häufigkeitstabellen erstellt. Die fehlenden Werte werden dabei nicht mitgezählt.