Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien

Größe: px
Ab Seite anzeigen:

Download "Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien"

Transkript

1 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Eine Clusteranalyse dient allgemein dazu, eine Menge von Objekten in Gruppen (Cluster) zu unterteilen, wobei jede Gruppe in sich möglichst homogen und die Gruppen untereinander möglichst heterogen sein sollten. Die Clusteranalyse durchsucht die Menge der Objekte daher nach solchen Objekten, die einander ähnlich sind, und faßt diese zu Gruppen zusammen. Am Ende der Analyse ist jedes Objekt genau einer Gruppe zugeordnet. Im vorhergehenden Kapitel wurde das Verfahren der Hierarchischen Clusteranalyse dargestellt. Dieses hat den Vorteil, daß es dem Anwender eine sehr differenzierte Vorgehensweise ermöglicht und jeder einzelne Schritt des mehrstufigen Verfahrens nachvollzogen werden kann. Zudem untersucht die Hierarchische Clusteranalyse nicht nur, welche Objekte zu einem Cluster zusammengefaßt werden sollten, sondern sie unterstützt den Anwender auch bei der Beantwortung der Frage, wie viele Cluster sinnvollerweise überhaupt gebildet werden sollten. Diesen Vorzügen der Hierarchischen Clusteranalyse steht jedoch der Nachteil gegenüber, daß das Verfahren sehr umfangreiche Berechnungen erfordert, deren Ausmaß mit zunehmender Anzahl von Objekten überproportional ansteigt. Für große Stichproben empfiehlt sich daher die Clusterzentrenanalyse, der ein wesentlich einfacherer Algorithmus zugrunde liegt, die jedoch auch weniger transparent ist und nicht so differenziert gesteuert werden kann Methode der Clusterbildung Vorgegebene Anzahl der Cluster Eine der wesentlichen Vereinfachungen im Algorithmus der Clusterzentrenanalyse gegenüber dem hierarchischen Verfahren wird dadurch erreicht, daß von vornherein die Anzahl der zu bildenden Cluster vorgegeben wird. Wenn sich nicht bereits aus theoretischen Überlegungen eine bestimmte Anzahl an Clustern empfiehlt, kann es zweckmäßig sein, zunächst für eine Stichprobe aus den zu untersu-

2 722 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien chenden Objekten eine Hierarchische Clusteranalyse durchzuführen. An deren Ergebnissen läßt sich häufig eine sinnvolle Cluster-Anzahl ablesen, die oftmals auf die Unterteilung aller Objekte übertragen werden kann. Bekannte Clusterzentren Die zweite wesentliche Vereinfachung im Algorithmus der Clusterzentrenanalyse gegenüber dem hierarchischen Verfahren besteht darin, daß nicht nur die Anzahl der Cluster, sondern auch das Zentrum jedes einzelnen Clusters als bekannt vorausgesetzt wird. 330 Dadurch kann das Verfahren der Clusterbildung erheblich abgekürzt werden: Bei der Clusterzentrenanalyse wird jedes Objekt dem Cluster zugeordnet, zu dessen Clusterzentrum seine Distanz am geringsten ist. Damit wird der aufwendige paarweise Vergleich der Hierarchischen Clusteranalyse überflüssig. Wenn Sie bereits über Vorinformationen bezüglich geeigneter Clusterzentren verfügen, können Sie diese zu Beginn der Clusterzentrenanalyse explizit angeben. 331 Verfügen Sie über keine derartigen Vorinformationen, besteht die Möglichkeit, von SPSS Startwerte für die Clusterzentren bestimmen zu lassen. In beiden Fällen stellen die Ausgangswerte für die Clusterzentren nur vorläufige Werte dar, die zwar zunächst der Aufteilung der Objekte dienen, sich aber im Verlauf der Analyse verändern werden. Standardisierte Werte Bei der Prozedur CLUSTERZENTRENANALYSE besteht nicht die Möglichkeit, die Werte der Ursprungsvariablen durch die Prozedur standardisieren zu lassen. Dennoch empfiehlt sich auch bei diesem Verfahren im allgemeinen die Verwendung standardisierter Werte Das Zentrum eines Clusters besteht aus dessen mittleren Werten. (Damit sind nicht die Mittelwerte im technischen Sinne eines einfachen oder gewichteten Durchschnitts gemeint.) Im vorherigen Kapitel wurden in dem Beispiel die 15 Länder der EU in Cluster unterteilt, wobei als Kriterien die Schuldenstände und die Defizite der öffentlichen Haushalte, die Inflationsraten, die Höhe der langfristigen Zinsen und die Teilnahme am Wechselkursmechanismus dienten. Besteht nun ein Cluster aus den Ländern Österreich, Frankreich und Deutschland, ist das Zentrum dieses Clusters ebenfalls durch die fünf Merkmale Defizit, Schuldenstand, Inflationsrate, Zinshöhe und Teilnahme am WKM charakterisiert, wobei sich die Höhe der fünf Werte für das Clusterzentrum als Art mittlere Werte (dies können z.b. die arithmetischen Mittel sein, denkbar sind aber auch andere Verfahren zur Berechnung der Clusterzentren) aus den jeweils drei Werten ergibt, die Österreich, Frankreich und Deutschland in den betreffenden Merkmalen aufweisen. 331 Das Durchführen einer Clusteranalyse mit Vorinformationen über die Clusterzentren wird in Abschnitt 29.2, S. 723 beschrieben, eine Clusteranalyse ohne entsprechende Vorinformationen wird in Abschnitt 29.3, S. 730 durchgeführt. 332 Zu den Problemen, die sich aus der Verwendung nicht standardisierter Werte ergeben können, siehe im vorhergehenden Kapitel den Abschnitt Dimension der Variablen - Werte standardisieren, S. 696.

3 29.2 Clusteranalyse mit Vorinformationen über die Clusterzentren 723 Mit der Prozedur STATISTIK ZUSAMMENFASSEN DESKRIPTIVE STATISTIKEN... können Sie für ausgewählte Variablen aus der Datendatei standardisierte Werte (Z-Werte) berechnen. Dabei wird für jede Ausgangsvariable eine neue Variable mit den standardisierten Werten in die Datendatei eingefügt, so daß die Ursprungswerte unverändert erhalten bleiben. Anschließend können Sie die Clusterzentrenanalyse starten und dort anstatt der Originaldaten die Variablen mit den standardisierten Werten angeben Clusteranalyse mit Vorinformationen über die Clusterzentren Die Beispieldaten: Strukturdaten für die Länder der Erde Die Grundlage der im folgenden durchgeführten Clusteranalyse bildet die Datendatei Strukturdaten.sav. Diese Datei führt für 177 Länder und Regionen der Erde sieben Indikatoren der wirtschaftlichen und sozialen Entwicklung auf. Dies sind zum Beispiel die Höhe des BIP pro Kopf der Bevölkerung, der Anteil der Analphabeten an der erwachsenen Bevölkerung und die Rate der Kindersterblichkeit. Die Tabelle in Abbildung 29.1 gibt einen Überblick über die genaue Bedeutung der einzelnen Indikatoren. Für jeden Indikator werden in einer Variablen die Originalwerte und in einer zweiten Variablen standardisierte Werte (Z-Werte) angegeben. 333 Variable (standard. Variable) Bedeutung land Name des Landes bzw. der Region energie (zenergie) Pro-Kopf-Verbrauch an (kommerzieller) Energie; gemessen in der Einheit: Energiegehalt von 1 Kg Kohle lebenerw (zlebener) Lebenserwartung der Männer bei der Geburt (in Jahren) ksterbl (zksterbl) Kindersterblichkeit (pro lebend geborenen) bip (zbip) Bruttoinlandsprodukt pro Kopf der Bevölkerung (in $) telefone (ztelefon) Hauptanschlüsse von Telefonen pro 100 Einwohner analphab (zanalpha) Anteil der Analphabeten an der Bevölkerung zeitung (zzeitung) Gesamtauflage aller Tageszeitungen pro Einwohner Abbildung 29.1: Bedeutung der Variablen aus der Datei Strukturdaten.sav Im folgenden sollen die 177 Länder mit Hilfe der Clusterzentrenanalyse derart in fünf Gruppen unterteilt werden, daß jeweils solche Länder, die sich - gemessen an 333 Quelle der Daten: United Nations (1996): Statistical Yearbook 1994, New York.

4 724 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien den sieben ausgewählten Indikatoren - auf einem ähnlichen wirtschaftlichen Entwicklungsstand befinden, gemeinsam eine Gruppe bilden. 334 Über die möglichen Zentren der fünf Cluster liegen bereits Vorinformationen vor. Diese wurden gewonnen, indem eine Zufallsstichprobe von 25% der Länder mit Hilfe einer Hierarchischen Clusteranalyse in fünf Gruppen unterteilt wurde. Für die dabei entstandenen Gruppen wurden die Mittelwerte der einzelnen (standardisierten) Variablen berechnet und als Clusterzentren in einer eigenen Datei gespeichert. Diese Datei befindet sich ebenfalls auf der Begleit-CD und hat den Namen Strukturdaten - Clusterzentren.sav. Abbildung 29.2 gibt den gesamten Inhalt der Datendatei wieder. Abbildung 29.2: Datendatei Strukturdaten - Clusterzentren.sav Sollen bei der Clusterzentrenanalyse Vorinformationen über die Clusterzentren verwendet werden, müssen diese stets in einer eigenen Datendatei gespeichert sein, deren Aufbau dem der Datei Strukturdaten - Clusterzentren.sav aus Abbildung 29.2 entspricht. 335 In der folgenden Clusteranalyse sollen nicht die Originaldaten, sondern standardisierte Werte betrachtet werden. In diesem Fall müssen sich auch die Clusterzentren auf standardisierte Werte beziehen, die nach dem gleichen Standardisierungsverfahren berechnet wurden. Ist dies nicht erfüllt, führt die Clusteranalyse mit hoher Wahrscheinlichkeit zu unsinnigen, in jedem Fall aber zu suboptimalen Ergebnissen. Zur Untersuchung der 177 Länder mit Hilfe der Clusterzentrenanalyse werden im einzelnen die folgenden Einstellungen vorgenommen: ¾ Prozedur aufrufen: Zunächst muß die Datei Strukturdaten.sav geöffnet sein. Anschließend wird die Prozedur aufgerufen mit dem Befehl STATISTIK KLASSIFIZIEREN CLUSTERZENTRENANALYSE Auch hier gilt wie bereits bei der Hierarchischen Clusteranalyse, daß die mit der Clusteranalyse erreichte Gruppenbildung nur als ein Hinweis auf die Ähnlichkeit der Länder anzusehen ist und nicht das abschließende Ergebnis einer Unterteilung der Länder in Gruppen unterschiedlicher Entwicklungsstufen bilden sollte. Dies gilt um so mehr, als sich die Kennzeichnung der wirtschaftlichen Lage eines Landes sicherlich nicht auf sieben Indikatorwerte reduzieren läßt. 335 Genaue Angaben zum erforderlichen Aufbau dieser Datei finden Sie im Abschnitt Vorinformationen über die Clusterzentren angeben, S. 733.

5 29.2 Clusteranalyse mit Vorinformationen über die Clusterzentren 725 ¾ Variablen: In dem Feld Variablen werden die Variablen angegeben, auf deren Grundlage die Ähnlichkeit der Länder beurteilt werden soll. Dies sind zanalpha, zbip, zenergie, zksterbl, zlebener, ztelefon und zzeitung. Zusätzlich wird in dem Feld Fallbeschriftung die Variable land angegeben. ¾ Cluster-Anzahl: In dem Feld Anzahl Cluster wird der Wert 5 eingegeben. ¾ Clusterzentren: Zur Angabe der Clusterzentren wird zunächst das Dialogfeld mit der Schaltfläche Clusterzentren erweitert. Anschließend wird die Option Anfangswerte einlesen aus angekreuzt. Mit der zu dieser Option gehörenden Schaltfläche Datei wird ein Dialogfeld zum Auswählen einer Datendatei geöffnet. Wählen Sie dort die Datei Strukturdaten - Clusterzentren.sav aus, und schließen Sie das Dialogfeld mit der Schaltfläche Öffnen. ¾ Optionen: In dem Dialogfeld der Schaltfläche Optionen werden die Optionen Cluster-Informationen für jeden Fall, ANOVA-Tabelle und Paarweiser Fallausschluß angekreuzt und die übrigen Optionen abgewählt. Die Option Paarweiser Fallausschluß legt fest, daß Fälle, die einen fehlenden Wert enthalten, nicht vollständig aus der Analyse ausgeschlossen, sondern anhand der verbleibenden, gültigen Werte einem Cluster zugeordnet werden. 336 ¾ Weitere Einstellungen: Bei allen übrigen Optionen werden die Voreinstellungen unverändert übernommen. Die unter Abschnitt 29.4, Einstellungen der Clusterzentrenanalyse, S. 731 abgebildeten Dialogfelder zeigen die Einstellungen, die für das folgende Beispiel verwendet wurden Das Verfahren der Clusterzentrenanalyse bei bekannten Clusterzentren Da die (vorläufigen) Zentren der fünf Cluster bereits bekannt sind, geht die Clusterzentrenanalyse folgendermaßen vor, um jedes der 177 Länder einem der fünf Cluster zuzuordnen: ¾ Für jedes Land werden die Distanzen zu den fünf Clusterzentren berechnet, so daß sich für jedes Land fünf Distanzwerte ergeben. Anschließend wird das Land dem Cluster zugeordnet, zu dessen Zentrum es die geringste Distanz aufweist. Als Distanzmaß wird dabei stets die Euklidische Distanz verwendet. 337 ¾ Nachdem alle Länder auf die Cluster verteilt wurden, werden für jeden Cluster die neuen Clusterzentren berechnet. Beachten Sie, daß die zu Beginn der Clusteranalyse mitgeteilten Clusterzentren lediglich vorläufige Werte darstellten, die der Zuordnung der Länder zu den einzelnen Clustern dienten. Nachdem 336 Insgesamt weisen 41 der 177 Fälle in der Datei Strukturdaten.sav einen oder zwei fehlende Werte auf. 337 Auf das Maß der Euklidischen Distanz wurde im vorhergehenden Kapitel in den Abschnitten , Maße für die Ähnlichkeit von Objekten, S. 695 und Distanz- und Ähnlichkeitsmaße, S. 715 näher eingegangen.

6 726 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien nun die Länder zugeordnet wurden, werden die tatsächlichen Clusterzentren mit hoher Wahrscheinlichkeit mehr oder weniger stark von den ursprünglichen Clusterzentren abweichen. ¾ Die neu berechneten Clusterzentren werden nun herangezogen, um die Länder erneut auf die einzelnen Cluster zu verteilen. Hierzu wird der erste Schritt in der gleichen Weise wiederholt, wobei nun die neu berechneten Clusterzentren und nicht die ursprünglich vom Anwender vorgegebenen Clusterzentren verwendet werden. ¾ Nachdem erneut jedes Land einem Cluster zugeordnet wurde, werden wiederum die neuen Clusterzentren berechnet. Diese werden im nächsten Schritt herangezogen, um nochmalig die Länder den einzelnen Clustern zuzuordnen. Dieser Prozeß wird so lange fortgesetzt, bis entweder eine vom Anwender vorgegeben Höchstzahl an Wiederholungen erreicht ist, oder bis das erneute Zuordnen der Länder keine oder nur noch minimale Veränderungen gegenüber dem vorherigen Ergebnis bewirkt Ergebnisse der Clusteranalyse Verlauf des Iterationsprozesses Abbildung 29.3 zeigt die wesentlichen Elemente des Output der Clusterzentrenanalyse. 339 Die oberste Tabelle mit der Überschrift Iterationsprotokoll beschreibt den Iterationsprozeß, der für die Aufteilung der Länder auf die fünf Cluster durchgeführt wurde. Die erste Zuordnung der Länder zu den einzelnen Clustern orientierte sich an den vorgegebenen Clusterzentren aus der Datei Strukturdaten - Clusterzentren.sav. Nachdem im ersten Iterationsschritt jedes Land einem Cluster zugewiesen wurde, konnten die Clusterzentren anhand der Zuteilungsergebnisse neu berechnet werden. Die dabei ermittelten Zentren wichen - wie zu erwarten war - mehr oder weniger stark von den ursprünglich vorgegebenen Werten ab. Die Stärke der Abweichung wird für jeden Cluster einzeln in der obersten Zeile der Tabelle Iterationsprotokoll angegeben. So ist für Cluster 1 zu erkennen, daß dessen neues Zentrum zu dem ursprünglich vorgegebenen Zentrum (dies wird in der ersten Zeile der Datendatei aus Abbildung 29.2 beschrieben) eine Distanz von 0,518 aufweist. Auch bei den anderen vier Clustern haben sich die Zentren verändert. 338 Sowohl die Höchstzahl an Iterationen als auch das Ausmaß der Veränderung, bei dessen Unterschreitung der Prozeß beendet werden soll, können in dem Dialogfeld der Schaltfläche Iterieren festgelegt werden, siehe hierzu im einzelnen Abschnitt , Iterieren, S Neben den in Abbildung 29.3 dargestellten Tabellen enthält der Output eine Tabelle mit der Überschrift Anfängliche Clusterzentren und eine Tabelle mit dem Titel Cluster- Zugehörigkeit. Die Tabelle Anfängliche Clusterzentren gibt die vorgegebenen Clusterzentren wieder, die in Abbildung 29.2 dargestellt wurden. Die Tabelle Cluster-Zugehörigkeit enthält eine Liste aller 177 Länder, die für jedes Land angibt, welchem Cluster dieses durch die Clusterzentrenanalyse schließlich zugeordnet wurde.

7 29.2 Clusteranalyse mit Vorinformationen über die Clusterzentren 727 Die zweite Zeile der Tabelle gibt die Veränderungen der Clusterzentren an, die sich durch den zweiten Iterationsschritt ergeben haben. Dies sind die Distanzen zwischen den Zentren, die sich nach der zweiten Zuteilung der Länder ergeben, und den Zentren, welche die Cluster nach der ersten Länderzuteilung aufwiesen. Es ist offensichtlich, daß die Veränderungen der Clusterzentren mit fortschreitendem Iterationsprozeß immer geringer werden. Die Neuzuteilung der Länder im neunten Iterationsschritt hat höchstens noch minimale Veränderungen bewirkt, die Distanz zu den vorherigen Clusterzentren wird für jeden Cluster mit 0,000 angegeben. Aus diesem Grund wurde der Iterationsprozeß nach dem neunten Schritt beendet, und die nach diesem Schritt bestehende Aufteilung der Länder auf die fünf Cluster bildet das Endergebnis der Clusterzentrenanalyse. Iteration Iterationsprotokoll a Änderung in Clusterzentren ,518,192,338 1,799,593,091,075,036,579,000,000,033,115,667,072,000,022,000,152,000,032,055,050,144,000,062,089,067,201,000,062,061,055,000,000,036,039,044,000,000,000,000,000,000,000 a. Erzielte Konvergenz aufgrund keiner oder geringer Distanzänderung. Die maximale Distanz, um die ein Zentrum verändert wurde, ist,000. Die aktuelle Iteration ist 9. Die minimale Distanz zwischen anfänglichen Zentren ist 2,053. Clusterzentren der endgültigen Lösung ZANALPHA ZBIP ZENERGIE ZKSTERBL ZLEBENER ZTELEFON ZZEITUNG Cluster , , , , , , ,47790,63128, , , ,32296, , , , , , , , ,36728,24064,80897, , , ,47984,94180, , , ,35585,39448, ,86722 Distanz zwischen Clusterzentren der endgültigen Lösung Cluster ,842 4,535 6,453 6,569 2,842 2,253 5,088 4,797 4,535 2,253 4,337 2,672 6,453 5,088 4,337 4,644 6,569 4,797 2,672 4,644 (wird fortgesetzt)

8 728 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien ZANALPHA ZBIP ZENERGIE ZKSTERBL ZLEBENER ZTELEFON ZZEITUNG ANOVA Cluster Fehler Mittel der Mittel der Quadrate df Quadrate df F Sig. 29,546 4, ,105,000 36,693 4, ,295,000 30,174 4, ,331,000 35,653 4, ,091,000 33,362 4, ,302,000 40, ,194E ,556,000 26,650 4, ,004,000 Die F-Tests sollten nur für beschreibende Zwecke verwendet werden, da die Cluster so gewählt wurden, daß die Differenzen zwischen Fällen in unterschiedlichen Clustern maximiert werden. Dabei werden die beobachteten Signifikanzniveaus nicht korrigiert und können daher nicht als Tests für die Hypothese der Gleichheit der Clustermittelwerte interpretiert werden. Anzahl der Fälle in jedem Cluster Cluster Gültig Fehlend ,000 71,000 28,000 12,000 19, ,000,000 Abbildung 29.3: Ergebnisse der Clusterzentrenanalyse für die Clusterbildung aus den 177 Ländern Ausmaß der Unterschiede zwischen den Gruppen Die zweite Tabelle mit der Überschrift Clusterzentren der endgültigen Lösung gibt die Zentren der zuletzt gebildeten Cluster (also der Cluster, welche die abschließende Aufteilung der Länder auf die fünf Gruppen repräsentieren) wieder. Ein Vergleich mit den ursprünglich vorgegebenen Clusterzentren zeigt, daß sich zum Teil erhebliche Veränderungen ergeben haben. Wesentlich interessanter jedoch ist die darauffolgende Tabelle Distanz zwischen Clusterzentren der endgültigen Lösung, da diese eine Bewertung der abschließenden Gruppeneinteilung der Länder ermöglicht. Ziel der Clusteranalyse war es, die Länder derart auf die fünf Cluster zu verteilen, daß sich die demselben Cluster zugeordneten Länder möglichst ähnlich sind, während zwischen Ländern unterschiedlicher Cluster eine möglichst große Distanz bestehen sollte. Wurde dieses Ziel erreicht, dann müßten die Zentren der fünf Cluster relativ große Distanzen zueinander aufweisen. Diese Distanzen - wiederum berechnet als Euklidische Distanz - werden in der Tabelle Distanz zwischen Clusterzentren der endgültigen Lösung mitgeteilt. Der größte Unterschied besteht offensichtlich zwischen den Clustern 1 und 5 sowie zwischen den Clustern 1 und 4, während sich die Cluster 2 und 3 am ähnlichsten zu sein scheinen. Einen statistischen Test der Frage, ob sich die fünf Ländergruppen tatsächlich signifikant voneinander unterscheiden, enthält die Tabelle ANOVA. Der Test basiert

9 29.2 Clusteranalyse mit Vorinformationen über die Clusterzentren 729 auf folgender Überlegung: Wurde das Ziel der Clusteranalyse erreicht, so daß die Länder desselben Clusters einander relativ ähnlich sind, während sich die Länder verschiedener Cluster deutlich voneinander unterscheiden, dann müßten die Distanzen innerhalb eines Clusters (dies sind die Distanzen der in dem Cluster enthaltenen Länder von dem Clusterzentrum) wesentlich geringer sein, als die Distanzen zwischen den Clustern. Entsprechend müßte auch für die einzelnen Variablen gelten, daß deren Werte innerhalb eines Clusters nur geringfügig von dem jeweiligen Clustermittelwert abweichen. Gleichzeitig müßten die Mittelwerte, die sich für eine Variable in den unterschiedlichen Clustern ergeben, relativ stark um den Mittelwert der betreffenden Variablen für die gesamte Stichprobe streuen. Aus diesem Grund gibt die ANOVA-Tabelle für jede der sieben Variablen, die der Clusterzentrenanalyse zugrunde lagen, die Quadratsumme innerhalb der Cluster (Spalte Fehler: Mittel der Quadrate) sowie die Quadratsumme zwischen den Clustern (Cluster: Mittel der Quadrate) an. 340 Wohlgemerkt beziehen sich diese Angaben auf die Variablenwerte und nicht auf die Distanzen. Die Quotienten aus der Quadratsumme zwischen den Clustern und der Quadratsumme innerhalb der Cluster werden in der Spalte F angegeben. Ergibt sich bei einer Variablen ein hoher F-Wert und ein geringer Signifikanzwert, deutet dies darauf hin, daß die Werte der betreffenden Variablen innerhalb der einzelnen Cluster tatsächlich wesentlich ähnlicher sind als die Werte in unterschiedlichen Clustern. Da sich bei allen sieben Variablen hohe F-Werte und sehr niedrige Signifikanzwerte (bei jeder Variablen 0,000) ergeben, scheint die Clusteranalyse grundsätzlich erfolgreich gewesen zu sein. Es ist allerdings zu betonen, daß die Angaben aus der ANOVA-Tabelle nicht als vollwertige Ergebnisse eines Signifikanztests interpretiert werden sollten, sondern eher als Hinweis auf die Unterschiede zwischen den Gruppen. 341 Betrachtung der abschließenden Cluster Die unterste Tabelle aus Abbildung 29.3 gibt an, wie viele Länder den einzelnen Clustern zugeordnet sind. Der kleinste Cluster (4) umfaßt 12, der größte (2) enthält 71 Länder. Schaut man sich die Zusammensetzung der Cluster an, zeigt sich, daß Cluster 5 solche Länder enthält, die allgemein als führende Industrieländer bezeichnet werden, während sich Cluster 1 aus sehr armen Ländern zusammen- 340 Die Quadratsumme innerhalb der Cluster ist ein Indikator für die Streuung der einzelnen Variablenwerte innerhalb eines Clusters um den Clustermittelwert, die Quadratsumme zwischen den Clustern kennzeichnet dagegen die Streuung der Clustermittelwerte um den Stichprobenmittelwert. Siehe hierzu sowie zur gesamten ANOVA ausführlicher Kapitel 20, Einfaktorielle ANOVA. 341 Der Grund dafür, daß die Ergebnisse der ANOVA-Tabelle keine gültigen Signifikanzwerte darstellen, besteht darin, daß zunächst die Cluster gezielt so gebildet wurden, daß die Distanzen zwischen den Clustern möglichst groß sind. Als Kriterien der Clustereinteilung dienten dabei dieselben Daten, die auch der ANOVA-Tabelle zur Messung der Unterschiede zwischen den Gruppe zugrunde liegen. Daher beschreiben die Ergebnisse der ANOVA-Tabelle keinen unabhängigen Signifikanztest der Nullhypothese. Dieser Mangel in den Daten ließe sich grundsätzlich durch eine Korrektur der Signifikanzwerte beheben, jedoch wird diese Korrektur im Rahmen der Clusteranalyse bei SPSS nicht durchgeführt.

10 730 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien setzt. Die Tabelle in Abbildung 29.4 zeigt die Zuordnung ausgewählter Länder zu den fünf Clustern, wie sie von der Clusterzentrenanalyse vorgenommen wurde. Diese läßt sich entweder an der Zuordnungstabelle aus dem Output der Analyse (in Abbildung 29.3 nicht dargestellt) oder an einer in die Datendatei eingefügten Variablen mit entsprechenden Angaben der Cluster-Zugehörigkeit ablesen (eine solche Variable wurde in diesem Beispiel nicht erstellt). Cluster Ausgewählte Länder Afghanistan, Äthiopien, Bangladesch, Haiti, Nepal, Nigeria, Ruanda, 1 Senegal, Somalia, Zaire Ägypten, Bolivien, Chile, China, Dominikanische Republik, Irak, 2 Mexiko, Türkei, Vietnam Argentinien, Bulgarien, Griechenland, Israel, Italien, Neuseeland, 3 Portugal, Spanien 4 Brunei, Estland, Kroatien, Lettland, Litauen, Slowakei, Slowenien Australien, Dänemark, Deutschland, Frankreich, Großbritannien, 5 Hongkong, Island, Japan, Schweiz, Singapur, USA Abbildung 29.4: Zuordnung ausgewählter Länder zu den fünf Clustern 29.3 Clusteranalyse ohne Vorinformationen über die Clusterzentren Die im vorhergehenden Abschnitt durchgeführte Clusteranalyse ging von bekannten (vorläufigen) Clusterzentren aus. Häufig werden jedoch keine entsprechende Vorinformationen über die Clusterzentren vorliegen. In solchen Fällen besteht die Möglichkeit, die Startwerte für die Clusterzentren von SPSS bestimmen zu lassen. Die hierzu erforderlichen Dialogfeldeinstellungen sind denkbar einfach: Es genügt, die Option Anfangswerte einlesen aus in der Gruppe Clusterzentren nicht anzukreuzen. Die Prozedur CLUSTERZENTRENANALYSE geht dann folgendermaßen vor, um die Startwerte für die Clusterzentren zu bestimmen: ¾ Wenn insgesamt k Cluster gebildet werden sollen, werden zunächst die ersten k Fälle der Datendatei (und damit die ersten k der zu gruppierenden Objekte) als provisorische Clusterzentren angesehen. ¾ Anschließend werden die übrigen Fälle daraufhin untersucht, ob sie möglicherweise bessere Clusterzentren abgeben als die ersten k Fälle. Dabei wird ein als provisorisches Clusterzentrum ausgewählter Fall durch einen anderen Fall ersetzt, wenn eines der beiden folgenden Kriterien erfüllt ist: y Die Distanz des neuen Falls zu dem ihm am nächsten gelegenen provisorischen Clusterzentrum ist größer als die Distanz zwischen den beiden am nächsten beieinanderliegenden provisorischen Clusterzentren. Der neue Fall ersetzt dann das ihm am nächsten gelegene provisorische Clusterzentrum. y Die Distanz des neuen Falls zu dem ihm am nächsten gelegenen provisorischen Clusterzentrum ist größer, als die Distanz dieses provisorischen Clu-

11 29.4 Einstellungen der Clusterzentrenanalyse 731 sterzentrums zu dem ihm am nächsten gelegenen anderen provisorischen Clusterzentrum. Auch hierbei ersetzt der neue Fall das ihm am nächsten gelegene provisorische Clusterzentrum. ¾ Wurden alle Fälle (Objekte) von oben nach unten durchsucht, ist die Suche der Startwerte für die Clusterzentren beendet. Die am Ende gefundenen Clusterzentren bilden die Ausgangswerte für die Zuordnen der Objekte zu den einzelnen Clustern im ersten Iterationsschritt. Der weitere Ablauf der Clusteranalyse ist vollkommen identisch mit dem in Abschnitt , Das Verfahren der Clusterzentrenanalyse bei bekannten Clusterzentren, S. 725 dargestellten Verlauf. Wird die Clusterzentrenanalyse ohne Vorinformationen über die Clusterzentren zur Unterteilung der 177 Länder und Regionen aus der Datei Strukturdaten.sav in fünf Cluster verwendet, stimmt das durch die Analyse herbeigeführte Ergebnis weitgehend mit der im vorhergehenden Abschnitt erzielten Clusterbildung überein. Lediglich einzelne Länder werden anderen Clustern zugeordnet, ohne daß sich dadurch die Zusammensetzung der fünf Gruppen grundsätzlich ändert Einstellungen der Clusterzentrenanalyse Allgemeine Vorgehensweise Abbildung 29.5 zeigt das Hauptdialogfeld für die Einstellungen der Clusterzentrenanalyse. Sie öffnen dieses Dialogfeld mit dem Befehl STATISTIK KLASSIFIZIEREN CLUSTERZENTRENANALYSE... Abbildung 29.5: Dialogfeld des Befehls STATISTIK, KLASSIFIZIEREN, CLUSTERZENTRENANALYSE

12 732 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Nehmen Sie in diesem Dialogfeld folgende Einstellungen vor: ¾ Variablen: Verschieben Sie die Variablen, anhand deren Werten die Ähnlichkeit der Objekte beurteilt werden soll, in das Feld Variablen. Dies dürfen keine Textvariablen sein. ¾ Fallbeschriftung: Sie können eine Variable angeben, mit deren Werten die einzelnen Fälle im Output der Clusteranalyse beschriftet werden. Diese Beschriftung wird ausschließlich in der Tabelle verwendet, die für jeden Fall die Cluster-Zugehörigkeit angibt. ¾ Anzahl der Cluster: Geben Sie in diesem Feld die Anzahl der zu bildenden Cluster an. ¾ Methode: In Abschnitt , Das Verfahren der Clusterzentrenanalyse bei bekannten Clusterzentren, S. 725 wurde der Iterationsprozeß beschrieben, durch den die Objekte den einzelnen Clustern zugeordnet werden. Das gesamte Iterationsverfahren wird jedoch nur durchgeführt, wenn Sie in der Gruppe Methode die Option Iterieren und klassifizieren auswählen. Verwenden Sie dagegen die Option Nur klassifizieren, ist die Clusterzuordnung bereits nach dem ersten Iterationsschritt beendet. Die Fälle werden somit nur einmal anhand der vorläufigen (vom Anwender vorgegebenen oder von SPSS ermittelten) Clusterzentren auf die Cluster verteilt. Die dabei erzielte Gruppeneinteilung bildet bereits das Endergebnis. ¾ Clusterzentren (S. 733): Wenn Sie auf die Schaltfläche Clusterzentren klicken, wird das Dialogfeld nach unten erweitert und die Gruppe Clusterzentren eingeblendet. In dieser Gruppe können Sie, sofern Sie über entsprechende Vorinformationen verfügen, die Startwerte für die Clusterzentren festlegen. Zudem besteht die Möglichkeit, die Zentren der durch die Analyse ermittelten abschließenden Cluster in einer neuen Datendatei zu speichern. ¾ Iterieren (S. 734): Diese Schaltfläche ist nur aktiv, wenn in der Gruppe Methode die Option Iterieren und klassifizieren ausgewählt ist. In dem Dialogfeld dieser Schaltfläche können Sie Einstellungen für den Iterationsprozeß wie eine Höchstzahl zu durchlaufender Iterationsschleifen festlegen. ¾ Optionen (S. 735): In dem Dialogfeld dieser Schaltfläche können Sie zum einen auswählen, welche Elemente im Output der Clusteranalyse enthalten sein sollen, und zum anderen die Behandlung von Fällen mit fehlenden Werten festlegen. ¾ Speichern (S. 736): Sie können in die Datendatei eine neue Variable einfügen lassen, die für jeden Fall der Datei dessen Cluster-Zuordnung angibt. In einer zweiten Variablen können Sie die Distanz der einzelnen Fälle zu den jeweiligen Clusterzentren speichern.

13 29.4 Einstellungen der Clusterzentrenanalyse Mittelpunkte Mit der Schaltfläche Clusterzentren erweitern Sie das Dialogfeld um die Gruppe Clusterzentren, so daß es das in Abbildung 29.5 dargestellte Aussehen annimmt. Vorinformationen über die Clusterzentren angeben Wenn Sie die Startwerte für die Clusterzentren vorgeben möchten, kreuzen Sie die Option Anfangswerte einlesen aus an. Solange diese Option nicht angekreuzt ist, werden die Startwerte für die Clusterzentren von SPSS ermittelt. 342 Die Startwerte für die Clusterzentren müssen in einer eigenen Datendatei gespeichert sein. Abbildung 29.2, S. 724 zeigt die Datendatei mit den in dem Beispiel dieses Kapitels verwendeten Clusterzentren. Allgemein muß die Datei mit den Clusterzentren folgendermaßen aufgebaut sein: ¾ Jede Zeile der Datei beschreibt einen Cluster. ¾ Die erste Variable sollte fortlaufende Nummern für die Bezeichnung der Cluster enthalten. Diese Variable muß den Namen cluster_ tragen. Dabei ist auch das Unterstreichungszeichen als letztes Zeichen des Namens unbedingt erforderlich. ¾ Die weiteren Variablen beziehen sich jeweils auf eine der Variablen, die der Clusteranalyse zugrundeliegen, und geben für diese die Werte der Clusterzentren an. Die Namen dieser Variablen müssen mit den Namen der in der Clusteranalyse verwendeten Variablen übereinstimmen. ¾ Alle Variablen müssen einen numerischen Datentyp aufweisen, dies muß jedoch nicht der Typ Numerisch sein. ¾ Hinter bzw. unter den Variablen und Fällen, die für die Beschreibung der Clusteranalyse benötigt werden, darf die Datei weitere Variablen bzw. Fälle enthalten. Um mitzuteilen, in welcher Datendatei die Clusterzentren gespeichert sind, klikken Sie auf die Schaltfläche Datei neben der Option Anfangslösung einlesen aus. Diese öffnet ein Dialogfeld mit dem üblichen Erscheinungsbild von Dialogfeldern zum Auswählen von Dateien. Geben Sie hier den Namen und das Verzeichnis der Datendatei an, und schließen Sie das Dialogfeld mit der Schaltfläche Öffnen. Abschließende Clusterzentren speichern Sie können die Zentren der Cluster, die als abschließendes Ergebnis der Clusteranalyse gebildet werden, in einer Datendatei speichern. Diese Datei erhält automatisch die Struktur, die erforderlich ist, um die Datei in späteren Clusteranalysen für die Angabe der Startwerte der Clusterzentren zu verwenden. 342 Siehe hierzu Abschnitt 29.3, Clusteranalyse ohne Vorinformationen über die Clusterzentren, S. 730.

14 734 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Um die abschließenden Clusterzentren zu speichern, kreuzen Sie die Option Endwerte schreiben in an, und klicken Sie anschließend auf die benachbarte Schaltfläche Datei. Diese öffnet ein Dialogfeld, in dem Sie einen Namen sowie das Zielverzeichnis für die neu zu erstellende Datendatei angeben können. Verwenden Sie hierbei einen Namen, der in dem ausgewählten Zielverzeichnis bereits vergeben ist, wird die betreffende Datei überschrieben. Es ist nicht zulässig, die Datei, der die Startwerte für die Clusterzentren entstammen, zugleich als Zieldatei für die abschließenden Clusterzentren anzugeben Iterieren Die Schaltfläche Iterieren öffnet das in Abbildung 29.6 dargestellte Dialogfeld, in dem Sie Einstellungen für den Iterationsprozeß vornehmen können. Die Schaltfläche steht nur zur Verfügung, wenn in der Gruppe Methode die Option Iterieren und klassifizieren ausgewählt ist. Abbildung 29.6: Dialogfeld der Schaltfläche Iterieren mit Einstellungen für den Iterationsprozeß Grenzwerte für das Beenden des Iterationsprozesses Der Iterationsprozeß wird beendet, wenn entweder eine Höchstzahl an Iterationsschleifen durchlaufen wurde oder wenn sich durch eine Schleife (also durch eine Neuzuordnung der Objekte zu den einzelnen Clustern) nur geringfügige Änderungen der Clusterzentren gegenüber dem Ergebnis der vorhergehenden Iterationsschleife ergeben haben. ¾ Anzahl der Iterationen: Geben Sie in diesem Feld die Anzahl der höchstens zu durchlaufenden Iterationsschleifen an. Der Wert kann zwischen 1 und 999 liegen. Dabei gilt die erste Zuordnung der Fälle, die sich an den vom Anwender vorgegebenen bzw. von SPSS ermittelten Startwerten für die Clusterzentren orientiert, noch nicht als Iterationsschleife. Soll nach dieser ersten Zuordnung kein weiterer Iterationsschritt durchgeführt werden, wählen Sie in dem Hauptdialogfeld die Option Nur klassifizieren. ¾ Konvergenzkriterium: Geben Sie hier das Ausmaß der Veränderung in den Clusterzentren an, bei dessen Unterschreitung der Iterationsprozeß beendet werden soll. Der anzugebende Wert bezeichnet das Verhältnis zwischen der Veränderung eines Clusterzentrums und der Distanz zwischen den Zentren der beiden am nächsten beieinanderliegenden Ausgangs-Cluster der betreffenden Iterationsschleife.

15 29.4 Einstellungen der Clusterzentrenanalyse 735 Beispiel: Durch den Wert 0,05 legen Sie fest, daß der Iterationsprozeß beendet wird, wenn sich bei keinem Cluster eine Veränderung des Clusterzentrums ergeben hat, die mindestens 5% der Distanz zwischen den beiden ähnlichsten Ausgangs-Clustern (Cluster, die durch den vorhergehenden Iterationsschritt gebildet wurden) beträgt. Gleitende Mittelwerte Während des Iterationsprozesses werden vor Beginn jeder Iterationsschleife die Clusterzentren neu berechnet. An diesen Clusterzentren orientiert sich anschließend die Zuteilung der Objekte zu den Clustern während der gesamten folgenden Iterationsschleife. Dies gilt jedoch nicht, wenn Sie die Option Gleitende Mittelwerte verwenden ankreuzen. Diese Option bewirkt, daß die Clusterzentren nach jeder Zuordnung eines Objekts zu einem Cluster neu berechnet werden, so daß auch während einer Iterationsschleife laufend Neuberechnungen der Clusterzentren erfolgen Optionen Mit der Schaltfläche Optionen öffnen Sie das Dialogfeld aus Abbildung In diesem Dialogfeld können Sie den Umfang des Output der Clusteranalyse bestimmen und die Behandlung von Fällen mit fehlenden Werten festlegen. Abbildung 29.7: Dialogfeld der Schaltfläche Optionen Statistiken Bei jeder Clusteranalyse werden für die abschließenden Cluster die Zentren sowie die Anzahl der den einzelnen Clustern zugeordneten Objekten mitgeteilt. Wenn Sie die Methode Iterieren und klassifizieren verwenden, wird zusätzlich eine Tabelle ausgegeben, die für jede Iterationsschleife die Veränderung der Clusterzentren gegenüber der vorhergehenden Schleife angibt. Darüber hinaus können Sie optional folgende weitere Tabellen anfordern: ¾ Anfängliche Clusterzentren: Hiermit fordern Sie eine Tabelle an, in der die für die erste Zuteilung der Objekte verwendeten Clusterzentren mitgeteilt werden. Wenn Sie diese Clusterzentren mit der Option Anfangswerte einlesen aus

16 736 Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien selbst vorgegeben haben, wird die Tabelle auf jeden Fall erstellt, auch wenn die Option Anfängliche Clusterzentren nicht angekreuzt ist. ¾ ANOVA-Tabelle: Kreuzen Sie diese Option an, um eine Tabelle mit den Ergebnissen einer einfaktoriellen Varianzanalyse für die auf die Cluster verteilten Fälle (Objekte) durchzuführen. Eine solche Tabelle liefert einen Hinweis darauf, ob das Ziel der Clusteranalyse, möglichst ähnliche Fälle in Gruppen zusammenzufassen, während sich gleichzeitig die verschiedenen Gruppen möglichst deutlich voneinander unterscheiden, erreicht wurde. Siehe hierzu ausführlicher die Erläuterungen unter Abschnitt Ausmaß der Unterschiede zwischen den Gruppen, S ¾ Cluster-Informationen für jeden Fall: Mit dieser Option fordern Sie eine Tabelle an, die für jeden Fall angibt, welchem Cluster dieser zugeordnet wurde und wie groß die (Euklidische) Distanz des Falles zu dem jeweiligen Clusterzentrum ist. Wenn Sie eine solche Tabelle erstellen, empfiehlt es sich, im Hauptdialogfeld eine Variable für die Fallbeschriftung anzugeben, da die Fälle andernfalls nur mit ihren Fallnummern aus der Datendatei beschriftet werden. Fehlende Werte Legen Sie fest, in welcher Weise Fälle behandelt werden sollen, die in einer oder mehreren Variablen einen fehlenden Wert aufweisen: ¾ Listenweiser Fallausschluß: Alle Fälle, die in mindestens einer der in der Clusteranalyse verwendeten Variablen (außer der Variablen für die Fallbeschriftung) einen fehlenden Wert aufweisen, werden von der gesamten Clusteranalyse vollständig ausgeschlossen und damit keinem Cluster zugeordnet. ¾ Paarweiser Fallausschluß: Auch Fälle mit fehlenden Werten in den relevanten Variablen werden in die Clusteranalyse einbezogen. Ihre Distanzen zu den übrigen Fällen werden anhand der gültigen Werte berechnet. Nur Fälle, die in sämtlichen relevanten Variablen einen fehlenden Wert aufweisen, bleiben vollständig unberücksichtigt Speichern Abbildung 29.8 zeigt das Dialogfeld der Schaltfläche Speichern, in dem folgende Optionen zur Verfügung stehen: ¾ Cluster-Zugehörigkeit: Mit dieser Option wird in die Datendatei eine neue Variable eingefügt, die für jeden Fall angibt, welchem Cluster dieser durch die Clusteranalyse zugeordnet wurde. Fälle, die aufgrund fehlender Werte oder durch die Verwendung einer Filtervariablen aus der Clusteranalyse ausgeschlossen wurden, erhalten auch in dieser Variablen einen fehlenden Wert. ¾ Distanz vom Clusterzentrum: Hiermit fügen Sie in die Datendatei eine Variable ein, die für jeden Fall die Euklidische Distanz zum jeweiligen Clustermit-

17 29.4 Einstellungen der Clusterzentrenanalyse 737 telpunkt angibt. Fälle, die keinem Cluster zugeordnet wurden, erhalten einen fehlenden Wert. Die Namen der durch diese Optionen erstellten Variablen setzen sich aus dem Ausdruck qcl_ und einer fortlaufenden Nummer zusammen. Abbildung 29.8: Dialogfeld der Schaltfläche Speichern

Kapitel 22 Partielle Korrelationen

Kapitel 22 Partielle Korrelationen Kapitel 22 Partielle Korrelationen Bereits im vorhergehenden Kapitel wurden mit der Prozedur KORRELATION, BIVARIAT Korrelationskoeffizienten berechnet. Korrelationskoeffizienten dienen allgemein dazu,

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Kapitel 35 Histogramme

Kapitel 35 Histogramme Kapitel 35 Histogramme In einem Histogramm können Sie die Häufigkeitsverteilung der Werte einer intervallskalierten Variablen darstellen. Die Werte werden zu Gruppen zusammengefaßt und die Häufigkeiten

Mehr

Kapitel 11 Verschmelzen und Aggregieren von Datendateien

Kapitel 11 Verschmelzen und Aggregieren von Datendateien Kapitel 11 Verschmelzen und Aggregieren von Datendateien Daten, die in unterschiedlichen Datendateien gespeichert sind, lassen sich nicht unmittelbar gemeinsam analysieren, sondern sie müssen zuvor in

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Kapitel 39 Sequenzdiagramme

Kapitel 39 Sequenzdiagramme Kapitel 39 Sequenzdiagramme Sequenzdiagramme bilden eine spezielle Form von Liniendiagrammen. Die Besonderheit von Sequenzdiagrammen besteht darin, daß sie stets die einzelnen Werte einer Variablen aus

Mehr

Kapitel 40 Zeitreihen: Autokorrelation und Kreuzkorrelation

Kapitel 40 Zeitreihen: Autokorrelation und Kreuzkorrelation Kapitel 40 Zeitreihen: Autokorrelation und Kreuzkorrelation Bei Zeitreihendaten ist häufig das Phänomen zu beobachten, daß die Werte der Zeitreihe zeitverzögert mit sich selbst korreliert sind. Dies bedeutet,

Mehr

Kapitel 38 Verteilungsdiagramme

Kapitel 38 Verteilungsdiagramme Kapitel 38 Verteilungsdiagramme Mit Verteilungsdiagrammen können Sie grafisch untersuchen, inwieweit die Stichprobenverteilung einer Variablen mit einer theoretischen Verteilung übereinstimmt. So können

Mehr

Gesamtergebnis. Klimaschutz-Index Tabelle 1. Table 1: Punkt- Einzelwertung zahl** Trend Niveau Politik. 21 Irland 55,6. 41 Korea, Rep.

Gesamtergebnis. Klimaschutz-Index Tabelle 1. Table 1: Punkt- Einzelwertung zahl** Trend Niveau Politik. 21 Irland 55,6. 41 Korea, Rep. Gesamtergebnis Table 1: Klimaschutz-Index 2009 Tabelle 1 Rang Land Punkt- Einzelwertung zahl** Trend Niveau Politik Rang Land Punkt- Einzelwertung zahl** Trend Niveau Politik Rang Land Punkt- Einzelwertung

Mehr

Aufgaben zu Kapitel 8

Aufgaben zu Kapitel 8 Aufgaben zu Kapitel 8 Aufgabe 1 a) Berechnen Sie einen U-Test für das in Kapitel 8.1 besprochene Beispiel mit verbundenen Rängen. Die entsprechende Testvariable punkte2 finden Sie im Datensatz Rangdaten.sav.

Mehr

Reisekostenpauschale. in Euro. Afghanistan Ägypten Albanien Algerien

Reisekostenpauschale. in Euro. Afghanistan Ägypten Albanien Algerien Eine Unterkunft muss jeweils individuell organisiert werden und wird nicht über das zur Verfügung gestellt. können keine Drittmittel zur Finanzierung des Aufenthalts herangezogen werden. Afghanistan 925

Mehr

Referat 05 -Finanzcontolling- Statistik nach Ländern im WS 18/19. Stand:

Referat 05 -Finanzcontolling- Statistik nach Ländern im WS 18/19. Stand: Statistik nach Ländern im WS 18/19 Stand: 05.12.2018 Referat 05 -Finanzcontolling- Albanien M 5 5 Albanien W 2 4 1 7 Ges 7 4 1 12 Bosnien und Herzegowina M 9 9 Bosnien und Herzegowina W 3 1 1 1 6 Ges 12

Mehr

index 2013 Klimaschutz-Index Komponenten 7,5% 10% 7,5% 10% 10% 10% 4% 4% 20% 30% Emissionsniveau 10% 10% 30% Entwicklung der Emissionen KLIMASCHUTZ

index 2013 Klimaschutz-Index Komponenten 7,5% 10% 7,5% 10% 10% 10% 4% 4% 20% 30% Emissionsniveau 10% 10% 30% Entwicklung der Emissionen KLIMASCHUTZ Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index Nationale Klimapolitik Primärenergieverbrauch pro Kopf Internationale Klimapolitik 7,5% 7,5% CO 2 -Emissionen pro Kopf Effizienz-Trend Effizienz-Niveau

Mehr

Korrigenda. Der OECD-Durchschnitt in Mathematik für besonders leistungsschwache Schüler sollte heißen 23.0.

Korrigenda. Der OECD-Durchschnitt in Mathematik für besonders leistungsschwache Schüler sollte heißen 23.0. PISA 2012 Ergebnisse: Was Schülerinnen und Schüler wissen und können (Band I) Schülerleistungen in Lesekompetenz, Mathematik und Naturwissenschaften DOI: http://dx.doi.org/10.1787/9789264207479-de ISBN

Mehr

LÖSUNG 2C a. Bei HHEINK handelt es sich um eine metrische Variable.

LÖSUNG 2C a. Bei HHEINK handelt es sich um eine metrische Variable. LÖSUNG 2C a. Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Bei HHEINK handelt es sich um eine metrische Variable. Bei den Analysen sollen Extremwerte ausgeschlossen werden. Man sollte

Mehr

Reisekostenpauschale. in Euro. Afghanistan Ägypten Albanien Algerien

Reisekostenpauschale. in Euro. Afghanistan Ägypten Albanien Algerien Die u.g. n gelten für einen vierwöchigen Aufenthalt. Bei kürzerem oder längeren Aufenthalt verringert bzw. erhöht Afghanistan 925 1.500 1.800 Ägypten 650 1.500 1.800 Albanien 325 1.500 1.800 Algerien 475

Mehr

Anschlussförderung im Programm Strategische Partnerschaften und Thematische Netzwerke ( )

Anschlussförderung im Programm Strategische Partnerschaften und Thematische Netzwerke ( ) Anschlussförderung im Programm Strategische Partnerschaften Thematische Netzwerke (2019-2020) Deutsche ins Ausland (Hin- Rückreise) Afghanistan 925,00 975,00 1.525,00 Ägypten 650,00 975,00 1.525,00 Albanien

Mehr

Länder nach Todesrate pro 1000 Einwohner 2015

Länder nach Todesrate pro 1000 Einwohner 2015 Länder nach Todesrate pro 1000 Einwohner 2015 Rang Land Anzahl der Sterbefälle pro 1000 Einwohner 1. Sierra Leone 17,4 2. Botswana 17,0 3. Ukraine 16,8 4. Bulgarien 15,8 5. Lettland 15,7 5. Belarus 15,7

Mehr

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Wintersemester 2018/19

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Wintersemester 2018/19 Seite: 1 R Albanien Belgien Bosnien und Herzegowina Bulgarien Dänemark Deutschland Estland Finnland Frankreich Griechenland Irland Island Italien Kosovo Kosovo(alt) Kroatien Lettland Litauen Luxemburg

Mehr

41 R Korea, Rep. 48,7. 42 W Österreich 48,2. 43 T Slowenien 48,1. 44 R Italien 48,0. 45 W Russland 48,0. 46 U Bulgarien 47,5.

41 R Korea, Rep. 48,7. 42 W Österreich 48,2. 43 T Slowenien 48,1. 44 R Italien 48,0. 45 W Russland 48,0. 46 U Bulgarien 47,5. Gesamtergebnis Table 1: Klimaschutz-Index 2010 Tabelle 1 Rang Land Punkt- Einzelwertung Tendenz zahl** Trend Niveau Politik 1* Rang Land Punkt- Einzelwertung Tendenz zahl** Trend Niveau Politik 21 E Algerien

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Länder nach Aufbau von Vermögensstruktur/verteilung Gesamtvermögen je erwachsene Person Dezil 1 Unter $

Länder nach Aufbau von Vermögensstruktur/verteilung Gesamtvermögen je erwachsene Person Dezil 1 Unter $ Länder nach Aufbau von Vermögensstruktur/verteilung 2015 Gesamtvermögen je erwachsene Person 100.000-1 Mio. $ 1. Schweiz 1,7% 47,2% 40,3% 10,8% 2. Neuseeland 10,0% 30,9% 50,5% 8,6% 3. Schweden 15,8% 47,4%

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 5. Bezirk: Gries, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 5. Bezirk: Gries, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 5. Bezirk: Gries, Stand 01.01.2018 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 5. Bezirk: Gries Inländer/Ausländer HWS* NWS* O* Gesamt Männer

Mehr

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Sommersemester 2016

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Sommersemester 2016 davon Rückgemeldet davon Neuimmatr. davon Erstimmatr. Seite: 1 R Albanien Belgien Bosnien und Herzegowina Bulgarien Dänemark Deutschland Estland Finnland Frankreich Griechenland Irland Island Italien Kosovo

Mehr

6.4 Der Kruskal-Wallis Test

6.4 Der Kruskal-Wallis Test 6.4 Der Kruskal-Wallis Test Der Test von Kruskal und Wallis, auch H-Test genannt, ist ein Test, mit dem man die Verteilungen von Teilstichproben auf Unterschiede untersuchen kann. Bei diesem Test geht

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht

Mehr

Aufgaben zu Kapitel 5:

Aufgaben zu Kapitel 5: Aufgaben zu Kapitel 5: Aufgabe 1: Ein Wissenschaftler untersucht, in wie weit die Reaktionszeit auf bestimmte Stimuli durch finanzielle Belohnung zu steigern ist. Er möchte vier Bedingungen vergleichen:

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand 01.01.2019 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini Inländer/Ausländer HWS* NWS* O* Gesamt

Mehr

Aufgaben zu Kapitel 8

Aufgaben zu Kapitel 8 Aufgaben zu Kapitel 8 Aufgabe 1 a) Berechnen Sie einen U-Test für das in Kapitel 8.1 besprochene Beispiel mit verbundenen n. Die entsprechende Testvariable punkte2 finden Sie im Datensatz Rangdaten.sav.

Mehr

Kurzanleitung für SPSS Statistics 22

Kurzanleitung für SPSS Statistics 22 Kurzanleitung für SPSS Statistics 22 im Rahmen des Moduls Betriebssoziologie (Prof. Dr. Christian Ernst) Schritt 1: Variablen definieren (in der Variablenansicht) Daten können direkt in ein "leeres" Datenfenster

Mehr

Nachhaltigkeitsindex. Pensionssysteme. Presseaussendung. Wien, 5. Oktober 2016

Nachhaltigkeitsindex. Pensionssysteme. Presseaussendung. Wien, 5. Oktober 2016 Nachhaltigkeitsindex für Pensionssysteme Ergänzungsmaterial zur Presseaussendung Wien, 5. Oktober 2016 Ranking nach Ländern 2016 1 Australien 2 Dänemark 3 Schweden 4 Niederlande 5 Norwegen 6 Neuseeland

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand 01.01.2018 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini Inländer/Ausländer HWS* NWS* O* Gesamt

Mehr

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Sommersemester 2015

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Sommersemester 2015 davon Rückgemeldet davon Neuimmatr. davon Erstimmatr. Seite: 1 R Albanien Belgien Bosnien und Herzegowina Bulgarien Dänemark Deutschland Estland Frankreich Griechenland Irland Island Italien Kosovo(alt)

Mehr

Direktinvestitionen lt. Zahlungsbilanzstatistik. Für den Berichtszeitraum 20 bis 201

Direktinvestitionen lt. Zahlungsbilanzstatistik. Für den Berichtszeitraum 20 bis 201 Direktinvestitionen lt. Für den Berichtszeitraum 20 bis 201 201 2 Inhalt I. Schaubilder 5 II. Tabellen 1.1 Transaktionswerte nach ausgewählten Ländergruppen und Ländern 11 1.1.1 Inländische Direktinvestitionen

Mehr

Kapitel 8: Verfahren für Rangdaten

Kapitel 8: Verfahren für Rangdaten Kapitel 8: Verfahren für Rangdaten Der Mann-Whitney U-Test 1 Der Wilcoxon-Test 3 Der Kruskal-Wallis H-Test 4 Vergleich von Mann-Whitney U-Test und Kruskal-Wallis H-Test 6 Der Mann-Whitney U-Test In Kapitel

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend, Stand 01.01.2019 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend Inländer/Ausländer HWS* NWS* O* Gesamt Männer

Mehr

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Sommersemester 2018

Stand: Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Sommersemester 2018 davon Rückgemeldet davon Neuimmatr. davon Erstimmatr. Seite: 1 R Albanien Belgien Bosnien und Herzegowina Bosnien-Herzegowina Bulgarien Dänemark Deutschland Estland Finnland Frankreich Griechenland Irland

Mehr

Auswertung der Peiner Bevölkerung nach Personen mit Migrationshintergrund. (Stand: )

Auswertung der Peiner Bevölkerung nach Personen mit Migrationshintergrund. (Stand: ) Auswertung der Peiner Bevölkerung nach Personen mit Migrationshintergrund (Stand: 18.03.2015) Der Migrationshintergrund wurde nach folgenden Kriterien ermittelt: 1. Personen, die eine ausländische Staatsangehörigkeit

Mehr

5 Einfache Datentransformationen

5 Einfache Datentransformationen ITS-Uni-SB SPSS Grundlagen 79 5 Einfache Datentransformationen Mit SPSS können Sie Datentransformationen durchführen, die von einfachen Aufgaben wie der Zusammenfassung von Kategorien für eine Analyse

Mehr

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik SS14. Ausländische Studenten 1. Studienfach insgesamt Staatsangehörigkeit

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik SS14. Ausländische Studenten 1. Studienfach insgesamt Staatsangehörigkeit Ausländische Studenten 1. Studienfach insgesamt Staatsangehörigkeit 1 Belgien 2 Türkei 1 Ungarn 6 3 Arabische Republ.Syrien 1 Armenien 10 China 1 Griechenland 2 Iran,Islamische Republik 1 Litauen 1 Mazedonien

Mehr

Entwicklung der Lebenserwartung

Entwicklung der Lebenserwartung Entwicklung der Lebenserwartung 1955-15 Rang Land Lebenserwartung Lebenserwartung Lebenserwartung 1955 in Jahren 1985 in Jahren 15 in Jahren 1. Japan 62,2 76,9 83,5 2. Hong Kong 63,2 75,7 83,3 3. Schweiz

Mehr

Offenlegung gemäß Artikel 440 CRR Offenlegung zum

Offenlegung gemäß Artikel 440 CRR Offenlegung zum Offenlegung gemäß Artikel 440 CRR Offenlegung zum 30.09.2017 in MEUR Tabelle 1 Geografische Verteilung der für die Berechnung des antizyklischen wesentlichen Kreditrisi der Kaufund Kreditrisi Verbriefungsrisi

Mehr

Deskriptive Statistiken

Deskriptive Statistiken Deskriptive Statistiken Inhaltsverzeichnis DESKRIPTIVE STATISTIKEN... 1 Deskriptive Statistiken Deskriptive Statistiken Mit MAXQDA Stats können Sie zahlreiche Maßzahlen der deskriptiven Statistiken für

Mehr

index 2016 Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index 30 % Emissionsniveau 10 % 20 % 4 % 4 % KLIMASCHUTZ Nationale Klimapolitik

index 2016 Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index 30 % Emissionsniveau 10 % 20 % 4 % 4 % KLIMASCHUTZ Nationale Klimapolitik Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index Nationale Klimapolitik Primärenergieverbrauch pro Kopf Internationale Klimapolitik Effizienz-Trend Effizienz-Niveau Entwicklung der Produktion

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 2C a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Bei HHEINK handelt es sich um eine metrische Variable. Bei den Analysen sollen Extremwerte ausgeschlossen werden. Man sollte

Mehr

1. Das weltweite Humboldt-Netzwerk

1. Das weltweite Humboldt-Netzwerk Alle ausländischen und deutschen Stipendiaten und Preisträger nach aktuellen Aufenthaltsländern, Stand: Januar 2016 Nordamerika Kanada 35 11 57 12 115 131 89 183 61 464 4 9 8 16 33 616 USA 206 411 1086

Mehr

Stand Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Wintersemester 2013/14

Stand Studierende nach Kontinent, Staatsangehörigkeit, Geschl. und Status Wintersemester 2013/14 davon Rückgemeldet davon Neuimmatr. davon Erstimmatr. Seite: 1 R Albanien Belgien Bosnien und Herzegowina Bulgarien Dänemark Deutschland Estland Finnland Frankreich Griechenland Irland Island Italien Kosovo(alt)

Mehr

1. Das weltweite Humboldt-Netzwerk

1. Das weltweite Humboldt-Netzwerk Alle ausländischen und deutschen Stipendiaten und Preisträger nach aktuellen Aufenthaltsländern, Stand: Januar 2018 Nordamerika Kanada 39 12 58 11 120 133 88 183 72 476 3 12 7 13 2 34 633 USA 226 386 1060

Mehr

A... 5 Afghanistan... 5 Ägypten... 5 Albanien... 5 Algerien... 5 Andorra... 5 Angola... 5 Äquatorialguinea... 5 Argentinien... 5 Armenien...

A... 5 Afghanistan... 5 Ägypten... 5 Albanien... 5 Algerien... 5 Andorra... 5 Angola... 5 Äquatorialguinea... 5 Argentinien... 5 Armenien... A... 5 Afghanistan... 5 Ägypten... 5 Albanien... 5 Algerien... 5 Andorra... 5 Angola... 5 Äquatorialguinea... 5 Argentinien... 5 Armenien... 5 Aserbaidschan... 6 Äthiopien... 6 Australien... 6 B... 7 Bahrain...

Mehr

Einfache Varianzanalyse für unabhängige Stichproben

Einfache Varianzanalyse für unabhängige Stichproben Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini, Stand 01.01.2017 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 6. Bezirk: Jakomini Inländer/Ausländer HWS* NWS* O* Gesamt

Mehr

Kapitel 41 Interaktive Diagramme

Kapitel 41 Interaktive Diagramme Kapitel 41 Interaktive Diagramme Bei den Interaktiven Grafiken handelt es sich um eine Gruppen von Diagrammen, die bei SPSS erst seit der Version 8.0 zur Verfügung stehen. Vom grundlegenden Diagrammtyp

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Reisekostenpauschale. in Euro. Afghanistan 925 1.500 1.800. Ägypten 500 1.500 1.800. Albanien 325 1.500 1.800. Algerien 475 1.500 1.

Reisekostenpauschale. in Euro. Afghanistan 925 1.500 1.800. Ägypten 500 1.500 1.800. Albanien 325 1.500 1.800. Algerien 475 1.500 1. Die u.g. n gelten für einen vierwöchigen Aufenthalt. Bei kürzerem oder längeren Aufenthalt verringert bzw. erhöht Afghanistan 925 1.500 1.800 Ägypten 500 1.500 1.800 Albanien 325 1.500 1.800 Algerien 475

Mehr

Amtliche Zahlen des Statistischen Bundesamtes

Amtliche Zahlen des Statistischen Bundesamtes Amtliche Zahlen des Statistischen Bundesamtes - Zahlen zur Lage der Modeindustrie Veränd. i.v.h. Umsatz Bekleidungsgewerbe (ohne Umsatzsteuer ) 7.189.578 7.564.840 5,2 Lederbekleidung 59.775 70.560 18,0

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

20 Clusteranalyse Praktische Anwendung

20 Clusteranalyse Praktische Anwendung 20 Clusteranalyse Hier wird die Anwendung der Two-Step-Clusteranalyse in SPSS-Version 17 und früher behandelt. Der Text entspricht dem in der 7. Auflage. Ab SPSS 18 sind sowohl die Dialogboxen als auch

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 2. Bezirk: St. Leonhard, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 2. Bezirk: St. Leonhard, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 2. Bezirk: St. Leonhard, Stand 01.01.2017 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 2. Bezirk: St. Leonhard Inländer/Ausländer HWS* NWS*

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 3. Bezirk: Geidorf, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 3. Bezirk: Geidorf, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 3. Bezirk: Geidorf, Stand 01.01.2018 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 3. Bezirk: Geidorf Inländer/Ausländer HWS* NWS* O* Gesamt

Mehr

index 2014 Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index 7,5 % 20 % Klimapolitik 30 % Emissionsniveau 10 % 5 % 5 % 5 %

index 2014 Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index 7,5 % 20 % Klimapolitik 30 % Emissionsniveau 10 % 5 % 5 % 5 % Klimaschutz-Index Komponenten Komponenten des Klimaschutz-Index Nationale Klimapolitik Primärenergieverbrauch pro Kopf Internationale Klimapolitik Effizienz-Trend Effizienz-Niveau Entwicklung der Produktion

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

LANDTAG MECKLENBURG-VORPOMMERN Drucksache 7/ Wahlperiode

LANDTAG MECKLENBURG-VORPOMMERN Drucksache 7/ Wahlperiode LANDTAG MECKLENBURG-VORPOMMERN Drucksache 7/709 7. Wahlperiode 07.07.2017 KLEINE ANFRAGE des Abgeordneten Prof. Dr. Ralph Weber, Fraktion der AfD Anteil der in Mecklenburg-Vorpommern lebenden Hartz IV

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend, Stand 01.10.2017 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 4. Bezirk: Lend Inländer/Ausländer HWS* NWS* O* Gesamt Männer

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen, ob die in diesem Datensatz untersuchte

Mehr

Microsoft Office Word Inhaltsverzeichnis I: Erstellen eines automatischen Inhaltsverzeichnisses

Microsoft Office Word Inhaltsverzeichnis I: Erstellen eines automatischen Inhaltsverzeichnisses Microsoft Office Word 2007 Inhaltsverzeichnis I: Erstellen eines automatischen Inhaltsverzeichnisses Inhalt der Schulung Übersicht: Schnelles und einfaches Inhaltsverzeichnis Lektion: Erste Schritte für

Mehr

Einfaktorielle Varianzanalysen

Einfaktorielle Varianzanalysen Einfaktorielle Varianzanalysen Einfaktorielle Varianzanalysen Um eine einfaktorielle Varianzanalyse mit MAXQDA Stats zu berechnen, wählen Sie im Hauptmenü den Eintrag Gruppenvergleiche > Varianzanalyse.

Mehr

Deskriptive Statistik Erläuterungen

Deskriptive Statistik Erläuterungen Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 7 a)

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 7 a) LÖSUNG 7 a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Aufrufen der Varianzanalyse: "Analysieren", "Mittelwerte vergleichen", "Einfaktorielle ANOVA ", "Abhängige Variablen:" TVHOURS;

Mehr

Ausländische Ärztinnen/Ärzte

Ausländische Ärztinnen/Ärzte Ausländische Ärztinnen/Ärzte Stand: 31.12.2017 Tabelle: 11.0 Baden- Württemberg Herkunftsland darvon: Berufs Tätigkeit Europäische Union 3365 6.4 465 2900 7.1 2263 6.3 310 327 Belgien 23 9.5 4 19 5.6 13

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 13 a.

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 13 a. Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 13 a. Die Variablen sollten hoch miteinander korrelieren. Deshalb sollten die einfachen Korrelationskoeffizienten hoch ausfallen.

Mehr

Rangliste der Pressefreiheit 2013 Platz Land Region Veränderung (Vorjahresrang)

Rangliste der Pressefreiheit 2013 Platz Land Region Veränderung (Vorjahresrang) Rangliste der Pressefreiheit 2013 Platz Land Region Veränderung (Vorjahresrang) 1 Finnland Europa/GUS 0 (1) 2 Niederlande Europa/GUS +1 (3) 3 Norwegen Europa/GUS -2 (1) 4 Luxemburg Europa/GUS +2 (6) 5

Mehr

Öffentlicher Finanzierungssaldo

Öffentlicher Finanzierungssaldo In Prozent des Bruttoinlandsprodukts (BIP), Europäische Union (EU-27) und Deutschland, 2001 bis 2011 Prozent 0,5 0 0-0,5 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Jahr 0,2-0,1-1,0-1,5-2,0-1,5-1,5-1,6-0,9-1,0-2,5-3,0-3,5-3,1-2,6-3,2-2,9-2,4-3,3

Mehr

Parl. Anfrage 8819/J - "EU-Zugeständnisse an Großbritannien mit Auswirkungen auf den Anspruch auf eine Ausgleichszulage in der Pensionsversicherung"

Parl. Anfrage 8819/J - EU-Zugeständnisse an Großbritannien mit Auswirkungen auf den Anspruch auf eine Ausgleichszulage in der Pensionsversicherung 8419/AB XXV. GP - Anfragebeantwortung - Sozialversicherungsanstalt der gewerblichen Wirtschaft 1 von 18 Parl. Anfrage 8819/J - "EU-Zugeständnisse an Großbritannien mit Auswirkungen auf den Anspruch auf

Mehr

FRÜHJAHRSPROGNOSE 2017 WICHTIGE WIRTSCHAFTSINDIKATOREN (a) Reales Bruttoinlandsprodukt (jährl. prozentuale Veränderung) Durchschnittswert

FRÜHJAHRSPROGNOSE 2017 WICHTIGE WIRTSCHAFTSINDIKATOREN (a) Reales Bruttoinlandsprodukt (jährl. prozentuale Veränderung) Durchschnittswert (a) Reales Bruttoinlandsprodukt (jährl. prozentuale Veränderung) Belgien 0.6-0.1 1.7 1.5 1.2 1.5 1.7 Deutschland 0.7 0.5 1.6 1.7 1.9 1.6 1.9 Estland -1.5 1.4 2.8 1.4 1.6 2.3 2.8 Irland -1.6 1.1 8.5 26.3

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 11. Bezirk: Mariatrost, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 11. Bezirk: Mariatrost, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 11. Bezirk: Mariatrost, Stand 01.10.2018 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 11. Bezirk: Mariatrost Inländer/Ausländer HWS* NWS*

Mehr

Bonität von Staaten Von Standard & Poor`s (Amerikanische Ratingagentur mit Sitz in New York)

Bonität von Staaten Von Standard & Poor`s (Amerikanische Ratingagentur mit Sitz in New York) Bonität von Staaten 2016 Von Standard & Poor`s (Amerikanische Ratingagentur mit Sitz in New York) AAA(Bestnote) Land/Wirtschaftsraum Kreditwürdigkeit Ausblick Schweiz AAA Stabil Kanada AAA Stabil Hong

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 13 a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Die Variablen sollten hoch miteinander korrelieren. Deshalb sollten die einfachen Korrelationskoeffizienten hoch ausfallen.

Mehr

Ausländische Ärztinnen/Ärzte in der Bundesrepublik Deutschland

Ausländische Ärztinnen/Ärzte in der Bundesrepublik Deutschland Baden-Württemberg Blatt 1 Ausländer dar.: Berufstätig Europäische Union 3 162 5,9 455 2 707 5,2 2 129 5,3 291 287 Belgien 21 5,0 3 18 5,9 11 10,0 6 1 Bulgarien 196 8,3 18 178 6,6 150 10,3 8 20 Dänemark

Mehr

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest Empirische Wirtschaftsforschung Prof. Dr. Ralf Runde 5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest Ein wesentliches Merkmal nichtparametrischer Testverfahren ist, dass diese im Allgemeinen weniger

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Rangliste der Pressefreiheit 2014 Platz Land Region Veränderung*

Rangliste der Pressefreiheit 2014 Platz Land Region Veränderung* Rangliste der Pressefreiheit 2014 Platz Land Region Veränderung* 1 Finnland Europa/GUS 0 2 Niederlande Europa/GUS 0 3 Norwegen Europa/GUS 0 4 Luxemburg Europa/GUS 0 5 Andorra Europa/GUS 0 6 Liechtenstein

Mehr

LANDTAG MECKLENBURG-VORPOMMERN Drucksache 7/ Wahlperiode

LANDTAG MECKLENBURG-VORPOMMERN Drucksache 7/ Wahlperiode LANDTAG MECKLENBURG-VORPOMMERN Drucksache 7/628 7. Wahlperiode 12.06.2017 KLEINE ANFRAGE des Abgeordneten Prof. Dr. Ralph Weber, Fraktion der AfD Ausländische Studierende an Hochschulen des Landes Mecklenburg-Vorpommern

Mehr

Auswertung Verfahrensautomation Justiz

Auswertung Verfahrensautomation Justiz 6477/AB XXV. GP - Anfragebeantwortung - Anlage 8 1 von 5 2010 1132 222 1354 831 139 970 Österreich 992 185 1177 755 127 882 Deutschland 15 3 18 8 1 9 (Jugoslawien) 1 1 Italien 2 2 Schweiz 2 2 Türkei 26

Mehr

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 86 8. Lageparameter Leitfragen 1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 2) Was ist der Unterschied zwischen Parametern der Lage und der Streuung?

Mehr

STATISTIK Vorbemerkung zur Statistik 2006

STATISTIK Vorbemerkung zur Statistik 2006 STATISTIK 2006 Vorbemerkung zur Statistik 2006 Das in der vorliegenden Zusammenstellung erfasste Zahlenmaterial gibt einen Überblick über die Entwicklung der deutschen Holzein- und -ausfuhr in den Jahren

Mehr

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik SS15. Ausländische Studenten 1. Studienfach insgesamt Staatsangehörigkeit

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik SS15. Ausländische Studenten 1. Studienfach insgesamt Staatsangehörigkeit Ausländische Studenten 1. Studienfach insgesamt Staatsangehörigkeit 1 Aethiopien 2 Österreich 2 Ungarn 9 1 Ägypten 1 Armenien 16 China 1 Kroatien 1 Mazedonien 3 Österreich 3 Polen 5 Russische Foederation

Mehr

Datendateien umstrukturieren

Datendateien umstrukturieren SPSS-Datendateien folgen in Ihrem Aufbau einer klaren Struktur: Die Werte sind in Zeilen und Spalten angeordnet. Die Zeilen enthalten die Fälle (oder Beobachtunge), die Spalten die Variablen (oder Merkmale

Mehr

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik Wintersemester 2018/2019

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik Wintersemester 2018/2019 Evangel. Religion 2 Frankreich Evangel. Religion Evangel. Religion 4 1 Albanien 7 Arabische Republ.Syrien 16 China 2 Iran,Islamische Republik 2 Italien 1 Japan 1 Kasachstan 1Litauen 1Mazedonien 1Mexiko

Mehr

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik Wintersemester 2016/2017

EMAU Greifswald Studierende Köpfe (Ausländer) entsprechend amtl. Statistik Wintersemester 2016/2017 Evangel. Religion 1 Österreich Evangel. Religion Evangel. Religion Evangel. Religion 1 Ungarn 4 1 Armenien 16 China 1 Griechenland 1 Italien 1 Kamerun 1 Norwegen 2 Österreich 4 Polen 5 Russische Foederation

Mehr

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 12. Bezirk: Andritz, Stand

Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 12. Bezirk: Andritz, Stand Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 12. Bezirk: Andritz, Stand 01.01.2018 Anwesende Bevölkerung nach Wohnsitz und Geschlecht im 12. Bezirk: Andritz Inländer/Ausländer HWS* NWS* O* Gesamt

Mehr

Handbuch zum VivaWeb-Serienbrief-Programm

Handbuch zum VivaWeb-Serienbrief-Programm Handbuch zum VivaWeb-Serienbrief-Programm In 10 Schritten zum Serienbrief Das folgende Handbuch erläutert Ihnen die Nutzungsmöglichkeiten des ARV Serienbrief-Programms in all seinen Einzelheiten. Dieses

Mehr

Inhaltsverzeichnisse

Inhaltsverzeichnisse Inhaltsverzeichnisse Überschriften zuweisen Formatieren Sie die Überschriften mit Hilfe der integrierten Formatvorlagen als Überschrift. Klicken Sie dazu in die jeweilige Überschrift und dann auf der Registerkarte

Mehr

Dokumentation des Filmdatensatzes

Dokumentation des Filmdatensatzes Dokumentation des Filmdatensatzes 1 Datengrundlage Der Filmdatensatz (im Excel-Format.xlsx ) enthält eine Auswahl von dystopischen Spielfilmen, die der vorliegenden Arbeit zur Filmanalyse dienten. Die

Mehr

Statistik der Ausländischen Studierenden. WS 14/15 Stand

Statistik der Ausländischen Studierenden. WS 14/15 Stand Ref. 05 -Finanzcontrolling- Statistik der Ausländischen Studierenden (nach Ländern und Status) WS 14/15 Stand 05.12.2014 Anmerkungen zu den Tabellen: Rückmelder fortgeschrittene Studierende, die auch letztes

Mehr