Clustern von numerischen Wettervorhersagen

Größe: px
Ab Seite anzeigen:

Download "Clustern von numerischen Wettervorhersagen"

Transkript

1 Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik, Informatik und Physik der Universität Innsbruck von Nora Seiwald Betreuer der Diplomarbeit: ao. Univ.-Prof. Dr. Norbert Netzer, Institut für Mathematik, Fakultät für Mathematik, Informatik und Physik Innsbruck, 14. Juli 2009

2 Inhaltsverzeichnis 1 Einleitung Aufgabenstellung und Datensatz Allgemeines zur Clusteranalyse Fragestellung und Ziel der Clusteranalyse Variablen- und Objektorientierte Analyse Skalierung Unvollständige Clusteranalyseverfahren Probabilistische Clusteranalyseverfahren Deterministische Clusteranalyseverfahren Transformationen von Variablen Ähnlichkeits- und Distanzfunktionen Definition Ähnlichkeits-und Distanzfunktionen für dichotome Variablen Ähnlichkeits-und Distanzfunktionen für nominale Variablen Ähnlichkeits-und Distanzfunktionen für ordinale Variablen Ähnlichkeits-und Distanzfunktionen für quantitative Variablen Bemerkungen Ähnlichkeits- und Distanzfunktionen für gemischte Variablen Fehlende Werte Gewichtung Deterministische Clusteranalyseverfahren - Hierarchische Verfahren Test auf Clusterstruktur Hierarchische Verfahren Allgemeines agglomerative Verfahren divisive Verfahren Bemerkungen Graphische Darstellungsmöglichkeiten von hierarchischen Verfahren Eiszapfenmodell Dendrogramm Bestimmung der Anzahl der Cluster Deterministische Clusteranalyseverfahren - Partitionierende Verfahren Allgemeines Partitionierende Verfahren Iteriertes Minimaldistanzverfahren k-means-verfahren Austauschverfahren Bewertung einer Clusterlösung I

3 6 Datensatz Daten Aufgabenstellung Datenaufarbeitung Hierarchisches Verfahren Distanzfunktion Agglomerative Verfahren Graphische Darstellung Anzahl der Cluster Partitionierendes Verfahren Vorbemerkung Möglichkeit Möglichkeit Allgemeines zu diesen Möglichkeiten Clustern der unterschiedlichen Zeitschritte Auffinden der Cluster über die Zeit Ergebnis Auswertung Auswertung über das ganze Jahr Auswertung über die vier Jahreszeiten Auswertung für unterschiedliche Startzeitschritte A Vektoren und Matrizen 69 A.1 Beispielvektor der relativen Feuchte A.2 Matrix der Vektoren 23, 25 und A.3 Distanzen der Punkte zu ihrem Schwerpunkt B Die Fünf-Cluster-Lösung 72 B.1 Hierarchisch B.2 Partitionerend B.3 Fünf-Cluster-Lösung über Zeit C Diagramme der Jahreszeiten 77 C.1 Frühling C.2 Sommer C.3 Herbst C.4 Winter C.5 Vergleich der Abstände über alle Jahreszeiten C.5.1 Abstände der Elemente zu ihrem Schwerpunkt C.5.2 Abstände der Schwerpunkte zueinander C.6 Diagramme für Sommer- und Winterhalbjahr C.6.1 Sommer II

4 C.6.2 Winter C.6.3 Vergleich zwischen Sommer- und Winterhalbjahr D Diagramme der unterschiedlichen Startzeitschritte 88 III

5 Vorwort Das Thema dieser Diplomarbeit wurde mir von ao.univ.-prof. Dr. Netzer und ao.univ.- Prof. Dr. Mayr vorgeschlagen, denen ich auf diesem Weg für ihre Vorschläge, Hilfe und Unterstützung im Rahmen dieser Diplomarbeit danken möchte. Weiters danke ich sowohl dem Institut für Mathematik, Fakultät der Mathematik, Informatik und Physik, Universität Innsbruck, an dem ich die letzten 6 Jahre studiert habe, als auch dem Institut für Meteorologie und Geophysik, Fakultät für Geo- und Atmosphärenwissenschaften, Universität Innsbruck, für die das, in der Arbeit vorgestellte Verfahren implementiert wurde. Vielen Dank auch meinen Eltern, Großeltern und Geschwistern für ihre Unterstützung und Geduld während meiner Studienzeit. 1

6 1 Einleitung 1.1 Aufgabenstellung und Datensatz In den atmosphärischen Wissenschaften werden, an gitterförmig auf dem beobachteten Gebiet verteilten Messstellen, verschiedenste Daten erhoben. Diese Daten werden verwendet, um Prognosen für künftige Wetterveränderungen zu erstellen. Hierbei werden aus den Anfangsdaten der Messstationen mittels eines Programms die voraussichtlichen Daten an diesem Messpunkt zu einem bestimmten Zeitpunkt in der Zukunft berechnet. Dem Wetter liegt allerdings ein chaotisches System zugrunde, dies bedeutet, dass nur geringe Veränderungen in den Anfangsdaten bereits zu vollkommen unterschiedlichen Endergebnissen führen können. Um diesem Phänomen gerechte Vorhersagen liefern zu können, wird das Programm zur Berechnung der zukünftigen Werte nicht nur auf die erhobenen Anfangsdaten angewandt, sondern auch auf eine Reihe von Daten, die sich von den Anfangsdaten nur minimal unterscheiden. Der Meteorologe erhält somit nicht nur eine Prognose, sondern eine ganze Reihe von Prognosen, die sich unterschiedlich stark von der ursprünglichen Prognose aus den Anfangsdaten unterscheiden können. Weiters werden nicht nur für einen Zeitpunkt in der Zukunft Prognosen erstellt, sondern für eine ganze Reihe von Zeitpunkten. Diese Zeitpunkte werden meist in äquidistanten Abständen angesetzt. Zu jedem berechneten Zeitpunkt sind somit Prognosekarten eines Gebietes zu verschiedenen Anfangsbedingungen gegeben. Eine solche Karte ist in Gitterpunkte unterteilt und jedem dieser Gitterpunkte ist ein gewisser Wert zugeordnet. Da die Karte sich über ein real existierendes Gebiet mit verschiedenen Landschaftsmerkmalen erstreckt, sind diese Gitterpunkte stark voneinander abhängig. Punkte, die nebeneinander liegen, werden sich tendenziell weniger stark unterscheiden, als Punkte, die sich weit voneinander entfernt befinden. Es ist also eine Korrelation hinsichtlich der Gitterpunkte auf einer Karte vorhanden. Außerdem wird die zeitliche Entwicklung jeder Karte beobachtet. Eine ganze Reihe von neuen Karten entsteht, die den Entwicklungszustand einer Ursprungskarte (zum Zeitpunkt Null) widerspiegelt. Jede einzelne Karte dieser Reihe ist von den anderen durch die zeitliche Komponente abhängig. Somit ist auch eine Korrelation der Karten bezüglich ihrer zeitlichen Entwicklung zu berücksichtigen. Die Aufgabe der Diplomarbeit besteht darin, die enstehenden zeitlich abhängigen Prognosen automatisiert zu clustern und übersichtlich darzustellen, um eine Interpretation dieser Datensätze durch den Meteorologen zu vereinfachen. 2

7 2 Allgemeines zur Clusteranalyse 2.1 Fragestellung und Ziel der Clusteranalyse In den verschiedensten Bereichen der Wissenschaft müssen sehr viele Objekte in kleinere und damit überschaubare Gruppen aufgeteilt werden, um wichtige Strukturen in einer Menge von Objekten erkennen und die richtigen Schlussfolgerungen daraus ziehen zu können. Die Objekte selbst besitzen meist Eigenschaften oder Merkmale, die eine solche Zuordnung erlauben. Das Verfahren, welches eine solche Zuordnung von Objekten aufgrund ihrer Merkmalseigenschaften vornimmt, wird als Clusteranalyse bezeichnet. Unterschieden wird dabei zwischen folgenden Fragestellungen: 1. Diskriminationsproblem: Es existiert bereits eine Clusterung und ein noch nicht klassifiziertes Element soll zugeordnet werden. Dies ist beispielsweise im Gesundheitswesen bei der Einschätzung, ob ein Patient gefährdet ist, oder nicht, von Bedeutung. 2. Klassifikationsproblem: Die Gruppen müssen erst gebildet werden. Unbekannt sind dabei sowohl die Anzahl und Homogenität der Gruppen, als auch die Zuordnungen der Objekte zu einer Gruppe. Dies ist diejenige Art der Fragestellung, die bei der Clusterung von Wettervorhersagen auftaucht. Gegeben ist also eine Menge von Objekten, die zu Gruppen (oder: Cluster, Klassen) zusammengefasst werden sollen. Dieses Zusammenfassen ist so vorzunehmen, dass zwei wichtige Grundzüge erfüllt werden: Die Unterschiede der Objekte zueinander innerhalb einer Gruppe werden möglichst klein, es herrscht Homogenität innerhalb der Gruppe. Die Unterschiede der Gruppen zueinander werden möglichst groß, es herrscht Heterogenität zwischen den Gruppen. Eine Clusterung ist nur dann sinnvoll, wenn diese zwei Bedingungen erfüllt werden können. Zur Veranschaulichung seien die einzelnen Objekte als Punkte dargestellt. Das linke Bild stellt einen Datensatz dar, der sich in drei Cluster trennen lässt. Die zwei Bedingungen sind erfüllt. Das Rechte stellt denselben Datensatz dar, allerdings wurde ein Element hinzugefügt. Nun ist es bereits nicht mehr unmittelbar klar, ob 3 Cluster (blau), von denen einer keine große Homogenität aufweist, oder 4 Cluster (schwarz) ein geeigneteres Modell darstellen. 3

8 Die Clusteranalyse erlaubt eine vereinfachte und klare Darstellung von Zusammenhängen zwischen den Objekten. Dabei ist darauf zu achten, dass die Clusteranalyse Aussagen zur Struktur, aber keinerlei spezielle Parameter liefert. Außerdem muss berücksichtigt werden, dass die Lösungen von Clusteranalyseverfahren nicht notwendigerweise eindeutig sind, sondern meist nur lokale Extrema darstellen. Meist kann ein globales Extremum, welches sich nur geringfügig von einem suboptimalen Ergebnis unterscheidet, nur mit extremem Rechenaufwand erreicht werden. Das Problem der Clusteranalyse liegt im schnellen Wachstum der möglichen Clusterungen: Es sei n die Anzahl der Objekte und k die Anzahl der (disjunkten) Gruppen. Die S(n, k) Stirling Zahl zweiter Art gibt die Anzahl der möglichen Zerlegungen an. S(n, k) = 1 k k! ( 1) i ( k i ) (k i) n i=0 Wird eine Zerlegung in zwei Gruppen (k = 2) gesucht, so ergibt sich kürzer: S(n, 2) = 2 n 1 1. Ist die Anzahl der Gruppen k nicht vorgegeben, so werden zur Berechnung der Anzahl der möglichen Partitionen die Bell schen Zahlen benutzt: oder rekursiv: n B n = S(n, i) i=1 n B n+1 = ( n i ) B i, i=0 wobei B 0 := 1, B 1 := 1. Ob eine gefundene Clusterlösung gut genug ist, muss daher meist subjektiv und in Abhängigkeit vom Kontext entschieden werden. 4

9 2.2 Variablen- und Objektorientierte Analyse Generell können sowohl Spalten als auch Zeilen einer Datenmatrix die zu klassifizierenden Objekte sein. Wird bezüglich der Zeilen, die aus Objekten, also Befragte, Nationen, Einkommensgruppen, etc. bestehen, gruppiert, so spricht man von einer objektorientierten Clusteranalyse. Es werden hierbei also ähnliche Zeilen zusammengefasst. Wird bezüglich der Spalten, die aus Variablen, also Merkmalen wie Einwohnerzahl, Schulausbildung, etc. bestehen, gruppiert, so spricht man hingegen von einer variablenorientierten Clusteranalyse. Es werden hierbei also ähnliche Variablen zusammengefasst. Die Verfahren der Clusteranalyse können sowohl für variablen- als auch für objektorientierte Fragestellungen verwendet werden. 2.3 Skalierung Die Eigenschaften und Merkmale von zu vergleichenden Objekten werden durch Zahlen in den Einträgen einer Datenmatrix festgelegt. Diese Zuordnung kann mittels 4 verschiedenen Skalentypen vorgenommen werden. Die Skalentypen sind hierarchisch aufgebaut, das bedeutet, dass eine höhere Skala die unter ihr liegenden enthält. In diesem Zusammenhang muss beachtet werden, dass je nach Skala nur bestimmte Transformationen möglich sind. Dies wird vor allem bei der Berechnung von Distanzen eine große Rolle spielen. Nominalskala: Einzige Information ist, ob zwei Elemente verschiedenen Kategorien angehören oder nicht (=, ). Ist die Anzahl dieser Kategorien auf zwei beschränkt, so spricht man von dichotomen oder binären Variablen. Ordinalskala: Zusätzlich lässt sich eine Hierarchie feststellen. Die Objekte können nun geordnet werden (<, >). Transformationen, die diese Ordnung nicht beeinflussen, sind erlaubt. Intervallskala: Die Objekte lassen sich anordnen und eine Aussage über Differenzen ist möglich (, +). Lineare Transformationen sind gestattet. Verhältnisskala: Der Abstand der Objekte zum Nullpunkt kann mittels einer Zahl angegeben werden ( ). 2.4 Unvollständige Clusteranalyseverfahren Als unvollständige Clusteranalyseverfahren oder geometrische Verfahren werden nach Bacher [1994a] jene Verfahren bezeichnet, die eine zwei- oder dreidimensionale Darstellung der Objekte berechnen und damit eine graphische Clusterung ermöglichen. Eine wichtige Voraussetzung, um solche Verfahren anzuwenden, besteht darin, dass eine solche grafische Clusterung überhaupt möglich ist. Es muss sich also eine überschaubare Anzahl von Objekten in maximal drei Dimensionen darstellen lassen. Die Anforderungen an die Clusterung sind wieder dieselben wie oben erwähnt: Möglichst große Homogenität innerhalb der Gruppen und möglichst große Heterogenität zwischen 5

10 den Gruppen soll erreicht werden. Die wichtigen Fragestellungen in diesem Zusammenhang sind: Wieviele Dimensionen werden zur Darstellung benötigt? Diese Art der Fragestellung wird auch als Faktorenanalytische Fragestellung bezeichnet. Sind Gruppierungen, die die Homogenitäts- und Heterogenitätsbedingung erfüllen, erkennbar? Diese Art der Fragestellung wird auch als Clusteranalytische Fragestellung bezeichnet. Die folgenden Verfahren berechnen die gesuchten Koordinaten über die Eigenwerte und Eigenvektoren der (empirischen) Zusammenhangsmatrix. 1. Die multiple Korrespondenzanalyse stellt die Struktur der Merkmale von nominalskalierten Variablen dar. Im Gegensatz zur Faktorenanalyse, die quantitative Werte der Variablen benötigt, stellt die multiple Faktorenanalyse nominale Variablen in einem (quantitativen) Merkmalsraum dar. 2. Die bivariate Korrespondezanalyse gibt eine räumliche Dartellung einer zweidimensionalen Tabelle mit nominalskalierten Variablen wieder. Im Gegensatz zur multiplen Faktorenanalyse wird nur diejenige Untermatrix der Zusammenhangsmatrix betrachtet, die von den Spalten- und Zeilenvariablen definiert wird. 3. Die nominale Faktorenanalyse nach McDonald ersetzt die nominalen Variablen durch Dummies und berechnet eine Zerlegung der Kovarianzmatrix dieser Variablen. Sie bildet eine Alternative zur multiplen Korrespondenzanalyse. 4. Die nichtmetrische mehrdimensionale Skalierung stellt die Struktur von ordinalskalierten Variablen dar. Die einzige Voraussetzung für dieses Verfahren besteht darin, dass eine Ähnlichkeits- oder Unähnlichkeitsmatrix (die aus der Datenmatrix berechnet oder empirisch erhoben werden kann) gegeben ist. 5. Die Faktorenanalyse für quantitative, ordinale und dichotome Variablen ist das Gegenstück der multiplen Korrespondenzanalyse und berücksichtigt alle Arten von Variablen. Die Faktorenanalyse kann in variablenorientierte (R-Analyse) und in objetktorientierte (Q-Analyse) Verfahren unterschieden werden. Ein bekanntes R- Verfahren ist die sogenannte Hauptkomponentenanalyse oder PCA. Umfangreich und mit Beispielen erläutert finden sich diese Verfahren in Bacher [1994a]. 2.5 Probabilistische Clusteranalyseverfahren Als Probabilistische Clusteranalyseverfahren werden jene Verfahren bezeichnet, die die Objekte mit einer gewissen Wahrscheinlichkeit einer Gruppe zuordnen. Werden die Wahrscheinlichkeiten als Zugehörigkeitsgrade aufgefasst, so spricht man auch von fuzzy Clusteranalyse. Es sei N die Zahl der Objekte und k die Zahl der Gruppen. Dann setzt sich die Zugehörigkeitsmatrix U wie folgt zusammen: 6

11 u 11 u 1k U =... u N1 u Nk Die Einträge dieser Matrix U sind Zahlen zwischen 0 und 1. Die Zeilen summieren sich jeweils zu eins auf. Im Gegensatz dazu, sind in den klassischen Clusterberechnungen als Einträge nur 0en und 1en erlaubt. Die Verfahren zur Berechnung solcher probabilistischen Clusterungen werden wieder bezüglich der Skalen ihrer Variablen unterschieden. So gibt es Clusteranalyseverfahren für quantitativ-, nominal- und ordinalskalierte Variablen. Alle diese Verfahren beruhen auf einer Verallgemeinerung des k-means-verfahrens. Ein Nachteil dieser Verfahren besteht allerdings darin, dass für eine konvergente Lösung größere Stichproben als für die klassischen k-means-verfahren, benötigt werden. Das k-means-verfahren für probabilistische Clusteranalyseverfahren wird auch als EM- Algorithmus (Expected-Maximum-Likelihood-Estimator) bezeichnet. Der Unterschied zum klassischen k-means-verfahren, welches in Kapitel beschrieben wird, besteht unter anderem darin, dass die Klassenzentren und Klassenzugehörigkeitswerte u ij als Maximum- Likelihood-Schätzer und die Zuordnungswahrscheinlichkeiten unter Annahme lokaler Unabhängigkeit berechnet werden. Das Modell geht davon aus, dass den Daten k unbekannte Klassen zugrunde liegen. Weiters erklären diese Klassen die Zusammenhänge der, innerhalb jeder Klasse unabhängigen, Variablen. Der Vorteil dieser Art der Klassifizierung wird deutlich sichtbar, wenn es um die Erkennung von Bildern geht. Die dabei verwendeten Methoden der Fuzzy Clusteranalyse werden in Frank Höppner [1997] ausführlich behandelt. 2.6 Deterministische Clusteranalyseverfahren Als deterministische Clusteranalyseverfahren werden jene Verfahren bezeichnet, die ein Objekt einer oder mehreren Gruppen mit der Wahrscheinlichkeit 0 oder 1 zuordnen. Es werden also Gruppen berechnet und die Objekte diesen deterministisch zugeordnet. Eine erste Unterscheidung dieser Verfahren begründet sich in der Anzahl von Gruppen, denen ein Element zugeordnet werden kann. So gibt es die überlappungsfreien oder auch disjunkten Clusteranalyseverfahren, bei denen ein Objekt genau einem Cluster zugeordnet wird und die sogenannten überlappenden Clusterananlyseverfahren, bei denen ein Objekt mehreren Clustern angehören kann. Dieser Unterschied wird in folgendem Bild verdeutlicht: 7

12 Der Vorteil des überlappungsfreien Verfahrens (blau) ist die Gewährleistung der Heterogenität zwischen den Clustern, dafür muss ein langgezogener Cluster in Kauf genommen werden. Im Gegensatz dazu, garantiert das überlappende Verfahren (schwarz) eine hohe Homogenität innerhalb der Cluster, die allerdings auf Kosten der abnehmenden Heterogenität zwischen den Clustern geht. Weiters kann jeweils sowohl das eine als auch das andere Verfahren gewissen Datensätzen besser angepasst sein. Somit muss aufgrund der Fragestellung immer neu festgelegt werden, welches Verfahren nun dem Modell entspricht und angewandt werden soll. Beispiele für überlappungsfreie Verfahren sind Complete- und Single-Linkage-, sowie Mittelwert-, Median-, Zentroid-, Ward-, Nächste Nachbarn- und k-means Verfahren. Zum Auffinden von überlappenden Strukturen finden das Complete-Linkage und Repräsentantenverfahren Verwendung. Da im Beispiel der Wettervorhersagen die Wetterkarten eindeutig verschiedenen Gruppen zugeordnet werden müssen, empfiehlt sich in diesem Fall ein überlappungsfreies Verfahren. 2.7 Transformationen von Variablen Zu Beginn einer Clusteranalyse muss kontrolliert werden, ob eine Vergleichbarkeit der Variablen gegeben ist. Eine Nichtvergleichbarkeit von Variablen kann sich durch unterschiedliche Messniveaus (nominale Variablen sollen mit ordinalen Variablen verglichen werden), unterschiedliche Maßeinheiten (Druck in bar mit Niederschlag in Litern) oder bedingte Variablen (die Ausprägung einer Variablen hängt hierarchisch von einer anderen Variablen ab) ergeben. Weiters kann eine Nichtvergleichbarkeit selbstverständlich auch durch die Art der Fragestellung auftreten. Allgemein sollte also bereits bei der Datenerfassung auf eine Vergleichbarkeit der Variablen geachtet und unterschiedliche Meßniveaus, sofern möglich, vermieden werden. Grundsätzlich gibt es zwei Strategien, um einer solchen Nichtvergleichbarkeit auszuweichen: Entweder werden getrennte Analysen je Variablenklasse, die zueinander vergleichbar sind, durchgeführt, oder es wird auf das bewährte Mittel der Gewichtung und Transfor- 8

13 mation von Variablen zurückgegriffen. Es können die Variablen vor der Analyse, bei der Berechnung einer Ähnlichkeitsmatrix, oder in der Analyse selbst gewichtet bzw. transformiert werden. Die wichtigste dieser Transformationen ist die Standardisierung oder z-transformation. Bei der Standardisierung wird der Wert z durch Division der Differenz vom Wert des Objekts (x i ) mit dem empirischen Mittelwert (µ) und der empirischen Standardabweichung (σ) berechnet. z = x i µ σ Im Gegensatz dazu wird bei der z-transformation nicht mit dem empirischen Mittelwert und der empirischen Standardabweichung gerechnet, sondern mit deren theoretischen Äquivalenzen. Weiters können beim Auftreten von gemischten Variablen, die nominalen Variablen dummykodiert werden. Diese, wie auch ordinale Daten, werden im weiteren wie quantitative behandelt. Hierarchisch angeordnete Variablen können durch Einführung einer zusätzlichen Merkmalsausprägung abgefangen werden. 9

14 3 Ähnlichkeits- und Distanzfunktionen 3.1 Definition Damit eine Clusterung von Objekten, deren Eigenschaften und Strukturen möglichst gut wiedergibt, sollten Objekte innerhalb einer Gruppe eine möglichst große Ähnlichkeit aufweisen, während zwischen den Gruppen die Ähnlichkeit möglichst gering gehalten werden soll. Diese Ähnlichkeit von Objekten zueinander, kann durch eine Funktion beschrieben werden, die zwei Elementen (e i,e j ) der Objektmenge (O) eine reelle Zahl (ä ij ) zuordnet. ä : O O [0, 1] (e i, e j ) ä(e i, e j ) =: ä ij Dabei bezeichnet ä 0 = 0 die minimale und ä 1 = 1 die maximale Ähnlichkeit. Weiters gilt: 1. ä ij < ä 1 für i j, 2. ä ij = ä ji, Symmetrie ist gegeben, 3. ä ii = ä 1, die Ähnlichkeit zu sich selbst ist maximal. Von einer metrischen Ähnlichkeitsfunktion wird dann gesprochen, wenn aus der Tatsache, dass zwei Elemente eine maximale Ähnlichkeit aufweisen, gefolgert werden kann, dass sie gleich sind. Weiters muss ein Äquivalent der Dreiecksungleichung erfüllt sein. Gibt es N Objekte, so kann eine (N N)-Ähnlichkeitsmatrix erstellt werden. Diese Matrix ist symmetrisch und alle Diagonalelemente sind gleich ä 1. Im Gegensatz zur Ähnlichkeit zweier Elemente kann auch ihre Unähnlichkeit, auch Distanz genannt, berechnet werden. Die Distanzfunktion wird definiert als reellwertige Funktion (d), die zwei Elementen (e i,e j ) der Objektmenge (O) eine nichtnegative reelle Zahl (d ij ) zuordnet. d : O O R 0 Es gilt: (e i, e j ) d(e i, e j ) =: d ij 1. d ij 0, Distanzen sind positiv, 2. d ij = d ji, Symmetrie ist gegeben, 3. d ii = 0, die Distanz eines Objekts zu sich selbst ist 0. Von einer metrischen Distanzfunktion oder kurz Metrik wird gesprochen, wenn zusätzlich zwei Bedingungen erfüllt werden: 10

15 d ij = 0 e i = e j, d ik d ij + d jk. Es kann eine (N N)-Distanzmatrix erstellt werde. Wiederum ist diese Matrix symmetrisch und alle Diagonalelemente sind gleich 0. Ein großer Vorteil, der sich hieraus ergibt ist, dass nur N (N 1) 2 unabhängige Werte auftreten und sich weiters die Distanz- und Ähnlichkeitsmatrix mittels Transformationen ineinander überführen lassen. 3.2 Ähnlichkeits-und Distanzfunktionen für dichotome Variablen Ein besonders häufig auftretender und darum hier etwas näher behandelter Fall, sind dichotome Variablen, also Variablen, die nur zwei Ausprägungen, meist 0 und 1, aufweisen. Als Distanzmaße können Maße wie die City-Block-Metrik, die quadrierte euklidische Distanz oder der Produkt-Moment-Korrelationskoeffizient, auch Φ-Korrelationskoeffizient genannt, auftreten. Diese werden im weiteren Verlauf wie quantitative Variablen behandelt. City-Block-Metrik: Diese wird als Distanzmaß, also als Unähnlichkeitsmaß, verwendet. Sie ist wie folgt definiert: d City (i, j) = x ki x kj. k Der Wert im Absolutbetrag ist entweder 0, bei Übereinstimmung der Variablen, oder 1, bei Nichtübereinstimmung. Aus diesem Grund ist in diesem Fall die City-Block-Metrik gleich der quadrierten euklidischen Distanz. Φ-Koeffizient: Dieser wird als Ähnlichkeitsmaß verwendet. p φ(x, y) = i=1(x i x) (y i ȳ) p i=1(x i x) 2 p i=1(y i ȳ) 2 Andererseits gibt es aber auch speziell auf die Eigenschaften dieser dichotomen Variablen zugeschnittene Distanzmaße: Simple-matching Distanz: Die Ermittlung dieses Distanzmaßes erfolgt über Berechnung des Quotienten der Anzahl der nicht übereinstimmenden Koeffizienten mit der Anzahl der Komponenten. d(x, y) = nichtübereinstimmende Komponenten Komponenten 11

16 Beispiel: Es seien zwei Vektoren der Form x = (1, 0, 0, 1, 0, 1) und y = (1, 1, 0, 1, 1, 0) gegeben. Es ergeben sich 3 übereinstimmende Komponenten an Stelle 1, 3 und 4. Insgesamt sind 6 Komponenten vorhanden. Die Simple-matching Distanz ist daher: d(x, y) = 3 = Als Simple Matching Koeffiezienten bezeichnet man SMK = 1 City-Block, wobei k die k Anzahl der Variablen darstellt. In diesem Beispiel ergibt sich ein SMK von 1 3 = Alle weiteren hier vorgestellten Distanzmaße sind leichte Abwandlungen der Simplematching Distanz und werden mithilfe folgender Vierfeldertafel erklärt: a b 0 c d Die Ausprägungen des dichotomen Objekts i seien hier die zwei Spalten 1 und 0. Ebenso sind die Zeilen 1 und 0 als Ausprägungen eines Objektes j zu verstehen. 1 wird meist als Vorhandensein und 0 als Nichtvorhandensein eines Merkmals gedeutet. Die Einträge a, b, c und d sind als Anzahl der auftretenden Fälle zu verstehen. Anhand des obigen Beispiel ist dies leicht verständlich. Objekt i sei der x-vektor und Objekt j der y-vektor. Zweimal haben der x-vektor und der y-vektor an derselben Stelle eine 1. Somit ist der erste Eintrag in der Tabelle a = 2. Ebenfalls zweimal tritt die Kombination (0, 1) auf (b = 2), einmal erscheint (1, 0) (c = 1) und einmal haben beide Vektoren an derselben Stelle eine 0 (d = 1). Für die Tabelle ergibt sich somit: Die Simple-matching Distanz kann somit wie folgt angeschrieben werden: d(x, y) = b + c a + b + c + d. Werden nicht die sich unterscheidenden, sondern die übereinstimmenden Komponenten in den Zähler geschrieben, so erhält man keine Distanzfunktion, sondern eine Ähnlichkeitsfunktion: a + d ä(x, y) = a + b + c + d. Diese Methode, dichotome Variablen mit Hilfe der so genannten matching Koeffinzienten umzuformen, führt zu einer ganzen Reihe von Möglichkeiten der Distanzberechnungen. Je nach Bedarf und Fragestellung können die verschiedenen Teile gewichtet werden. Es sei hier nur ein kleiner Ausschnitt der Möglichkeiten und ihre Bedeutungen dargestellt. Weiters wurde die jeweilige Distanz bezüglich des obigen Beispiels berechnet. 12

17 2 (b+c) = 6 = 2, doppelte Gewichtung der Nichtübereinstim- (a+d)+2 (b+c) 9 3 Tanimoto: d T (x, y) = mungen. Sokal und Sneath: b+c d S S(x, y) = = 3 = 1, 2 (a+d)+b+c 9 3 doppelte Gewichtung der Übereinstimmungen. Jaccard: d J (x, y) = b+c = 3. Die Variable d taucht hier nicht auf, das heißt, die Nichtübereinstimmungen interessieren nicht und werden daher nicht a+b+c 5 berücksichtigt. Dice: d D (x, y) = b+c = 3, gemeinsames Auftreten des Merkmales wird doppelt 2a+b+c 7 gewichtet, gemeinsames Fehlen des Merkmals geht nicht ein. Um von der Distanz- zur Ähnlichkeitsfunktion umrechnen zu können, muss nur die Beziehung d + ä = 1 berücksichtigt werden. 3.3 Ähnlichkeits-und Distanzfunktionen für nominale Variablen Im Gegensatz zu dichotomen Variablen können hierbei Variablen mit mehr als zwei Ausprägungen auftreten. Eine Methode stellt die Umordnung der nominalen Variablen in dichotome Variablen dar. Dies geschieht durch Auflösen der nominalen Variablen in Dummies. Ein Vorteil dieser Methode ergibt sich dadurch, dass nun die City-Block- Metrik, die quadrierte euklidische Distanz und der Simple Matching Koeffizient wie oben berechnet werden können. Bei k Variablen kann bei der City-Block-Metrik hier allerdings eine maximale Distanz von 2 k auftreten. In diesem Fall muss also bei der Berechnung des Simple Matching Koeffizienten eine Korrektur mittels Division mit 2 k, anstatt der Division durch k, vorgenommen werden. 3.4 Ähnlichkeits-und Distanzfunktionen für ordinale Variablen Ordinale Daten können zwar nach einer Relation geordnet werden, somit gelten >, < oder = zwischen zwei Objekten, allerdings sind Aussagen über Distanzen im herkömmlichen Sinne nicht möglich. Um also Distanzen oder Ähnlichkeiten zwischen ordinalen Variablen angeben zu können, sollten folgende Überlegungen in Betracht gezogen werden: Die ordinalen Daten werden wie nominale Daten behandelt und die Distanzen berechnen sich somit wie im Kapitel 3.3. Ein großer Nachteil dieser Methode ist allerdings der Informationsverlust, der hierbei in Kauf genommen werden muss. Die ordinalen Daten werden wie quantitative Daten behandelt und die Distanzen berechnen sich somit wie im Kapitel 3.5. Diese Art der Berechnung kann sich 13

18 aufgrund der nun zwar verwendeten, aber nicht explizit gegebenen Abstände als äußerst fehleranfällig erweisen. Die Bewertung von ordinalen Variablen mittels Rängen ermöglichen es, diese auf dichotome Variablen abzubilden. Der Vorteil dieser Methode ist offensichtlich, da eine große Anzahl von möglichen Distanzfunktionen für dichotome Variablen zur Verfügung steht. Die Abbildung einer ordinalen Variable von r Rängen in r 1 binäre Variablen, lässt sich wie folgt umsetzen: Ist der m-te Rangplatz einer Variablen besetzt, so wird den ersten m 1 Hilfszuständen der Wert 1 zugewiesen, während die restlichen (r m) Zustände mit 0 besetzt werden. Ist die Fragestellung mit diesen Methoden nicht verträglich, kann im Fall der ordinalen Daten, ein probabilistischer Ansatz durchaus von Vorteil sein. 3.5 Ähnlichkeits-und Distanzfunktionen für quantitative Variablen Bei quantitativen Variablen ist die Distanzmessung am einfachsten vorzunehmen, da bei dieser Art von Variablen Differenzen gebildet werden können. In diesem Zusammenhang muss beachtet werden, dass einige Distanzfunktionen nicht skaleninvariant sind und eine Standardisierung der Werte vorgeschaltet werden sollte. Somit ergibt sich eine ganze Reihe von möglichen Distanzfunktionen, die in diesem Zusammenhang verwendet werden können. Im Folgenden seien x und y zwei Vektoren der Form x T = (x 1, x 2,, x p ) und y T = (y 1, y 2,, y p ). City-Block Distanz: Oder auch Manhattan-Distanz genannt. Sie wird berechnet durch: d City (x, y) = p i=1 x i y i. Ein Vorteil dieser Distanz ist das Fehlen von quadratischen Termen, allerdings müssen, da diese Distanz nicht skaleninvariant ist, dafür vorher die Variablen standardisiert werden. Weiters werden eventuell auftretende Korrelationen der Variablen nicht berücksichtigt. Diese Funktion spielt bei der Clusterung von festen Standorten eine Rolle. euklidische Distanz: p d euk (x, y) = i=1(x i y i ) 2. Diese Distanz wird für quantitative Variablen recht häufig verwendet. Auch hier muss auf eine Standardisierung der Variablen geachtet werden und es wird davon ausgegangen, dass keinerlei Korrelationen vorliegen. Der Vorteil dieser Distanz liegt in ihrer Invarianz bezüglich Translation, Drehung und Spiegelung. Eine Variante ergibt sich durch Weglassen der Wurzel und wird als quadrierte euklidische Distanz bezeichnet: d qeuk (x, y) = p i=1(x i y i ) 2. Tschebycheff Distanz: d Tscheby (x, y) = max i x i y i. Dies ist der Grenzfall r der unten erklärten Minkowski Distanz. 14

19 Alle diese Distanzen lassen sich unter dem Begriff Minkowski Distanzen oder L r - Distanzen zusammenfassen. Diese Distanz wird ganz allgemein als p d Mink (x, y) = ( x i y i r ) 1 s i=1 definiert. Alle aus dieser Funktion ableitbaren Distanzen sind nicht skaleninvariant, das Ergebnis hängt somit von der Skala der Merkmale ab. Es empfiehlt sich somit vorher zu standardisieren. Auch werden Korrelationen unter den Merkmalen mit dieser Distanzfunktion nicht berücksichtigt. Je nach Wert der Parameter r und s lassen sich die bereits genannten Distanzfunktionen ableiten. Für r = s = 2 ergibt sich beispielsweise die euklidische Distanz. Der Parameter r dient zur Gewichtung der unterschiedlichen Variablen. Ganz allgemein gilt: Je größer r, desto mehr werden größere Unterschiede von wenigen Variablen im Vergleich zu kleinen Unterschieden vieler Variablen gewichtet. Kleinere Differenzen erhalten somit bei wachsendem r immer weniger Bedeutung, während Ausreißern mit wachsendem r immer größere Bedeutung beigemessen wird. Mithilfe des Parameters s wird auf die ursprüngliche Skaleneinheit zurücknormiert. Meist ist aber r = s und wird als Minkowski Konstante bezeichnet. Ist eine Berücksichtigung der Korrelationsstruktur beim Bilden der Distanz erwünscht, so empfiehlt sich die Mahalanobis Distanz. Sie wird mittels der Kovarianzmatrix S und den Merkmalsvektoren x und y wie folgt berechnet: d Mahal (x, y) = (x y) T S 1 (x y). Diese Funktion ist skalenunabhängig und lässt etwaige Korrelationen zwischen den Variablen verschwinden. Weiters ist sie invariant unter Transformationen der Variablen, welche die Kovarianzmatrix nicht singulär werden lassen. Allerdings ist gerade bei einem sehr starken Zusammenhang zwischen den Merkmalsvektoren die Kovarianzmatrix nicht mehr invertierbar. Als weitere wichtige Funktion sei der Q-Korrelationskoeffizient erwähnt. Dies ist ein Ähnlichkeitsmaß zweier Vektoren x und y und wird durch p q(x, y) = i=1(x i x)(y i ȳ) p i=1(x i x) 2 p i=1(y i ȳ) 2 berechnet. Eine Anwendungsform dieser Funktion ist in der Mustererkennung zu finden, allerdings ist diese weder translations- noch skaleninvariant. Soll die Korrelation als Distanzmaß verwendet werden, so wird folgende Funktion benutzt: p q(x, y) = 1 i=1(x i x)(y i ȳ) p i=1(x i x) 2 p i=1(y i ȳ). 2 15

20 Teilweise eignet sich als Distanzmaß auch die Cosinus Distanz. Diese Distanz berechnet sich über den Cosinus des Winkels, den Elemente miteinander einschließen. Sie wird allerdings nur selten verwendet, da sich in den meisten Fällen eine der obigen Distanzen besser eignet. Ein Distanzmaß, bei dem nicht auf die Zahlenwerte, sondern stattdessen auf die Ränge eingegangen wird, ist das Distanzmaß von Kendall und wird in Bock [1974] vorgestellt. 3.6 Bemerkungen Ähnlichkeits- und Distanzfunktionen für gemischte Variablen Die bisher vorgestellten Distanzfunktionen sind nur anwendbar wenn die Skalierung der verschiedenen Variablen dieselbe ist. Nun tritt aber auch häufig eine Kombination von unterschiedlich skalierten und somit gemischten Variablen auf. Zwei wichtige Verfahren in diesem Zusammenhang sind die Niveau-Regression und Niveau-Progression. Niveau-Regression bedeutet das Herunterskalieren der höher skalierten Variablen auf das Niveau der niederen Variablen. Es ist hierbei zwar ein Informationsverlust hinzunehmen, allerdings ist diese Regression meist sehr leicht vorzunehmen, da keinerlei weitere Zusatzannahmen getroffen werden müssen. Im Gegensatz dazu, ist bei der Niveau-Progression zwar der Informationsgehalt gesichert, allerdings muss dafür darauf geachtet werden, dass die Daten die Voraussetzungen der höheren Skala erfüllen. Diese Progression ist bei nominalen Daten nur äußerst selten vertretbar. Es müssen dabei gleichwertige Merkmale, wie beispielsweise rot, grün, blau, in eine Reihenfolge gebracht werden: rot < grün < blau. Die Merkmale werden also mit subjektiv erdachten Informationen beladen Fehlende Werte Unter Umständen kann es zu fehlenden Werten im Datensatz kommen. Mit dem Fehlen einzelner Werte bei der Berechnung von Ähnlichkeits- oder Distanzmaßen kann unterschiedlich umgegangen werden: Das Weglassen des Objekts, in dem fehlende Werte auftreten, wird fallweises Ausscheiden genannt. Der Nachteil dieser Methode ist offensichtlich: Die Fallzahl reduziert sich mit jedem fehlenden Wert. Als Faustregel empfiehlt sich nach Detlef Steinhausen [1977] ein Ausschließen der Variablen vom Datensatz mit mehr als 5% 10% fehlenden Werten. Alle weiteren fehlenden Werte sollten durch einen der unten stehenden Punkte ergänzt werden. Für die fehlenden Werte werden Schätzwerte eingesetzt. Diese Schätzung erfolgt meist durch den arithmetischen Mittelwert oder den Median und erfordert nicht nur eine zuvorige Standardisierung, sondern weist auch noch ein weiteres Problem 16

21 auf: Von Interesse ist die Distanz der Elemente zu ihrem Clusterschwerpunkt und gerade diese Distanz löst sich durch die Methode der Schätzung auf. Bei größerer Variablenanzahl kann eine Schätzung über einfache oder multiple Regression durchgeführt werden. Eine weitere Möglichkeit ist die Abänderung der Distanzfunktion, indem beispielsweise nur diejenigen Komponenten der beiden zu vergleichenden Elemente eingehen, die vollständig erhoben wurden. Die Verwendung von Faktorenwerten werden in Bacher [1994d] beschrieben Gewichtung Eine Gewichtung kann bei der Distanzerhebung und Klassenbildung von großem Vorteil sein. Wichtig dabei ist, dass die Gewichte in Abhängigkeit von den Eigenschaften der Datenmatrix berechnet und nicht von vorneherein festgelegt werden. Eine Gewichtung findet generell immer bei der Distanzberechnung statt. Beispielsweise werden bei Berechnung der euklidischen Distanz die Gewichte w i eingeführt und es ergibt sich: p d euk (x, y) = w i (x i y i ) 2. i=1 Die Gewichte w i werden üblicherweise normiert, sodass p i=1 w i = 1. Werden die Gewichte mit w i = 1 gewählt, so sind alle Gewichte gleich groß und es liegt somit keine p Gewichtung vor. 17

22 4 Deterministische Clusteranalyseverfahren - Hierarchische Verfahren 4.1 Test auf Clusterstruktur Bevor eine Clusteranalyse durchgeführt werden soll, empfiehlt es sich, den Datensatz dahingehend zu testen, ob überhaupt eine solche Struktur vorhanden ist. Sind die Daten homogen verteilt, so erübrigt sich eine Clusteranalyse und andere Methoden zur Untersuchung des Datensatzes müssen herangezogen werden. Ist eine Clusterstruktur erkennbar, so sind die im folgenden vorgestellten Möglichkeiten Cluster zu bilden, angemessen. Es wird der Datensatz auf die unten stehende Nullhypothese getestet: H 0 : Der Datensatz ist homogen verteilt und weist keinerlei Struktur auf. Je nach verwendetem Distanzmaß gelten verschiedene Verteilungen, die diese Homogenität beschreiben können. Bei der euklidischen- und City-Block- Distanz, die auf quantitativen standardisierten Daten angewandt werden, ist dies die Normalverteilung. Diese, oder die Binomialverteilung können auch bei dichotomen Variablen verwendet werden. Die Chi-Quadratverteilung hingegen wird beim quadrierten euklidischen Distanzmaß eingesetzt. Um auf diese Verteilungsformen zu testen, kann der Kolmogoroff-Smirnov-Test oder der Chi-Quadrat-Anpassungstest verwendet werden. Der Chi-Quadrat-Anpassungstest eignet sich besonders für Datensätze, bei denen jeder Messwert öfters auftritt, wie dies beispielsweise bei dichotomen Variablen der Fall ist. 4.2 Hierarchische Verfahren Allgemeines Verfahren zur Bestimmung einer Clusterstruktur werden grob in hierarchische und nicht hierarchische Verfahren unterteilt. Hierarchische Verfahren können, mit Hilfe der in Kapitel 3 beschriebenen Distanzfunktionen, Cluster erkennen und in einer hierarchischen Anordnung darstellen. Dieses hierarchische Anordnen erlaubt nur zwei Aussagen über zwei Cluster: Entweder ist ein Cluster - und somit alle seine Elemente - im anderen enthalten, oder ihre Schnittmenge ist leer, das heißt kein Element des einen Clusters ist im anderen enthalten. Weiters kann zwischen einer disjunkten und einer nicht disjunkten Klassifikation unterschieden werden. Bei disjunkter Clusterung wird jedes Element genau einem Cluster zugeordnet, während bei der nicht disjunkten Klassifikation ein Element durchaus mehreren Gruppen angehören kann. Bei disjunkten Klassenbildungen sind die Elemente somit eindeutig in Gruppen zerlegbar. Die Verfahren einer nicht disjunkten Klassifikation nennt man probalistische bzw. fuzzy Clusterung oder auch unscharfes Clustern. Auf diese 18

23 Art von Verfahren wurde bereits in Kapitel 2.5 eingegangen. Die bisher beschriebenen Verfahren können sowohl alle Elemente einem Cluster zuordnen als auch Elemente als nicht zuordenbar ausweisen. Im ersten Fall wird die Klassifikation als erschöpfend und im zweiten als nicht erschöpfend bezeichnet. Bei der Wahl der verwendeten Verfahren muss beachtet werden, dass unterschiedliche Verfahren zu unterschiedlichen Ergebnissen führen können. Es kommt bei der endgültigen Gruppierung der Elemente also sehr stark auf die Entscheidung für oder gegen ein Verfahren an und somit gibt es auch die Lösung eines Clusterproblems nicht, sondern immer mehrere Möglichkeiten einer Problemstellung zu begegnen und genauso viele Lösungen. Dies liegt daran, dass bei allen Verfahren nur lokale Extrema und somit nur suboptimale Lösungen gefunden werden. Die Suche nach einem globalen Extremum und somit nach der besten Lösung ist äußerst rechenaufwändig und meist unterscheidet sich die optimale Lösung nur geringfügig von der bereits berechneten suboptimalen Lösung, sodass sich der zusätzliche Rechenaufwand nicht lohnt. Bei der Berechnung müssen daher die Fragestellung und Randbedingungen genau überdacht werden, um ein möglichst gut auf die Fragestellung abgestimmtes Verfahren zu wählen und damit eine adäquate Lösung zu finden. Die im Folgenden beschriebenen Verfahren sind hierarchisch, divisiv und erschöpfend aufgebaut. Diese Art der Verfahren werden am häufigsten verwendet, da sie nicht nur ein Erkennen von Strukturen ermöglichen, sondern sowohl den Aufbau dieser Strukturen als auch deren Entstehung während der Berechnung graphisch darstellen lassen. Diese graphischen Möglichkeiten der Darstellung werden im Kapitel 4.3 genauer beschrieben. Hierarchische Verfahren dieser Art lassen sich nochmals in agglomerative und divisive Verfahren unterteilen agglomerative Verfahren Allgemeines: Allen agglomerativen Verfahren liegt dieselbe Idee zugrunde: Isolierte Objekte werden mittels Verbinden solange zu Gruppen zusammengefasst, bis nur mehr eine einzige Gruppe, die alle Elemente enthält, übrig bleibt. Genauer wird dies mit folgenden Schritten beschrieben. Dabei seien e 1,, e m diejenigen Objekte, die gruppiert werden sollen. Die einzelnen Gruppen werden mit G 1,, G n und alle Gruppen zusammen mit G = {G 1,, G n } bezeichnet. 1. Alle Objekte sind isoliert. Es gibt somit m = n Gruppen, die jeweils ein Element enthalten: G 1 = {e 1 }, G 2 = {e 2 },, G m = {e m } 2. Fasse diejenigen Gruppen zusammen, die die geringste Distanz zueinander aufweisen. Es wird also zunächst die Distanz aller Gruppen zueinander berechnet, die minimale gesucht und die zugehörigen Elemente verschmolzen. 19

24 d Gp,Gq = min i j d Gi,G j G neu = G p G q Meist werden die Elemente in eine (hier beispielsweise G p ) der beiden Gruppen verschoben und die andere - jetzt leere - Gruppe (G q ) löst sich auf. Die Anzahl der Gruppen reduziert sich somit um eins. 3. Berechne die Distanzmatrix neu. Dazu ist nur eine Änderung der p-ten Spalte und Zeile nötig, da sich die anderen Distanzen nicht verändert haben. Berechne also die Distanzen zwischen der neuen Gruppe und den restlichen Elementen und streiche die q-te Spalte und Zeile. 4. Sind alle Elemente in einer Gruppe G zusammengefasst (dies ist nach m 1 Schritten der Fall) so wird der Algorithmus beendet, ansonsten wird mit Schritt 2 und der neuen Distanzmatrix fortgefahren. Um zu einer Clusterung zu gelangen, wird das agglomerative Verfahren nach einer bestimmten Anzahl von Zusammenführungen abgebrochen. Wie diese Abbruchstelle gefunden werden kann, wird in Kapitel 4.4 beschrieben. Die einzelnen agglomerativen Verfahren unterscheiden sich durch die Art der Distanzberechnung der verschmolzenen Gruppen zueinander. Verfahren: Single-Linkage (Nearest Neighbor) Dieses Verfahren ordnet ein noch nicht klassifiziertes Objekt derjenigen Gruppe zu, in der es mindestens ein Objekt gibt, zu dem es eine genügend kleine Distanz aufweist. Die Distanz zweier Cluster A und B ist also durch die minimale Distanz ihrer Elemente zueinander gegeben: d A,B = min d(e i, e j ). Dabei sei e i ein Element aus dem Cluster A und e j ein Element aus dem Cluster B. Dieses Verfahren ist das älteste und einfachste agglomerative Verfahren. Ein Nachteil dieser Methode ist das so genannte chaining, also ein Verkettungseffekt, der auftritt und die Homogenität innerhalb eines Clusters bedeutend herabsetzen kann. Dieser Nachteil kann sich aber auch als äußerst vorteilhaft bei der Erkennung von kreisoder linienförmigen Strukturen erweisen, wenn nicht das einzelne Element sondern das Gesamtbild im Zentrum der Betrachtung steht. 20

25 Im linken Bild ist der unvorteilhafte Charakter des Single-Linkage Verfahrens dargestellt. Das mittlere und rechte Bild lassen dagegen den Vorteil beim Betrachten der Gesamtstruktur erkennen. Complete-Linkage (Furthest Neighbor) Wenn die Distanz zu allen Punkten einer Klasse kleiner als eine gewisse Schwelle ist, so wird das Element dieser Klasse zugeordnet. Die Distanz zweier Cluster A und B ist also durch die maximale Distanz ihrer Elemente zueinander gegeben: d A,B = max d(e i, e j ). Dabei sei wieder e i ein Element aus dem Cluster A und e j ein Element aus dem Cluster B. Dieses Verfahren neigt zur Bildung vieler kleiner Cluster, die eine starke Homogenität innerhalb der Gruppen aufweisen. Dieser Effekt wird auch als Dilatationseffekt bezeichnet. Im Bild unten erkennt man die Aufspaltung in 4 Gruppen (schwarz), obwohl eine Gruppierung mit 2 Klassen (blau) bereits ausreichend wäre. 21

26 Average-Linkage Einen Kompromiss der beiden vorgestellten Möglichkeiten liefert das Average-Linkage oder Mittelwert-Verfahren. Hierbei wird der Abstand zweier Cluster mittels 1 d A,B = d(e i, e j ) N A N B e i A e j B berechnet. Die Zahlen N A und N B bezeichnen jeweils die Anzahl der Elemente in den Klassen A und B. Im Gegensatz zu den bisher genannten Methoden, Single-, Complete- und Average- Verfahren, die einzelne Elemente der Cluster zur Berechnung der Distanzen heranziehen, stützen sich das Median-, Zentroid- und auch das Ward-Verfahren auf einen Repräsentanten des Clusters. Bei diesen Verfahren werden die Cluster durch ihre Clusterzentren repräsentiert. Die Distanz zweier Cluster wird somit über die Distanz ihrer Clusterzentren berechnet. Fusioniert werden jeweils diejenigen Cluster, deren Clusterzentren sich am nächsten befinden und somit wird eine hohe Heterogenität zwischen den Clustern gewährleistet. Beim Median- und Zentroid-Verfahren werden die Cluster so bestimmt, dass ihre Clusterzentren möglichst weit entfernt voneinander zu liegen kommen. Beim Ward-Verfahren wird versucht, die Streuung zwischen den Clusterzentren zu maximieren. Median Beim Median-Verfahren wird das neue Clusterzentrum als Median der alten Clusterzentren berechnet. Zentroid Beim Zentroid-Verfahren wird ein Cluster durch seinen Schwerpunkt charakterisiert. Ein Vorteil dieses Verfahrens ist die Gewichtung der Gruppen durch ihre Größe. Ward Das Ward-Verfahren fusioniert jene Cluster, die den kleinsten Zuwachs der Heterogenität liefern. Dies geschieht über das Varianzkriterium oder auch Spur W-Kriterium genannt. Es werden also diejenigen Klassen zusammengefügt, welche das Varianzkriterium am wenigsten vergrößern. m g=1 i G g x i x Gg 2 min Dabei ist das Gruppenzentrum der Gruppe G j gegeben durch: x Gj := 1 n j i G j x i. Wichtig hierbei ist, dass das Varianzkriterium nur verwendet werden sollte, wenn die Variablen unkorreliert sind und die Anzahl der Elemente in jedem Cluster annähernd gleich ist. 22

27 4.2.3 divisive Verfahren Die divisiven Verfahren sind eine Umkehrung der agglomerativen Verfahren. Anstatt isolierte Objekte zusammenzufügen, wird ein Cluster, dem alle Elemente angehören, sukzessive aufgespalten, bis jeder Cluster nur mehr ein Element enthält. Die unten angeführten Schritte beschreiben den schematischen Ablauf eines solchen divisiven Verfahrens. Dabei seien wieder e 1,, e m diejenigen Objekte, die gruppiert werden sollen. Die einzelnen Gruppen werden mit G 1,, G n und die Gruppe, die alle Elemente enthält, mit G = {e 1,, e m } bezeichnet. 1. Alle Objekte sind in einer Gruppe zusammengefasst. G = {e 1,, e m } 2. Spalte die Klasse in zwei Teilklassen auf (bzw. spalte ein Element ab). Die Anzahl der Gruppen erhöht sich um eins. 3. Neuberechnung der Distanzmatrix. 4. Befindet sich jedes Element in einer eigenen Klasse, also G 1 = {e 1 }, G 2 = {e 2 },, G n = {e n }, so wird das Verfahren abgebrochen (dies ist nach m 1 Schritten der Fall), ansonsten wird mit Schritt 2 und der neuen Distanzmatrix fortgefahren Bemerkungen 1. Sowohl bei der Anwendung von agglomerativen, als auch bei den divisiven Verfahren stellt sich immer die Frage, zu welchem Zeitpunkt diese abgebrochen werden sollen, oder anders: Was ist die optimale Anzahl von Clustern? Die Antwort dieser Frage hängt - wieder einmal - von der Problemstellung im einzelnen ab. Ein guter Lösungsansatz dazu wird im Kapitel 4.4 beschrieben. 2. Im allgemeinen wird das agglomerative Verfahren dem divisiven vorgezogen, da es im Vergleich wesentlich weniger Rechenaufwand erfordert. Es sei g die Anzahl der Gruppen. Bei den agglomerativen Verfahren müssen g (g 1) Paare betrachtet 2 und daher genauso viele Distanzen berechnet werden. Im Gegensatz dazu gibt es beim Aufspalten von einer Gruppe mit n Mitgliedern in zwei Gruppen 2 n 1 1 Möglichkeiten. Bei 5 Mitgliedern ergeben sich 15, bei 10 Mitgliedern 511, und bei 50 Mitgliedern bereits = Möglichkeiten der Aufspaltung. 3. Zwar sind Median-, Zentroid- und Ward-Verfahren relativ robust gegenüber einem falschen Distanzmaß, trotzdem sollte hier, wenn möglich, immer mit der quadrierten euklidischen Distanz gerechnet werden. 4. Für überlappende, also nicht disjunkte Cluster, eignet sich das Complete-Linkage- Verfahren oder das in Bacher [1994b] vorgestellte Repräsentantenverfahren. Eine Vielzahl von Möglichkeiten für nicht disjunkte Clusterverfahren findet sich in Frank Höppner [1997]. 23

28 5. Es muss beachtet werden, dass die Wahl des Verfahrens nicht nur von den statistisch relevanten Aspekten beeinflusst werden kann, sondern dass zum Beispiel auch der Umfang der Datenmenge von entscheidender Bedeutung ist. Beispielsweise sind sowohl Single- als auch das Complete-Linkage nur für eine kleine Datenmatrix geeignet, da genug Arbeitsspeicher für ihre Ähnlichkeits- bzw Distanzmatrizen zur Verfügung gestellt werden muss. 4.3 Graphische Darstellungsmöglichkeiten von hierarchischen Verfahren Eiszapfenmodell Der große Vorteil von hierarchischen Verfahren ist die Möglichkeit der graphischen Darstellung des Aufbaus einer Klassifikation. Eine der ersten Methoden, die hierzu Verwendung fand, ist das Eiszapfenmodell. Bei diesem Modell stellt die erste Spalte die Anzahl der Schritte dar. Jede weitere Spalte wird einem speziellen Element zugeordnet, wobei die Spalten jeweils durch eine weitere leere Spalte getrennt werden. Ein X oder ein Strich geben an, ob sich Elemente in denselben Clustern befinden. Anschaulich wird dies in folgendem Bild deutlich: Die Verschmelzungen finden wie folgt statt: Schritt Elemente die verschmelzen Anzahl der Cluster X X X X X X X X X X X X X 2 X X X X X X X X X X X X 3 X X X X X X X X X X X 4 X X X X X X X X X X 5 X X X X X X X X X 6 X X X X X X X X 7 X X X X X X X Die linke Spalte gibt die Anzahl der Cluster an. Gelesen wird dieses Modell von unten nach oben. Da von einem agglomerativen Aufbau ausgegangen wird, sind in der letzten Zeile 7 Cluster, die je ein Element enthalten, angeführt. Es werden im ersten Schritt die Cluster 3 und 4 verschmolzen und somit wird die Spalte zwischen 3 und 4 mit einem X gekennzeichnet. Im nächsten Schritt verschmelzen 4 und 5, also wird wiederum ein X zwischen 4 und 5 gesetzt, usw. Als letztes werden die Cluster 5 und 6 verbunden und es 24

29 entsteht ein Cluster, der alle Elemente enthält. In diesem Beispiel sind der Einfachheit halber die Elemente geordnet angeführt, dies muss natürlich nicht der Fall sein, es ändert aber nichts an der Vorgehensweise. Bewährt hat sich dieses Modell, da es relativ leicht zu implementieren ist. Ein Nachteil dieser Methode ist allerdings, dass es bei einer größeren Anzahl von Objekten schnell unübersichtlich wird. Weiters gibt dieses Modell keinerlei Auskunft über die Distanz der verschmolzenen Objekte Dendrogramm Das Dendrogramm wird heutzutage dem Eiszapfenmodell meist vorgezogen, da zusätzlich die Distanzen verschmelzender Gruppen angegeben werden können. Die linke Spalte gibt wiederum die Schrittnummer an. Werden zwei Objekte zu einer Klasse, oder zwei Klassen zu einer weiteren Klasse zusammengefasst, so werden diese durch einen vertikalen Strich miteinander verbunden. Der horizontale Abstand dieses Striches mit den Objekten, oder Klassen, spiegelt die Distanz wider. Es werden, wie oben, wieder die 7 Elemente verschmolzen, allerdings unter Miteinbeziehung der Distanzen: Schritt Elemente die verschmelzen Distanz Besonders gut zur Veranschaulichung eignen sich obige grafischen Verfahren für Clusterungen mit kleinerer Objektmenge. Sind größere Grundmengen vorhanden, wird diese Art der Darstellung bald unübersichtlich. Da der Anfang eventuell sehr lange mit vielen 25

30 kleinen Distanzen behaftet ist, wäre eine Möglichkeit, der Unübersichtlichkeit vorzubeugen, den Anfang eines solchen Dendrogramms abzuschneiden und dieses beispielsweise nur ab einer gewissen Distanz zu betrachten: 4.4 Bestimmung der Anzahl der Cluster Bei den bisher vorgestellten Methoden wurde immer solange verschmolzen, bis nur mehr ein großer Cluster vorhanden ist. Das Ziel einer Clusteranalyse ist es jedoch, die Objekte so zusammenzufassen, dass eine optimale Struktur erkennbar wird. Um diese Struktur aufzufinden, benötigt man ein Abbruchverfahren, das die agglomerative Berechnung zu jenem Zeitpunkt stoppt, zu dem das bestmögliche Ergebnis geliefert wird. Mithilfe des Verschmelzungsniveaus der einzelnen Schritte in den agglomerativen Verfahren, kann der Zuwachs in jedem Schritt berechnet werden. Dazu wird die Differenz zwei aufeinander folgender Distanzen berechnet. Dies wird in einem Rechenbeispiel schnell deutlich: Schritt Elemente die verschmelzen Distanz Zuwachs Im Schritt 3 und 6 ist eine deutliche Zunahme der Distanzunterschiede bemerkbar. Es gibt somit zwei Clusterlösungen: Clusterlösung 1: Es bleiben 5 Cluster übrig, Cluster 1 enthält die Mitglieder 3, 4, 5 und die Elemente 1, 2, 6, 7 sind je in einem eigenen Cluster. Clusterlösung 2: Es bleiben 2 Cluster übrig, Cluster 1 enthält die Objekte 1, 2, 3, 4, 5 und Cluster 2 die Elemente 6 und 7. 26

31 Diese beiden Lösungen werden durch Einzeichnen im Dendrogramm verdeutlicht: Die linke senkrechte blaue Linie zeigt Clusterlösung 1. Es muss das agglomerative Verfahren somit nach dem zweiten Schritt abgebrochen werden. Die rechte senkrechte blaue Linie zeigt Clusterlösung 2. Es muss das agglomerative Verfahren nach dem fünften Schritt abgebrochen werden. Welche der beiden Clusterlösungen bevorzugt wird, ist auch von der Fragestellung abhängig. Möchte man beispielsweise eine hohe Reduktionsrate der Clusteranzahl, so ist Clusterlösung 1 sicher nicht zu empfehlen. Eine Möglichkeit die Distanzzunahme grafisch zu veranschaulichen ist das Scree- bzw. das inverse Scree-Diagramm. Auf der x Achse wird die Stufe der Zusammenführung und somit die Clusteranzahl eingetragen und auf der y Achse die Distanz. Der inverse Scree-Plot beginnt im Ursprung mit der höchsten Clusterzahl, der Scree-Plot mit der kleinsten. In unserem Beispiel ergibt sich folgender inverser Scree-Plot: 27

32 Für jede Clusterlösung ist im Plot ein Knick zu sehen. Meist wird, da man möglichst wenig Cluster haben möchte, der letzte Knick im Diagramm zur Bestimmung der optimalen Clusteranzahl herangezogen. Mittels der linearen Regression kann ein solcher Knick nicht nur optisch gefunden werden. Unter der Annahme, dass die Distanzen in einem Schritt k eine Gerade bilden sollen, kann diese geschätzt werden: ˆd k = a k k + b k. Ob die nächste Distanz d k+1 ebenfalls auf, bzw. innerhalb eines Intervalls um die Gerade liegt, kann mit der Berechnung von ˆd k+1 = a k (k+1)+b k und der folgenden Teststatistik überprüft werden: d k+1 ˆd k+1 s k. Dabei stellt s k die Standardabweichung dar. Ist der Wert der Teststatistik größer als 2.75, so ist nach Bacher [1994a] ein Knick vorhanden. 28

33 5 Deterministische Clusteranalyseverfahren - Partitionierende Verfahren 5.1 Allgemeines Im Gegensatz zu den bisher behandelten Verfahren wird bei den partitionierenden Verfahren davon ausgegangen, dass bereits eine Zerlegung in k Cluster gegeben ist. Diese Anfangspartition ist nicht optimal und soll nun bezüglich einer Zielfunktion verbessert werden. Durch die in Kapitel 5.2 vorgestellten Verfahren werden allerdings immer nur lokale Extrema und selten oder nie globale Extrema gefunden. Das bedeutet, dass die Qualität der Lösung stark von der Anfangspartition abhängt und somit ist es besonders wichtig, Anfangspartitionen zu finden, die zu möglichst guten Ergebnissen führen. Es gibt verschiedene Möglichkeiten, die Elemente ihren Clustern zuzuordnen: 1. Die Elemente werden durchnummeriert und ein Element i wird dem Cluster mod (i 1, k) + 1 zugeordnet. Im folgenden Bild sehen wir eine, aufgrund dieser Zuordnungsregel erstellte, Gruppierung der Elemente 1,, 9 in 3 Klassen. Es werden die Cluster der Reihe nach mit Elementen aufgefüllt. In der Praxis hat sich diese Methode nach Detlef Steinhausen [1977] als recht brauchbar erwiesen. 2. Jede andere Zufallspartition, die die Elemente möglichst gleichverteilt den Klassen zuordnet, ist auch möglich. 3. Verlockend ist es, die Anfangspartition aufgrund der inhaltlichen Fragestellung von Hand vorzugeben. Dies kann in gewissen Fällen durchaus vertretbar sein, allerdings ist diese Art der Einteilung äußerst subjektiv und kann das Ergebnis in eine gewisse Richtung lenken. 4. Weiters kann eine hierarchische Clusteranalyse durchgeführt und bei der gegebenen Clusteranzahl k abgebrochen werden. Allerdings ist dieses Vorgehen nur bei kleinen Elementzahlen vorteilhaft, da der Rechenaufwand bei hierarchischen Verfahren sonst sehr schnell sehr hoch werden kann. Es ist von Vorteil, bei der Berechnung der Anfangspartition ein einfaches und schnelles Verfahren zu verwenden und damit bereits eine gute Startposition zur Weiterverarbeitung der Daten zu erreichen. Ganz allgemein wird bei den partitionierenden Verfahren wie folgt vorgegangen: 1. Gib eine Anfangspartition mittels einer der oben genannten Methoden vor. 29

34 2. Berechne die Gruppenschwerpunkte. 3. Überprüfe, ob sich die Zielfunktion verbessert, wenn ein Element in einen anderen Cluster geschoben wird und verschiebe gegebenenfalls. 4. Gehe zu Schritt 2 und wiederhole, bis sich keine Elemente mehr verschieben. In jedem Schritt werden die Elemente bezüglich ihrer Clusterzugehörigkeit gesichtet (sift) und verschoben (shift), weshalb auch von einem Sift-and-Shift-Verfahren gesprochen wird. 5.2 Partitionierende Verfahren Iteriertes Minimaldistanzverfahren Bei diesem Verfahren wird in Schritt 3 jedes Element in diejenige Gruppe verschoben, zu deren Schwerpunkt der euklidische Abstand minimal wird. Bei diesem Verfahren können sich zwei ungünstige Fälle ergeben: Gewisse Elemente werden periodisch von einem Cluster in den anderen und zurück verschoben. Diese unendlich oft auftretende Verschiebung kann dadurch verhindert werden, dass der Algorithmus bei einer gewissen Anzahl von Durchgängen abgebrochen wird. Zwei aufeinanderfolgende Klassifizierungen sind gleich und der Algorithmus bricht ab. Die Anzahl der Durchgänge in diesem Algorithmus hängt von der gewählten Anfangspartition ab, meist reichen aber bereits wenige Iterationen aus, um zu einem lokalen Extremum zu gelangen. Ein Vorteil ist die Schnelligkeit dieses Verfahrens, welche erlaubt die Clusteranzahl k zu variieren und sich das beste Ergebnis herauszusuchen. Weiters können sich im Laufe der Durchgänge auch Cluster auflösen, indem alle Elemente aus diesem Cluster entfernt werden und somit sinkt die Clusteranzahl k auf k k-means-verfahren Die wohl bekannteste Variante der partitionierenden Verfahren stellt das k-means-verfahren dar. Wiederum wird wie in Kapitel 5.1 gerechnet, nur Schritt 3 unterscheidet sich: Es wird jedes Element in diejenige Gruppe verschoben, die ihm, bezüglich der euklidischen Distanz zum Schwerpunkt, am nächsten liegt. Weiters werden sofort nach der Verschiebung eines Elements die Gruppenschwerpunkte neu berechnet. Beendet wird der Algorithmus, wenn sich n mal hintereinander keine Elemente verschieben. Der Unterschied zu anderen Verfahren stellt die sofortige Neuberechnung der Klassenschwerpunkte dar. Ein Nachteil, der sich durch diese Vorgehensweise ergibt, ist, dass die gelieferten Ergebnisse nicht nur von der Anfangspartition sondern auch von der Reihenfolge der Vertauschungen abhängen. Dafür können sich hier ganze Cluster nicht auflösen, 30

35 da bei jeder Verschiebung die Clusterschwerpunkte neu berechnet werden. Sobald sich nur noch ein Element in einem Cluster befindet, ist dieses Element selbst der Schwerpunkt, die Distanz reduziert sich auf 0 und somit wird dieses Element nicht aus seinem Cluster entfernt Austauschverfahren Eine weitere Möglichkeit zur Verbesserung einer Anfangspartition stellt die hill-climbing- Methode dar. Die Verschiebung der Elemente erfolgt hierbei nicht über die Distanz zu den Schwerpunkten, sondern über eine Verbesserung des Varianzkriteriums. Schritt 3 unterscheidet sich wieder von der allgemeinen Form: Überprüfe für jedes Element, ob die Klassifizierung hinsichtlich des Varianzkriteriums verbessert wird, wenn dieses Element verschoben wird. Das Varianzkriterium für Element x k und Gruppen i und j, wobei x m den Schwerpunkt der Gruppe m darstellt, ist gegeben durch: n j n j + 1 x k x j 2 < n i n i + 1 x k x i 2. Verschiebe das Element in jene Gruppe, bei der die größte Verbesserung des Varianzkriteriums auftritt und berechne die Gruppenschwerpunkte neu. Aufgrund der Neuberechnung der Schwerpunkte mit jeder Verschiebung ist auch dieses Verfahren von der Reihenfolge der betrachteten Elemente abhängig. 5.3 Bewertung einer Clusterlösung Beim Vergleich mehrerer Algorithmen, die zu einer Clusterlösung führen, empfiehlt es sich, die gefundenen Lösungen hinsichtlich verschiedenster Kriterien zu beleuchten, um dasjenige Verfahren auswählen zu können, welches das beste Ergebnis liefert. Solche Kriterien können sein: Clusteranzahl Elementzahl der Cluster Clusterhomogenität Clusterheterogenität Rechenaufwand. Clusteranzahl: Auf die Ermittlung der richtigen Clusteranzahl wurde bereits in Kapitel 4.4 eingegangen. Zu beachten sind dabei natürlich auch die Eigenschaften des Datensatzes und der Fragestellung. Meist ist eine Reduktion auf zumindest 1 der Merkmale 10 vertretbar. 31

36 Elementzahl der Cluster: Eine ungefähre Gleichverteilung der Elemente auf alle Cluster ist natürlich wünschenswert, wird in der Praxis aber kaum gegeben sein. Beinhaltet eine Klasse den Großteil der Elemente und verteilen sich wenige restlichen Elemente in den verbliebenen Gruppen, so ist eine Clusteranalyse vielleicht keine geeignete Möglichkeit der Beschreibung dieses Datensatzes. Besser wäre in diesem Fall wahrscheinlich eine Überprüfung, ob die wenigen Elemente außerhalb als Ausreißer einer ansonsten homogenen Menge betrachtet werden könnten. Sowohl Clusteranzahl, als auch die Anzahl der Elemente innerhalb eines Clusters hängen stark mit der Homogenität innerhalb der Cluster zusammen. Je nach unterschiedlicher Definition dieser Homogenität in den einzelnen Verfahren können somit Clusteranzahl und Elementzahl innerhalb der Cluster stark variieren. Clusterhomogenität: Die Clusterhomogenität ist ein wesentlicher Bestandteil bei der Bewertung einer oder mehrerer Clusterlösungen. In Bacher [1994c] finden sich zwei Methoden die Clusterhomogenität zu beschreiben, nämlich das Korrelationsmaß und der Homogenitätsindex. Eine weitere Möglichkeit besteht in der Berechnung der mittleren Distanz innerhalb einer Gruppe G i mit n i Elementen. h(g i ) = 1 c d(j, k) j<k, j,k G i c ist hier eine Normierungskonstante und kann beispielsweise über c = n i (n i 1) 2 berechnet werden. Aber auch die maximale Distanz im Cluster kann als Homogenitätsmaß herangezogen werden. h(g i ) = max j,k G i d(j, k) Clusterheterogenität: Als Heterogenitätsmaße können die minimale, mittlere oder maximale Distanz zwischen den Clustern verwendet werden. Dabei ist wieder zu beachten, wie die Distanz zwischen den Clustern definiert wurde: ob sie als Distanz der Schwerpunkte oder als minimale bzw. maximale Distanz der einzelnen Elemente berechnet wurde. 32

37 6 Datensatz 6.1 Daten Wie in Kapitel 1.1 bereits angeschnitten, soll die Wetterprognose für den mitteleuropäischen Raum mittels einer automatisierten Clusterung von bereits zur Verfügung stehenden Wetterkarten vereinfacht werden. Diese Wetterkarten werden auch als Ensemble- Mitglieder oder kurz members bezeichnet. Die für die Karten benötigten Daten werden für den für Österreich relevanten Raum im sphärischen Rechteck zwischen dem 3. und 17. Längengrad und dem 44. und 50. Breitengrad aus Messstationen mit einer Distanz von 0.5 Grad Entfernung zueinander erhoben. Es ergeben sich somit = 377 Stationen, in denen die relevanten Werte erhoben werden. Für Prognosen dieser Art wird die relative Feuchte rh auf einer Höhe, die dem Druckniveau von 700 hpa entspricht, verwendet. Sie berechnet sich als Quotient von Partialdruck von Wasserdampf und dem Partialdruck von Wasserdampf bei Sättigung. Diese wiederum berechnen sich aus Temperatur, spezifischer Feuchte und Druck. Genauer: rh = e e = r r 1 + r ε 1 + r ε r = ε e p d, r = ε e p d. Dabei wird e als Dampfdruck, e als Gleichgewichtsdampfdruck, p d als Partialdruck der trockenen Luft und q = r als spezifische Feuchte bezeichnet. 1+r In jeder der 377 Messstationen werden also Temperatur und spezifische Feuchte auf einem speziellen Druckniveau ermittelt und die relative Feuchte in jedem Messpunkt errechnet. Anstatt der relativen Feuchte können auch andere Repräsentanten für die Prognosen herangezogen werden. Beispielsweise die Windgeschwindigkeit, die Niederschlagssumme über einen gewissen Zeitraum, das Geopotential einer bestimmten Druckfläche oder die pseudoäquivalentpotentielle Temperatur, die eine Kombination aus Temperatur und spezifischer Feuchte relativ zu einem Referenzniveau darstellt. Diese und weitere Repräsentanten können nach Molteni [2001] ebenfalls mittels Clusterung ausgewählt werden. Aufgrund des zugrundeliegenden chaotischen Systems wird nicht nur die Prognose einer Ursprungskarte errechnet, sondern es werden 50 Variationen dieser Anfangsdaten vorgenommen. Diese Variationen unterscheiden sich nur sehr geringfügig von der Ursprungskarte und kommen durch Störungen, die in den ersten 3 Tagen der Vorhersage am stärksten anwachsen, zustande. Zusätzlich zu diesen Variationen der Anfangsbedingungen werden noch Modellfehler bei den verschiedenen Karten berücksichtigt. Genauer, 33

38 beschrieben findet sich diese Methode in Molteni [1993]. Meist wird noch ein Kontrolllauf hinzugefügt, sodass sich 51 neue ursprüngliche Karten ergeben. Dieser Kontrolllauf unterscheidet sich von den anderen in der Hinsicht, dass er vom bestverfügbaren Ausgangszustand startet. Mittels des Ensemble Prediction System (EPS) des ECMWF wird für jede dieser Ursprungskarten eine Vorhersage für unterschiedliche Zeiten in die Zukunft berechnet. Beispielsweise sollen Prognosen für Zeitpunkte im 6 Stunden Intervall erstellt werden. Somit gibt es zum Zeitpunkt Null die Variationen der Anfangsdaten (plus Kontrolllauf), zum Zeitpunkt Eins dieselbe Anzahl von Prognosen dieser Daten 6 Stunden in die Zukunft gerechnet, zum Zeitpunkt Zwei die Prognosen 12 Stunden in die Zukunft gerechnet, etc. Nach 240 Stunden wird die Berechnung abgebrochen, da aus meteorologischer Sicht eine Prognose, die weiter als 10 Tage entfernt ist, nicht mehr sinnvoll erscheint. Hier wurden immer äquidistante Zeitabstände von 6 Stunden gewählt, allerdings sind natürlich auch andere, mal längere mal kürzere, Zeitabstände möglich. Zu jeder Ursprungskarte gibt es somit 39 Prognosen, also insgesamt 40 Karten. Diese Prognosen sind aufgrund ihrer zugrundeliegenden gemeinsamen Ursprungskarte von einander abhängig. Genauer betrachtet ergibt sich für die Werte auf jeder Ursprungskarte auch eine Abhängigkeit: Die erhobenen Werte jeder Messstation sind aufgrund ihrer räumlichen Lage voneinander abhängig. Nahe beieinander liegende Messstationen werden eine ähnliche Temperatur oder spezifische Feuchte aufweisen. Weiters ist zu beachten, dass die Messstationen auf der Erdkugel liegen und nicht auf einem ebenen Rechteck verteilt sind. Das bedeutet, dass die Anzahl der Messpunkte pro Flächeneinheit mit steigendem Breitengrad auch steigen wird, da sich die Meridiane im Pol treffen. Wilks [2006] schlägt vor, dies mit einer Multiplikation der Werte mit cos(φ) auszugleichen, wobei Φ den Breitengrad darstellt. Diese Tatsache muss hier aber nicht berücksichtigt werden, da es sich in diesen Größenverhältnissen nur um eine vernachlässigbar geringe Veränderung der Positionen der Messstationen handelt. Da eine Prognose für den oben genannten Raum gewünscht ist, enthält jede der 51 Ursprungskarten 377 numerische Werte für relative Feuchtigkeit. Diese Werte werden als Spaltenvektor angeschrieben und jede Ursprungskarte liefert somit einen Datenvektor der Form Die 51 Datenvektoren werden nun nebeneinander gestellt und es entsteht eine Matrix der Form Diese Matrix stellt also die Variationen der Wetterkarten in einem Zeitpunkt dar. Da zusätzlich 39 Prognosen dieser Karten erstellt wurden, entstehen somit 40 dieser Matrizen. Bemerkung: Ein Vorteil, der sich aus dieser Art des Datensatzes ergibt, ist die Vollständigkeit der 34

39 Daten. Da die relative Feuchte aus - in Messstationen erhobenen - Werten berechnet wird, treten keine fehlenden Einträge auf. Außerdem hat die relative Feuchte numerischen Charakter, welcher sich vor allem in der Distanzberechnung als vorteilhaft erweisen wird. Als Beispiel sei ein solches Ensemble Mitglied unten angeführt. Der zugehörige Datenvektor findet sich im Anhang A Aufgabenstellung Um eine Wetterprognose tätigen zu können, müssen nun die Wetterkarten je Zeiteinheit genau betrachtet und die Änderung, die sie in diesen Zeitintervallen durchlaufen, ebenfalls beobachtet werden. Die Ursprungskarten unterscheiden sich nur minimal von der originalberechneten Karte und daher werden die entstehenden 51 möglichen Wetterverläufe anfangs auch noch sehr ähnliche Daten aufweisen, mit zunehmender Zeit allerdings immer stärker divergieren. Dabei ist es möglich, dass sich gewisse Läufe schnell sehr stark unterscheiden, während andere sich ähnlich entwickeln. Eine genaue Untersuchung ist bei 51 Wetterkarten und 40 Durchläufen aber nicht mehr per Hand möglich. Somit wäre es von Vorteil, die Wetterkarten vorerst bezüglich eines Zeitpunktes zu gruppieren und nur einen Repräsentanten je Gruppe näher zu betrachten. Der Meteorologe hat also nicht mehr 51, sondern nur eine geringere Anzahl, beispielsweise 9 Gruppen, die sich dafür stark voneinander, innerhalb der Gruppen aber wenig unterscheiden. In einem weiteren Schritt soll nicht nur eine Zeiteinheit betrachtet werden, sondern alle 40 Zeitschritte und wie sich die Gruppierungen im Laufe der Zeit verändern. Sind sich also beispielsweise gewisse Elemente zum Zeitschritt t 0 ähnlich und somit in einer Klasse zusammengefasst, so ist es interessant zu wissen, ab welchem Zeitschritt t i sich Elemente aus dieser Gruppe entfernen. Dies entspricht einer Abweichung der Wetterprognosen voneinander. Zuerst müssen nun alle 51 Wetterkarten zu einem festen Zeitpunkt t klassifiziert werden und anschließend ist zu untersuchen, wie sich diese Gruppierung bezüglich einer Änderung von t auf die Mitglieder auswirkt. Am Ende soll es möglich sein, den zeitlichen Verlauf je Gruppe klar mittels eines Repräsentanten der Gruppe darzustellen, die Mitglieder der einzelnen Gruppen und spezielle Eigenschaften der Gruppen zu ermitteln und somit eine übersichtliche Anzahl von möglichen Wetterverläufen zu erhalten. 35

40 6.3 Datenaufarbeitung Vorerst interessieren somit nur die Wetterprognosen zu einem Zeitpunkt. In diesem Zeitpunkt ist eine Datenmatrix gegeben, deren Einträge die errechnete relative Feuchte darstellen. Diese Datenmatrix sei in Zukunft mit rh für relativ humidity bezeichnet. Ein Beispiel für diese Datenmatrix rh findet sich unten. Zur Übersichtlichkeit wurden nur die ersten 5 der 377 möglichen Zeilen und die ersten 7 der 51 Spalten angegeben. file:///c /Dokumente%20und%20Einstellungen/i/Desktop/Text.txt Jede Spalte dieser Matrix lässt sich in ein 2D Bild der relativen Feuchte für folgende, für Österreich relevante, Region übertragen: Welche Art von Problematik liegt nun dieser Fragestellung zugrunde? Ein Klassifikationsoder ein Diskriminationsproblem? Würde ein Diskriminationsproblem vorliegen, so wären bereits Klassen bekannt, denen die Elemente zugeordnet werden müssten. Dies ist nicht der Fall, somit ist das Gruppieren dieser Bilder ein klassisches Klassifikationsproblem. Weder die Anzahl der Cluster, die Anzahl ihrer Mitglieder noch die Standorte ihrer Schwerpunkte sind dabei bekannt. Die Bilder, die zu clustern sind, werden im folgenden auch als Elemente oder, wie bereits erwähnt, members bezeichnet. Eine räumliche Darstellung dieser Elemente, oder gar eine Darstellung in der Ebene wäre zwar vorteilhaft, um einen ersten Eindruck der zugrunde liegenden Struktur zu erhalten, ist aber aufgrund der hohen Dimensionszahl eines Bildvektors (377) nicht möglich. Es gibt Verfahren, wie beispielsweise das PCA Verfahren, um die Dimensionszahl drastisch zu reduzieren und eine graphische Darstellung eventuell doch zu ermöglichen. Allerdings spricht der Aufwand eines solchen Verfahrens und die eher mageren Informationen, die sich dadurch erzielen lassen, nicht dafür. Vor allem nachdem sich die Spalten als 2D Bilder betrachten lassen und somit gewisse Ähnlichkeiten einzelner Elemente mit anderen durchaus mit freiem Auge erkennbar werden. 36 file:///c /Dokumente%20und%20Einstellungen/i/Desktop/Text.txt :09:28

41 Die einzelnen Objekte, also die members, sollen gruppiert werden und daher handelt es sich in diesen Fall um eine objektorientierte Clusteranalyse. Nun werden meist bei der objektorientierten Datenanalyse die Daten so angeordnet, dass die Zeilen der Datenmatrix die Objekte darstellen und somit eine Gruppierung der Zeilen vorzunehmen ist. Dies ist aber natürlich willkürlich so gewählt und im Fall der Wetterkarten ungünstig, da jede Karte bereits als Spalte von den vorhergehenden Prognoseprogrammen behandelt wird. Auf eine Transposition jeder Karte und einer Neuanordnung der Datenmatrix rh soll also zur Übersichtlichkeit verzichtet und die ursprüngliche Anordnung der

42 Matrix beibehalten werden. Um eine Prognose treffen zu können soll nun weiters jedes Element genau einer Gruppe zugeordnet werden. Es soll also keine probabilistische- oder fuzzy Clusteranalyse sondern eine überlappungsfreie deterministische Clusteranalyse durchgeführt werden. Da weiters jedes Element zu einer Gruppe gehören soll, also alle Elemente einer Klasse zugeordnet werden können, muss das Verfahren auch erschöpfend sein. Skala: Die Einträge der einzelnen Elemente spiegeln die relative Feuchte wider. Diese wird meist dimensionslos, bzw in Prozent angegeben und somit haben alle Einträge quantitativen Charakter. Die Werte erfüllen die Bedingungen für die Verhältnisskala und können geordnet und die Distanzen zueinander und zum Nullpunkt können angegeben werden. Transformation: Generell sollten die Werte bei jeder Clusteranalyse standardisiert werden, um einen Vergleich zwischen unterschiedlichen Skalen zu ermöglichen. In diesem Fall stellen alle Einträge die relative Feuchte dar. Es ist also nicht zwingend notwendig diese zu standardisieren, vor allem da bei der Betrachtung der 2D Bilder die exakten Werte für die relative Feuchte von Bedeutung sind. Gewichtung: Eine Gewichtung ist natürlich möglich, soll hier aber nicht vorgenommen werden, da alle Regionen auf der Karte denselben Einfluss auf die Ähnlichkeit oder Unähnlichkeit zu einer anderen Karte haben sollen. Ist allerdings eine Region von besonderer Bedeutung so kann sie durchaus gewichtet werden. Wie die Gewichte dabei zu wählen sind, ist sowohl von der Region und deren Bedeutung als auch von den verwendeten Verfahren abhängig. 38

43 7 Hierarchisches Verfahren Um eine möglichst gute Gruppierung zu erhalten, wird mit Hilfe eines hierarchischen Verfahrens eine Anfangspartition ermittelt, auf die dann weiters ein partitionierendes Verfahren angewandt wird. So kann für den ersten Schritt des partitionierende Verfahrens bereits eine bessere Gruppierung gewählt werden, als dies mit einem Zufallsmodell der Fall wäre. 7.1 Distanzfunktion Ob sich zwei Wetterkarten nun ähnlich sind oder nicht, ist mit freiem Auge bis zu einem gewissen Maß durchaus feststellbar. Ganz unbewusst werden einzelne Regionen untersucht und deren Werte miteinander verglichen. Genau dasselbe Prinzip liegt bei der Distanzberechnung mittels Distanzfunktion zugrunde. Jeder Eintrag spiegelt die relative Feuchte bei einem bestimmten Längen- und Breitengrad wider. Somit können die Wetterkarten als Vektoren aufgefasst und Distanzen berechnet werden. Als Beispiel seien drei Wetterkarten mit der Elementnummer 23, 25 und 36 gegeben: Rein optisch sind sich die Karten 23 und 25 ähnlich, während sich sowohl 23 und 36 als auch 25 und 36 stark voneinander unterscheiden. Diese erste Theorie kann leicht mittels Distanzberechnung untersucht werden. Ob sich nun 23 und 36 oder 25 und 36 stärker unterscheiden ist mit freiem Auge nicht mehr erkennbar, sondern muss über die Distanzberechnung ermittelt werden. Da die relative Feuchte eine quantitative Variable ist, können alle unter Kapitel 3.5 vorgestellten Distanzen verwendet werden. Um einen Vergleich dieser verschiedenen Methoden zu erhalten, sollen die Distanz der drei untenstehenden Vektoren jeweils berechnet und untersucht werden. Die Distanzmatrizen sind Matrizen, die Elementnummern sind ansteigend geordnet, also. d(23, 23) d(23, 25) d(23, 36) D = d(25, 23) d(25, 25) d(25, 36) d(36, 23) d(36, 25) d(36, 36) 39

44 Da die zugehörigen Vektoren sehr lang sind, sind sie vollständig erst im Anhang A.2 wiedergegeben und können dort nachgeschlagen werden. City-Block Distanz: Mit dieser Methode ergibt sich eine Distanzmatrix von: 0 38, , 28 D City = 38, , , , 89 0 Die Werte müssen nicht notwendigerweise standardisiert werden, da alle dieselbe Skala aufweisen. euklidische Distanz: Es ergibt sich: 0 2, , 4344 D euk = 2, , , , Dies ist eine sehr gute Methode zur Berechnung der Distanzen. Als quadrierte euklidische Distanz ergibt sich: 0 8, , 007 D qeuk = 8, , 6. 89, , 6 0 Bei den euklidischen Distanzen werden allerdings auftretende Korrelationen nicht berücksichtigt. Tschebycheff Distanz: Es ergibt sich: 0 0, , D Tscheby = 0, , , , Mahalanobis Distanz: Das Bilden der Mahalanobis Distanz erfolgt unter Berücksichtigung eventuell auftretender Korrelationen. 0 17, , 7494 D Mahal = 17, , , , Bei der Berechnung der Mahalanobisdistanz fließt die Inverse der Kovarianzmatrix S mit ein. Da diese Inverse aufgrund der beinahe Singularität von S nur schlecht berechnet werden kann, ist bei dieser Distanz äußerste Vorsicht geboten. Entweder die Distanz wird nur unter Vorbehalt, oder noch besser, gar nicht verwendet. 40

45 Q-Korrelationskoeffizient: Dieser Koeffizient liefert keine Distanzmatrix, sondern ein Ählichkeitsmaß. Ist ein Distanzmaß gefragt, so kann mit der Korrelationsdistanz gerechnet werden. 0 0, , 9444 D korr = 0, , , , Alle Distanzmaße, bis auf die Mahalanobisdistanz, bestätigen die Vermutung, dass sich 23 und 25 nahe stehen, während 36 weiter entfernt liegt. Weiters lässt sich erkennen, dass sich Element 23 und 36 nur knapp näher liegen als 25 und 36. Als Distanzmaß eignen sich alle obigen Distanzen mit Ausnahme der Mahalanobisdistanz. Als Basis für alle weiteren Verfahren sind vor allem die euklidische und quadrierte euklidische Distanz geeignet, da sich einige agglomerative Verfahren besonders auf diese Distanzen stützen. Im weiteren Verlauf wird immer mit einer dieser beiden Distanzmaßen gerechnet. 7.2 Agglomerative Verfahren Ob nun ein agglomeratives oder divisives Verfahren verwendet werden soll, ist einfach zu beantworten, wenn die Rechenzeit möglichst kurz gehalten werden soll. Für das agglomerative Verfahren gibt es n (n 1) = = 1275 mögliche Paare. Beim divisiven Verfahren 2 2 jedoch 2 ng 1 1 = = = mögliche Aufspaltungen. Es kann somit nur das agglomerative Verfahren in der Praxis Verwendung finden. Welches der agglomerativen Verfahren nun verwendet werden soll, hängt von deren spezifischen Eigenschaften ab: Besonders ungünstig bei Prognosen wäre sowohl der Verkettungseffekt, den das Single- Linkage Verfahren aufweist, als auch die Tendenz zu einer großen Clusteranzahl, wie es beim Complete-Linkage der Fall ist. Das Average-Linkage würde zwar einen Kompromiss liefern, ist aber nicht sonderlich gut für diese Art der Fragestellung geeignet. Da aus den berechneten Clustern später mögliche Wetterprognosen erstellt werden sollen, interessieren eigentlich nicht die Elemente eines Clusters, sondern dessen Schwerpunkt. Dies ist ein weiterer Grund, weshalb die oben genannten Verfahren sich nicht als vorteilhaft erweisen. Als bessere Möglichkeiten entpuppen sich das Median-, Zentroid- oder Ward Verfahren. Ein großer Vorteil des Zentroidverfahrens, im Gegensatz zum Medianverfahren, ist die Gewichtung bezüglich der Anzahl der Elemente in einem Cluster. Das Ward Verfahren eignet sich besonders, wenn einzelne Cluster ungefähr dieselbe Anzahl an Elementen aufweisen und die Variablen unkorreliert sind. Dies ist aber in diesem Datensatz nicht der Fall. Weiters müssen für die Interpretation durch den Meteorologen sowieso die Mittelwerte der Gruppen und damit ihre Schwerpunkte berechnet werden. Für diese Art der Fragestellung empfiehlt sich somit das Zentroidverfahren. 41

46 Im Zuge dieser Diplomarbeit hat sich herausgestellt, dass das Zentroidverfahren zwar gute Ergebnisse liefert, aber diese noch ein bisschen verbessert werden können, wenn folgende Bedingung zusätzlich in das Verfahren eingebaut wird: Zusammengefasst sollen nicht diejenigen Cluster werden, deren Schwerpunkte sich am nächsten liegen, sondern diejenigen, bei denen die maximale Distanz eines Elements zum neuen Schwerpunkt am kleinsten ist. Der Unterschied dieser Verfahren wird im folgenden Rechenbeispiel deutlich: Es seien 5 Vektoren gegeben, die es zu clustern gilt: a = (0, 0), b = (0, 1), c = (2, 1), d = (3, 2), e = (5, 1) Diese Vektoren lassen sich zweidimensional darstellen. Im unten stehenden Bild sind die Vektoren, der Verlauf der Clusterung und ein Dendrogramm angegeben. Dieses Bild wurde nach dem Zentroidverfahren erstellt. Farbig gekennzeichnet ist der Verlauf der Clusterung, also die Schritte, die jeweils zwei Cluster zusammenführen. Der farbige Punkt stellt den neuen Schwerpunkt dieses Schrittes dar. Die Distanz zweier Cluster wird über die Distanz ihrer Schwerpunkte angegeben und ist im Dendrogramm ersichtlich. Zuerst werden nun die Punkte a und b mit dem kleinsten Abstand 1 zusammengefügt, dann schließt sich der Punkt c diesem Cluster an. d und e werden gruppiert und zum Schluss befinden sich alle Punkte in einer Klasse. Clustert man dieselben Anfangspunkte nach der neuen Methode so ergibt sich: 42

47 Im ersten Schritt werden wiederum die Punkte a und b gruppiert. Der Abstand dieser beiden Elemente ist 0.5, da beide gleich weit (nämlich 0.5) vom Schwerpunkt entfernt liegen. Nun werden d und e zusammengefügt, da sie eine Distanz von 1.12 zu ihrem Schwerpunkt aufweisen, während die maximale Distanz der Punkte a, b und c zu ihrem Schwerpunkt 1.37 (dies ist der Abstand des Punktes c zum Schwerpunkt) beträgt. Als Schlussschritt werden nun die beiden verbleibenden Cluster zusammengefügt. An diesem Beispiel ist ersichtlich, dass sich die grobe Clusterstruktur nicht ändert. In beiden Fällen werden zuerst die Elemente a und b vereinigt und im letzten Schritt verschmilzt die Gruppe G 1, deren Elemente a, b und c sind, mit der Gruppe G 2, mit den Elementen d und e. Nur bei Zusammenführungen, bei denen sich die Distanzen sehr wenig von einander unterscheiden, findet eine Änderung statt. Bei der zweiten Methode wird dem neu entstehenden Schwerpunkt und den Abständen zu ihm eine größere Bedeutung beigemessen. Es kann nun für einen bestimmten Zeitpunkt die Distanzmatrix berechnet und eine Gruppierung durchgeführt werden. Zuerst sind, wie bei jedem agglomerativen Verfahren, alle Elemente isoliert. In jedem Schritt werden nun zwei Elemente zusammengeführt und nach 50 Schritten befinden sich alle Punkte in einem Cluster. Als Ausgabe und um den Verlauf der Zusammenführungen genau beobachten zu können, werden die einzelnen Schritte in einer Matrix N ausgegeben. Hier seien nur die ersten Zeilen dieser Matrix angegeben, vollständig findet sie sich in Kapitel Werden zwei Elemente oder Gruppen zusammengefügt, so erhält die entstehende Gruppe einen neuen Namen. Die Bezeichnung erfolgt fortlaufend, das bedeutet: Da es 51 einzelne Elemente gibt, wird die erste Gruppe die durch Zusammenfügen zweier Elemente, beispielsweise 2 und 6, entsteht, mit bezeichnet Die Gruppen mit den Bezeichnungen und 6 fallen weg Die erste Spalte der Matrix N gibt nun die neue Gruppenbezeichnung der in diesem Schritt verschmelzenden Klassen wieder In der zweiten und dritten Spalte stehen die Gruppennummern und der Eintrag in der vierten Spalte bezeichnet das Distanzniveau zu dem sie verschmolzen werden Zu lesen ist diese Matrix wie folgt: Der Cluster mit der Nummer 64 besteht aus den Klassen 19 und 54. Da sich 54 wiederum aus und zusammensetzt, sind die Elemente

48 von 64 nun 19, 15 und 32. Die Klassen 19 und 54 verschmelzen mit einem Distanzniveau von Graphische Darstellung Mit Hilfe der Matrix N lässt sich der Verlauf der Gruppenbildung zwar gut verfolgen, einen guten und schnell ersichtlichen Gesamteindruck liefert sie allerdings nicht. Dazu sind graphische Modelle wie das Dendrogramm oder das Eiszapfenmodell besser geeignet. Auf das Eiszapfenmodell wird hier zugunsten des Dendrogramms verzichtet, da es keinerlei Informationen, die das Dendrogramm nicht bietet, liefert. Nun wäre für ein Dendrogramm eine geringere Anzahl von Elementen zwar günstiger, aber die 51 members sind durchaus noch darstellbar. Um einen Vergleich der Matrix N und dem Dendrogramm zu ermöglichen, sind hier beide nebeneinander abgebildet

49 7.4 Anzahl der Cluster Um nun zu erkennen, in welchem Schritt der Algorithmus abgebrochen werden soll, gilt es, den Zuwachs in jedem Schritt genau zu beobachten. Dazu wird die Matrix N um eine Spalte erweitert, in der sich die Differenz zweier aufeinander folgender Distanzen befindet. Da es in der ersten Zeile keine Differenz gibt, wird diese Zeile der Matrix N auf 0 gesetzt Meist befindet sich der Zuwachs in einem Bereich um 0.1. Nur viermal erreicht er Werte um 0.2 bzw Erst in den letzten Schritten steigt diese Differenz stärker an. Diese Anstiege sind rot hervorgehoben. Der größte Anstieg erfolgt im letzten Schritt von auf Zwei weitere große Anstiege gibt es im 47. und 48. Schritt des Algorithmus. Diese drei Punkte sind somit Kandidaten, um einen Abbruch vorzunehmen. Dies ist auch aus den Grafiken unten ersichtlich: 45

50 Die linke Grafik zeigt den inversen Scree-Plot dieser Differenzen. Die x-achse bezeichnet hier allerdings nicht die Anzahl der Cluster, sondern die Stufe der Zusammenführung. Es ist im letzten Schritt eindeutig der größte Anstieg ersichtlich. Bis zu Schritt 46 können die Distanzen durchaus als Annäherung einer linearen Funktion betrachtet werden. Die Schritte 47 und 48 fallen, genauso wie der letzte, dafür aus dem Rahmen. Diese Schritte sind die Knicke nach denen gesucht werden muss. Das rechte Bild gibt den Zuwachs in den einzelnen Schritten an. Auch hier sind die höchsten Zacken in den Schritten 47, 48 und 50 zu finden. Die Stufen der Zusammenführung vor diesen Schritten sind somit die potentiellen Abbruchstellen des Algorithmus. Um diese Abbruchstellen und die daraus resultierenden Cluster genauer betrachten zu können, empfiehlt sich wieder das Dendrogramm. 46

51 Die gepunktete Linie gibt jeweils die Abbruchstelle für das Verfahren an. Zur besseren Leserlichkeit wurden die aus diesem Abbruch entstehenden Cluster farbig gekennzeichnet. Der restliche Verlauf des Verfahrens ist schwarz eingezeichnet. Links ist nun die erste der drei möglichen Lösungen dargestellt. Es handelt sich hierbei um den Abbruch vor der Stufe 50, somit wurde die letzte Zusammenführung nicht mehr durchgeführt. Es entstehen zwei unterschiedlich große Cluster. Der erste (rot) beinhaltet 40 Elemente, der zweite (blau) hingegegen nur 11. Der maximale Abstand eines Elements zum Clusterschwerpunkt beträgt im ersten Cluster und im zweiten In der Mitte befindet sich die zweite Lösungsmöglichkeit, die mittels Abbruch vor der Stufe 48 zustande kommt. Es entstehen 4 Cluster. Diese Cluster enthalten unterschiedlich viele Elemente und haben verschiedene Maximalabstände zu ihrem jeweiligen Schwerpunkt. Rechts steht das Dendrogramm zum Lösungsansatz 3. Es wurde zum Abbruch an der Stelle 47 erstellt und enthält eine Aufteilung in 5 Cluster. Die genauen Daten dieser drei Möglichkeiten befinden sich in der untenstehenden Tabelle. Anzahl Anzahl der Elemente max. Abstand der Elemente der Cluster der Cluster zu ihrem SP Lösung (rot); 11 (blau) (rot) ; (blau) Lösung (rot); 19 (blau); (rot); (blau) 7 (grün); 4 (gelb); (grün); (gelb) Lösung (rot); 8 (magenta); (rot); (magenta) 19 (blau); 7 (grün) (blau); (grün) 4 (gelb) (gelb) Die Abstände der einzelnen Elemente zu ihrem Clusterschwerpunkt befinden sich für jede Lösung einzeln als Matrix zusammengefasst im Anhang A.3. Für diesen Datensatz wäre die Fünf-Clusterlösung sicherlich die Beste. Nicht nur, dass 5 Cluster die ursprünglich 51 Elemente recht gut zusammenfassen und somit eine Reduktion auf 10% erfolgt, die Cluster haben zusätzlich eine recht gute Verteilung der Elemente. Trotz der Tatsache, dass es zwei etwas größere, zwei mittlere und einen kleinen Cluster gibt, ist die jeweilige Anzahl von Elementen gut vertretbar. Nur einer der Cluster enthält knapp mehr als ein Drittel der Elemente und keiner enthält weniger als drei Elemente. Daraus ist feststellbar, dass sich nicht alle Elemente sehr ähnlich sind und weiters gibt es auch keinen so starken Ausreißer, dass er einen ganzen Cluster nur für sich beansprucht. Die Bilder zu dieser Lösung befinden sich im Anhang B.1. Bisher wurde bei der Wahl der Anzahl der Cluster nicht auf die Fragestellung selbst eingegangen. Dies soll nun mit folgenden Überlegungen nachgeholt werden. Aus meteorologischer Sicht sollte die Anzahl der Cluster nicht größer als 9 sein. Auch wenn nur ein oder zwei Cluster angegeben werden, ist dies nicht sinnvoll. Weiters muss die Anzahl der Cluster in jedem Zeitschritt gleich groß sein, da die Entwicklung der Cluster gut beobachtbar sein soll. Verschwindende und später wieder auftauchende Cluster sind somit nicht zielführend. Dieses Problem der fixen Clusteranzahl für unterschiedliche 47

52 Datensätze wird später nochmals aufgenommen. Um nun auf die Eigenheiten der unterschiedlichen Datensätze eingehen zu können, muss der Meteorologe von Fall zu Fall neu entscheiden, in wie viele Cluster er die Elemente aufteilen möchte. Mit Hilfe der Spalte für den Zuwachs und den entsprechenden Bildern, kann somit nur ein Vorschlag für die mögliche Anzahl geliefert werden, die letzte Entscheidung bleibt aber dem Meteorologen überlassen. 48

53 8 Partitionierendes Verfahren 8.1 Vorbemerkung Das hierarchische Verfahren alleine liefert zwar auch eine recht gute Clusterung, kann aber durch ein anschließendes partitionierendes Verfahren noch weiter verfeinert werden. Wie bei diesem zusätzlichen Verfahren vorgegangen wird, hängt davon ab, wie die Anzahl der Cluster gewählt wurde. Da die Anzahl der Cluster für jedes partitionierende Verfahren fix vorgegeben werden muss, hängt die Qualität der erreichten Lösung auch stark von der Anfangspartition ab. Wird die Anfangspartition mittels eines hierarchischen Verfahrens ermittelt, in dessen Zuge die optimale Anzahl der Cluster mit den in Kapitel 4.4 genannten Methoden berechnet wurde und diese Anzahl als fixe Anzahl der Cluster vorgegeben, so stellt das Ergebnis des hierarchischen Verfahrens eine sehr gute Anfangspartition dar. Ist allerdings aus meteorologischen Gründen eine ganz spezielle Anzahl von Clustern erwünscht, die unabhängig vom Ergebnis des hierarchischen Verfahrens ermittelt wurde, so muss auf andere Weise eine Anfangspartition ermittelt werden. Im folgenden seien dazu zwei Lösungsvorschläge vorgestellt: 8.2 Möglichkeit 1 Es sei die Anzahl der Cluster K fix von außen, unabhängig vom hierarchischen Verfahren, vorgegeben. Das hierarchische Verfahren wird auf die Datenmatrix angewandt. Abgebrochen wird nicht nur bei der fix vorgegebenen Clusteranzahl, sondern mehrmals vor und nach dieser Anzahl. Somit erhält man unterschiedliche Anfangspartitionen zu unterschiedlicher Clusteranzahl k. Beispielsweise wird nicht nur bei der gewünschten Clusteranzahl 9, sondern auch alle 5 Schritte vor und nach 9 abgebrochen. Alle diese Anfangspartitionen laufen durch den unten beschriebenen Algorithmus 1 und am Schluss wird diejenige Clusterlösung verwendet, welche die besten Ergebnisse aufweist. Da partitionierende Verfahren relativ wenig Rechenaufwand erfordern, können recht viele neue Abbruchstellen zusätzlich in die Berechnung einfließen. Algorithmus 1: Gegeben sei eine Anfangspartition der n Elemente in k Klassen. 1. Berechne die Abstände der einzelnen Elemente zu ihren Schwerpunkten. 2. Nimm dasjenige Element e i welches den größten Abstand zu seinem Klassenschwerpunkt aufweist. 3. Führe einen der unten genannten Punkte durch: 49

54 Berechne den Abstand von e i zu allen anderen Schwerpunkten. Dieser Abstand sei mit d alt j (e i, SP j ) bezeichnet. Berechne den Abstand von e i zu allen neu entstehenden Schwerpunkten. Diese neu berechneten Schwerpunkte entstehen durch Hinzufügen des Elements e i zu jedem Cluster und Berechnung des Schwerpunkts. Dieser Abstand sei mit d neu j (e i, SP j ) bezeichnet. Berechne D(e i, SP j ) = min j d(e i, SP j ). Der Abstand des Element e i zu seinem ursprünglichen Cluster bleibt in beiden Fällen derselbe. 4. Verschiebe das Element in denjenigen Cluster, zu dem es die kleinste Distanz aufweist. Ist der Abstand des Elements zu seinem ursprünglichen Cluster der kleinste, so eröffne einen neuen, leeren Cluster und verschiebe das Element in diesen Cluster. Berechne die Distanzmatrix neu. Die Anzahl der Cluster erhöht sich gegebenenfalls um Ist die Anzahl der Cluster k größer als die gewünschte Anzahl der Cluster K so verschmelze diejenigen Cluster, deren Schwerpunkte sich am nächsten befinden. Die Anzahl der Cluster verringert sich um Wiederhole ab dem ersten Schritt. Brich das Verfahren ab, sobald Schleifen auftreten, sich keine Elemente mehr verschieben, oder keine Cluster mehr verschmolzen werden. Der große Vorteil dieses Algorithmus besteht darin, zu einer gewissen Anzahl von Clustern zu führen, ohne diese Anzahl von Beginn an aufweisen zu müssen. Die Nachteile sind klar: Wie beim k-means Algorithmus wird die Distanzmatrix in jedem Schritt neu berechnet und somit ist auch dieser von der Reihenfolge der zu verschiebenden Elemente abhängig. Ein weiterer Nachteil ist die Möglichkeit der Schleifenbildung. So kann in einem Schritt ein Element abgespalten und im nächsten sofort wieder zurückverschmolzen werden. In diesem Algorithmus muss weiters noch entschieden werden, welche der unterschiedlichen Distanzen verwendet werden soll. Im großen und ganzen ist dies wieder der Unterschied der in Kapitel 7.2 aufgezeigt wurde. Die durch diesen Algorithmus entstehenden möglichen Clusterungen weisen alle die gesuchte Anzahl von Klassen auf, haben aber eine unterschiedliche Verteilung der Elemente in diesen Klassen. Über die Bewertung dieser Clusterlösungen kann diejenige mit den besten Eigenschaften herausgefiltert werden. Dieser Algorithmus eignet sich gut, um potentielle Ausreißer feststellen zu können. Ein Ausreißer wird sich in den ersten paar Schritten abspalten und einen Cluster mit nur einem Element bilden. Ein dadurch entstehender Nachteil ist die Zusammendrängung der restlichen Elemente in den noch vorhandenen Clustern. Da ein Element einen ganzen Cluster für sich beansprucht, müssen alle übrigen sich auf die verbleibenden Cluster 50

55 verteilen, was zwangsläufig zu sehr großen Clustern führen kann. Dies wird in dem bisher bereits verwendeten fünf-cluster-beispiel verdeutlicht: In diesem Beispiel ergeben sich folgende, mittels Algorithmus 1 berechneten, Clusterzugehörigkeiten: Cluster 1 1, 2, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 18 21, 22, 24, 26, 27, 28, 30, 32, 33, 40, 41, 43, 44 45, 47, 48, 49, 50, 51 Cluster 2 4, 19, 29, 38 Cluster 3 36 Cluster 4 3, 13, 16, 20, 34, 35, 42 Cluster 5 17, 23, 25, 31, 37, 39, 46 Der Cluster 3 besteht nur aus einem einzigen Element, nämlich 36. Dies bedeutet, dass das Element 36 nirgends richtig dazupasst und somit einen poteniellen Ausreißer darstellt. Mittels Betrachtung der zugehörigen Wetterkarte kann dies auch optisch bestätigt werden. 8.3 Möglichkeit 2 Es wird ein hierarchisches Verfahren auf den Datensatz angewandt. Die Anzahl der Cluster k wurde abhängig von den Ergebnissen des hierarchischen Verfahrens ermittelt. Das hierarchische Verfahren wurde an der dafür vorgesehenen Stelle abgebrochen und es ist somit eine Anfangspartition vorgegeben. Algorithmus 2: Gegeben sei eine Anfangspartition der n Elemente in k Klassen. 1. Berechne die Abstände der einzelnen Elemente zu ihren Schwerpunkten. 2. Nimm dasjenige Element e i welches den größten Abstand zu seinem Klassenschwerpunkt aufweist. 3. Führe einen der unten genannten Punkte durch: Berechne den Abstand von e i zu allen anderen Schwerpunkten. Dieser Abstand sei wieder mit d alt j (e i, SP j ) bezeichnet. Berechne den Abstand von e i zu allen neu entstehenden Schwerpunkten. Diese neu berechneten Schwerpunkte entstehen durch Hinzufügen des Elements e i zu jedem Cluster und Berechnung des Schwerpunkts. Dieser Abstand sei mit (e i, SP j ) bezeichnet. d neu j Berechne D(e i, SP j ) = min j d(e i, SP j ). Der Abstand des Element e i zu seinem ursprünglichen Cluster bleibt in beiden Fällen derselbe. 4. Verschiebe das Element in denjenigen Cluster, zu dem es die kleinste Distanz aufweist. Ist der Abstand des Elements zu seinem ursprünglichen Cluster der kleinste, so belasse es in diesem Cluster und nimm dasjenige Element, das den nächstgrößten Abstand zum Schwerpunkt aufweist und verschiebe dieses entsprechend. 51

56 5. Wiederhole ab dem ersten Schritt. Brich das Verfahren ab, sobald Schleifen auftreten oder sich keine Elemente mehr verschieben. Da im Zahlenbeispiel vorher bereits festgestellt wurde, dass eine Clusteranzahl von 5 eine gute Anfangspartition liefert, wird nun Algorithmus 2 auf diesen Datensatz angewandt. Im Laufe der Berechnung werden die verschobenen Punkte in eine Matrix geschrieben: Die erste Spalte gibt dasjenige Element an, das verschoben wurde, die zweite Spalte den ursprünglichen Cluster, in dem sich das Element befunden hat, und die dritte Spalte denjenigen Cluster in den das Element verschoben wird. Der Algorithmus stoppt, da sich das Element 51 von nun an von Cluster 1 zu Cluster 2 und zurück verschiebt. Um einen optischen Eindruck dieser neuen Clusterung zu ermöglichen, sind die zugehörigen Wetterkarten im Anhang B.2 abgebildet. 8.4 Allgemeines zu diesen Möglichkeiten Die erste Möglichkeit basiert zwar auf dem k-means Verfahren, wurde aber im Zuge dieser Diplomarbeit stark modifiziert. Es wurde zusätzlich eine Option eingebaut, die es erlaubt, die Clusteranzahl variabel zu halten. So ist nun das Eröffnen eines neuen Clusters bei zu großen Distanzen gestattet und es können eventuelle Ausreißer herausgefiltert werden. Das Eröffnen von Clustern wurde durch Verschmelzen der sich am nächsten befindenden Gruppen wieder ausgeglichen und so bleibt die vorgegebene Clusteranzahl erhalten. Die zweite Möglichkeit basiert ebenfalls auf der Idee des k-means Verfahrens, wurde aber dahingehend verändert, dass die betrachteten Elemente nicht willkürlich, sondern in einer ganz bestimmten Reihenfolge verschoben werden. Diese Reihenfolge wird hierbei durch die Abstände der Elemente zu den Schwerpunkten der Cluster vorgegeben. Durch die Einführung dieser Reihenfolge konnte bei dieser Art der Fragestellung ein besseres lokales Extremum erreicht werden, als es bei einem reinen k-means Verfahren der Fall wäre. Für diese Verfahren eignen sich beide der angegebenen Distanzmaße. Beide Möglichkeiten haben ihre spezifischen Vorteile, es sollte aber, falls möglich, die Clusteranzahl immer dem Datensatz angepasst und somit Möglichkeit 2 mit zum Beispiel der ersten Distanzmatrix, d alt j (e i, SP j ), verwendet werden. Bei beiden Möglichkeiten hängt die Verschiebung von der Reihenfolge der betrachteten 52

57 Elemente ab. Diese Reihenfolge wird allerdings so gewählt, dass die Elemente bezüglich ihrer Distanz zum Schwerpunkt absteigend angeordnet werden. Somit wird dieser Nachteil ein wenig dadurch ausgeglichen, dass dasjenige Element zuerst verschoben wird, welches den größten Abstand zu seinem Clusterschwerpunkt aufweist und somit am wenigsten passt. Weiters ist bei beiden Algorithmen die Möglichkeit gegeben, in eine Schleife zu geraten. Dabei werden Punkte von einem Cluster in den nächsten und zurück verschoben. In diesem Fall wird der Algorithmus abgebrochen und zwar an der Stelle, die das bessere Ergebnis liefert. Einen wichtigen Punkt im ersten Algorithmus stellt die Bewertung einer Clusterlösung dar. Immerhin muss mit dieser Bewertung entschieden werden, welche der möglichen Lösungen die Beste ist. Einige Vorschläge wie diese Bewertungskriterien aussehen können, wurden bereits in Kapitel 5.3 gemacht. In der Praxis hat sich der Vergleich zwischen dem mittleren Abstand der Elemente zu ihrem Schwerpunkt und dem mittleren Abstand der Schwerpunkte zueinander bewährt. Es sei n die Anzahl aller Elemente, k die Anzahl der Cluster, n j die Anzahl der Elemente im Cluster j. Dann ist DSP E j = 1 n j d(e i, SP j ) n j die mittlere Distanz der Elemente des Clusters j zu ihrem Schwerpunkt und i=1 D E = 1 k DSP E k j j=1 die mittlere Distanz der Elemente zu ihrem Schwerpunkt. Die mittlere Distanz der Schwerpunkte berechnet sich über D SP = k (k 1) 2 k d(sp j, SP i ). j i Um diese beiden Werte miteinander zu vergleichen, kann die Differenz herangezogen werden: D E D SP. Zur Übersicht dazu kann im Zahlenbeispiel eine Matrix wie folgt erstellt werden:

58 Die erste Spalte gibt die mittlere Distanz der Schwerpunkte, D SP, zueinander an, die zweite Spalte die mittlere Distanz der Elemente zu ihren Schwerpunkten, D E. Die dritte Spalte beinhaltet die Differenz D E D SP. Je kleiner diese Differenz, umso besser ist die Clusterlösung. Hier tritt, wie bereits oben bemerkt, der Fall einer Schleife auf. Der Algorithmus wird daher zu jenem Zeitpunkt abgebrochen, in dem diese Differenz kleiner und somit das Ergebnis besser ist. Ein Vergleich des ersten und des letzten Eintrags der dritten Spalte lässt die Verbesserung, die durch die vorgenommenen Verschiebungen entstanden ist, erkennen. Eine weitere Möglichkeit wäre der Vergleich zwischen dem maximalen Abstand, den ein Element zu seinem Schwerpunkt aufweist max j (max i (d(e i, SP j ))), und dem minimalen Abstand zwischen den Clusterschwerpunkten min i j (d(sp i, SP j )) selbst. 54

59 9 Clustern der unterschiedlichen Zeitschritte 9.1 Auffinden der Cluster über die Zeit Die in Kapitel 7.4 vorgestellten Verfahren ermöglichen es, bei gegebener Anzahl der Cluster, eine Clusterung der 51 members vorzunehmen. Nun müssen aber nicht nur einmal, sondern für jeden der angegebenen 40 Zeitschritte die 51 members geclustert werden. Natürlich wäre es nun eine Möglichkeit, das entwickelte Verfahren der Reihe nach auf alle Zeitschritte anzuwenden. Die Nachteile, die sich daraus ergeben, sind offensichtlich: Abgesehen vom explodierenden Rechenaufwand, der sich mit jedem neuen Zeitschritt ergibt, soll ja nicht nur die Anzahl der Cluster dieselbe bleiben, sondern die Cluster müssen zeitlich auch zusammenpassen. Das heißt, es soll eine Entwicklung eines Clusters über die Zeit verfolgbar sein. Aber gerade dieser zeitliche Zusammenhang liefert die Lösung des Problems. Ein Element verändert sich nur leicht über die Zeit. Als Beispiel sei hier das Element 23 zu den unterschiedlichen Zeitschritten gezeigt. Das bedeutet, wenn sich zwei Elemente e i (t 1 ) und e j (t 1 ) zu einem Zeitpunkt t 1 sehr ähneln, so werden sich ihre Nachfolger e i (t 2 ) und e j (t 2 ) auch nur gering voneinander unterscheiden. Unter der Annahme, dass sich zwei Elemente sehr ähneln und sich daher im selben Cluster befinden, tun sie das sehr wahrscheinlich auch im nächsten Schritt. Die Clusterung im nächsten Schritt ist aber natürlich nicht exakt dieselbe, weil sich die Elemente auch auseinander entwickeln können. Allerdings gibt die Clusterung, wie sie im Schritt vorher auftaucht, somit einen recht passablen Initialcluster für den zeitlich folgenden Schritt ab. Somit ist es nicht mehr nötig, in jedem Zeitschritt ein hierarchisches Verfahren anzuwenden, mühevoll die Anzahl der Cluster zu bestimmen und den Zeitschritten vorher 55

60 anzupassen. Es wird als Anfangspartition diejenige Clusterung, wie sie im Schritt vorher berechnet wurde, verwendet. Allerdings werden selbstverständlich nur die Elementnummern weitergegeben und diese mit den neuen Datenvektoren belegt. Danach wird darauf nur mehr ein partitionierendes Verfahren angewandt. Besonders eignet sich hier natürlich der Algorithmus 2. Die Elemente werden somit nur mehr umgeordnet. Um weiters glatte Übergänge von einem Zeitschritt innerhalb eines Clusters zu garantieren, kann die Anzahl dieser Umordnungen beschränkt werden. Wieviele Umordnungen erlaubt werden, hängt vom Datensatz ab und wird vom Meteorologen vorgegeben. In der Praxis hat sich gezeigt, dass die Vorgabe von maximal 15 Umordnungen vom Algorithmus selten überschritten wurde, um zu einem lokalen Extremum zu finden. Derjenige Zeitschritt, der mittels hierarchischem und anschließendem partionierenden Verfahren geclustert wurde, wird im Folgenden als Startzeitschritt bezeichnet. Dieser Startzeitschritt weist natürlich die besten Clustereigenschaften auf. Die Bewertung der Cluster fällt also sehr gut aus. Durch die begrenzte Anzahl von Umordnungen wird in Zeitschritten, die sich sehr weit vom Startzeitschritt entfernt befinden, die Bewertung der Cluster mit wachsender Entfernung immer schlechter. Da sich in den ersten Schritten naturgemäß die Elemente fast nicht unterscheiden, sollte nicht der Zeitpunkt t 1 gut geclustert werden, sondern entweder derjenige Zeitschritt, bei dem sich die Elemente stark aufzuspalten beginnen, oder einfach zur Hälfte der Zeit, also beim Zeitschritt 20. Die Entscheidung für einen bestimmten Startzeitschritt sollte gut überlegt und der Fragestellung angepasst sein, da für diesen Zeitpunkt auch die beste Anzahl der Cluster bestimmt wird. Weiters können von diesem Startzeitschritt ausgehend jeweils vorwärts und rückwärts durch Umordnungen die Klassen für die restlichen Zeitschritte erstellt werden. Da sich die Elemente am Beginn nur leicht und zum letzten Zeitschritt stark unterscheiden, kann dem Rechnung getragen werden, indem unterschiedlich viele Umordnungen erlaubt werden. So können beispielsweise für die rückwärtige Berechnung, also vom Startzeitschritt zum Zeitschritt t 1 nur 10 Umordnungen erlaubt werden, während für die Vorwärtsberechnung 15 Umordnungen zulässig sind. 9.2 Ergebnis Die hier vorgestellten Verfahren wurden in folgender Form implementiert: Dem Meteorologen steht ein gesondertes Programm zur Verfügung, um einen Vorschlag für die optimale Anzahl der Cluster zu erhalten. Dieser Vorschlag basiert auf dem inversen Scree-Plot und dem größten Zuwachs. Es werden dabei die größten vier berechnet und die zugehörigen Clusteranzahlen ausgegeben. Weiters wird der inverse-scree-plot als Bild ausgegeben, sodass der Anwender selbst, unter Berücksichtigung der meteorologischen Aspekte, eine Entscheidung bezüglich der für ihn optimalen Anzahl der Cluster treffen kann. Einzige Eingabe, neben der Datenmatrix, ist hierbei der vom Meteorologen gewählte Startzeitschritt. 56

61 Unter Eingabe des Startzeitschritts, der Anzahl der Cluster, der Anzahl der erlaubten Umordnungen in positiver wie in negativer Zeitachse und selbstverständlich der Datenmatrix, wird ebendieser Datensatz wie folgt geclustert: Zunächst wird mittels hierarchischem Verfahren und der Anzahl der Cluster eine Anfangspartition des Startzeitschritts berechnet. Danach wird diese Partition mittels Algorithmus 2 umgeordnet. Hierbei sind der Anzahl der Umordnungen keine Grenzen gesetzt. Anschließend werden die zugehörigen Elementnummern eines jeden Clusters gespeichert. Diese Clusterung bildet den Initialcluster für einen Schritt vorwärts und rückwärts. Diese Initialcluster werden nun ebenfalls mittels Algorithmus 2 umgeordnet. Die Anzahl der Umordnungen sind hierbei durch die Eingabe des Meteorologen beschränkt. Die nun entstehenden Clusterungen werden wiederum als Initialcluster für den nächsten Schritt angesehen, usw. So entsteht für jeden Zeitschritt eine Matrix, die sich wie folgt zusammensetzt: Die Anzahl der Zeilen spiegelt die Anzahl der Cluster wider, das heißt, dass jedem Cluster eine Zeile zur Verfügung gestellt wird. In dieser Zeile befinden sich nun die Elementnummern, die zu diesem Cluster gehören. Für ein Beispiel dieser Matrix sei wieder die gewohnte Fünf-Cluster-Lösung herangezogen Der erste Cluster enthält somit die Elemente 1, 5, 7,. Da die Elementzugehörigkeit als Matrix abgespeichert wurde, werden eventuell auftretende Leerstellen mit Nullen aufgefüllt. Da es für jeden Zeitschritt eine solche Matrix gibt, kann somit eine Matrix erstellt werden. Diese Endmatrix kann vom Meteorologen weiterverwendet werden. Sie ist im Anhang B.3 wiedergegeben. Zusätzlich zu dieser Endmatrix gibt das Programm eine Menge von weiteren Matrizen aus, die eine genaue Analyse der vorgenommenen Clusterungen ermöglichen. Jede dieser Matrizen beinhaltet entweder bereits die Daten für jeden Zeitschritt oder ist für jeden Zeitschritt (ZS) abrufbar. Clustermatrix: Dies ist die im Zahlenbeispiel oben entstehende Endmatrix. Die Zeilen geben die Clusternummer und die Spalten die members an. DREIMAbstaende: Diese Matrix gibt den minimalen (1. Spalte), den mittleren (2. Spalte) und den maximalen (3. Spalte) Abstand der Elemente eines Clusters zu seinem Schwerpunkt aus. 57

62 AnzahlElementeALLE: Dies ist eine Matrix, welche die Anzahl der Elemente je Cluster und Zeitschritt wiedergibt. WechselGleich: Diese Matrix gibt je Zeile (Zeitschritt) die Anzahl der Elemente aus, die von einem Zeitschritt zum nächsten im Cluster bleiben, im Vergleich zur Gesamtanzahl im Cluster. SP_Matrix: Gibt die Matrix der Schwerpunkte je Cluster und Zeitschritt an. DistMatrix_der_ClusterSP(ZS): Gibt Distanzen der Clusterschwerpunkte zueinander aus. Distanzen_der_Punkte_zu_ihren_SP(ZS): Gibt Distanzen der einzelnen Elemente zu ihrem Schwerpunkt aus. Umordnung_WAS_VON_NACH(ZS): Gibt die Umordnungen, die in diesem Zeitschritt erfolgen, an. DifferenzenMat(ZS): Gibt die mittlere Differenz der Elemente zu ihren Schwerpunkten, die mittlere Differenz der Schwerpunkte zueinander und die zugehörige Differenz D E D SP an. Nichtverschobene_Punkte(ZS): Gibt die Elemente wieder, die verschoben werden sollten, für die es aber keinen passenderen Cluster als den ursprünglichen gibt. Um einen Überblick über die aus diesem Programm resultierenden Cluster, für das bisher immer verwendete Zahlenbeispiel, in den Zeitschritten geben zu können, seien die unten stehenden Bilder erklärt. Gut erkennbar in diesen Verläufen ist die Ähnlichkeit, die zwei aufeinanderfolgende Schwerpunkte aufweisen. Dieses Bild gibt den Verlauf des Clusters 1 in den 40 Zeitschritten wieder. Gezeichnet wurden jeweils nicht alle Elemente des Clusters, sondern nur sein Schwerpunkt. 58

63 Dies ist der Verlauf des Clusters 2: Verlauf des Clusters 3: 59

64 Verlauf des Clusters 4: Verlauf des Clusters 5: 60

65 9.3 Auswertung Auswertung über das ganze Jahr Das eben vorgestellte Verfahren wird nun auf die Datensätze eines ganzen Jahres, beginnend mit dem und endend mit dem , angewandt. Dabei wird an jedem einzelnen Tag eine Prognose für 51 Wetterkarten zu je 40 Zeitschritten in die Zukunft berechnet. Somit stehen 365 der bereits wiederholt verwendeten Matrizen zur Verfügung. Damit nun vergleichbare Ergebnisse erzielt werden können, wird an allen Tagen der zwanzigste Zeitschritt als Startzeitschritt verwendet. Weiters ist immer dieselbe Anzahl an Umordnungen in der Zeit rückwärts (nämlich 10) und in der Zeit vorwärts (nämlich 15) zugelassen. Als letzte Eingabe ist noch die Anzahl der Cluster offen. Da diese Anzahl flexibel sein muss, wird pro Tag eine automatisierte Suche nach der optimalen Clusteranzahl durchgeführt. Um eine Interpretation der Daten zu erleichtern, werden vom Meteorologen die Grenzen diese Suche vorgegeben. In der Praxis sollte die Anzahl der Gruppen zwischen 3 und 9 liegen. Somit wird die automatisierte Suche nach der Clusteranzahl auf mindestens 3 und höchsten 9 Cluster eingeschränkt. Die automatisierte Suche wird wie folgt durchgeführt: Der vom Meteorologen angegebene Startzeitschritt wird hierarchisch geclustert und diejenige Zusammenführungen betrachtet, deren Zuwachs am größten ist. Die 4 größten Zuwächse werden gesucht und die zugehörige Clusteranzahl berechnet. Ebenfalls wird dies mit dem letzten Zeitschritt, nämlich dem vierzigsten, durchgeführt. Nun werden die Vorschläge für die Clusteranzahl für den zwanzigsten und vierzigsten Zeitschritt ver- 61

66 glichen. Gibt es einen oder mehrere Vorschläge, die sich sowohl im einen, als auch im anderen Zeitschritt befinden, so wird der kleinste dieser Vorschläge als Anzahl der Cluster verwendet. Gibt es keine Übereinstimmungen, so wird die kleinste Clusteranzahl, die im zwanzigsten Zeitschritt vorgeschlagen wurde, diejenige mit der weitergerechnet wird. Mit diesen Informationen wird das Programm zur Clusterung an jedem Tag einzeln durchgeführt. Die Ergebnisse der einzelnen Clusterungen werden, wie oben, je Tag in einer Matrix zusammengefasst. Nun steht nicht nur ein Tag zur Untersuchung der Prognosen zur Verfügung, sondern ein ganzes Jahr. Besonders interessieren dabei natürlich neben der Anzahl der Cluster, die Abstände welche die Elemente einer Gruppe zu ihrem Gruppenmittel aufweisen und auch die Abstände der Schwerpunkte zueinander. Da die Prognosen mit zunehmender Zeit immer ungenauer werden, ist unter anderem die Beobachtung des Verlaufs je Zeitschritt von Bedeutung. Eine Untersuchung des ganzen Jahres ergibt folgende Diagramme. Das obere Bild ist ein Histogramm der Anzahl der Cluster, die bei der Berechnung der Klassen in den 365 Tagen verwendet werden. Es ist deutlich zu erkennen, dass 3 oder 4 Cluster in den meisten Fällen genügen, um eine gute Gruppierung zu berechnen. Der obere Grenzwert von 9 Clustern wurde nie erreicht. Dies bedeutet, dass der Vorschlag für die Anzahl der Cluster vom Programm nie höher als 10 liegt und somit nie gewaltsam 62

67 die Anzahl der Cluster verringert werden muss. Das linke untere Bild zeigt die Abstände der Elemente zu ihrem Schwerpunkt über alle Tage, aber je Zeitschritt. Die Linien bezeichnen den maximalen, den mittleren und den minimalen Abstand. Weiters wurde in jedem Zeitschritt der Median berechnet und eingezeichnet. Da es einige Zeitschritte gibt, in denen der minimale Abstand der Elemente zu ihrem Schwerpunkt 0 beträgt - dies ist der Fall, wenn sich ein Element alleine in einer Gruppe befindet und seinen eigenen Schwerpunkt darstellt - wurden zur Übersicht diese Zeitschritte mit einem auf der Zeitschrittachse gekennzeichnet und in der Kurve die kleinsten Abstände außer der Null eingetragen. Der mittlere Abstand und der Median liegen beinahe aufeinander, dies bedeutet, dass keine besonders schlimmen Ausreißer auftreten. In Zukunft werden daher nur mehr die drei restlichen Abstände (der minimale, der mittlere und der maximale) betrachtet. Weiters liegen diese Abstände am Anfang nahe beieinander und entfernen sich mit der Zeit voneinander. Dies spiegelt die Situation wider, dass sich die Prognosen anfangs stark ähneln und später auseinander entwickeln. Am Anfang ist dieser Anstieg erheblich deutlicher als am Ende der Prognosezeit. Dies ist besonders bei den maximalen Abständen ersichtlich, die ab dem 24. Zeitschritt beinahe konstant bleiben. Aber auch die Kurve der mittleren Abstände weist ab diesem Zeitpunkt nur mehr eine sehr geringe Steigung auf. Besonders deutlich ist auch der Startzeitschritt. Da dieser Zeitschritt am besten geclustert wird, während bei den anderen Zeitschritten nur reine Umordnungen zugelassen werden, hat die Kurve der maximalen Abstände hier einen deutlichen Knick. Auch die Kurve der mittleren Abstände weist zu diesem Zeitpunkt eine kleine Delle auf. Dass dies beim minimalen Abstand nicht der Fall ist, liegt daran, dass hier bereits ein Abstand zu Null wird und negative Abstände nicht erlaubt sind. Das rechte Bild gibt die Abstände der Schwerpunkte zueinander für alle Tage je Zeitschritt an. Die Kurven sind wie im linken Bild gekennzeichnet. Auch hier beginnen der minimale, mittlere und maximale Abstand nahe beieinander und entwickeln sich auseinander. Für den mittleren und den minimalen Abstand gilt wieder, dass ab dem 24. Zeitschritt beinahe keine Änderungen mehr eintreten. Besonders auffallend ist der anfangs rasche Anstieg der maximalen Abstände, die sich im Laufe der Zeit bei einem Wert von etwas über 10 einpendeln. Noch deutlicher als im linken Bild ist hier wiederum der Startzeitschritt erkennbar. Sowohl der minimale, als auch der mittlere Abstand machen einen deutlichen Knick nach oben, was bedeutet, dass hier die Clusterung besser ist als in den Schritten davor und danach, da sich in diesem Schritt die Clusterschwerpunkte weiter voneinander entfernt befinden. Nun werden die Abstände der Elemente zu ihrem jeweiligen Schwerpunkt auf die erste Nachkommastelle gerundet und ein Histogramm dieser Abstände je Zeitschritt erstellt. Zur Veranschaulichung sind nur die Zeitschritte 4, 12, 20 und 40 dargestellt. 63

68 Im Histogramm zum Zeitschritt 4 befindet sich der Großteil der Abstände zwischen 0 und 2, die meisten um 1. Die linke Seite der Kurve ist steiler als die rechte, was durch die Begrenzung der Abstände in Richtung 0 zu erklären ist. Im Verlauf der Zeit wandert diese Kurve von links nach rechts, wird kleiner und symmetrisch. Dies wird vor allem in den Übergängen zwischen den Zeitschritten 4, 12 und 20 deutlich. Im letzten Zeitschritt ist die Kurve zwar keine Normalverteilung, ähnelt ihr aber schon stark. Wird nun nicht bei diesem Zeitschritt gestoppt, sondern weitere Prognosen erstellt, so nähert sich diese Abbildung immer mehr einer Normalverteilung Auswertung über die vier Jahreszeiten Weiters kann natürlich nicht nur das ganze Jahr betrachtet werden, sondern jede Jahreszeit für sich und ein Vergleich dieser Jahreszeiten aufgestellt werden. Jede Jahreszeit dauert drei Monate, beginnend mit dem Frühling, der März, April und Mai beinhaltet. Als erstes soll wieder die Anzahl der Cluster betrachtet werden. Dies geschieht mittels Kuchendiagramm bei dem eine prozentuellen Aufteilung ermittelt wird. Dies ist hier vorteilhafter, da die Jahreszeiten unterschiedlich viele Tage aufweisen. Darunter befindet sich noch zusätzlich ein Balkendiagramm mit den absoluten Häufigkeiten der auftretenden Clusteranzahlen. 64

69 Frühling: 92 Tage Sommer: 92 Tage Herbst: 91 Tage Winter: 90 Tage In allen Jahreszeiten sind bei mehr als der Hälfte der Tage 3 Cluster ausreichend. Knapp ein Viertel der Tage von Sommer, Herbst und Winter wird mit 4 Gruppen gerechnet, während es im Frühling weniger als ein Fünftel ist. Im Gegensatz zu Frühling, Sommer und Winter besitzt der Herbst einen Tag, an dem 8 Klassen ein optimales Ergebnis liefern. Die Histogramme und restlichen Diagramme für die einzelnen Jahreszeiten, wie am Beispiel des ganzen Jahres vorgezeigt, befinden sich im Anhang C. 65

70 Zum Vergleich dieser Jahreszeiten sollen hier noch die Abstände der Elemente zu ihrem Schwerpunkt (linkes Bild) und die Abstände der Schwerpunkte zueinander (rechtes Bild) verdeutlicht werden. Die obere Grenze für die maximalen Abstände und die untere Grenze für die minimalen Abstände bildet die Berechnung über das ganze Jahr. Abstände, die zu Null werden, sind hier wiederum ausgenommen. Im linken Bild ist wieder deutlich eine Verbesserung zum Startzeitschritt 20 durch entsprechende Knicke in diesem Punkt bemerkbar. Besonders gut zeigt dies die rote Linie, der Sommer, an. In allen Jahreszeiten gibt es dieselbe Entwicklung von einem starken Anstieg am Anfang zu einem geringen Anstieg gegen Ende hin. Im rechten Bild ist ebenfalls die Verbesserung im Startzeitschritt in allen Jahreszeiten deutlich bemerkbar. Hier zeigt dies der Herbst (magenta) am besten. Die Entwicklung ist wieder dieselbe, es kann gegen Ende sogar von einer extremen Abflachung der Kurve gesprochen werden. In den obigen Bildern wurden der minimal, mittlere und maximale Abstand in einem Diagramm zusammengefasst, im Anhang C.5 können diese Abstände einzeln betrachtet werden. Auch eine Unterteilung in Sommer- und Winterhalbjahr kann getroffen werden, da diese Unterteilung aber keinerlei zusätzliche Informationen liefert, sondern nur die Erkenntnisse der Jahreszeiteneinteilung bestätigt, wird hier nicht näher darauf eingegangen. Der Vollständigkeit halber können aber die Diagramme des Sommer- und Winterhalbjahres im Anhang C.6 betrachtet werden Auswertung für unterschiedliche Startzeitschritte Bisher wurden sämtliche Auswertungen immer nur für drei fixe Einstellungen, nämlich für den Startzeitschritt und für die erlaubten Umordnungen zeitlich nach hinten und nach vorne, vorgenommen. Eine Beschränkung der Anzahl der Umordnungen dient hauptsächlich dem Zweck, lange Rechenzeiten zu verhindern. Fast immer wird die vorgegebene Anzahl aber gar nicht erst erreicht, da der Algorithmus bereits vorher abbricht. 66

71 Eine größere Anzahl an Umordnungen ist somit weder nötig noch würde sie neue Erkenntnisse bringen. Anders sieht die Situation beim gewählten Startzeitschritt aus. Da dies derjenige Zeitschritt ist, der mit dem größten Aufwand geclustert wird, sollte sich diese Situation in den Diagrammen der Abstände auch widerspiegeln. Weiters interessiert, ob die oben betrachteten Kurven der Abstände unterschiedliche Steigungen aufweisen, oder nicht. Um dies zu testen, wurde der bisher immer verwendete Datensatz über das ganze Jahr zum Startzeitschritt 12 und 28 wie oben bearbeitet. Für die Anzahl der Cluster ergibt sich folgendes Histogramm: Bis auf die Tatsache, dass in den Startzeitschritten 12 und 28 auch 9 Cluster auftreten können, liefert eine Änderung der Startzeitschritte keine gravierenden Unterschiede in der auftretenden Clusteranzahl. Werden nun die Abstände der Elemente zu ihrem Schwerpunkt genauer betrachtet (nachfolgend, linkes Bild), so ist zu erkennen, dass sich die mittleren Abstände, bis auf eine kleine Delle im jeweiligen Startzeitschritt, beinahe nicht unterscheiden, die maximalen Abstände aber jeweils sehr große Vertiefungen aufweisen. Ebenfalls gut zu erkennen ist der Startzeitschritt beim Betrachten der Abstände der Schwerpunkte zueinander (nachfolgend, rechtes Bild). Hier ist zusätzlich im mittleren Abstand der Peak gut ersichtlich. Besondere Beachtung sollte hierbei dem Anwachsen des minimalen Abstandes der Schwerpunkte zueinander je Startzeitschritt geschenkt werden. Dieser ist im zwölften deutlich kleiner als im achtundzwanzigsten Zeitschritt. Dies liegt daran, dass sich die Bilder mit der Zeit auseinanderentwickeln und so erst ein größerer Abstand ermöglicht wird. 67

72 Werden die mittleren Abstände der Schwerpunkte zueinander genauer betrachtet, so fällt eines auf: Vor dem Startzeitschritt ist jeweils der stärkste Anstieg gegeben, während die Kurve danach nur mehr eine geringe Steigung aufweist. Zum Startzeitschritt 12 etwa, gibt es einige Zeitschritte in die Zukunft, eine beinahe horizontale Bewegung, die allerdings später wieder einen Anstieg aufweist. Ebenfalls ist dies beim Startzeitschritt 20 ersichtlich. Gegen Ende vereinigen sich die drei Kurven wieder und weisen zum Zeitschritt 40 beinahe denselben Wert auf. Diese lokale Abflachung nach dem Startzeitschritt beim Vergleich der mittleren Abstände der Schwerpunkte zueinander, scheint durch die Implementierung zustande zu kommen. Bei allen anderen Kurven ist ein solches Verhalten jedoch nicht bemerkbar. In allen Diagrammen ist ein Ausschlag der Kurven, entweder nach oben oder nach unten, beim vorgegebenen Startzeitschritt ersichtlich und auch eine gewisse Grundform erkennbar. Der Peak entsteht dadurch, dass an diesen Stellen möglichst gut geclustert und daher auch bessere Werte erzielt werden, während sich alle anderen Zeitschritte nur durch partitionierende Verfahren berechnen. Die entstehende Grundform ist durch die Entwicklung der einzelnen Wetterkarten gegeben. Da sich diese anfangs nur wenig voneinander unterscheiden, sind auch die entstehenden Abstände der Elemente zu ihrem Schwerpunkt klein. Dann gibt es eine Phase mit starkem Anstieg, der ungefähr ab dem Zeitschritt 25 abzuflachen beginnt. Dies spiegelt die Situation wider, dass sich die Prognosen der Wetterkarten mit der Zeit auseinander entwickeln und sich immer stärker unterscheiden. Diese Situation ist noch deutlicher sichtbar, wenn die einzelnen Bilder der Abstände in Anhang D betrachtet werden. 68

73 A Vektoren und Matrizen A.1 Beispielvektor der relativen Feuchte Dieser Vektor beschreibt die relative Feuchte einer Wetterkarte und hat eine Größe von 377 Zeilen und 1 Spalte. Der Übersichtlichkeit halber wurden die Zeilen aufgeteilt und nebeneinander gestellt

74 A.2 Matrix der Vektoren 23, 25 und 36 Diese Matrix enthält alle 377 Einträge der Membervektoren mit den Elementnummern 23, 25 und A.3 Distanzen der Punkte zu ihrem Schwerpunkt Die folgenden Tabellen enthalten die für die drei Lösungsansätze entstehenden Distanzmatrizen. Die Einträge der Spalten geben die Distanzen der Elemente eines Clusters zu ihrem Schwerpunkt an. Der jeweils größte Wert wurde rot hervorgehoben. Als Distanzen ergeben sich für den Lösungsansatz mit zwei Clustern: 70

75 Als Distanzen ergeben sich für den Lösungsansatz mit vier Clustern: Als Distanzen ergeben sich für den Lösungsansatz mit fünf Clustern:

76 B Die Fünf-Cluster-Lösung B.1 Hierarchisch Die Fünf-Cluster-Lösung hier in Form der Wetterkarten. Die Zahlen oberhalb der Bilder bezeichnen die Elementnummer. Die Cluster sind der Größe nach geordnet und in den Klammern stehen die Farben, wie sie im Dendrogramm verwendet wurden. Cluster 1 (blau): Cluster 2 (rot): Cluster 3 (magenta): Cluster 4 (grün): 72

77 Cluster 5 (gelb): B.2 Partitionerend Die Fünf-Cluster-Lösung, nach Anwendung des partitionierenen Verfahrens, in Form der Wetterkarten. Die Zahlen oberhalb der Bilder bezeichnen die Elementnummer, das letzte Element ist der Schwerpunkt des jeweiligen Clusters und besitzt als Bezeichnung die Clusternummer. Cluster 1: Cluster 2: 73

78 Cluster 3: Cluster 4: Cluster 5: B.3 Fünf-Cluster-Lösung über Zeit Hier sind die einzelnen Cluster und ihre Elemente je Zeitschritt angegeben. Da mit Matrizen gerechnet wurde, wurden eventuelle Leerstellen mit Nullen aufgefüllt. Es gibt somit 5 Matrizen die jeweils die Elemente je Cluster darstellen. Die erste Zeile einer Matrix stellt den ersten Zeitschritt dar, die zweite den zweiten, usw. Die Spalten sind jeweils die in diesem Cluster und diesem Zeitschritt enthaltenen Elemente. Cluster 1: 74

79 Cluster 2: Cluster 3: 75

80 Cluster 4: Cluster 5: 76

81 C Diagramme der Jahreszeiten Das erste Bild ist das Histogramm der Anzahl der Cluster die für die Berechnung verwendet wurden, das zweite und dritte bezeichnen die Abstände der Elemente zu ihrem Schwerpunkt, bzw. die Abstände der Schwerpunkte zueinander. Die letzten vier Bilder stellen die Histogramme der Abstände der Elemente zu ihrem Schwerpunkt für alle Tage je Zeitschritt dar. Ausgewählt wurden hierbei die Zeitschritte 4, 12, 20 und

82 C.1 Frühling 78

83 C.2 Sommer 79

84 C.3 Herbst 80

85 C.4 Winter 81

86 C.5 Vergleich der Abstände über alle Jahreszeiten C.5.1 Abstände der Elemente zu ihrem Schwerpunkt 82

87 C.5.2 Abstände der Schwerpunkte zueinander C.6 Diagramme für Sommer- und Winterhalbjahr C.6.1 Sommer Das meteorologische Sommerhalbjahr beginnt am 1. Juni und endet am 30. November. 83

88 84

89 C.6.2 Winter Das meteorologische Winterhalbjahr beginnt am 1. Dezember und endet am 31. Mai. 85

90 C.6.3 Vergleich zwischen Sommer- und Winterhalbjahr Abstände der Elemente zu ihrem Schwerpunkt: Abstände der Schwerpunkte zueinander: 86

91 Anzahl der Cluster je Halbjahr: Dabei ist unten links ein Kuchendiagramm des Winterhalbjahres und rechts das des Sommerhalbjahres. 87

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Einführung in die Ähnlichkeitsmessung

Einführung in die Ähnlichkeitsmessung Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

6 Distanzfunktionen. Quadratische Pseudo. 1. Eigenschaften und Klassifikation

6 Distanzfunktionen. Quadratische Pseudo. 1. Eigenschaften und Klassifikation 6 Distanzfunktionen 1. Eigenschaften und Klassifikation 2. Distanzfunktionen auf Punkten Minkowski Distanzfunktion L m Gewichtete Minkowski Distanzfunktion L m w Quadratische Distanzfunktion d q Quadratische

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

achsenparallele Stauchung und Streckung durch Gewichte :

achsenparallele Stauchung und Streckung durch Gewichte : Gewichtete Minkowski-Distanzfunktion achsenparallele Stauchung und Streckung durch Gewichte : Forderung: staab@uni-koblenz.de 1 Einheitskreis Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz

Mehr

6 Distanzfunktionen (2) 6 Distanzfunktionen. 6.1 Eigenschaften und Klassifikationen. Einführung

6 Distanzfunktionen (2) 6 Distanzfunktionen. 6.1 Eigenschaften und Klassifikationen. Einführung 6 en 6 en (2) 1. Eigenschaften und Klassifikation 2. en auf Punkten Minkowski L m Gewichtete Minkowski L m w Quadratische d q Quadratische Pseudo Dynamical Partial Semi Pseudo Chi Quadrat Semi Pseudo Kullback

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4 Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Angewandte Statistik mit R. Eine Einführung für Ökonomen und

Angewandte Statistik mit R. Eine Einführung für Ökonomen und Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 3. Auflage Springer Gabler Inhaltsverzeichnis Vorwort zur dritten Auflage Vorwort zur ersten Auflage Vorwort

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

1 Beispiele multivariater Datensätze... 3

1 Beispiele multivariater Datensätze... 3 Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze... 3 2 Elementare Behandlung der Daten... 15 2.1 Beschreibung und Darstellung univariater Datensätze... 15 2.1.1 Beschreibung und

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

Multivariate Statistik

Multivariate Statistik Multivariate Statistik von Univ.-Prof. Dr. Rainer Schlittgen Oldenbourg Verlag München I Daten und ihre Beschreibung 1 1 Einführung 3 1.1 Fragestellungen 3 1.2 Datensituation 8 1.3 Literatur und Software

Mehr

Mischungsverhältnisse: Nehmen wir an, es stehen zwei Substanzen (zum Beispiel Flüssigkeiten) mit spezifischen Gewicht a = 2 kg/l bzw.

Mischungsverhältnisse: Nehmen wir an, es stehen zwei Substanzen (zum Beispiel Flüssigkeiten) mit spezifischen Gewicht a = 2 kg/l bzw. Kapitel 5 Lineare Algebra 51 Lineare Gleichungssysteme und Matrizen Man begegnet Systemen von linearen Gleichungen in sehr vielen verschiedenen Zusammenhängen, etwa bei Mischungsverhältnissen von Substanzen

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Lineares Gleichungssystem - Vertiefung

Lineares Gleichungssystem - Vertiefung Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m. Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27 Inhalt I Einführung Kapitel 1 Konzept des Buches........................................ 15 Kapitel 2 Messen in der Psychologie.................................. 27 2.1 Arten von psychologischen Messungen....................

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010

Mehr

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript 3. Deskriptive Statistik Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, [ ] Daten durch Tabellen, Kennzahlen [ ] und Grafiken übersichtlich darzustellen und zu ordnen. Dies ist vor allem

Mehr

Polynome und ihre Nullstellen

Polynome und ihre Nullstellen Polynome und ihre Nullstellen 29. Juli 2017 Inhaltsverzeichnis 1 Einleitung 2 2 Explizite Berechnung der Nullstellen 2.1 Polynome vom Grad 0............................. 2.2 Polynome vom Grad 1.............................

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Lineare Algebra und Geometrie II, Übungen

Lineare Algebra und Geometrie II, Übungen Lineare Algebra und Geometrie II, Übungen Gruppe (9 9 45 ) Sei A 2 Bestimmen Sie A und A Finden Sie weiters Vektoren u, v R 2 mit u und Au A, beziehungsweise v und Av A Zunächst die Berechnung der Norm

Mehr

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n 3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Konzepte II. Netzwerkanalyse für Politikwissenschaftler

Konzepte II. Netzwerkanalyse für Politikwissenschaftler Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

D-CHAB Frühlingssemester 2017 T =

D-CHAB Frühlingssemester 2017 T = D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme

Mehr

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn. Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2016/17 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

9.2 Invertierbare Matrizen

9.2 Invertierbare Matrizen 34 9.2 Invertierbare Matrizen Die Division ist als Umkehroperation der Multiplikation definiert. Das heisst, für reelle Zahlen a 0 und b gilt b = a genau dann, wenn a b =. Übertragen wir dies von den reellen

Mehr

Mathematik II Frühjahrssemester 2013

Mathematik II Frühjahrssemester 2013 Mathematik II Frühjahrssemester 213 Prof. Dr. Erich Walter Farkas Kapitel 7: Lineare Algebra Kapitel 7.5: Eigenwerte und Eigenvektoren einer quadratischen Matrix Prof. Dr. Erich Walter Farkas Mathematik

Mehr

10.5 Maximum-Likelihood Klassifikation (I)

10.5 Maximum-Likelihood Klassifikation (I) Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem

Mehr

Mathematik I+II Frühlingsemester 2019 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren

Mathematik I+II Frühlingsemester 2019 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren Mathematik I+II Frühlingsemester 219 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren Prof. Dr. Erich Walter Farkas http://www.math.ethz.ch/ farkas 1 / 46 8. Lineare Algebra: 5. Eigenwerte und

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

1 Singulärwertzerlegung und Pseudoinverse

1 Singulärwertzerlegung und Pseudoinverse Singulärwertzerlegung und Pseudoinverse Singulärwertzerlegung A sei eine Matrix mit n Spalten und m Zeilen. Zunächst sei n m. Bilde B = A A. Dies ist eine n n-matrix. Berechne die Eigenwerte von B. Diese

Mehr

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth Lineare Algebra Mathematik II für Chemiker Daniel Gerth Überblick Lineare Algebra Dieses Kapitel erklärt: Was man unter Vektoren versteht Wie man einfache geometrische Sachverhalte beschreibt Was man unter

Mehr

Konzepte II. Netzwerkanalyse für Politikwissenschaftler. Wiederholung

Konzepte II. Netzwerkanalyse für Politikwissenschaftler. Wiederholung Konzepte II Netzwerkanalyse für Politikwissenschaftler Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum geht es? Bisher: Eigenschaften einzelner Punkte bzw. des Netzwerkes Definiert

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

6 Symmetrische Matrizen und quadratische Formen

6 Symmetrische Matrizen und quadratische Formen Mathematik für Ingenieure II, SS 9 Freitag 9.6 $Id: quadrat.tex,v. 9/6/9 4:6:48 hk Exp $ 6 Symmetrische Matrizen und quadratische Formen 6. Symmetrische Matrizen Eine n n Matrix heißt symmetrisch wenn

Mehr

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker II

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker II Universität des Saarlandes Fakultät für Mathematik und Informatik Sommersemester 2004 Prof. Dr. Joachim Weickert Dr. Bernhard Burgeth Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 12 8. Juni 2010 Kapitel 10. Lineare Gleichungssysteme (Fortsetzung) Umformung auf obere Dreiecksgestalt Determinantenberechnung mit dem Gauß-Verfahren

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

3 Matrizenrechnung. 3. November

3 Matrizenrechnung. 3. November 3. November 008 4 3 Matrizenrechnung 3.1 Transponierter Vektor: Die Notation x R n bezieht sich per Definition 1 immer auf einen stehenden Vektor, x 1 x x =.. x n Der transponierte Vektor x T ist das zugehörige

Mehr

Sommersemester Marktforschung

Sommersemester Marktforschung Dipl.-Kfm. Sascha Steinmann Universität Siegen Lehrstuhl für Marketing steinmann@marketing.uni-siegen.de Sommersemester 2010 Marktforschung Übungsaufgaben zu den Themen 3-6 mit Lösungsskizzen Aufgabe 1:

Mehr

Mathematik II Frühlingsemester 2015 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren

Mathematik II Frühlingsemester 2015 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren Mathematik II Frühlingsemester 215 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren www.math.ethz.ch/education/bachelor/lectures/fs215/other/mathematik2 biol Prof. Dr. Erich Walter Farkas http://www.math.ethz.ch/

Mehr

Ganzrationale Funktionen

Ganzrationale Funktionen Eine Dokumentation von Sandro Antoniol Klasse 3f Mai 2003 Inhaltsverzeichnis: 1. Einleitung...3 2. Grundlagen...4 2.1. Symmetrieeigenschaften von Kurven...4 2.1.1. gerade Exponenten...4 2.1.2. ungerade

Mehr

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B KAPITEL 5 Boolesche Polynome Polynome über R, d.h. reelle Funktionen der Form p(x) = a 0 + a 1 x + + a n x n, x R, sind schon aus der Schulmathematik bekannt. Wir beschäftigen uns nun mit Booleschen Polynomen,

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben: Korrelationsmatrix Bisher wurden nur statistische Bindungen zwischen zwei (skalaren) Zufallsgrößen betrachtet. Für den allgemeineren Fall einer Zufallsgröße mit N Dimensionen bietet sich zweckmäßiger Weise

Mehr

Angewandte Statistik 3. Semester

Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen

Mehr

A2.3 Lineare Gleichungssysteme

A2.3 Lineare Gleichungssysteme A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik 1. Deskriptive Statistik 2. Induktive Statistik 1. Deskriptive Statistik 1.0 Grundbegriffe 1.1 Skalenniveaus 1.2 Empirische Verteilungen 1.3 Mittelwerte 1.4 Streuungsmaße 1.0

Mehr