OPT Optimierende Clusteranalyse

Größe: px

Ab Seite anzeigen:

Download "OPT Optimierende Clusteranalyse"

Ida Kramer
vor 5 Jahren
Abrufe

1 Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin: Nicole Rößler, Ba.Sc., 4. Semester; Nina Wente, Ba.Sc., 5. Semester OPT Optimierende Clusteranalyse Rößler, Wente 1

2 Gliederung OPT Optimierende Clusteranalyse (Definition) CKMEANS PCACA PETISCO PETISCO & PCAXTRKMN SANDRA SANDRAS NNW Rößler, Wente 2

3 OPT Optimierende Clusteranalyse (Definition) Optimierungsverfahren: Annährungen, die eine Anzahl an Objekten (Tage) innerhalb von Gruppen so einordnet, dass eine bestimmte Funktion optimiert wird Minimierung von Schwankungen / Variabilität innerhalb einer Gruppe, gemessen als die Summe der Euklidischen Distanz zwischen den Elementen einer Gruppe und dem Mittelwert einer Gruppe Rößler, Wente 3

4 OPT Optimierende Clusteranalyse (Definition) die meisten Optimierungsverfahren in cost733cat basieren auf der k-means Clusteranalyse diese unterscheiden sich nur in der anfänglichen Aufteilung der Daten bzw. der Datenverwaltung nur SANDRA und NNW benutzen alternative Wege für die Optimierung Rößler, Wente 4

5 CKMEANS Durch den k-means Algorithmus erfolgt die Aufteilung des Datensatzes basierend auf ungleich gewichtete Felder (nach Enke und Spekat 1997) Initialisierung (Zuweisung eines Wertes / eines Gewichtes) erfolgt durch stichprobenartige Auswahl eines Objektes das Ausgangselement für das zweite Cluster ist das Objekt, das zum ersten am unterschiedlichsten ist Rößler, Wente 5

6 CKMEANS das Ausgangselement für das dritte Cluster ist das Objekt, welches zu den ersten beiden Ausgangselementen am unterschiedlichsten ist dies wird so lange wiederholt, bis jedes Cluster ein bestimmtes Muster hat Rößler, Wente 6

7 CKMEANS alle übrigen Tage werden dann der am meisten entsprechenden Klasse zugeordnet mit jedem Tag, der einer Klasse zugeordnet wird, werden die Mittelwerte neu berechnet Rößler, Wente 7

8 CKMEANS als Konsequenz wird die multidimensionale Distanz zwischen den Klassenmittelwerten kleiner, während die Variabilität innerhalb der Klassen größer wird nun setzt der schrittweise k-means Clusteringprozess ein die Mittelwerte nähern sich hierbei einer finalen Ordnung an, welche keine Ähnlichkeit mit der Startaufteilung hat Rößler, Wente 8

9 CKMEANS um Repräsentativität beizubehalten, werden die Klassen nur dann im Prozess beibehalten, wenn sie nicht unter einen bestimmten Schwellenwert fallen, z.b 5% aller Tage ansonsten wird die Klasse aufgelöst und der Inhalt fließt in die übrigen Klassen mit ein Rößler, Wente 9

10 PCACA in einem vorbereitendem Schritt wird ein High- Pass-Filter, welcher den 13-Tage- Durchschnitt nutzt, auf die Eingangsdaten angewendet, der der Ausblendung des jahreszeitlichen Ablaufs dient Rößler, Wente 10

11 PCACA anschließend wird eine s-mode PCA auf die gefilterten Daten angewandt um die Co- Proportionalität zu reduzieren, die numerischen Kalkulationen zu vereinfachen und um die Durchführung der anschließenden Clusteranalyse zu verbessern die tägliche PC-Score Zeitreihe der verbleibenden PCs ist das Material für den Clustering-Prozess Rößler, Wente 11

12 PCACA Um die Startaufteilung für die k-means Prozedur zu erhalten, wird die hierarchische Clusteranalyse von Ward vorgenommen Rößler, Wente 12

13 PETISCO versucht nicht die Aufteilung des Datensatzes zu optimieren, sonder eher optimale Mittelwerte zu finden ähnelt Leader-Algorithmus, enthält aber ein Optimierungsverfahren für die Ausgangselemente wie bei LUND werden hier Schlüsselmuster für alle Tage bestimmt, aber hier mit Schwellenwert von 0,9 für die Muster Korrelation r Rößler, Wente 13

14 PETISCO wenn mehr atm. Level berechnet werden, ist r der Minimalwert der Korrelationskoeffizienten, für jedes Level getrennt berechnet Im Gegensatz zum Leader-Algorithmus, wird das Schlüsselmuster als der Mittelwert der sog. Schlüsselgruppen berechnet, welche aus dem Schlüsseltag und allen Werten, die stark mit ihm korrelieren, besteht Rößler, Wente 14

15 PETISCO in einem sich wiederholenden Vorgang wird die Berechnung des Schlüsselgruppenmittelwertes und die Suche nach neuen Mitgliedern für die Schlüsselgruppe vorgenommen, bis ein optimiertes Schlüsselmuster besteht, das sich nicht mehr verändert folglich wird die Schlüsselgruppe in Abschnitten von max. Teilnehmeranzahl optimiert aus diesen Schlüsselgruppen werden die Rößler, Wente größten als finale 15 Gruppen ausgewählt

16 PETISCO & PCAXTRKMN alle verbleibenden Tage werden diesen entsprechend ihres maximalen Korrelationskoeffizienten zugeordnet für diese k-means Variante wird die anfängliche Aufteilung entsprechend d. PCAXTR Methode, gerade schon beschrieben, verwendet demnach einzige Optimierungsmethode, die Einschränkungen bezügl. Der Anzahl der Objekte enthält Rößler, Wente 16

17 SANDRA der Unterschied zu k-means sind sog. falsche Re-Zuordnungen, z.b. können Objekte aus ihrem nahsten Cluster entfernt werden, abhängig von der Wahrscheinlichkeit P, welche zu Anfang groß ist, aber während dem Optimierungsprozess langsam abnimmt Folglich, wenn der Prozess an einem Punkt schlechtester Qualität angekommen ist, können manche neu zugeordnet werden, was zu einer kompletten Verbesserung in den folgenden Schritten führen kann Rößler, Wente 17

18 SANDRA mit dem Ziel langsam P zu reduzieren, wird ein Kontrollparameter T, welches zu Beginn eine große Zahl ist, und schrittweise mit einem Cooling Faktor C reduziert wird um die Laufzeit zu verkürzen, wird ein relativ kleiner Cooling-Faktor verwendet; Er wiederholt den ganzen Prozess 1000 mal mit zufällig aufgeteilter Anfangsverteilung und einem zufälligen Schema für Objekt und Cluster- Anordnung Rößler, Wente 18

19 SANDRA dies führt zu einer diversifizierten Chronologie für den Test, somit entstehen verschiedene Wege sich an das globale Optimum anzunähern von diesen 1000 Ergebnissen wird das Beste entsprechend der Zwischen-Typ-Varianz ausgewählt Rößler, Wente 19

20 SANDRAS Methode unterscheidet sich nur durch die Messwertverarbeitung von SANDRA Anstatt einzelner Tages-Muster werden Drei- Tages-Sequenzen genutzt, weshalb die Entstehungsgeschichte des letzten Tages in dieser Sequenz in der Gruppen-Definition enthalten ist Rößler, Wente 20

21 SANDRAS Im Prinzip könnte dieser Ansatz auf alle Klassifikations-Ansätze angewandt werden, aber er ist nur im Datensatz für das SANDRA- Schema enthalten, um eine Vorschau der zugehörigen Effekte zu erhalten Rößler, Wente 21

22 NNW Das SOFM-Netzwerk (Self-organising Features Map) hat die Fähigkeit zu lernen, ohne dass die Arbeitsleistung in den ausgewählten Mustern angegeben wird zusätzlich kann es Daten in eine bestimmte Anzahl an Kategorien mit nur zwei Neuronen- Layer aufteilen (ein Input- und ein Output- Layer) Rößler, Wente 22

23 NNW Letzteres besteht aus einem Neuron für jede mögliche Leistungs-Kategorie Ziel ist es, bedeutende Features in den Input-Daten zu finden Rößler, Wente 23

Ähnliche Dokumente

Übung zum Projektseminar Wetterlagen und Feinstaub

Universität Augsburg Fakultät für Angewandte Informatik Institut für Physische Geographie und Quantitative Methoden Prof. Dr. Jucundus Jacobeit Übung zum Projektseminar Wetterlagen und Feinstaub Montag