Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Transkript

1 Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche Bedeutung. Grundsätzliche Begriffsbestimmung in der EDV: Bei der Datenreduktion, auch bekannt als Kompression, werden redundante und irrelevante Daten eines Datenstroms erfasst und nicht übertragen. Die Datenreduktion sollte die Qualität der Information nicht beeinträchtigen, wobei man zwischen verlustfreier und verlustbehafteter Kompression unterscheidet. 1

2 Unter (der dt. Begriff Ballungsanalyse wird selten verwendet) versteht man ein strukturentdeckendes, multivariates Analyseverfahren zur Ermittlung von Gruppen (Clustern) von Objekten, deren Eigenschaften oder ihre Ausprägungen bestimmte Ähnlichkeiten oder Unähnlichkeiten aufweisen. Die an verschiedene Anforderungen angepassten Verfahren der lassen sich zur automatischen Klassifikation, zur Erkennung von Mustern in der Bildverarbeitung oder zum Data-Mining einsetzen. Als Kundensegmentierungsverfahren wird dieses Analysewerkzeug gerne im Bereich Marketing verwendet, nicht zuletzt weil es visuell präsentiert werden kann. Prinzip: Die zu untersuchenden Objekte werden als Zufallsvariablen aufgefasst und in der Regel in Form von Vektoren als Punkte in einem Vektorraum dargestellt, deren Dimensionen die Eigenschaftsausprägungen bilden. Ein Cluster ist eine Anhäufung von Punkten (Punktwolke), wobei bei Streudiagrammen zum Beispiel die Abstände zwischen den Punkten zueinander oder die Varianz innerhalb eines Clusters als Proximitätsmaße dienen. Cluster können auch als Gruppe von Objekten definiert werden, die in Bezug auf einen berechneten Schwerpunkt eine minimale Abstandssumme haben. Dazu ist die Wahl eines Distanzmaßes erforderlich. In bestimmten Fällen sind die Abstände (bzw. umgekehrt die Ähnlichkeiten) der Objekte untereinander direkt bekannt und müssen nicht aus der Darstellung im Vektorraum ermittelt werden. 2

3 Algorithmen: Daten-clustering-Algorithmen können hierarchisch oder partitionierend sein, wobei man erstere noch in agglomerierende (bottom-up) oder unterteilende (top-down) Algorithmen unterteilt. Weiterhin unterscheidet man zwischen überwachten (supervised) und nichtüberwachten (unsupervised) Algorithmen. Je nach Algorithmus muss eine Distanzfunktion zur Bestimmung des Abstands zweier Elemente und/oder eine Methode zur Berechnung des Mittelpunktes oder Zentroiden eines Clusters (zum Beispiel der Mittelwert) bekannt sein. Anstatt einer Distanzfunktion arbeiten einige Algorithmen auch mit einer Ähnlichkeitsfunktion. Hierarchisches Clustern: Grundsätzlich lassen sich anhäufende Verfahren (agglomerative clustering) und teilende Verfahren (divisive clustering) unterscheiden. Bei den anhäufenden Verfahren, die in der Praxis häufiger eingesetzt werden, werden schrittweise einzelne Objekte zu Clustern und diese zu größeren Gruppen zusammengefasst, während bei den teilenden Verfahren größere Gruppen schrittweise immer feiner unterteilt werden. Die bei der hierarchischen Clusterung entstehende Baumstruktur wird in der Regel mit einem Dendrogramm visualisiert. Beim Anhäufen der Clustern wird zunächst jedes Objekt als ein eigenes Cluster mit einem Element aufgefasst. Nun werden in jedem Schritt die jeweils einander nächsten Clustern zu einem Cluster zusammengefasst. Das Verfahren kann beendet werden, wenn alle Clustern eine bestimmte Distanz zueinander überschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist. Aus verschiedenen Methoden zur Bestimmung des Abstands zweier Clustern ergeben sich verschiedene Verfahren. 3

4 k-nearest Neighbour Einfachster und am häufigsten eingesetzter prototypbasierter Klassifikator. Mit k >= 1 (typischerweise ist k eine ungerade Zahl). Es soll der Vektor x klassifiziert werden. Danach werden alle Distanzen d(x,c(j)) bestimmt, wobei c(j) alle Prototypen (Merkmalsvektoren) sind. Ebenso werden die nächsten k Nachbarn von x unter allen c(j) bestimmt. Unter diesen Nachbarn wird anschließend das Klassenlabel w ermittelt, welches am häufigsten vorkommt. w dient nun als Klassifikation für den Vektor x. Wie man sieht ist das k-nearest Neighbour Clusterverfahren sehr einfach, aber selbstverständlich nicht effizient bei der Klassifikation, jedoch wird keine Trainingsphase benötigt. k-means-algorithmus Beim k-means Algorithmus ist eine gewünschte Anzahl k von Clustern und eine Funktion zur Bestimmung des Mittelpunktes eines Clusters bekannt. Der Algorithmus läuft folgendermaßen ab: Initialisierung: (Zufällige) Auswahl von k Clusterzentren Zuordnung: Jedes Objekt wird dem ihm am nächsten liegenden Clusterzentrum zugeordnet Neuberechnung: Es werden für jedes Cluster die Clusterzentren neu berechnet Wiederholung: Falls sich nun die Zuordnung der Objekte ändert, weiter mit Schritt 2, ansonsten Abbruch 4

5 k-means-algorithmus Eigenheiten Der k-means-algorithmus muss nicht notwendigerweise konvergieren. Es kann sein, dass ein Cluster in einem Schritt leer bleibt und somit (mangels Berechenbarkeit eines Clusterzentrums) nicht mehr gefüllt werden kann. Um diese Probleme zu umgehen, startet man den k-means- Algorithmus einfach neu in der Hoffnung, dass beim nächsten Lauf durch andere zufällige Clusterzentren ein anderes Ergebnis geliefert wird. Trotz der obigen theoretischen Unzulänglichkeiten gilt der k- means-algorithmus als billig und gut, weil er praktisch fast immer gute Resultate liefert. EM-Algorithmus Die Idee des EM-Algorithmus basiert auf dem Clustern nach k-means. Grundvoraussetzung ist hier, dass alle Objekte als Vektoren der Dimension n dargestellt werden können. n kann beliebig gewählt werden. Weiterhin muss eine Funktion bekannt sein, nach der der Mittelwert zweier solcher Vektoren berechnet werden kann. Wie bei k- means wird zu Beginn des Clustervorgangs eine beliebige, domänenspezifische Anzahl von Clustern vorgegeben, in die die Objekte eingeteilt werden sollen. Jeder dieser Cluster hat einen Mittelpunkt: Einen Vektor der Dimension n. 5

6 EM-Algorithmus Der Clusteralgorithmus selbst durchläuft zwei Schritte: Estimation: Bestimme für jedes Objekt nach einer Wahrscheinlichkeitsverteilung deiner Wahl (beliebt ist hier z. B. die Normalverteilung) mit welcher Wahrscheinlichkeit es zu jedem der Cluster gehört und speichere diese Wahrscheinlichkeiten für alle Objekte und Cluster. Maximization: Bestimme anhand der ermittelten Zuordnungswahrscheinlichkeiten die Parameter neu, die die Cluster bestimmen (z. B. die Mittelwertvektoren). Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist. EM-Algorithmus (Expectation-Maximization) Im Gegensatz zu k-means wird damit eine weiche Clusterzuordnung erreicht: Mit einer gewissen Wahrscheinlichkeit gehört jedes Objekt zu jedem Cluster. Jedes Objekt beeinflusst so die Parameter jedes Clusters entsprechend dieser Wahrscheinlichkeit. Der Erfolg des Algorithmus hängt stark von der gewählten Wahrscheinlichkeitsverteilung ab. 6

7 Spectral Clustering Dieser Algorithmus wird häufig in der Bildverarbeitung eingesetzt, kann aber auch zum Clustern von Websuchergebnissen verwendet werden. Maximum Margin Clustering Problemstellung: Beim Clustering existieren keine Labels zu den Beispielen. Die Aufgabe ist es, ein Labeling der Instanzen zu finden, das den größten Abstand (margin) zwischen den Clustern ermöglicht. Multiview Clustering Übliche Clusteralgorithmen können nur in einem Vektorraum clustern. Der Multiviewansatz ermöglicht das parallele clustern in verschiedenen Vektorräumen. Webseiten können z. B. im TF-IDF- Raum dargestellt werden. Dann wird jedem Eintrag im Featurevektor die Häufigkeit des Wortes im gegebenen Dokument zugewiesen. Andererseits können sie auch als Summe ihrer Inlinks aufgefasst werden - dann enthält jeder Eintrag im Featurevektor genau dann eine 1, wenn von der entsprechenden Quellseite ein Link auf die aktuelle Seite existiert. Kombiniert man diese beiden Views mittels Multiview Clustering, so sind die resultierenden Ergebnisse nachweisbar qualitativ besser als bei einfacher Konkatenation der Featurevektoren. 7

8 Die (PCA, ) ist ein Verfahren der multivariaten Statistik. Sie dient dazu, umfangreiche Datensätze zu strukturieren, zu vereinfachen und zu veranschaulichen, indem eine Mehrzahl statistischer Variablen durch eine geringere Zahl möglichst aussagekräftiger Linearkombinationen (die "Hauptkomponenten") genähert wird. Beispiel: Betrachtet werden Artillerieschiffe des 2. Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer, leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, Leistung der Maschinen, Geschwindigkeit (längerfristig mögliche Höchstgeschwindigkeit), Aktionsradius und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor Größe sprechen. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch die Leistung der Maschinen und die Höchstgeschwindigkeit bestimmt wird. Man könnte ihn zu einem Faktor Geschwindigkeit zusammenfassen. 8

9 PCA mit SPSS: Faktor A B C Länge 0,862 0,481-0,159 Breite 0,977 0,083 0,198 Knoten -0,679 0,730 0,082 Prozentualer Anteil der Faktor Eigenwert λ j Prozent der Gesamtvarianz kumulierten Varianz an Gesamtvarianz A 2,16 71,97 71,97 B 0,77 25,67 97,64 C 0,07 2,36 100,00 9

10 PCA in der Epigenetik Datenreduktion von MS- (NMR, FTIR) Spektren PCA in der Epigenetik Datenreduktion von MS- (NMR, FTIR) Spektren 10

11 11

12 12