Methoden zur Segmentierung von Daten

Transkript

1 Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung Clusteranalyse Allgemeines Ähnlichkeits- und Distanzmaße Nebenpfad: Ähnlichkeitsmaße für nicht-metrische Merkmale Nebenpfad: Ähnlichkeitsmaße für nominal skalierte Merkmale Nebenpfad: Ähnlichkeitsmaße für metrisch skalierte Merkmale Nebenpfad: Gemischt-skalierte Merkmale Vorbereitung der Clusteranalyse Ablauf der Clusteranalyse Partitionierende Clusterverfahren Methodenbeschreibung Anwendung Nebenpfad: K-Means-Algorithmus CLARA und CLARANS Hierarchische Clusterverfahren Methodenbeschreibung Nebenpfad: Agglomerative Verfahren BIRCH und Chameleon CURE Dichtebasierte Clusterverfahren Methodenbeschreibung DBSCAN OPTICS und DENCLUE Anwendung

2 6 Gitterbasierte Clusterverfahren Methodenbeschreibung Selbstorganisierende Karten Biologischer Hintergrund Methodenbeschreibung Anwendung Literatur und Methoden Literatur zu Clusterverfahren Literatur zu Selbstorganisierenden Karten Methoden

3 1 Einleitung 1.1 Prinzip der Segmentierung von Daten Methoden zur Segmentierung von Daten teilen die zu analysierenden Daten in verschiedene Gruppen oder Klassen ein, ohne das diese Klassen im voraus bekannt sind. Bei der Segmentierung liegen erst nach Durchführung der entsprechenden Methoden die verschiedenen Datengruppen mit den ihnen zugeordneten Objekten vor. Auch die Kriterien, welche zu dieser Einteilung geführt haben, werden erst im Laufe der Analyse deutlich. Methoden zur Segmentierung von Daten Zu den gängigsten Methoden der Segmentierung von Daten gehört die Clusteranalyse. Sie gruppiert die Objekte nach dem Prinzip der maximalen Ähnlichkeit innerhalb einer Datengruppe bzw. der maximalen Unähnlichkeit zwischen verschiedenen Gruppen. Unter die Clusteranalyse fallen eine ganze Reihe von Verfahren, welche sich hinsichtlich des Distanz- bzw. Ähnlichkeitsmaßes und der Vorgehensweise bei der Eingruppierung der Objekte unterscheiden. Ein anderer Ansatz ist die Segmentierung mittels Neuronaler Netze, wobei sich hierzu insbesondere die Selbstorganisierenden Karten (Self Organizing Maps) eignen. 3

4 2 Clusteranalyse 2.1 Allgemeines Der Begriff der Clusteranalyse Unter dem Begriff der Clusteranalyse wird ein Vielzahl von verschiedenen heuristischenverfahren zusammengefasst. Die einzelnen Clusterverfahren unterscheiden sich anhand der verwendeten Ähnlichkeitsmaße sowie der Vorgehensweise, mit der eine möglichst gute, eindeutige Trennung der Cluster erzielt werden soll. Aufgrund der hohen Komplexität des Clusterproblems gibt es keinen Algorithmus, der eine optimale Gruppierung garantiert. Verfahren der Clusteranalyse Die Clusterverfahren werden in partitionierende, hierarchische, Dichte-basierte und Gitter-basierte Verfahren unterteilt. 4

5 2.2 Ähnlichkeits- und Distanzmaße MerkmalsauswahlDie Auswahl der Merkmale, nach denen gruppiert wird, ist für das Ergebnis für die der Clusteranalyse entscheidend. Zu wenige Merkmale führen zu einer geringen Anzahl von Clustern, die sich bei Berücksichtigung zusätzlicher Merkmale Clusteranalyse weiter differenzieren ließen. Zu viele Merkmale führen zu wenig differenzierten Clustern. Das Skalenniveauder Merkmale sollte so hoch wie möglich sein (d.h. am besten ist die metrische Skalierung) und einheitlich sein, damit aussagekräftige und differenzierte Ergebnisse erzielt werden können. Ähnlichkeitsund Distanzmaße Ähnlichkeit und Unähnlichkeit (Distanz) sind im Rahmen der Clusteranalyse austauschbare Begriffe, da sich jedes Ähnlichkeitsmaß durch eine Transformation in ein Distanzmaß umformulieren lässt. Ähnlichkeits- und Distanzmaße dienen dazu, unterschiedliche Objekte trennen und ähnliche Objekte zusammenfassen zu können. Die Ähnlichkeit bzw. Unähnlichkeit mittels derer die Objekte in Gruppen eingeteilt werden ist nur anhand der Merkmale definierbar, die für alle zu gruppierenden Objekte vorliegen. Die Abbildung zeigt die Verwendung unterschiedlicher Ähnlichkeitsmaße in Abhängigkeit vom Skalenniveau der Merkmale. Unter den folgenden Punkten finden Sie eine detaillierte Beschreibung der Maße für nicht-metrisch skalierte Merkmale, nominal und ordinal skalierte Merkmale, metrisch skalierte Merkmale und gemischt-skalierte Merkmale. Ähnlichkeitsmaße.png Ähnlichkeitsmaße.pdf Ähnlichkeitsmaße.jpg Ähnlichkeitsmaße.mps Nebenpfad: Ähnlichkeitsmaße für nicht-metrische Merkmale Binär skalierte Merkmale Bei binär-skalierten Merkmalen werden häufig das Ähnlichkeitsmaß nach JACCARD oder der Simple-Matching-Coefficient von SOKAL u. MICHE- NER angewendet. Ähnlichkeitskoeffizient nach JACCARD Der Ähnlichkeitskoeffizient bzw. das Distanzmaß nach JACCARD berechnet sich zu: 5

6 S ij = a a+b+c bzw. d ij = 1 S ij = b+c a+b+c wobei a die Anzahl aller Objekte mit der Merkmalskombination 1,1 zählt,b die Objekte mit 0,1, c die mit 1,0 und d die mit der Kombination 0,0. Der Ähnlichkeitskoeffizient nach JACCARD setzt somit den Anteil der gemeinsam vorhandenen Merkmale zur Anzahl aller Merkmale ins Verhältnis, die bei mindestens einem Objekt mit 1 ausgeprägt sind. RR-Koeffizient Beim RR-Koeffizienten (Russel & Rao) werden im Nenner auch die Objekte mit der Merkmalskombination 0,0 berücksichtigt. Ist beim Paarvergleich wenigstens ein Merkmal bei beiden Objekten mit 0 ausgeprägt -also nicht vorhandenso weist der RR-Koeffizient einen kleineren Ähnlichkeitswert auf als der JACCARD- Koeffizient. Simple- Matching- Koeffizient (M- Koeffizient) Soll das Nichtvorhandensein eines Merkmals berücksichtigt werden, so kann auch der Simple-Matching-Coefficient angewendet werden: SMC ij = a+d a+b+c+d Anwendung der Ähnlichkeitsmaße für binäre Merkmale Alle drei Ähnlichkeitsmaße gelangen zum gleichen Ergebnis, wenn keine Merkmale mit der Kombination 0,0 vorhanden sind. Ist dies jedoch der Fall, so weist der RR-Koeffizient den geringsten und der M-Koeffizient den höchsten Ähnlichkeitswert auf. Dazwischen liegt der JACCARD-Koeffizient. Welches Maß letztendlich vorzuziehen ist lässt sich nicht allgemeingültig festlegen. Eine große Bedeutung bei dieser (im Einzelfall abzuwägenden) Entscheidung hat die Frage, ob das Nichtvorhandensein eines Merkmals für die Problemstellung die gleiche Bedeutung hat wie das Vorhandensein dieser Eigenschaft. Es ist also eine genaue Sichtung der Datenbasis notwendig, bevor ein Ähnlichkeitskoeffizient für die Analyse ausgewählt wird. Wenn das Vorhandensein eines Merkmals die gleiche Aussagekraft hat wie das Nichtvorhandensein, so sind Ähnlichkeitsmaße zu bevorzugen, die im Zähler alle Übereinstimmungen berücksichtigen (wie der M-Koeffizient)(vgl. [], S. 124). 6

7 2.2.2 Nebenpfad: Ähnlichkeitsmaße für nominal skalierte Merkmale Nominal skalierte Merkmale Bei nominal-skalierten Merkmalen mit k Merkmalsausprägungen wird das nominale Merkmal mittels einer so genannten Dummy-Codierung in k-1 Dummy- Variablen transformiert, welche jeweils die Werte 0 oder 1 annehmen können. Dies hat allerdings den Nachteil, dass durch die meist große Anzahl an Dummy- Variablen das nominale Merkmal oft stark übergewichtet wird. Um dies zu vermeiden werden die Dummy-Variablen mit 1/(k-1) gewichtet. Mit den gewichteten Dummy-Variablen werden die Ähnlichkeitskoeffizienten wie bei binär skalierten Merkmalen berechnet. Eine weitere Möglichkeit ist, die Anzahl m von Übereinstimmungen zweier Objekte in den Merkmalsausprägungen zur Gesamtzahl p von Merkmalen ins Verhältnis zu setzen: d ii = p m p Ordinal skalierte Merkmale Für ordinal-skalierte Merkmale wird empfohlen, diese zu dichotomisieren. Bei der Mediandichotomisierung erhalten alle Rangplätze oberhalb des Medians eine 1 und alle unterhalb eine 0 zugewiesen. Auch kann die Rangvariable in mehrere Dummy-Variablen aufgelöst werden Nebenpfad: Ähnlichkeitsmaße für metrisch skalierte Merkmale Euklidisches Abstandsmaß Zur Bestimmung von Ähnlichkeiten bei metrischen Merkmalen (intervall-skalierten und ratio-skalierten Merkmalen) wird meist das euklidische Abstandsmaß mit x sub ij /sub als Merkmalsausprägung des Objektes i auf dem Merkmal j verwendet: d ii = p j=1 (x ij x i j)2 Weitere Ähnlichkeitsmaße Weitere Abstandsmaße sind die City-Block-Metrik oder die Manhattan- Distanz. Die Korrelation zwischen den verschiedenen Merkmalen führt in der Regel dazu, dass korrelierte Merkmale die Distanzbestimmung stärker beeinflussen als unkorrelierte. Die Malhalanobis-Distanz berücksichtigt diese korrelativen Abhängigkeiten zwischen den Merkmalen, indem sie die euklidische Distanz über die Faktorwerte 7

8 aller Faktoren (wie in der Hauptkomponentenanalyse) berechnet. Hiermit werden Korrelationen der ursprünglichen Merkmale eliminiert. Die Mahalanobis- Distanz ist invariant gegenüber beliebigen linearen Transformationen, insbesondere ist sie skaleninvariant. Normalisierung Fast alle metrischen Ähnlichkeitsmaße sind nicht skaleninvariant, d.h. wird die Maßeinheit eines Merkmals geändert (z.b. m in km), so verschieben sich auch die Distanzen. Außerdem beeinflussen Merkmale mit einem großen Wertebereich die Distanz stärker, als Merkmale mit einem kleinen Wertebereich. Um dies zu verhindern ist eine Normalisierung erforderlich, so dass alle Merkmale den gleichen Wertebereich haben. Eine Möglichkeit der Normalisierung ist die z-transformation, bei der die Abweichungen der Merkmalsausprägungen vom Mittelwert in Relation zur mittleren absoluten Abweichung gesetzt werden. Gewichtung von Merkmalen Wenn bestimmte Merkmale eine bessere Aussagefähigkeit haben als andere kann dies durch eine Gewichtung berücksichtigt werden. Hierzu werden die Merkmale selbst oder die Distanzmatrizen der Merkmale mit einem konstanten Faktor multipliziert Nebenpfad: Gemischt-skalierte Merkmale Vorgehen bei gemischtskalierten Merkmalen Liegen gemischt-skalierte Merkmale vor, so können für die einzelnen Merkmalsgruppen mit gleichem Skalenniveau Clusteranalysen durchgeführt werden. Deren Ergebnisse werden anschließend miteinander verknüpft. Dieser Vorgehensweise ist eine Methode vorzuziehen, bei der für die Merkmalsgruppen jeweils ein Distanzmaß und hieraus die gemeinsame Distanz berechnet wird. Der Einfluss der einzelnen Distanzen auf das gesamte Distanzmaß wird gemäß dem relativen Anteil der Merkmale einer Skalierungsart an der Gesamtzahl der Merkmale gewichtet. Eine weitere Möglichkeit der Behandlung gemischt-skalierter Merkmale ist, höhere Skalenniveaus in niedrigere umzuwandeln. Intervall-skalierte Merkmale können beispielsweise durch Mediandichotomisierung in binäre Skalen transformiert werden. Dies ist jedoch mit einem Informationsverlust verbunden. 8

9 2.3 Vorbereitung der Clusteranalyse Vorbereitung der Clusteranalyse Vor der Durchführung einer Clusteranalyse sollte der Anwender einige Überlegungen zur Auswahl und Aufbereitung der Ausgangsdaten durchführen. 1. Wenn mit einer Stichprobe gearbeitet wird muss sichergestellt sein, dass sich genügend Elemente in den einzelnen Clustern befinden werden, ansonsten können keine Rückschlüsse auf die Grundgesamtheit gezogen werden. 2. Die Daten sollten von Ausreißern bereinigt werden, also von Objekten, die gegenüber den anderen Objekten vollkommen andere Merkmalsausprägungen besitzen. 3. Es sollten nur Merkmale in der Clusteranalyse verwendet werden, die für den zu untersuchenden Sachverhalt relevante Merkmale sind. Merkmale, die für die Untersuchung irrelevant sind müssen aus der Clusteranalyse herausgenommen werden. 4. Eine unbeabsichtigte Übergewichtung einzelner Merkmale (z.b. durch Korrelationen zwischen Merkmalen) muss vermieden werden. Um dies zu erreichen kann entweder eine Faktoranalyse vorgeschaltet werden, korrelierende Merkmale können von der Analyse ausgeschlossen werden oder es wird die Mahalanobis-Distanz als Distanzmaß verwendet. Diese stellt allerdings bestimmte Voraussetzungen an de Daten (z.b. einheitliche StaTe- Met in allen Gruppen). 5. Es sollen keine Merkmale bei der Clusteranalyse berücksichtigt werden, die bei allen Objekten die gleiche Ausprägung besitzen. Ansonsten kommt es zu einer Nivellierung der Unterschiede zwischen den Clustern. Ward- Verfahren Kann nicht von vornherein ein bestimmtes Clusterverfahren als geeignet für die speziellen Daten identifiziert werden, so empfiehlt es sich, zuerst das Ward- Verfahrenanzuwenden. Dies liefert meist gute Ergebnisse. Anschließend werden die Ergebnisse des Ward-Verfahrens durch die Anwendung anderer Clusterverfahren überprüft. 9

10 2.4 Ablauf der Clusteranalyse Ablauf der Clusteranalyse Die Abbildung zeigt die einzelnen Schritte bei der Durchführung einer Clusteranalyse. Die Interpretation der Ergebnisse einer Clusterung führt oftmals zu einem wiederholten Durchlauf einzelner Schritt des Prozesses, da die Qualität eines Ergebnisses für ein bestimmtes Problem erst im Vergleich mit den Lösungen anderer Clusterverfahren bewertet werden kann. 10

11 3 Partitionierende Clusterverfahren 3.1 Methodenbeschreibung Partitionierende Clusterverfahren Bei partitionierenden Verfahren wird eine Anzahl k von Startclustern vorgegeben, denen die zu gruppierenden Objekte gemäß dem verwendeten Distanzmaß zugewiesen werden. Anschließend wird iterativ versucht, die jeweilige Gruppierung durch Verschieben einzelner Objekte von einem Cluster in einen anderen Cluster zu verbessern. Das Verfahren endet, wenn sich eine Gruppierung durch weiteres Verschieben von Objekten nicht mehr verbessern lässt. Die Zuordnung eines Objektes zu einem Cluster ist bei diesem Verfahren nicht endgültig sondern kann beliebig oft verändert werden. Gütekriterien Um die Güte der berechneten Clusterlösungen messen zu können, stehen eine Reihe von Kriterien zur Auswahl: Das Varianzkriterium oder Abstandsquadratsummenkriterium berechnet für jeden Cluster die quadrierten Abweichungen der Objekte eines Clusters vom Clusterschwerpunkt (Centroid) und summiert diese Abweichungen über alle Cluster auf. Es wird diejenige Partitionierung gesucht, für welche die Summe der quadrierten Abweichungen minimal ist. Weitere Kriterien sind das Spur-Kriterium, das Wilks Lambda-Kriterium oder das Determinanten-Kriterium, welches besonders bei korrelierten Merkmalen zu guten Ergebnissen führt. 11

12 3.2 Anwendung Anwendung Partitionierende Clusterverfahren sind geeignet, um für eine vorgegebene Anzahl von Clustern die beste Aufteilung der Objekte zu finden. Deshalb ist es wichtig, eine gute Anfangsgruppierung vorzugeben. Hierfür wird häufig die Lösung eines hierarchischen Clusterverfahrens verwendet, die dann mittels eines partitionierenden Verfahren verbessert wird. Sinnvoll ist auch, die anfängliche Gruppierung zu variieren und die erzielten Ergebnisse zu vergleichen. Auch kann die Anzahl der Cluster verändert werden. Das wohl wichtigste partitionierende Verfahren ist der k-means Algorithmus von MacQUEEN []. Dieser wird häufig zur Verbesserung der Lösung eines hierarchischen Clusterverfahrens eingesetzt Nebenpfad: K-Means-Algorithmus k-means Algorithmus Der k-means-algorithmus durchläuft die folgenden Schritte: 1. Es wird eine Anfangspartition mit k Clustern erzeugt. 2. Es werden nacheinander für alle Objekte die euklidischen Distanzen (auch andere Distanzmaße sind möglich) zu den Clustermittelpunkten bestimmt. 3. Weist ein Objekt eine größere Distanz zum eigenen als zu einem anderen Clustermittelpunkt auf, wird das Objekt in den anderen Cluster verschoben. 4. Die Mittelpunkte der reorganisierten Cluster werden neu berechnet und der Algorithmus startet erneut in Schritt 2 bis kein Objekt mehr verschoben werden kann. Beispiel Die Diashow zeigt die ersten zwei Iterationen eines k-means Algorithmus, welcher mit k=2 Clustern initialisiert wird. 12

13 Initialisieren mit k=2 Clustermittelpunkten Zuordnen der Objekte zu den Clustermittelpunkten Neuberechnung der Clustermittelpunkte Restrukturieren der Cluster Neuberechnung der Clustermittelpunkte Nachteile des k-means Algorithmus Ein Nachteil des k-means Algorithmus ist, dass das Clusterergebnis von der Wahl der Startpunkte abhängen kann. Es empfiehlt sich deshalb, verschiedene Startpartitionen zu wählen, welche die Reihenfolge der Cluster und die Reihenfolge der Objekte in einem Cluster variieren. Anwendung des k-means Algorithmus Der k-means Algorithmus kann nur angewendet werden, wenn der Mittelpunkt eines Clusters definiert werden kann. Dies ist beispielsweise bei ordinalen Merkmalen nicht der Fall. Die k-means Methode kann auch dann nicht angewendet werden, wenn die einzelnen Cluster nicht konvex sind, also beispielsweise eine längliche Form haben, oder sich in ihrer Größe stark unterscheiden. Außerdem ist die Methode sehr empfindlich gegenüber Ausreißern und verrauschten Daten, da diese die Berechnung des Mittelpunktes stark beeinflussen können. k-modes- und k-medoid- Algorithmus Erweiterungen des k-means Algorithmus, wie beispielsweise der k-modes Algorithmus, zeigen auch für ordinale und gemischt-skalierte Skalenniveaus gute Ergebnisse. Um die Empfindlichkeit gegenüber Ausreißern zu verringern kann statt des Mittelwertes ein Objekt als Referenzpunkt verwendet werden (k-medoid-algorithmus). Der Referenzpunkt ist das Objekt eines Clusters, welches diesen am besten repräsentiert. 13

14 Als Ausgangspartitionierung werden zufällig k Objekte als Referenzpunkte ausgewählt und die restlichen dem Referenzpunkt zugeteilt, dem sie am ähnlichsten sind. Anschließend wird versucht, die Referenzpunkte neu zu wählen, um damit das Optimalitätskriterium zu verbessern. Der k-medoid Algorithmus ist weniger empfindlich gegenüber Ausreißern und verrauschten Daten als der k-means Algorithmus. Jedoch ist er auch rechenaufwändiger. 14

15 3.3 CLARA und CLARANS CLARA und CLARANS Zur Clusterung sehr großer Datenmengen ist der k-means Algorithmus nur wenig geeignet. In diesem Fall werden partitionierende Clusterverfahren eingesetzt, welche eine zufällige, repräsentative Stichprobe aus den zu gruppierenden Daten ziehen und ein Clusterverfahren wie beispielsweise k-medoids auf diese Auswahl anwenden. Wenn die Stichprobe repräsentativ für die Grundgesamtheit ist, so sind auch die als Lösung des Clusterverfahrens erhaltenen Referenzobjekte repräsentativ. Diese Vorgehensweise wird für verschiedene Stichproben wiederholt und die jeweils berechneten Referenzpunkte verglichen. Sind diese stabil, so kann mit ihnen die Grundgesamtheit gruppiert werden. Algorithmen aus dieser Familie sind beispielsweise CLARA (clustering large applications) [], welcher z.b. im Statistik-Tool S-Plus implementiert ist, oder CLARANS (clustering large applications based upon randomized search) []. 15

16 4 Hierarchische Clusterverfahren 4.1 Methodenbeschreibung Agglomerative hierarchische Clusterverfahren Die bekanntesten agglomerative Verfahren sind: Single Linkage Complete Linkage Average Linkage Median-Methode Zentroid-Verfahren Ward-Methode Die Tabelle zeigt die Einsatzbereiche der wichtigsten agglomerativen Verfahren. Methode Fusionierungsverhalten Erlaubte Distanz-/ Bemerkung Hierarchische Clusterverfahren können in agglomerative und divisive Verfahren unterteilt werden. Agglomerative Verfahren beginnen mit der feinsten Partitionierung, bei der jedem Objekt ein eigener Cluster zugewiesen wird. Dann berechnet man die Distanzen zwischen allen Objektpaaren, fusioniert das Objektpaar, welches die kleinste Distanz aufweist und reduziert somit die Anzahl der Cluster um eins. Dies wird so lange wiederholt, bis ein vorgegebenes Stoppkriterium erreicht ist, beispielsweise eine bestimmte Anzahl an Clustern. Ähnlichkeitsmaße Single Linkage kontrahierend* alle neigt zur Kettenbildung Complete Linkage dilatierend** alle neigt zu kleinen, gleich großen Clustern Average Linkage konservativ*** alle Median-Methode konservativ nur metrische Merkmale Ward-Verfahren konservativ nur merische Merkmale bildet etwa gleich große Gruppen 16

17 * Kontrahierende Verfahren neigen dazu, auch entferntere Elemente noch einem Cluster zuzuordnen. Diese Verfahren sind gut geeignet um Ausreißer zu erkennen. * Dilatierende Verfahren neigen hingegen dazu, die Objekte in sehr kleine Gruppen aufzuteilen. ** Konservative Verfahren weisen weder eindeutig kontrahierende noch eindeutig dilatierende Eigenschaften auf. Divisive hierarchische Clusterverfahren Divisive Verfahren konstruieren eine Clusterhierarchie durch sukzessive Unterteilung der bereits bestimmten Cluster. Ausgehend von einem Cluster, welcher die gesamte Objektmenge enthält, werden die Objekte in zwei Cluster aufgeteilt. Jeder dieser Cluster wird dann wieder in zwei Gruppen zerlegt usw. Dabei können in jedem Schritt entweder alle Cluster gleichzeitig in zwei Gruppen aufgespalten werden oder alternativ jeder Cluster unabhängig von den anderen Clustern. Durch die Zunahme der Clusterzahl wächst die Ähnlichkeit innerhalb der Cluster im Laufe des Clusterprozesses. Nachteile hierarchischer Clusterverfahren Hierarchische Clusterverfahren sind relativ rechenaufwändig. Sie besitzen eine Laufzeit von etwa O(n sup 2 /sup. Durch Verwendung zusätzlicher Heuristiken kann jedoch eine lineare Laufzeit erreicht werden Nebenpfad: Agglomerative Verfahren Single Linkage Die Single Linkage (Minimum-Methode) vereinigt diejenigen Cluster, welche die zueinander am nächsten liegenden Nachbarobjekte besitzen. Die Verknüpfung zweier Cluster wird hier also durch je ein Objekt der beiden Cluster (single link) hergestellt. Diese Methode ist grundsätzlich für alle Distanzmaße geeignet, führt jedoch oft zu kettenförmigen Clustergebilden (Chaining-Effekt), in denen sich Objekte befinden, die zueinander eine geringere Ähnlichkeit aufweisen als zu Objekten anderer Cluster. Die Minimum-Methode tendiert zum kontrahierenden Verhalten, d.h. sie bildet zunächst einige wenige große und viele kleine Gruppen. Sie eignet sich deshalb dazu, Ausreißer zu identifizieren. Complete Linkage Die Complete Linkage (Maximum-Methode) bestimmt für alle Clusterpaare die jeweils am weitesten entfernt liegenden Objekte. Diejenigen Cluster werden fusioniert, für die diese Distanz minimal ist. 17

18 Auch hier können alle Distanzmaße verwendet werden. Als Ergebnis liefert die Maximum-Methode relativ homogene Cluster gleicher Größe (dilatierendes Verhalten) und wird deshalb in der Praxis häufig verwendet. Average Linkage Average Linkage (Durchschnitts-Methode) berechnet für je zwei Cluster den Durchschnitt aller Objektdistanzen und fusioniert die Cluster mit der kleinsten Durchschnittsdistanz. Diese ist identisch mit der Distanz der Clusterschwerpunkte (Centroide). Als Distanzmaße kommen alle Maße in Frage, für die eine Durchschnittsbildung möglich ist. Vom Clustereffekt liegt die Methode zwischen der Minimum- und der Maximum- Methode (konservatives Verhalten). Median- Methode Die Median-Methode wird insbesondere bei euklidischen Distanzen angewendet. Es werden diejenigen Cluster fusioniert, deren euklidischer Abstand minimal ist. Diese Methode vernachlässigt die Objekthäufigkeiten der zu fusionierenden Cluster. Will man diese berücksichtigen, so ist die Durchschnittsmethode geeigneter. Ward- Methode Die Ward-Methode (Minimum-Varianz-Methode, Fehlerquadratsummenmethode, HGROUP-Methode) fusioniert die Cluster so, dass die Erhöhung der gesamten Fehlerquadratsumme minimal ist. Die Fehlerquadratsumme wird als Summe der quadratischen Distanzen der Objekte eines Clusters vom Clustermittelwert berechnet. Die Ward-Methode fusioniert in den ersten Schritten bevorzugt kleine Cluster in Regionen mit hoher Objektdichte. Mit fortschreitender Clusterung neigt die Methode dazu, Unterschiede in der Objektzahl verschiedener Cluster auszugleichen. Besteht die beste Gruppierung aus Clustern unterschiedlicher Größe, so ist die Durchschnitts-Methode besser geeignet. 18

19 4.2 BIRCH und Chameleon BIRCH Komplexere hierarchische Clusterverfahren können auch große Datenbanken schnell und dynamisch clustern. Der von Zhang et al []veröffentlichte BIRCH-Algorithmus (Balanced Iterative Reducing and Clustering Using Hierarchies) arbeitet mit Baumstrukturen und Baumalgorithmen. Die einzelnen Baumknoten repräsentieren Cluster und enthalten für die Clusterung relevante Informationen über die Teilbäume. Durch die Verwendung dynamischer Baumstrukturen wird auch eine inkrementelle Clusterung neu hinzukommender Objekte möglich. BIRCH hat nur eine lineare Laufzeit, da gute Cluster bereits in einem Durchlauf gefunden werden. Mit wenigen weiteren Durchläufen wird die Qualität der Cluster verbessert. Chameleon Der Chameleon-Algorithmus [] basiert auf einer initialen Gruppierung der Objekte gemäß dem Ansatz der k nächsten Nachbarn (also eine Verknüpfung zwischen einem Objekt und seinen k nächsten Nachbarn). Ein so konstruierter k- nearest neighbours -Graph wird partitioniert, die einzelnen Teile jeweils mittels einer Clusteranalyse gruppiert und schließlich die so gewonnenen Cluster wieder verschmolzen. Chameleon bietet die Möglichkeit, große Datenbestände effizient zu clustern. Der Algorithmus besteht im wesentlichen aus zwei Schritten: Zuerst werden die Objekte mittels eines Algorithmus zur Partitionierung von Graphen in relativ viele Clusterteile gruppiert. Dann werden diese Clusterteile mittels eines hierarchischen Clusteralgorithmus sequentiell verschmolzen In der Abbildung ist das generelle Vorgehen des Algorithmus dargestellt. 19

20 4.3 CURE CURE Um die von vielen Verfahren bevorzugte Clusterung in sphärische Cluster gleicher Größe zu vermeiden, wurden zahlreiche Verfahren entwickelt. CURE [] (clustering using representatives) ist ein Verfahren, welches einen Cluster anstatt mit einem einzelnen Referenzpunkt mit einer vorgegebene Anzahl solcher Punkte repräsentiert. Dies ermöglicht eine gute Anpassung an nicht-sphärische und unterschiedlich große Cluster. Methodenbeschreibung Im Detail geht CURE folgendermaßen vor: 1. Es werden s Objekte ausgewählt, die geclustert werden sollen, z.b. durch Ziehen einer zufälligen Stichprobe. 2. Die Objekte werden in p Partitionen der Größe s/p aufgeteilt. 3. Die p Partitionen werden jeweils in partielle Cluster gruppiert. 4. Dann werden Ausreißer eliminiert, z.b. indem Cluster gelöscht werden, die zu langsam wachsen. 5. Die partiellen Cluster werden zu den endgültigen Clustern gruppiert. Die Diashow zeigt das Vorgehen von Cure anhand eines Beispiels, in dem p=2 gewählt wurde. Zu clusternde Objekte Aufteilen der Objekte in 2 Partitionen der Größe 24 Clustern der Partitionen in partielle Cluster Eliminieren von Ausreissern Clustern der partiellen Cluster 20

21 5 Dichtebasierte Clusterverfahren 5.1 Methodenbeschreibung Dichtebasiertes Clustern Dichtebasierte Clusterverfahren wurden entwickelt, um Cluster mit unregelmäßigen Formen darstellen zu können. Diese Methoden erkennen Cluster als Regionen mit einer hohen Dichte an Objekten. Die Cluster werden durch Regionen mit geringer Objektdichte voneinander getrennt. Unterschiedliche Clusterergebnisse Die Dia-Show zeigt den Unterschied zwischen der Clusterung mit einem dichtebasierten und einem hierarchischen Verfahren anhand von zwei Beispielen. Es wird deutlich, dass dichtebasierte Verfahren langgezogene Cluster oder Cluster mit unregelmäßigen Formen gut erkennen, wohingegen hierarchische Verfahren zu einer eher kugelförmige Clusterbildung tendieren. Beispiel 1: Zu clusternde Objekte Beispiel 1: Clusterung mit einem dichtebasierten Verfahren Beispiel 1: Clusterung mit einem hierarchischen Verfahren Beispiel 2: Zu clusternde Objekte Beispiel 2: Clusterung mit einem dichtebasierten Verfahren Beispiel 2: Clusterung mit einem hierarchischen Verfahren 21

22 5.2 DBSCAN DBSCAN Die bekannteste dichtebasierte Methode ist DBSCAN (Density Based Spatial Clustering of Applications with Noise), die 1996 von Ester et al. [] veröffentlicht wurde. DBSCAN clustert folgendermaßen: 1. Für jedes Objekt wird eine Nachbarschaft ɛ festgelegt. 2. Wenn sich innerhalb dieser Nachbarschaft mindestens eine definierte Anzahl von Objekten min sub obj /sub befindet, dann wird dieses Objekt ein Kern genannt. Die Objekte in der Nachbarschaft eines Kernes können jedoch selbst wieder Kerne sein. 3. Kerne, die sich in der Nachbarschaft eines anderen Kernes befinden werden mit diesem verknüpft. Solche Verbindungen werden als Region hoher Objektdichte oder als Cluster bezeichnet. Bedingt durch diese Form des Clusterwachstums können die Cluster unregelmäßige Formen annehmen. Alle Objekte, die schließlich nicht in einem Cluster enthalten sind werden als Störgeräusche aufgefasst. Das Laufzeitverhalten von DBSCAN ist O(n sup 2 /sup ) wobei n die Anzahl der zu gruppierenden Objekte ist. 22

23 5.3 OPTICS und DENCLUE OPTICS OPTICS (Ordering Points To Identify the Clustering Structure) ist eine Erweiterung von DBSCAN, welche das Problem der Parameterwahl lösen soll []. OPTICS berücksichtigt die Dichtestruktur der Daten und berechnet eine Ordnung über die Objekte basierend auf der minimalen Nachbarschaft ɛ min eines Objektes. Diese ist definiert als das kleinste ɛ, für welches ein Objekt noch zu einem Kern wird. Mit dieser Information können die Cluster in einer speziellen Reihenfolge aufgebaut werden. DENCLUE Die Methode DENCLUE (Density based Clustering) basiert auf der Verwendung einer Dichtefunktion []. Dies ist eine Funktionen, welche den Einfluss eines Objektes auf seine Nachbarschaft beschreibt. Die Dichte des gesamten untersuchten Raumes setzt sich aus den Dichtefunktionen aller Objekte zusammen. Die Cluster werden gebildet, indem Anziehungspunkte identifiziert und diesen die Objekte zugeordnet werden. Die Anziehungspunkte sind lokale Maxima der Dichtefunktion, die beispielsweise mit dem Hill-Climbing-Algorithmus gefunden werden können. DENCLUE ermöglicht mittels der Dichtefunktionen eine gute mathematische Beschreibung unregelmäßig geformter Cluster in hochdimensionalen Daten und reagiert wenig empfindlich auf verrauschte Daten. Jedoch ist auch bei dieser Methode die Parameterwahl problematisch und bleibt dem Benutzer überlassen. 23

24 5.4 Anwendung Vorteile dichtebasierter Clusterverfahren Dichtebasierte Verfahren können unregelmäßige Clusterformen gut abbilden. Sie können auch verrauschte Daten gut clustern. Sie clustern die gesamten Daten in einem Durchlauf und sind deshalb auch auf hochdimensionale, große Probleme effizient anwendbar. Nachteile dichtebasierter Verfahren Für dichtebasierte Verfahren müssen Dichteparameter vorgegeben werden, z.b. eine Nachbarschaft ɛ und eine minimale Anzahl an Objekten min sub obj /sub. Dies geschieht meist aufgrund von Erfahrungswerten oder es werden zur Bestimmung einer guten Parameterwahl mehrere Durchläufe mit unterschiedlichen Parametern analysiert. Dies ist jedoch besonders für reale, hochdimensionale Probleme äußerst schwierig durchzuführen. Die meisten dieser Algorithmen reagieren sehr sensibel auf die Wahl der Parameter. Bereits kleine Veränderungen in den Parametern können zu einer anderen Gruppierung der Daten führen. Reale Probleme haben meist eine sehr komplexe Clusterstruktur, so dass einheitliche Parameter für die gesamten Daten nicht ausreichend sind. 24

25 6 Gitterbasierte Clusterverfahren 6.1 Methodenbeschreibung Gitterstruktur Gitterbasierte Verfahren unterteilen den gesamten Raum in eine endliche Anzahl von Zellen, welche eine Gitterstruktur formen, auf der alle Clusteroperationen durchgeführt werden. Da die Objekte im Raum meist nicht gleichmäßig verteilt sind existieren in der Regel Zellen mit einer höheren Dichte an Objekten. Effiziente Suche nach Clustern Das Ziel gitterbasierter Methoden ist, den Raum so zu unterteilen, dass effizient nach Clustern gesucht werden kann. Sie sind somit insbesondere für große und hochdimensionale Suchräumegeeignet. Eine weitere Strategie bei der Suche nach dicht besetzten Gebieten ist, diedimension des Suchraums zu verkleinern. Wird in diesem niedriger dimensionalen Raum keine Häufung von Objekten gefunden, so ist dies auch in höheren Dimensionen nicht zu erwarten. Probleme mit unregelmäßigen Clustern Aufgrund der rechteckigen Form der Zellen können die Cluster jedoch bei vielen Methoden nur horizontal oder vertikal abgegrenzt werden. Um differenzierte, unregelmäßige Cluster darstellen zu können, muss die Gitterstruktur entsprechend fein gewählt werden. Dies vermindert jedoch die Effizienz der Algorithmen. Methoden Gitterbasierte Methoden sind beispielsweise STING (Statistical Information Grid) [], WaveCluster [] oder CLIQUE (Clustering in Quest) []. 25

26 7 Selbstorganisierende Karten 7.1 Biologischer Hintergrund Allgemeines Selbstorganisierende Karten (Self Organizing Maps, SOM, Kohonen-Netze) gehören zu den Neuronale Netze, die nach dem Prinzip des unüberwachten Lernens arbeiten. Beim unüberwachten Lernen ist die zu einer vorgegebenen Eingabe gewünschte Ausgabe in der Lernphase dem Netz nicht bekannt. Das neuronale Netz muß folglich selbstorganisierend lernen. Entwickelt wurde das Modell der SOM zu Beginn der 80er Jahre von Teuvo Kohonen, der damit an ältere Arbeiten von C. von der Marlsburg anknüpfte. Aufgabe einer selbstorganisierenden Karte ist es, einen Eingaberaum (Merkmalsraum) zu kartieren, das heißt jedem Neuron einen speziellen Bereich des Eingaberaumes zuzuweisen. Dabei repräsentieren benachbarte Neuronen auch ähnliche Merkmalswerte aus dem Eingaberaum. Aufbau der Hirnrinde Der biologische Hintergrund für SOM sind sogenannte sensorische Karten im Gehirn. Auch wenn noch nicht vollständig geklärt ist, auf welche Weise Sinneseindrücke im Gehirn verarbeitet werden, ist bekannt, dass räumliche Merkmale der Außenwelt eine räumliche Entsprechung auf der Hirnrinde finden. Die Großhirnrinde reagiert auf Reize von außen stets mit räumlich begrenzten Aktivitäten, sogenannten lokalen Erregungszonen. Es lassen sich Teilflächen auf der Grosshirnrinde ausmachen, denen jeweils ein bestimmter Aufgabenbereich zugeordnet ist. Viele dieser Zuordnungen werden in der Kindheit ausgebildet, sind aber auch bei Erwachsenen noch veränderbar. 26

27 7.2 Methodenbeschreibung Das Kohonen-Netz Kohonennetze sind Neuronale Netze mit zwei Schichten. Die Eingabeschicht hat so viele Neuronen, wie Merkmale x zur Segmentierung verwendet werden. Die Ausgabeschicht (Kohonen-Schicht) bildet eine zweidimensionale Karte (in der Regel ein Gitter). Die beiden Schichten sind vollständig verbunden, d.h. jedes Neuron i der Eingabeschicht hat mit jedem Neuron j der Ausgabeschicht eine mit w sub ij /sub gewichtete Verbindung. Selbstorganisierende Karten bilden den Merkmalsraum der Eingabeschicht so auf die Ausgabeschicht ab, dass ähnliche Merkmalsvektoren benachbarte Neuronen der Ausgabeschicht aktivieren. Ein Merkmalsvektor umfasst alle Merkmalsausprägungen der Merkmale eines Objektes. Um ein fertig trainiertes Netz zu nutzen, wird der Merkmalsvektor eines Objektes an die Eingabeschicht angelegt. Dann wird in der Ausgabeschicht das Neuron gesucht, dessen Gewichte dem Merkmalsvektor am ehesten entsprechen (das Neuron mit der maximalen Erregung). Dieses Neuron ist das Gewinner- Neuron. In der Regel bedeutet dies, dass der Gewichtevektor dieses Neurons den minimalen euklidischen Abstand zum Trainingsobjekt hat. Der Merkmalsvektor wird also auf das Gewinner-Neuron abgebildet. Training des Netzes Um das Neuronale Netz zu trainieren, werden die Merkmalsvektoren in zufälliger Reihenfolge an das Netz angelegt und das Gewinner-Neuron wird bestimmt. Bei jedem Schritt werden die Gewichte des Gewinner-Neurons und seiner Nachbar-Neuronen dem Merkmalsvektor angenähert. Die Nachbarschaft wird häufig durch eine Glockenkurve definiert. Die Nachbarschaft und die Lernrate (der Grad der Annäherung pro Lernschritt) werden zu Beginn des Lernenprozesses relativ groß gewählt und im Laufe des Trainings stetig verkleinert, bis das Netz stabil ist. Die Geschwindigkeit der Verkleinerung muss geschickt gewählt werden. Ist sie zu klein, dauert das Lernen unnötig lange und ist sie zu groß, so ist das Netz nicht ausgereift. 27

28 7.3 Anwendung Anwendungsempfehlungen Bei der Konzeption und Anwendung eines Kohonen-Netzes sind eine Reihe von wichtigen Punkten zu beachten: Kohonen empfiehlt aus Gründen der besseren visuellen Inspektion ein hexagonales Gitter (wobei ein quadratisches Gitter leichter zu implementieren ist). Die äußere Form des Gitters sollte nicht quadratisch sondern rechteckig sein, damit es für die Karte weniger Symmetrien in der Orientierung gibt. Wenn nur wenige Merkmalsvektoren ( 100) zum Training zur Verfügung stehen, so können diese zufällig oderzyklisch wiederholt dem Netz präsentiert werden. Von manchen Autoren wird eine Skalierung der Eingabe empfohlen, d.h. alle Merkmale werden in die gleiche Skala transformiert. Dies beeinflusst natürlich die Abbildung der Kohonen-Schicht. Anwendungsbereiche Self Organizing Maps werden in vielen Bereichen eingesetzt. Einige Beispiele sind: Automatische Spracherkennung Analyse großer Datenbestände (vgl. z.b.[]) Lösung kombinatorischer Optimierungsprobleme, z.b. des Travelling Salesman Problems (vgl. z.b.[]) Klassifikation von Wolken anhand von Satellitenbildern Hydrologie (beschrieben in []) Organisation großer Dokumentsammlungen (vgl. []), z.b. Clustern von Web-Inhalten [] Einen umfassenden Überblick über die Veröffentlichungen zum Thema Selbstorganisierende Karten bietet eine Literaturliste [] des Neural Network Research Center der Universität Helsinki. 28

29 8 Literatur und Methoden 8.1 Literatur zu Clusterverfahren Literaturverzeichnis Einführende Literatur zu statistischen Clusterverfahren Bacher, J.: Clusteranalyse: Anwendungsorientierte Einführung, München Backhaus, K./Erichson, B./Plinke, W./Weiber, R.: Multivariate Analysemethoden, 6. Aufl., Springer, Berlin Heidelberg New York Backhaus, K., B. Erichson, W. Plinke u. R. Weiber: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, 9. Auflage, Berlin 2000, S. 328ff. Everitt, B.: Cluster Analysis, 3rd ed., London Griffith, D.A./Amrhein, C.G.: Multivariate Statistical Analysis for Geographers. Prentice Hall, New Jersey Jambu, M./Lebeaux, M.-O.: Cluster Analysis and Data Analysis. North-Holland, Amsterdam Kaufman, L./Rousseeuw, P.J.: Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons, Späth, H. (Hrsg.): Fallstudien Cluster-Analyse, München Späth, H.: Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion, 2. Aufl., München, Wien Literaturverzeichnis Weiterführende Literatur zu statistischen Clusterverfahren Agrawal, R./Gehrke, J./Gunopulos, D./Raghavan, P.: Automatic subspace clustering of high dimensional data for data mining applications, in: Proceedings of the 1998 ACM SIGMOD international conference on Management of data, ACM Press, New York, 1998, pp Ankerst, M./Breunig, M.M./Kriegel, H.-P. Sander, J.: OPTICS: ordering points to identify the clustering structure, in: Proceedings of the 1999 ACM SIGMOD international conference on Management of data, Philadelphia, Pennsylvania, United States, 1999, pp Ester, M./Kriegel, H.-P./Sander, J./ Xu, X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, in: Proceedings of the 2nd Int. Conf. on Knowledge Discovery and Data Mining, Menlo Park, California, 1996, pp Guha, S./Rastogi, R./Shim, K.: CURE: an efficient clustering algorithm for large databases, in: Proceedings of the 1998 ACM SIGMOD international conference on Management of data, Vol. 27, 1998, pp Hinneburg A./ Keim D.A.: An Efficient Approach to Clustering in Large Multimedia Databases with Noise, in: Proceedings of the 4th Int. Conf. on Knowledge Discovery and Data Mining, AAAI Press, 1998, auf URL: ( ). 29

30 Karypis, G./Han, E.-H./Kumar, V.: Chameleon: Hierarchical Clustering using Dynamic Modeling, in: IEEE Computer, Vol. 32(8), 1999, pp MacQueen, J.: Some methods for classification and anlysis of multivariate observations, in: Cam, L. M./Neyman, J. (eds.): Proceedings of the 5th Berkeley Symposium on mathematical statistics and probability, Vol. 1, University of California Press, Los Angeles 1967, pp Ng, R./Han, J.: Efficient and effective clustering method for spatial data mining, in: Proceedings of the 1994 Int. Conf. on Very Large Data Bases, Santiago, Chile, 1994, pp Sheikholeslami, G./ Chatterjee, S./Zhang, A.: WaveCluster: a wavelet-based clustering approach for spatial data in very large databases, in: The VLDB Journal - The International Journal on Very Large Data Bases, Vol. 8, Springer, New York, 2000, pp Wang, W./Yang, J./Muntz, R.R.: STING: A Statistical Information Grid Approach to Spatial Data Mining, in: Source Proceedings of the 23rd International Conference on Very Large Data Bases, Morgan Kaufmann, San Francisco, 1997, pp , auf URL: ( ). Zhang, T./Ramakrishnan, R./Livny, M.: BIRCH: an efficient data clustering method for very large databases, in: Proceedings of the 1996 ACM SIGMOD international conference on Management of data, Montreal, Canada 1996, pp Literatur zu Selbstorganisierenden Karten Literaturverzeichnis Einführende Literatur zu SOM Kohonen, T.: Statistical pattern revisited, in: Eckmiller, R. (ed.): Advanced Neural Networks, Elsevier, Amsterdam 1990, pp Kohonen, T. : The Self-Organizing Map, in: Proceedings of the IEEE, 78/9, 1990, pp Ritter, Helge; Martinetz, Thomas; Schulten, Klaus: Neuronale Netze - Einführung in die Neuroinformatik selbstorganisierender Netzwerke. Bonn, Tryba, V.: Selbstorganisierende Karten: Theorie, Anwendung und VLSI-Implementierung, Fortschrittberichte VDI, 9/151, VDI-Verlag, Düsseldorf Literaturverzeichnis Weiterführende Literatur zu SOM Aguilera, P.A./Frenich, A.G./Torres, J.A./Castro, H./Vidal, J.L.M./Canton, M.: Application of the kohonen neural network in coastal water management: Methodological development for the as- 30

31 sessment and prediction of water quality, in: Water Research, Vol. 35, 2001, pp Angniol, B./Vaubois, G.D./ Texier, J.Y.: Selforganizing feature maps and the Travelling Salesman Problem, in: Neural Networks, Vol. 1, 1988, pp Black, B./Sere, K./Vanharanta, H.: Managing complexity in large databses using self-organized maps, in: Accounting, Management and Information Technologies, Vol. 8, 1998, pp Guerrero, V.P./De Moya Anegon, F./Herrero Solana, V.: Document organization using kohonen s algorithm, in: Information Processing and Management, Vol. 38, 2002, pp Kaski, S./Lagus, K.: Comparing self-organizing maps, in: Von der Maisburg, C./Von Seelen, W./Vorbruggen, J.C./Sendhoff, B. (eds.): Artifical Neural Networks- ICANN Int. Conf. Proc., Springer, Berlin 1996, pp N.N.: ( ) WebSOM: Self-Organizing Maps for Internet Exploration, Entwicklung der Helsinki University of Technology, auf URL: ( ) 8.1 Methoden Verzeichnis der erläuterten Methoden Ähnlichkeitsmaß nach Jaccard Average Linkage BIRCH Chameleon CLARA CLARANS Complete Linkage DBSCAN DENCLUE Euklidisches Distanzmaß k-means k-medioid Median-Methode OPTICS RR-Koeffizient Simple-Matching-Coefficient Single Linkage Ward-Methode 31