Methoden zur Segmentierung von Daten

Größe: px
Ab Seite anzeigen:

Download "Methoden zur Segmentierung von Daten"

Transkript

1 Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung Clusteranalyse Allgemeines Ähnlichkeits- und Distanzmaße Nebenpfad: Ähnlichkeitsmaße für nicht-metrische Merkmale Nebenpfad: Ähnlichkeitsmaße für nominal skalierte Merkmale Nebenpfad: Ähnlichkeitsmaße für metrisch skalierte Merkmale Nebenpfad: Gemischt-skalierte Merkmale Vorbereitung der Clusteranalyse Ablauf der Clusteranalyse Partitionierende Clusterverfahren Methodenbeschreibung Anwendung Nebenpfad: K-Means-Algorithmus CLARA und CLARANS Hierarchische Clusterverfahren Methodenbeschreibung Nebenpfad: Agglomerative Verfahren BIRCH und Chameleon CURE Dichtebasierte Clusterverfahren Methodenbeschreibung DBSCAN OPTICS und DENCLUE Anwendung

2 6 Gitterbasierte Clusterverfahren Methodenbeschreibung Selbstorganisierende Karten Biologischer Hintergrund Methodenbeschreibung Anwendung Literatur und Methoden Literatur zu Clusterverfahren Literatur zu Selbstorganisierenden Karten Methoden

3 1 Einleitung 1.1 Prinzip der Segmentierung von Daten Methoden zur Segmentierung von Daten teilen die zu analysierenden Daten in verschiedene Gruppen oder Klassen ein, ohne das diese Klassen im voraus bekannt sind. Bei der Segmentierung liegen erst nach Durchführung der entsprechenden Methoden die verschiedenen Datengruppen mit den ihnen zugeordneten Objekten vor. Auch die Kriterien, welche zu dieser Einteilung geführt haben, werden erst im Laufe der Analyse deutlich. Methoden zur Segmentierung von Daten Zu den gängigsten Methoden der Segmentierung von Daten gehört die Clusteranalyse. Sie gruppiert die Objekte nach dem Prinzip der maximalen Ähnlichkeit innerhalb einer Datengruppe bzw. der maximalen Unähnlichkeit zwischen verschiedenen Gruppen. Unter die Clusteranalyse fallen eine ganze Reihe von Verfahren, welche sich hinsichtlich des Distanz- bzw. Ähnlichkeitsmaßes und der Vorgehensweise bei der Eingruppierung der Objekte unterscheiden. Ein anderer Ansatz ist die Segmentierung mittels Neuronaler Netze, wobei sich hierzu insbesondere die Selbstorganisierenden Karten (Self Organizing Maps) eignen. 3

4 2 Clusteranalyse 2.1 Allgemeines Der Begriff der Clusteranalyse Unter dem Begriff der Clusteranalyse wird ein Vielzahl von verschiedenen heuristischenverfahren zusammengefasst. Die einzelnen Clusterverfahren unterscheiden sich anhand der verwendeten Ähnlichkeitsmaße sowie der Vorgehensweise, mit der eine möglichst gute, eindeutige Trennung der Cluster erzielt werden soll. Aufgrund der hohen Komplexität des Clusterproblems gibt es keinen Algorithmus, der eine optimale Gruppierung garantiert. Verfahren der Clusteranalyse Die Clusterverfahren werden in partitionierende, hierarchische, Dichte-basierte und Gitter-basierte Verfahren unterteilt. 4

5 2.2 Ähnlichkeits- und Distanzmaße MerkmalsauswahlDie Auswahl der Merkmale, nach denen gruppiert wird, ist für das Ergebnis für die der Clusteranalyse entscheidend. Zu wenige Merkmale führen zu einer geringen Anzahl von Clustern, die sich bei Berücksichtigung zusätzlicher Merkmale Clusteranalyse weiter differenzieren ließen. Zu viele Merkmale führen zu wenig differenzierten Clustern. Das Skalenniveauder Merkmale sollte so hoch wie möglich sein (d.h. am besten ist die metrische Skalierung) und einheitlich sein, damit aussagekräftige und differenzierte Ergebnisse erzielt werden können. Ähnlichkeitsund Distanzmaße Ähnlichkeit und Unähnlichkeit (Distanz) sind im Rahmen der Clusteranalyse austauschbare Begriffe, da sich jedes Ähnlichkeitsmaß durch eine Transformation in ein Distanzmaß umformulieren lässt. Ähnlichkeits- und Distanzmaße dienen dazu, unterschiedliche Objekte trennen und ähnliche Objekte zusammenfassen zu können. Die Ähnlichkeit bzw. Unähnlichkeit mittels derer die Objekte in Gruppen eingeteilt werden ist nur anhand der Merkmale definierbar, die für alle zu gruppierenden Objekte vorliegen. Die Abbildung zeigt die Verwendung unterschiedlicher Ähnlichkeitsmaße in Abhängigkeit vom Skalenniveau der Merkmale. Unter den folgenden Punkten finden Sie eine detaillierte Beschreibung der Maße für nicht-metrisch skalierte Merkmale, nominal und ordinal skalierte Merkmale, metrisch skalierte Merkmale und gemischt-skalierte Merkmale. Ähnlichkeitsmaße.png Ähnlichkeitsmaße.pdf Ähnlichkeitsmaße.jpg Ähnlichkeitsmaße.mps Nebenpfad: Ähnlichkeitsmaße für nicht-metrische Merkmale Binär skalierte Merkmale Bei binär-skalierten Merkmalen werden häufig das Ähnlichkeitsmaß nach JACCARD oder der Simple-Matching-Coefficient von SOKAL u. MICHE- NER angewendet. Ähnlichkeitskoeffizient nach JACCARD Der Ähnlichkeitskoeffizient bzw. das Distanzmaß nach JACCARD berechnet sich zu: 5

6 S ij = a a+b+c bzw. d ij = 1 S ij = b+c a+b+c wobei a die Anzahl aller Objekte mit der Merkmalskombination 1,1 zählt,b die Objekte mit 0,1, c die mit 1,0 und d die mit der Kombination 0,0. Der Ähnlichkeitskoeffizient nach JACCARD setzt somit den Anteil der gemeinsam vorhandenen Merkmale zur Anzahl aller Merkmale ins Verhältnis, die bei mindestens einem Objekt mit 1 ausgeprägt sind. RR-Koeffizient Beim RR-Koeffizienten (Russel & Rao) werden im Nenner auch die Objekte mit der Merkmalskombination 0,0 berücksichtigt. Ist beim Paarvergleich wenigstens ein Merkmal bei beiden Objekten mit 0 ausgeprägt -also nicht vorhandenso weist der RR-Koeffizient einen kleineren Ähnlichkeitswert auf als der JACCARD- Koeffizient. Simple- Matching- Koeffizient (M- Koeffizient) Soll das Nichtvorhandensein eines Merkmals berücksichtigt werden, so kann auch der Simple-Matching-Coefficient angewendet werden: SMC ij = a+d a+b+c+d Anwendung der Ähnlichkeitsmaße für binäre Merkmale Alle drei Ähnlichkeitsmaße gelangen zum gleichen Ergebnis, wenn keine Merkmale mit der Kombination 0,0 vorhanden sind. Ist dies jedoch der Fall, so weist der RR-Koeffizient den geringsten und der M-Koeffizient den höchsten Ähnlichkeitswert auf. Dazwischen liegt der JACCARD-Koeffizient. Welches Maß letztendlich vorzuziehen ist lässt sich nicht allgemeingültig festlegen. Eine große Bedeutung bei dieser (im Einzelfall abzuwägenden) Entscheidung hat die Frage, ob das Nichtvorhandensein eines Merkmals für die Problemstellung die gleiche Bedeutung hat wie das Vorhandensein dieser Eigenschaft. Es ist also eine genaue Sichtung der Datenbasis notwendig, bevor ein Ähnlichkeitskoeffizient für die Analyse ausgewählt wird. Wenn das Vorhandensein eines Merkmals die gleiche Aussagekraft hat wie das Nichtvorhandensein, so sind Ähnlichkeitsmaße zu bevorzugen, die im Zähler alle Übereinstimmungen berücksichtigen (wie der M-Koeffizient)(vgl. [], S. 124). 6

7 2.2.2 Nebenpfad: Ähnlichkeitsmaße für nominal skalierte Merkmale Nominal skalierte Merkmale Bei nominal-skalierten Merkmalen mit k Merkmalsausprägungen wird das nominale Merkmal mittels einer so genannten Dummy-Codierung in k-1 Dummy- Variablen transformiert, welche jeweils die Werte 0 oder 1 annehmen können. Dies hat allerdings den Nachteil, dass durch die meist große Anzahl an Dummy- Variablen das nominale Merkmal oft stark übergewichtet wird. Um dies zu vermeiden werden die Dummy-Variablen mit 1/(k-1) gewichtet. Mit den gewichteten Dummy-Variablen werden die Ähnlichkeitskoeffizienten wie bei binär skalierten Merkmalen berechnet. Eine weitere Möglichkeit ist, die Anzahl m von Übereinstimmungen zweier Objekte in den Merkmalsausprägungen zur Gesamtzahl p von Merkmalen ins Verhältnis zu setzen: d ii = p m p Ordinal skalierte Merkmale Für ordinal-skalierte Merkmale wird empfohlen, diese zu dichotomisieren. Bei der Mediandichotomisierung erhalten alle Rangplätze oberhalb des Medians eine 1 und alle unterhalb eine 0 zugewiesen. Auch kann die Rangvariable in mehrere Dummy-Variablen aufgelöst werden Nebenpfad: Ähnlichkeitsmaße für metrisch skalierte Merkmale Euklidisches Abstandsmaß Zur Bestimmung von Ähnlichkeiten bei metrischen Merkmalen (intervall-skalierten und ratio-skalierten Merkmalen) wird meist das euklidische Abstandsmaß mit x sub ij /sub als Merkmalsausprägung des Objektes i auf dem Merkmal j verwendet: d ii = p j=1 (x ij x i j)2 Weitere Ähnlichkeitsmaße Weitere Abstandsmaße sind die City-Block-Metrik oder die Manhattan- Distanz. Die Korrelation zwischen den verschiedenen Merkmalen führt in der Regel dazu, dass korrelierte Merkmale die Distanzbestimmung stärker beeinflussen als unkorrelierte. Die Malhalanobis-Distanz berücksichtigt diese korrelativen Abhängigkeiten zwischen den Merkmalen, indem sie die euklidische Distanz über die Faktorwerte 7

8 aller Faktoren (wie in der Hauptkomponentenanalyse) berechnet. Hiermit werden Korrelationen der ursprünglichen Merkmale eliminiert. Die Mahalanobis- Distanz ist invariant gegenüber beliebigen linearen Transformationen, insbesondere ist sie skaleninvariant. Normalisierung Fast alle metrischen Ähnlichkeitsmaße sind nicht skaleninvariant, d.h. wird die Maßeinheit eines Merkmals geändert (z.b. m in km), so verschieben sich auch die Distanzen. Außerdem beeinflussen Merkmale mit einem großen Wertebereich die Distanz stärker, als Merkmale mit einem kleinen Wertebereich. Um dies zu verhindern ist eine Normalisierung erforderlich, so dass alle Merkmale den gleichen Wertebereich haben. Eine Möglichkeit der Normalisierung ist die z-transformation, bei der die Abweichungen der Merkmalsausprägungen vom Mittelwert in Relation zur mittleren absoluten Abweichung gesetzt werden. Gewichtung von Merkmalen Wenn bestimmte Merkmale eine bessere Aussagefähigkeit haben als andere kann dies durch eine Gewichtung berücksichtigt werden. Hierzu werden die Merkmale selbst oder die Distanzmatrizen der Merkmale mit einem konstanten Faktor multipliziert Nebenpfad: Gemischt-skalierte Merkmale Vorgehen bei gemischtskalierten Merkmalen Liegen gemischt-skalierte Merkmale vor, so können für die einzelnen Merkmalsgruppen mit gleichem Skalenniveau Clusteranalysen durchgeführt werden. Deren Ergebnisse werden anschließend miteinander verknüpft. Dieser Vorgehensweise ist eine Methode vorzuziehen, bei der für die Merkmalsgruppen jeweils ein Distanzmaß und hieraus die gemeinsame Distanz berechnet wird. Der Einfluss der einzelnen Distanzen auf das gesamte Distanzmaß wird gemäß dem relativen Anteil der Merkmale einer Skalierungsart an der Gesamtzahl der Merkmale gewichtet. Eine weitere Möglichkeit der Behandlung gemischt-skalierter Merkmale ist, höhere Skalenniveaus in niedrigere umzuwandeln. Intervall-skalierte Merkmale können beispielsweise durch Mediandichotomisierung in binäre Skalen transformiert werden. Dies ist jedoch mit einem Informationsverlust verbunden. 8

9 2.3 Vorbereitung der Clusteranalyse Vorbereitung der Clusteranalyse Vor der Durchführung einer Clusteranalyse sollte der Anwender einige Überlegungen zur Auswahl und Aufbereitung der Ausgangsdaten durchführen. 1. Wenn mit einer Stichprobe gearbeitet wird muss sichergestellt sein, dass sich genügend Elemente in den einzelnen Clustern befinden werden, ansonsten können keine Rückschlüsse auf die Grundgesamtheit gezogen werden. 2. Die Daten sollten von Ausreißern bereinigt werden, also von Objekten, die gegenüber den anderen Objekten vollkommen andere Merkmalsausprägungen besitzen. 3. Es sollten nur Merkmale in der Clusteranalyse verwendet werden, die für den zu untersuchenden Sachverhalt relevante Merkmale sind. Merkmale, die für die Untersuchung irrelevant sind müssen aus der Clusteranalyse herausgenommen werden. 4. Eine unbeabsichtigte Übergewichtung einzelner Merkmale (z.b. durch Korrelationen zwischen Merkmalen) muss vermieden werden. Um dies zu erreichen kann entweder eine Faktoranalyse vorgeschaltet werden, korrelierende Merkmale können von der Analyse ausgeschlossen werden oder es wird die Mahalanobis-Distanz als Distanzmaß verwendet. Diese stellt allerdings bestimmte Voraussetzungen an de Daten (z.b. einheitliche StaTe- Met in allen Gruppen). 5. Es sollen keine Merkmale bei der Clusteranalyse berücksichtigt werden, die bei allen Objekten die gleiche Ausprägung besitzen. Ansonsten kommt es zu einer Nivellierung der Unterschiede zwischen den Clustern. Ward- Verfahren Kann nicht von vornherein ein bestimmtes Clusterverfahren als geeignet für die speziellen Daten identifiziert werden, so empfiehlt es sich, zuerst das Ward- Verfahrenanzuwenden. Dies liefert meist gute Ergebnisse. Anschließend werden die Ergebnisse des Ward-Verfahrens durch die Anwendung anderer Clusterverfahren überprüft. 9

10 2.4 Ablauf der Clusteranalyse Ablauf der Clusteranalyse Die Abbildung zeigt die einzelnen Schritte bei der Durchführung einer Clusteranalyse. Die Interpretation der Ergebnisse einer Clusterung führt oftmals zu einem wiederholten Durchlauf einzelner Schritt des Prozesses, da die Qualität eines Ergebnisses für ein bestimmtes Problem erst im Vergleich mit den Lösungen anderer Clusterverfahren bewertet werden kann. 10

11 3 Partitionierende Clusterverfahren 3.1 Methodenbeschreibung Partitionierende Clusterverfahren Bei partitionierenden Verfahren wird eine Anzahl k von Startclustern vorgegeben, denen die zu gruppierenden Objekte gemäß dem verwendeten Distanzmaß zugewiesen werden. Anschließend wird iterativ versucht, die jeweilige Gruppierung durch Verschieben einzelner Objekte von einem Cluster in einen anderen Cluster zu verbessern. Das Verfahren endet, wenn sich eine Gruppierung durch weiteres Verschieben von Objekten nicht mehr verbessern lässt. Die Zuordnung eines Objektes zu einem Cluster ist bei diesem Verfahren nicht endgültig sondern kann beliebig oft verändert werden. Gütekriterien Um die Güte der berechneten Clusterlösungen messen zu können, stehen eine Reihe von Kriterien zur Auswahl: Das Varianzkriterium oder Abstandsquadratsummenkriterium berechnet für jeden Cluster die quadrierten Abweichungen der Objekte eines Clusters vom Clusterschwerpunkt (Centroid) und summiert diese Abweichungen über alle Cluster auf. Es wird diejenige Partitionierung gesucht, für welche die Summe der quadrierten Abweichungen minimal ist. Weitere Kriterien sind das Spur-Kriterium, das Wilks Lambda-Kriterium oder das Determinanten-Kriterium, welches besonders bei korrelierten Merkmalen zu guten Ergebnissen führt. 11

12 3.2 Anwendung Anwendung Partitionierende Clusterverfahren sind geeignet, um für eine vorgegebene Anzahl von Clustern die beste Aufteilung der Objekte zu finden. Deshalb ist es wichtig, eine gute Anfangsgruppierung vorzugeben. Hierfür wird häufig die Lösung eines hierarchischen Clusterverfahrens verwendet, die dann mittels eines partitionierenden Verfahren verbessert wird. Sinnvoll ist auch, die anfängliche Gruppierung zu variieren und die erzielten Ergebnisse zu vergleichen. Auch kann die Anzahl der Cluster verändert werden. Das wohl wichtigste partitionierende Verfahren ist der k-means Algorithmus von MacQUEEN []. Dieser wird häufig zur Verbesserung der Lösung eines hierarchischen Clusterverfahrens eingesetzt Nebenpfad: K-Means-Algorithmus k-means Algorithmus Der k-means-algorithmus durchläuft die folgenden Schritte: 1. Es wird eine Anfangspartition mit k Clustern erzeugt. 2. Es werden nacheinander für alle Objekte die euklidischen Distanzen (auch andere Distanzmaße sind möglich) zu den Clustermittelpunkten bestimmt. 3. Weist ein Objekt eine größere Distanz zum eigenen als zu einem anderen Clustermittelpunkt auf, wird das Objekt in den anderen Cluster verschoben. 4. Die Mittelpunkte der reorganisierten Cluster werden neu berechnet und der Algorithmus startet erneut in Schritt 2 bis kein Objekt mehr verschoben werden kann. Beispiel Die Diashow zeigt die ersten zwei Iterationen eines k-means Algorithmus, welcher mit k=2 Clustern initialisiert wird. 12

13 Initialisieren mit k=2 Clustermittelpunkten Zuordnen der Objekte zu den Clustermittelpunkten Neuberechnung der Clustermittelpunkte Restrukturieren der Cluster Neuberechnung der Clustermittelpunkte Nachteile des k-means Algorithmus Ein Nachteil des k-means Algorithmus ist, dass das Clusterergebnis von der Wahl der Startpunkte abhängen kann. Es empfiehlt sich deshalb, verschiedene Startpartitionen zu wählen, welche die Reihenfolge der Cluster und die Reihenfolge der Objekte in einem Cluster variieren. Anwendung des k-means Algorithmus Der k-means Algorithmus kann nur angewendet werden, wenn der Mittelpunkt eines Clusters definiert werden kann. Dies ist beispielsweise bei ordinalen Merkmalen nicht der Fall. Die k-means Methode kann auch dann nicht angewendet werden, wenn die einzelnen Cluster nicht konvex sind, also beispielsweise eine längliche Form haben, oder sich in ihrer Größe stark unterscheiden. Außerdem ist die Methode sehr empfindlich gegenüber Ausreißern und verrauschten Daten, da diese die Berechnung des Mittelpunktes stark beeinflussen können. k-modes- und k-medoid- Algorithmus Erweiterungen des k-means Algorithmus, wie beispielsweise der k-modes Algorithmus, zeigen auch für ordinale und gemischt-skalierte Skalenniveaus gute Ergebnisse. Um die Empfindlichkeit gegenüber Ausreißern zu verringern kann statt des Mittelwertes ein Objekt als Referenzpunkt verwendet werden (k-medoid-algorithmus). Der Referenzpunkt ist das Objekt eines Clusters, welches diesen am besten repräsentiert. 13

14 Als Ausgangspartitionierung werden zufällig k Objekte als Referenzpunkte ausgewählt und die restlichen dem Referenzpunkt zugeteilt, dem sie am ähnlichsten sind. Anschließend wird versucht, die Referenzpunkte neu zu wählen, um damit das Optimalitätskriterium zu verbessern. Der k-medoid Algorithmus ist weniger empfindlich gegenüber Ausreißern und verrauschten Daten als der k-means Algorithmus. Jedoch ist er auch rechenaufwändiger. 14

15 3.3 CLARA und CLARANS CLARA und CLARANS Zur Clusterung sehr großer Datenmengen ist der k-means Algorithmus nur wenig geeignet. In diesem Fall werden partitionierende Clusterverfahren eingesetzt, welche eine zufällige, repräsentative Stichprobe aus den zu gruppierenden Daten ziehen und ein Clusterverfahren wie beispielsweise k-medoids auf diese Auswahl anwenden. Wenn die Stichprobe repräsentativ für die Grundgesamtheit ist, so sind auch die als Lösung des Clusterverfahrens erhaltenen Referenzobjekte repräsentativ. Diese Vorgehensweise wird für verschiedene Stichproben wiederholt und die jeweils berechneten Referenzpunkte verglichen. Sind diese stabil, so kann mit ihnen die Grundgesamtheit gruppiert werden. Algorithmen aus dieser Familie sind beispielsweise CLARA (clustering large applications) [], welcher z.b. im Statistik-Tool S-Plus implementiert ist, oder CLARANS (clustering large applications based upon randomized search) []. 15

16 4 Hierarchische Clusterverfahren 4.1 Methodenbeschreibung Agglomerative hierarchische Clusterverfahren Die bekanntesten agglomerative Verfahren sind: Single Linkage Complete Linkage Average Linkage Median-Methode Zentroid-Verfahren Ward-Methode Die Tabelle zeigt die Einsatzbereiche der wichtigsten agglomerativen Verfahren. Methode Fusionierungsverhalten Erlaubte Distanz-/ Bemerkung Hierarchische Clusterverfahren können in agglomerative und divisive Verfahren unterteilt werden. Agglomerative Verfahren beginnen mit der feinsten Partitionierung, bei der jedem Objekt ein eigener Cluster zugewiesen wird. Dann berechnet man die Distanzen zwischen allen Objektpaaren, fusioniert das Objektpaar, welches die kleinste Distanz aufweist und reduziert somit die Anzahl der Cluster um eins. Dies wird so lange wiederholt, bis ein vorgegebenes Stoppkriterium erreicht ist, beispielsweise eine bestimmte Anzahl an Clustern. Ähnlichkeitsmaße Single Linkage kontrahierend* alle neigt zur Kettenbildung Complete Linkage dilatierend** alle neigt zu kleinen, gleich großen Clustern Average Linkage konservativ*** alle Median-Methode konservativ nur metrische Merkmale Ward-Verfahren konservativ nur merische Merkmale bildet etwa gleich große Gruppen 16

17 * Kontrahierende Verfahren neigen dazu, auch entferntere Elemente noch einem Cluster zuzuordnen. Diese Verfahren sind gut geeignet um Ausreißer zu erkennen. * Dilatierende Verfahren neigen hingegen dazu, die Objekte in sehr kleine Gruppen aufzuteilen. ** Konservative Verfahren weisen weder eindeutig kontrahierende noch eindeutig dilatierende Eigenschaften auf. Divisive hierarchische Clusterverfahren Divisive Verfahren konstruieren eine Clusterhierarchie durch sukzessive Unterteilung der bereits bestimmten Cluster. Ausgehend von einem Cluster, welcher die gesamte Objektmenge enthält, werden die Objekte in zwei Cluster aufgeteilt. Jeder dieser Cluster wird dann wieder in zwei Gruppen zerlegt usw. Dabei können in jedem Schritt entweder alle Cluster gleichzeitig in zwei Gruppen aufgespalten werden oder alternativ jeder Cluster unabhängig von den anderen Clustern. Durch die Zunahme der Clusterzahl wächst die Ähnlichkeit innerhalb der Cluster im Laufe des Clusterprozesses. Nachteile hierarchischer Clusterverfahren Hierarchische Clusterverfahren sind relativ rechenaufwändig. Sie besitzen eine Laufzeit von etwa O(n sup 2 /sup. Durch Verwendung zusätzlicher Heuristiken kann jedoch eine lineare Laufzeit erreicht werden Nebenpfad: Agglomerative Verfahren Single Linkage Die Single Linkage (Minimum-Methode) vereinigt diejenigen Cluster, welche die zueinander am nächsten liegenden Nachbarobjekte besitzen. Die Verknüpfung zweier Cluster wird hier also durch je ein Objekt der beiden Cluster (single link) hergestellt. Diese Methode ist grundsätzlich für alle Distanzmaße geeignet, führt jedoch oft zu kettenförmigen Clustergebilden (Chaining-Effekt), in denen sich Objekte befinden, die zueinander eine geringere Ähnlichkeit aufweisen als zu Objekten anderer Cluster. Die Minimum-Methode tendiert zum kontrahierenden Verhalten, d.h. sie bildet zunächst einige wenige große und viele kleine Gruppen. Sie eignet sich deshalb dazu, Ausreißer zu identifizieren. Complete Linkage Die Complete Linkage (Maximum-Methode) bestimmt für alle Clusterpaare die jeweils am weitesten entfernt liegenden Objekte. Diejenigen Cluster werden fusioniert, für die diese Distanz minimal ist. 17

18 Auch hier können alle Distanzmaße verwendet werden. Als Ergebnis liefert die Maximum-Methode relativ homogene Cluster gleicher Größe (dilatierendes Verhalten) und wird deshalb in der Praxis häufig verwendet. Average Linkage Average Linkage (Durchschnitts-Methode) berechnet für je zwei Cluster den Durchschnitt aller Objektdistanzen und fusioniert die Cluster mit der kleinsten Durchschnittsdistanz. Diese ist identisch mit der Distanz der Clusterschwerpunkte (Centroide). Als Distanzmaße kommen alle Maße in Frage, für die eine Durchschnittsbildung möglich ist. Vom Clustereffekt liegt die Methode zwischen der Minimum- und der Maximum- Methode (konservatives Verhalten). Median- Methode Die Median-Methode wird insbesondere bei euklidischen Distanzen angewendet. Es werden diejenigen Cluster fusioniert, deren euklidischer Abstand minimal ist. Diese Methode vernachlässigt die Objekthäufigkeiten der zu fusionierenden Cluster. Will man diese berücksichtigen, so ist die Durchschnittsmethode geeigneter. Ward- Methode Die Ward-Methode (Minimum-Varianz-Methode, Fehlerquadratsummenmethode, HGROUP-Methode) fusioniert die Cluster so, dass die Erhöhung der gesamten Fehlerquadratsumme minimal ist. Die Fehlerquadratsumme wird als Summe der quadratischen Distanzen der Objekte eines Clusters vom Clustermittelwert berechnet. Die Ward-Methode fusioniert in den ersten Schritten bevorzugt kleine Cluster in Regionen mit hoher Objektdichte. Mit fortschreitender Clusterung neigt die Methode dazu, Unterschiede in der Objektzahl verschiedener Cluster auszugleichen. Besteht die beste Gruppierung aus Clustern unterschiedlicher Größe, so ist die Durchschnitts-Methode besser geeignet. 18

19 4.2 BIRCH und Chameleon BIRCH Komplexere hierarchische Clusterverfahren können auch große Datenbanken schnell und dynamisch clustern. Der von Zhang et al []veröffentlichte BIRCH-Algorithmus (Balanced Iterative Reducing and Clustering Using Hierarchies) arbeitet mit Baumstrukturen und Baumalgorithmen. Die einzelnen Baumknoten repräsentieren Cluster und enthalten für die Clusterung relevante Informationen über die Teilbäume. Durch die Verwendung dynamischer Baumstrukturen wird auch eine inkrementelle Clusterung neu hinzukommender Objekte möglich. BIRCH hat nur eine lineare Laufzeit, da gute Cluster bereits in einem Durchlauf gefunden werden. Mit wenigen weiteren Durchläufen wird die Qualität der Cluster verbessert. Chameleon Der Chameleon-Algorithmus [] basiert auf einer initialen Gruppierung der Objekte gemäß dem Ansatz der k nächsten Nachbarn (also eine Verknüpfung zwischen einem Objekt und seinen k nächsten Nachbarn). Ein so konstruierter k- nearest neighbours -Graph wird partitioniert, die einzelnen Teile jeweils mittels einer Clusteranalyse gruppiert und schließlich die so gewonnenen Cluster wieder verschmolzen. Chameleon bietet die Möglichkeit, große Datenbestände effizient zu clustern. Der Algorithmus besteht im wesentlichen aus zwei Schritten: Zuerst werden die Objekte mittels eines Algorithmus zur Partitionierung von Graphen in relativ viele Clusterteile gruppiert. Dann werden diese Clusterteile mittels eines hierarchischen Clusteralgorithmus sequentiell verschmolzen In der Abbildung ist das generelle Vorgehen des Algorithmus dargestellt. 19

20 4.3 CURE CURE Um die von vielen Verfahren bevorzugte Clusterung in sphärische Cluster gleicher Größe zu vermeiden, wurden zahlreiche Verfahren entwickelt. CURE [] (clustering using representatives) ist ein Verfahren, welches einen Cluster anstatt mit einem einzelnen Referenzpunkt mit einer vorgegebene Anzahl solcher Punkte repräsentiert. Dies ermöglicht eine gute Anpassung an nicht-sphärische und unterschiedlich große Cluster. Methodenbeschreibung Im Detail geht CURE folgendermaßen vor: 1. Es werden s Objekte ausgewählt, die geclustert werden sollen, z.b. durch Ziehen einer zufälligen Stichprobe. 2. Die Objekte werden in p Partitionen der Größe s/p aufgeteilt. 3. Die p Partitionen werden jeweils in partielle Cluster gruppiert. 4. Dann werden Ausreißer eliminiert, z.b. indem Cluster gelöscht werden, die zu langsam wachsen. 5. Die partiellen Cluster werden zu den endgültigen Clustern gruppiert. Die Diashow zeigt das Vorgehen von Cure anhand eines Beispiels, in dem p=2 gewählt wurde. Zu clusternde Objekte Aufteilen der Objekte in 2 Partitionen der Größe 24 Clustern der Partitionen in partielle Cluster Eliminieren von Ausreissern Clustern der partiellen Cluster 20

21 5 Dichtebasierte Clusterverfahren 5.1 Methodenbeschreibung Dichtebasiertes Clustern Dichtebasierte Clusterverfahren wurden entwickelt, um Cluster mit unregelmäßigen Formen darstellen zu können. Diese Methoden erkennen Cluster als Regionen mit einer hohen Dichte an Objekten. Die Cluster werden durch Regionen mit geringer Objektdichte voneinander getrennt. Unterschiedliche Clusterergebnisse Die Dia-Show zeigt den Unterschied zwischen der Clusterung mit einem dichtebasierten und einem hierarchischen Verfahren anhand von zwei Beispielen. Es wird deutlich, dass dichtebasierte Verfahren langgezogene Cluster oder Cluster mit unregelmäßigen Formen gut erkennen, wohingegen hierarchische Verfahren zu einer eher kugelförmige Clusterbildung tendieren. Beispiel 1: Zu clusternde Objekte Beispiel 1: Clusterung mit einem dichtebasierten Verfahren Beispiel 1: Clusterung mit einem hierarchischen Verfahren Beispiel 2: Zu clusternde Objekte Beispiel 2: Clusterung mit einem dichtebasierten Verfahren Beispiel 2: Clusterung mit einem hierarchischen Verfahren 21

22 5.2 DBSCAN DBSCAN Die bekannteste dichtebasierte Methode ist DBSCAN (Density Based Spatial Clustering of Applications with Noise), die 1996 von Ester et al. [] veröffentlicht wurde. DBSCAN clustert folgendermaßen: 1. Für jedes Objekt wird eine Nachbarschaft ɛ festgelegt. 2. Wenn sich innerhalb dieser Nachbarschaft mindestens eine definierte Anzahl von Objekten min sub obj /sub befindet, dann wird dieses Objekt ein Kern genannt. Die Objekte in der Nachbarschaft eines Kernes können jedoch selbst wieder Kerne sein. 3. Kerne, die sich in der Nachbarschaft eines anderen Kernes befinden werden mit diesem verknüpft. Solche Verbindungen werden als Region hoher Objektdichte oder als Cluster bezeichnet. Bedingt durch diese Form des Clusterwachstums können die Cluster unregelmäßige Formen annehmen. Alle Objekte, die schließlich nicht in einem Cluster enthalten sind werden als Störgeräusche aufgefasst. Das Laufzeitverhalten von DBSCAN ist O(n sup 2 /sup ) wobei n die Anzahl der zu gruppierenden Objekte ist. 22

23 5.3 OPTICS und DENCLUE OPTICS OPTICS (Ordering Points To Identify the Clustering Structure) ist eine Erweiterung von DBSCAN, welche das Problem der Parameterwahl lösen soll []. OPTICS berücksichtigt die Dichtestruktur der Daten und berechnet eine Ordnung über die Objekte basierend auf der minimalen Nachbarschaft ɛ min eines Objektes. Diese ist definiert als das kleinste ɛ, für welches ein Objekt noch zu einem Kern wird. Mit dieser Information können die Cluster in einer speziellen Reihenfolge aufgebaut werden. DENCLUE Die Methode DENCLUE (Density based Clustering) basiert auf der Verwendung einer Dichtefunktion []. Dies ist eine Funktionen, welche den Einfluss eines Objektes auf seine Nachbarschaft beschreibt. Die Dichte des gesamten untersuchten Raumes setzt sich aus den Dichtefunktionen aller Objekte zusammen. Die Cluster werden gebildet, indem Anziehungspunkte identifiziert und diesen die Objekte zugeordnet werden. Die Anziehungspunkte sind lokale Maxima der Dichtefunktion, die beispielsweise mit dem Hill-Climbing-Algorithmus gefunden werden können. DENCLUE ermöglicht mittels der Dichtefunktionen eine gute mathematische Beschreibung unregelmäßig geformter Cluster in hochdimensionalen Daten und reagiert wenig empfindlich auf verrauschte Daten. Jedoch ist auch bei dieser Methode die Parameterwahl problematisch und bleibt dem Benutzer überlassen. 23

24 5.4 Anwendung Vorteile dichtebasierter Clusterverfahren Dichtebasierte Verfahren können unregelmäßige Clusterformen gut abbilden. Sie können auch verrauschte Daten gut clustern. Sie clustern die gesamten Daten in einem Durchlauf und sind deshalb auch auf hochdimensionale, große Probleme effizient anwendbar. Nachteile dichtebasierter Verfahren Für dichtebasierte Verfahren müssen Dichteparameter vorgegeben werden, z.b. eine Nachbarschaft ɛ und eine minimale Anzahl an Objekten min sub obj /sub. Dies geschieht meist aufgrund von Erfahrungswerten oder es werden zur Bestimmung einer guten Parameterwahl mehrere Durchläufe mit unterschiedlichen Parametern analysiert. Dies ist jedoch besonders für reale, hochdimensionale Probleme äußerst schwierig durchzuführen. Die meisten dieser Algorithmen reagieren sehr sensibel auf die Wahl der Parameter. Bereits kleine Veränderungen in den Parametern können zu einer anderen Gruppierung der Daten führen. Reale Probleme haben meist eine sehr komplexe Clusterstruktur, so dass einheitliche Parameter für die gesamten Daten nicht ausreichend sind. 24

25 6 Gitterbasierte Clusterverfahren 6.1 Methodenbeschreibung Gitterstruktur Gitterbasierte Verfahren unterteilen den gesamten Raum in eine endliche Anzahl von Zellen, welche eine Gitterstruktur formen, auf der alle Clusteroperationen durchgeführt werden. Da die Objekte im Raum meist nicht gleichmäßig verteilt sind existieren in der Regel Zellen mit einer höheren Dichte an Objekten. Effiziente Suche nach Clustern Das Ziel gitterbasierter Methoden ist, den Raum so zu unterteilen, dass effizient nach Clustern gesucht werden kann. Sie sind somit insbesondere für große und hochdimensionale Suchräumegeeignet. Eine weitere Strategie bei der Suche nach dicht besetzten Gebieten ist, diedimension des Suchraums zu verkleinern. Wird in diesem niedriger dimensionalen Raum keine Häufung von Objekten gefunden, so ist dies auch in höheren Dimensionen nicht zu erwarten. Probleme mit unregelmäßigen Clustern Aufgrund der rechteckigen Form der Zellen können die Cluster jedoch bei vielen Methoden nur horizontal oder vertikal abgegrenzt werden. Um differenzierte, unregelmäßige Cluster darstellen zu können, muss die Gitterstruktur entsprechend fein gewählt werden. Dies vermindert jedoch die Effizienz der Algorithmen. Methoden Gitterbasierte Methoden sind beispielsweise STING (Statistical Information Grid) [], WaveCluster [] oder CLIQUE (Clustering in Quest) []. 25

26 7 Selbstorganisierende Karten 7.1 Biologischer Hintergrund Allgemeines Selbstorganisierende Karten (Self Organizing Maps, SOM, Kohonen-Netze) gehören zu den Neuronale Netze, die nach dem Prinzip des unüberwachten Lernens arbeiten. Beim unüberwachten Lernen ist die zu einer vorgegebenen Eingabe gewünschte Ausgabe in der Lernphase dem Netz nicht bekannt. Das neuronale Netz muß folglich selbstorganisierend lernen. Entwickelt wurde das Modell der SOM zu Beginn der 80er Jahre von Teuvo Kohonen, der damit an ältere Arbeiten von C. von der Marlsburg anknüpfte. Aufgabe einer selbstorganisierenden Karte ist es, einen Eingaberaum (Merkmalsraum) zu kartieren, das heißt jedem Neuron einen speziellen Bereich des Eingaberaumes zuzuweisen. Dabei repräsentieren benachbarte Neuronen auch ähnliche Merkmalswerte aus dem Eingaberaum. Aufbau der Hirnrinde Der biologische Hintergrund für SOM sind sogenannte sensorische Karten im Gehirn. Auch wenn noch nicht vollständig geklärt ist, auf welche Weise Sinneseindrücke im Gehirn verarbeitet werden, ist bekannt, dass räumliche Merkmale der Außenwelt eine räumliche Entsprechung auf der Hirnrinde finden. Die Großhirnrinde reagiert auf Reize von außen stets mit räumlich begrenzten Aktivitäten, sogenannten lokalen Erregungszonen. Es lassen sich Teilflächen auf der Grosshirnrinde ausmachen, denen jeweils ein bestimmter Aufgabenbereich zugeordnet ist. Viele dieser Zuordnungen werden in der Kindheit ausgebildet, sind aber auch bei Erwachsenen noch veränderbar. 26

27 7.2 Methodenbeschreibung Das Kohonen-Netz Kohonennetze sind Neuronale Netze mit zwei Schichten. Die Eingabeschicht hat so viele Neuronen, wie Merkmale x zur Segmentierung verwendet werden. Die Ausgabeschicht (Kohonen-Schicht) bildet eine zweidimensionale Karte (in der Regel ein Gitter). Die beiden Schichten sind vollständig verbunden, d.h. jedes Neuron i der Eingabeschicht hat mit jedem Neuron j der Ausgabeschicht eine mit w sub ij /sub gewichtete Verbindung. Selbstorganisierende Karten bilden den Merkmalsraum der Eingabeschicht so auf die Ausgabeschicht ab, dass ähnliche Merkmalsvektoren benachbarte Neuronen der Ausgabeschicht aktivieren. Ein Merkmalsvektor umfasst alle Merkmalsausprägungen der Merkmale eines Objektes. Um ein fertig trainiertes Netz zu nutzen, wird der Merkmalsvektor eines Objektes an die Eingabeschicht angelegt. Dann wird in der Ausgabeschicht das Neuron gesucht, dessen Gewichte dem Merkmalsvektor am ehesten entsprechen (das Neuron mit der maximalen Erregung). Dieses Neuron ist das Gewinner- Neuron. In der Regel bedeutet dies, dass der Gewichtevektor dieses Neurons den minimalen euklidischen Abstand zum Trainingsobjekt hat. Der Merkmalsvektor wird also auf das Gewinner-Neuron abgebildet. Training des Netzes Um das Neuronale Netz zu trainieren, werden die Merkmalsvektoren in zufälliger Reihenfolge an das Netz angelegt und das Gewinner-Neuron wird bestimmt. Bei jedem Schritt werden die Gewichte des Gewinner-Neurons und seiner Nachbar-Neuronen dem Merkmalsvektor angenähert. Die Nachbarschaft wird häufig durch eine Glockenkurve definiert. Die Nachbarschaft und die Lernrate (der Grad der Annäherung pro Lernschritt) werden zu Beginn des Lernenprozesses relativ groß gewählt und im Laufe des Trainings stetig verkleinert, bis das Netz stabil ist. Die Geschwindigkeit der Verkleinerung muss geschickt gewählt werden. Ist sie zu klein, dauert das Lernen unnötig lange und ist sie zu groß, so ist das Netz nicht ausgereift. 27

28 7.3 Anwendung Anwendungsempfehlungen Bei der Konzeption und Anwendung eines Kohonen-Netzes sind eine Reihe von wichtigen Punkten zu beachten: Kohonen empfiehlt aus Gründen der besseren visuellen Inspektion ein hexagonales Gitter (wobei ein quadratisches Gitter leichter zu implementieren ist). Die äußere Form des Gitters sollte nicht quadratisch sondern rechteckig sein, damit es für die Karte weniger Symmetrien in der Orientierung gibt. Wenn nur wenige Merkmalsvektoren ( 100) zum Training zur Verfügung stehen, so können diese zufällig oderzyklisch wiederholt dem Netz präsentiert werden. Von manchen Autoren wird eine Skalierung der Eingabe empfohlen, d.h. alle Merkmale werden in die gleiche Skala transformiert. Dies beeinflusst natürlich die Abbildung der Kohonen-Schicht. Anwendungsbereiche Self Organizing Maps werden in vielen Bereichen eingesetzt. Einige Beispiele sind: Automatische Spracherkennung Analyse großer Datenbestände (vgl. z.b.[]) Lösung kombinatorischer Optimierungsprobleme, z.b. des Travelling Salesman Problems (vgl. z.b.[]) Klassifikation von Wolken anhand von Satellitenbildern Hydrologie (beschrieben in []) Organisation großer Dokumentsammlungen (vgl. []), z.b. Clustern von Web-Inhalten [] Einen umfassenden Überblick über die Veröffentlichungen zum Thema Selbstorganisierende Karten bietet eine Literaturliste [] des Neural Network Research Center der Universität Helsinki. 28

29 8 Literatur und Methoden 8.1 Literatur zu Clusterverfahren Literaturverzeichnis Einführende Literatur zu statistischen Clusterverfahren Bacher, J.: Clusteranalyse: Anwendungsorientierte Einführung, München Backhaus, K./Erichson, B./Plinke, W./Weiber, R.: Multivariate Analysemethoden, 6. Aufl., Springer, Berlin Heidelberg New York Backhaus, K., B. Erichson, W. Plinke u. R. Weiber: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, 9. Auflage, Berlin 2000, S. 328ff. Everitt, B.: Cluster Analysis, 3rd ed., London Griffith, D.A./Amrhein, C.G.: Multivariate Statistical Analysis for Geographers. Prentice Hall, New Jersey Jambu, M./Lebeaux, M.-O.: Cluster Analysis and Data Analysis. North-Holland, Amsterdam Kaufman, L./Rousseeuw, P.J.: Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons, Späth, H. (Hrsg.): Fallstudien Cluster-Analyse, München Späth, H.: Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion, 2. Aufl., München, Wien Literaturverzeichnis Weiterführende Literatur zu statistischen Clusterverfahren Agrawal, R./Gehrke, J./Gunopulos, D./Raghavan, P.: Automatic subspace clustering of high dimensional data for data mining applications, in: Proceedings of the 1998 ACM SIGMOD international conference on Management of data, ACM Press, New York, 1998, pp Ankerst, M./Breunig, M.M./Kriegel, H.-P. Sander, J.: OPTICS: ordering points to identify the clustering structure, in: Proceedings of the 1999 ACM SIGMOD international conference on Management of data, Philadelphia, Pennsylvania, United States, 1999, pp Ester, M./Kriegel, H.-P./Sander, J./ Xu, X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, in: Proceedings of the 2nd Int. Conf. on Knowledge Discovery and Data Mining, Menlo Park, California, 1996, pp Guha, S./Rastogi, R./Shim, K.: CURE: an efficient clustering algorithm for large databases, in: Proceedings of the 1998 ACM SIGMOD international conference on Management of data, Vol. 27, 1998, pp Hinneburg A./ Keim D.A.: An Efficient Approach to Clustering in Large Multimedia Databases with Noise, in: Proceedings of the 4th Int. Conf. on Knowledge Discovery and Data Mining, AAAI Press, 1998, auf URL: ( ). 29

30 Karypis, G./Han, E.-H./Kumar, V.: Chameleon: Hierarchical Clustering using Dynamic Modeling, in: IEEE Computer, Vol. 32(8), 1999, pp MacQueen, J.: Some methods for classification and anlysis of multivariate observations, in: Cam, L. M./Neyman, J. (eds.): Proceedings of the 5th Berkeley Symposium on mathematical statistics and probability, Vol. 1, University of California Press, Los Angeles 1967, pp Ng, R./Han, J.: Efficient and effective clustering method for spatial data mining, in: Proceedings of the 1994 Int. Conf. on Very Large Data Bases, Santiago, Chile, 1994, pp Sheikholeslami, G./ Chatterjee, S./Zhang, A.: WaveCluster: a wavelet-based clustering approach for spatial data in very large databases, in: The VLDB Journal - The International Journal on Very Large Data Bases, Vol. 8, Springer, New York, 2000, pp Wang, W./Yang, J./Muntz, R.R.: STING: A Statistical Information Grid Approach to Spatial Data Mining, in: Source Proceedings of the 23rd International Conference on Very Large Data Bases, Morgan Kaufmann, San Francisco, 1997, pp , auf URL: ( ). Zhang, T./Ramakrishnan, R./Livny, M.: BIRCH: an efficient data clustering method for very large databases, in: Proceedings of the 1996 ACM SIGMOD international conference on Management of data, Montreal, Canada 1996, pp Literatur zu Selbstorganisierenden Karten Literaturverzeichnis Einführende Literatur zu SOM Kohonen, T.: Statistical pattern revisited, in: Eckmiller, R. (ed.): Advanced Neural Networks, Elsevier, Amsterdam 1990, pp Kohonen, T. : The Self-Organizing Map, in: Proceedings of the IEEE, 78/9, 1990, pp Ritter, Helge; Martinetz, Thomas; Schulten, Klaus: Neuronale Netze - Einführung in die Neuroinformatik selbstorganisierender Netzwerke. Bonn, Tryba, V.: Selbstorganisierende Karten: Theorie, Anwendung und VLSI-Implementierung, Fortschrittberichte VDI, 9/151, VDI-Verlag, Düsseldorf Literaturverzeichnis Weiterführende Literatur zu SOM Aguilera, P.A./Frenich, A.G./Torres, J.A./Castro, H./Vidal, J.L.M./Canton, M.: Application of the kohonen neural network in coastal water management: Methodological development for the as- 30

31 sessment and prediction of water quality, in: Water Research, Vol. 35, 2001, pp Angniol, B./Vaubois, G.D./ Texier, J.Y.: Selforganizing feature maps and the Travelling Salesman Problem, in: Neural Networks, Vol. 1, 1988, pp Black, B./Sere, K./Vanharanta, H.: Managing complexity in large databses using self-organized maps, in: Accounting, Management and Information Technologies, Vol. 8, 1998, pp Guerrero, V.P./De Moya Anegon, F./Herrero Solana, V.: Document organization using kohonen s algorithm, in: Information Processing and Management, Vol. 38, 2002, pp Kaski, S./Lagus, K.: Comparing self-organizing maps, in: Von der Maisburg, C./Von Seelen, W./Vorbruggen, J.C./Sendhoff, B. (eds.): Artifical Neural Networks- ICANN Int. Conf. Proc., Springer, Berlin 1996, pp N.N.: ( ) WebSOM: Self-Organizing Maps for Internet Exploration, Entwicklung der Helsinki University of Technology, auf URL: ( ) 8.1 Methoden Verzeichnis der erläuterten Methoden Ähnlichkeitsmaß nach Jaccard Average Linkage BIRCH Chameleon CLARA CLARANS Complete Linkage DBSCAN DENCLUE Euklidisches Distanzmaß k-means k-medioid Median-Methode OPTICS RR-Koeffizient Simple-Matching-Coefficient Single Linkage Ward-Methode 31

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Methoden zur Datenanalyse

Methoden zur Datenanalyse Methoden zur Datenanalyse Inhaltsverzeichnis 1 Übersicht 2 1.1 Seite 1................................. 2 2 Statistische Schätz- und Testmethoden 3 2.1 Seite 1................................. 3 3 Methoden

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Yacin Bessas yb1@informatik.uni-ulm.de Proseminar Neuronale Netze 1 Einleitung 1.1 Kurzüberblick Die Selbstorganisierenden Karten, auch Self-Organizing (Feature) Maps, Kohonen-

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Vorlesung Maschinelles Lernen II Dr. Theo Lettmann Oliver Kramer 22. Mai 2006 Überblick Grundlagen SOMs Anwendungen 2D-SOMs Neuronales Gas 2 Grundlagen der Neuronalen Informationsverarbeitung

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Kapitel ML:XII. XII. Other Unsupervised Learning. Nearest Neighbor Strategies. Self Organizing Maps Neural Gas. Association Analysis Rule Mining

Kapitel ML:XII. XII. Other Unsupervised Learning. Nearest Neighbor Strategies. Self Organizing Maps Neural Gas. Association Analysis Rule Mining Kapitel ML:XII XII. Other Unsupervised Learning Nearest Neighbor Strategies Self Organizing Maps Neural Gas Association Analysis Rule Mining Reinforcement Learning ML:XII-1 Unsupervised Others LETTMANN

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Kohonennetze Selbstorganisierende Karten

Kohonennetze Selbstorganisierende Karten Kohonennetze Selbstorganisierende Karten Julian Rith, Simon Regnet, Falk Kniffka Seminar: Umgebungsexploration und Wegeplanung mit Robotern Kohonennetze: Neuronale Netze In Dendriten werden die ankommenden

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne

Mehr

Was sind Zusammenhangsmaße?

Was sind Zusammenhangsmaße? Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten

Mehr

Leistungsfähigkeit von Lokalisierungsverfahren im WLAN

Leistungsfähigkeit von Lokalisierungsverfahren im WLAN Leistungsfähigkeit von Lokalisierungsverfahren im WLAN Gliederung 1. Motivation 2. Möglichkeiten und Probleme WLAN Positionsbestimmung 3. Vorgehen a. Testumgebung b. Gerätschaften und Messungen c. Location

Mehr

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Angewandte Statistik 3. Semester

Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

Proseminar: Web-Performance

Proseminar: Web-Performance Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können

Mehr

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Adaptive Systeme Unüberwachtes Lernen: Adaptive Vektor Quantisierung und Kohonen Netze Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Überwachtes Lernen Alle bis lang betrachteten Netzwerke

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Räumliches Data Mining

Räumliches Data Mining Räumliches Data Mining Spatial Data Mining Data Mining = Suche nach "interessanten Mustern" in sehr großen Datensätzen => explorative Datenanlyse auch: Knowledge Discovery in Databases (KDD) verbreitete

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Statistische Tests zu ausgewählten Problemen

Statistische Tests zu ausgewählten Problemen Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Dynamische Programmierung. Problemlösungsstrategie der Informatik als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung

Mehr

15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten

15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten 15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten Autoren Rene Beier, MPI Saarbrücken Berthold Vöcking, RWTH Aachen In zwei Monaten startet die nächste Rakete

Mehr

Bachelorarbeit Entwicklung eines Konzeptes zur angemessenen Beschriftung von Informationsobjekten

Bachelorarbeit Entwicklung eines Konzeptes zur angemessenen Beschriftung von Informationsobjekten Bachelorarbeit Entwicklung eines Konzeptes zur angemessenen Beschriftung von Informationsobjekten Institut für Informatik Rostock 1 Inhaltsübersicht 1. Einleitung und Begriffsbildung 2. Bestehende geeignete

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

CLARANS. Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013

CLARANS. Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013 CLARANS Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013 Daniel Schmidt Mohamed Ibrahim Sven Lautenschläger Inhaltsverzeichnis

Mehr

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird

Mehr

Skript 7 Kreuztabellen und benutzerdefinierte Tabellen

Skript 7 Kreuztabellen und benutzerdefinierte Tabellen Skript 7 Kreuztabellen und benutzerdefinierte Tabellen Ziel: Analysieren und verdeutlichen von Zusammenhängen mehrerer Variablen, wie z.b. Anzahlen pro Kategorien; Mittelwert und Standardabweichung pro

Mehr

Density-Based Clustering in large Databases using Projections and Visualizations

Density-Based Clustering in large Databases using Projections and Visualizations Density-Based Clustering in large Databases using Projections and Visualizations Alexander Hinneburg Institut für Informatik Martin-Luther-Universität Halle-Wittenberg hinneburg@informatik.uni-halle.de

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

Sortierverfahren für Felder (Listen)

Sortierverfahren für Felder (Listen) Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es

Mehr

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive

Mehr

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche Algorithmus zum Graphen-Matching und Anwendung zur inhaltsbasierten Bildersuche Gliederung 1. Einführung 2. Algorithmus Beschreibung Beispiel Laufzeit 3. Anwendung des Algorithmus Seite 1 von 18 1. Einführung

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Überblick über multivariate Verfahren in der Statistik/Datenanalyse Überblick über multivariate Verfahren in der Statistik/Datenanalyse Die Klassifikation multivariater Verfahren ist nach verschiedenen Gesichtspunkten möglich: Klassifikation nach der Zahl der Art (Skalenniveau)

Mehr

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme Universität Hamburg Fachbereich Mathematik Seminar: Proseminar Graphentheorie Dozentin: Haibo Ruan Sommersemester 2011 Ausarbeitung zum Modulabschluss Graphentheorie spannende Bäume, bewertete Graphen,

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

1.5 Berechnung von Rangzahlen

1.5 Berechnung von Rangzahlen 1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Euklidische Distanzmatrizen. Andrei Grecu

Euklidische Distanzmatrizen. Andrei Grecu Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer

Mehr

Rückblick. Wenn k-dimensionale Zelle C nicht dicht, dann alle (k+1)-dimensionalen Zellen, in denen C als Unterzelle enthalten ist, nicht dicht

Rückblick. Wenn k-dimensionale Zelle C nicht dicht, dann alle (k+1)-dimensionalen Zellen, in denen C als Unterzelle enthalten ist, nicht dicht Subspace Clustering CLIQUE: Rückblick Datenraum wird in Zellen der Breite ξ zerlegt. Eine Zelle ist dicht, wenn sie mind. τ Punkte enthält. Zusammenhängende Zellen bilden Cluster Unterraumsuche: - bottom-up

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Bivariate Analyse: Tabellarische Darstellung: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Beispiel: Häufigkeitsverteilung

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Methoden zur Visualisierung von Ergebnissen aus Optimierungs- und DOE-Studien

Methoden zur Visualisierung von Ergebnissen aus Optimierungs- und DOE-Studien Methoden zur Visualisierung von Ergebnissen aus Optimierungs- und DOE-Studien Katharina Witowski katharina.witowski@dynamore.de Übersicht Beispiel Allgemeines zum LS-OPT Viewer Visualisierung von Simulationsergebnissen

Mehr

Marktforschung und Datenanalyse

Marktforschung und Datenanalyse Marktforschung und Datenanalyse Lehrstuhl für BWL, insb. Marketing von Prof. Dr. Reinhold Decker Dozentin: Anja Hörmeyer (M.Sc.) Universität Bielefeld, Lehrstuhl für BWL, insb. Marketing 1 Anja Hörmeyer

Mehr

Routing Algorithmen. Begriffe, Definitionen

Routing Algorithmen. Begriffe, Definitionen Begriffe, Definitionen Routing (aus der Informatik) Wegewahl oder Verkehrslenkung bezeichnet in der Telekommunikation das Festlegen von Wegen für Nachrichtenströme bei der Nachrichtenübermittlung über

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Objektorientierte Bildverarbeitung Methodische Grundlagen

Objektorientierte Bildverarbeitung Methodische Grundlagen ARC GmbH Objektorientierte Bildverarbeitung Methodische Grundlagen Klaus Steinnocher, Florian Kressler klaus.steinnocher@arcs.ac.at Geschäftsfeld Umweltplanung ARC http://www.arcs.ac.at/s 1 ARC GmbH Einleitung!

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

Kohonennetze für Information Retrieval mit User Feedback

Kohonennetze für Information Retrieval mit User Feedback Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg 06.02.2003 Zusammenfassung Richtig eingesetzt, sind selbstorganisierende Karten (SOM) ein probates

Mehr

Warum Stichproben? Vollerhebungen sind teuer Nehmen (zu)viel Zeit in Anspruch Sind evtl. destruktiv

Warum Stichproben? Vollerhebungen sind teuer Nehmen (zu)viel Zeit in Anspruch Sind evtl. destruktiv Warum Stichproben? Vollerhebungen sind teuer Nehmen (zu)viel Zeit in Anspruch Sind evtl. destruktiv Voraussetzung für die Anwendung von Stichproben: Stichproben müssen repräsentativ sein, d.h. ein verkleinertes

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG Statistische Methoden In der vorliegenden fiktiven Musterstudie wurden X Patienten mit XY Syndrom (im folgenden: Gruppe XY) mit Y Patienten eines unauffälligem

Mehr

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Übung 1: Wiederholung Wahrscheinlichkeitstheorie Übung 1: Wiederholung Wahrscheinlichkeitstheorie Ü1.1 Zufallsvariablen Eine Zufallsvariable ist eine Variable, deren numerischer Wert solange unbekannt ist, bis er beobachtet wird. Der Wert einer Zufallsvariable

Mehr

Data Mining: Klassifikations- und Clusteringverfahren

Data Mining: Klassifikations- und Clusteringverfahren Westfälische Wilhelms-Universität Münster Data Mining: Klassifikations- und Clusteringverfahren Ausarbeitung im Rahmen des Projektseminars CRM für Finanzdienstleister im Fachgebiet Wirtschaftsinformatik

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Objekterkennung

INTELLIGENTE DATENANALYSE IN MATLAB. Objekterkennung INTELLIGENTE DATENANALYSE IN MATLAB Objekterkennung Objekterkennung Problemstellung Gegeben: Ein Bild. Fragestellungen: Klassifikationsproblem Ist ein bestimmtes Objekt (z.b. Flugzeug) auf dem Bild? Welches

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Kurs über Lineare Gleichungssysteme. PD Dr. Karin Halupczok

Kurs über Lineare Gleichungssysteme. PD Dr. Karin Halupczok Kurs über Lineare Gleichungssysteme PD Dr. Karin Halupczok Mathematisches Institut Albert-Ludwigs-Universität Freiburg http://home.mathematik.unifreiburg.de/halupczok/diverses.html karin.halupczok@math.uni-freiburg.de

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr