Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen



Ähnliche Dokumente
Exploration und Klassifikation von BigData

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Was meinen die Leute eigentlich mit: Grexit?

Professionelle Seminare im Bereich MS-Office

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Mean Time Between Failures (MTBF)

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Grundbegriffe der Informatik

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Kurzanweisung für Google Analytics

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Lehrer: Einschreibemethoden

BASIS Karten, WEA-Katalog, Projektierung, Objekte etc.

Anmerkungen zur Übergangsprüfung

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Die Online-Bestandserhebung im LSB Niedersachsen

Multicheck Schülerumfrage 2013

Wir machen neue Politik für Baden-Württemberg

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Hauptseminar KDD SS 2002

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Erstellen von x-y-diagrammen in OpenOffice.calc

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Bürgerhilfe Florstadt

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Updatehinweise für die Version forma 5.5.5

Internet online Update (Internet Explorer)

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Bewertung des Blattes

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Gimp Kurzanleitung. Offizielle Gimp Seite:

Festigkeit von FDM-3D-Druckteilen

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Data Mining-Modelle und -Algorithmen

Navigationsübungen in Microsoft Access

Theoretische Grundlagen der Informatik WS 09/10

GeoPilot (Android) die App

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

4. BEZIEHUNGEN ZWISCHEN TABELLEN

offene Netzwerke. In diesem Sinn wird auch interkulturelle Kompetenz eher als Prozess denn als Lernziel verstanden.

Informatik 2 Labor 2 Programmieren in MATLAB Georg Richter

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Die Post hat eine Umfrage gemacht

Lichtbrechung an Linsen

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

WordPress. Dokumentation

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Mediumwechsel - VR-NetWorld Software

Partitionieren in Vista und Windows 7/8

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

Beispiel des Zusammenführens der APV- Tabellen Stammdaten und Verlaufsdaten mithilfe von Access

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Im Original veränderbare Word-Dateien

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

QM: Prüfen -1- KN

SEO Erfolg mit themenrelevanten Links

Anleitung über den Umgang mit Schildern

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

Kapitalerhöhung - Verbuchung

Informationsblatt Induktionsbeweis

1 Mathematische Grundlagen

Was ist Sozial-Raum-Orientierung?

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Erfahrungen mit Hartz IV- Empfängern

Verschlüsseln Sie Ihre Dateien lückenlos Verwenden Sie TrueCrypt, um Ihre Daten zu schützen.

Die Bundes-Zentrale für politische Bildung stellt sich vor

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Data Mining: Einige Grundlagen aus der Stochastik

Privatrecht I. Jur. Assessorin Christine Meier. Übung Privatrecht I

SS 2014 Torsten Schreiber

REACH-CLP-Helpdesk. Zulassung in der Lieferkette. Matti Sander, Bundesanstalt für Arbeitsschutz und Arbeitsmedizin

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

1 Part-of-Speech Tagging

Berechtigungsgruppen TimeSafe Leistungserfassung

Lebensversicherung. OBJEKTIV UNBESTECHLICH KEINE WERBUNG

GIS 1 Kapitel 5: Bedeutung von Metadaten und Qualität t von Daten

Erste Schritte mit CVP 9.0

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

SOZIALVORSCHRIFTEN IM STRAßENVERKEHR Verordnung (EG) Nr. 561/2006, Richtlinie 2006/22/EG, Verordnung (EU) Nr. 165/2014

Arbeiten mit UMLed und Delphi

WS 2009/10. Diskrete Strukturen

Fotogalerie mit PWGallery in Joomla (3.4.0) erstellen

Bedienungsanleitung Rückabwicklungsrechner

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Kalender freigeben und andere Kalender aufrufen

Clustering (hierarchische Algorithmen)

Professionelle Seminare im Bereich MS-Office

Arbeitsblätter. Sinnvolle Finanzberichte. Seite 19

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Transkript:

7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen (Klawonn 2004)

Verschiedene Arten von Clustern denkbar: Was soll als "Cluster" gelten? Wann ist ein Cluster "gut"?

(Stirlingsche Zahlen 2. Art). Im allgemeinen Fall ist das Auffinden einer optimalen Clusterzerlegung ein NP-vollständiges Problem (Brucker 1974). Voraussetzung für Clusterdefinition: Distanz- bzw. Ähnlichkeitsmaß (Schwenker 2004)

Gängige Distanzfunktionen: 3a. Speziell für B = {0; 1} n : - die L 1 -Metrik ist auch auf B eine Metrik, die sogenannte Hamming-Metrik. - Das Skalarprodukt ist eine Ähnlichkeitsfunktion auf B: weitere Ähnlichkeitsmaße auf B siehe unten (sog. Matching-Koeffizienten)

Matching-Koeffizienten: (Ester & Sander 2000)

Anwendungsbeispiele der Clusteranalyse: Clustering von Web-Sessions zur Bestimmung von Benutzergruppen Clustering von Sequenzen von Jahrringbreiten in der Paläoklimatologie Clustering von Bildern in einer Bilddatenbank (um thematische Abfragen zu unterstützen) Clustering von DNA-Sequenzen verschiedener Organismen, um Verwandtschaftsgrade und Abstammungsbeziehungen zu klären (phylogenetische Analyse) Erstellung von thematischen Karten aus Satellitenbildern (Clustering wird in einem Merkmalsraum durchgeführt, wo jede Koordinate des aufgenommenen Gebietes durch einen Featurevektor repräsentiert wird) (aus Ester & Sander 2000)

Durchführung der Clusteranalyse: Die paarweisen Distanzen oder Ähnlichkeiten zwischen 2 Datenobjekten werden oft schon vorher berechnet und in einer Distanzmatrix D (bzw. Ähnlichkeitsmatrix A) abgespeichert. Überblick über Clustering-Verfahren: (Schwenker 2004)

Partitionierende Verfahren: zerlegen die Datenmenge in k Cluster - k vorgegeben - jedes Cluster enthält mindestens 1 Objekt - jedes Objekt gehört zu genau einem Cluster (Partition der Datenmenge in Cluster) Vorgehensweise: wähle k initiale Cluster-Repräsentanten optimiere diese iterativ ordne jedes Objekt seinem ähnlichsten ("nächsten") Repräsentanten zu Mögliche Typen von Repräsentanten: Mittelwert des Clusters (Konstruktion zentraler Punkte) Element des Clusters (Auswahl repräsentativer Punkte) Wahrscheinlichkeitsverteilung für das Cluster (Erwartungsmaximierungs-Verfahren) Konstruktion zentraler Punkte:

(Böhm 2003)

Beispiel mit k = 3: Durchführung des Verfahrens, beginnend mit der "schlechten" Zerlegung: (aus Ester & Sander 2000)

Varianten des Basis-Algorithmus: k-means-algorithmus (MacQueen 1967) - Idee: die betroffenen Zentroide werden sofort aktualisiert, wenn ein Punkt seine Clusterzugehörigkeit ändert - hat im wesentlichen die Eigenschaften des Basisalgorithmus - ist aber reihenfolgeabhängig zum Verfahren "Konstruktion zentraler Punkte":

Verfahren "Auswahl repräsentativer Punkte":

(aus Ester & Sander 2000) Laufzeitvergleich (experimentelle Untersuchung): CLARANS ist PAM deutlich überlegen, hat aber immer noch ungefähr quadratische Laufzeit (bezogen auf Zahl der Objekte)

Erwartungsmaximierung ("EM-Algorithmus"):

Erwartungsmaximierungs-Algorithmus

(Böhm 2003) Je größer der Wert für E(M) ist, desto wahrscheinlicher sind die gegebenen Daten D unter der Annahme, dass sie durch Mischung von k Gaußverteilungen entstanden sind.

(Ester & Sander 2000) (Böhm 2003)

Wahl des initialen Clustering: Beispiel: 3 Gaußcluster in der Ebene: Gesamtmenge und Stichprobe

Wahl des Parameters k (für alle bisher vorgestellten Verfahren): Probleme bei iterativ arbeitenden Clustering-Verfahren: arbeiten nicht so gut, wenn Cluster nicht kugelförmig / elliptisch sind stark unterschiedliche Größe haben stark unterschiedliche Punktdichten haben (Böhm 2003)

Beispiel: Ergebnisse von CLARANS (mit k = 4): (Ester & Sander 2000) verwende dichtebasierte Verfahren Cluster als dichte-verbundene Mengen

(Böhm 2003) (Ester & Sander 2000)

(Böhm 2003) verwende hierarchische Clustering-Verfahren Grundlage: Verfeinerungs- / Vergröberungsrelation zwischen verschiedenen Partitionen derselben Menge

(Schwenker 2004) Beispiel: (Schukat-Talamazzini 2002)

Varianten:

(Schwenker 2004)

(Schukat-Talamazzini 2002)

Verwendung der "average-linkage"-mengendistanz: weitere Varianten: Median-Verfahren, Unweighted-average- Verfahren, Ward's Verfahren (s. Schwenker 2004)

eine hierarchische Clusterung lässt sich auch während der Konstruktion eines minimalen aufspannenden Baumes erzeugen: (Schwenker 2004)

Hierarchische Verfahren (Single-Link und Varianten): weitere Variante:

Dichtebasiertes hierarchisches Clustering

Algorithmus OPTICS (s. Ester & Sander 2000, S. 81)

(Böhm 2003)

Entdeckung von Ausreißern (Outlier detection) Was ist ein "Ausreißer"? - keine allgemein akzeptierte Definition "one person's noise could be another person's signal"

jedoch: diese Definition ist für viele Zwecke zu unflexibel

Anwendungen: (Böhm 2003)

wegen Verwendung von Abständen in dieses Kapitel aufgenommen, aber kein Clustering-, sondern Klassifikations-Verfahren: Nächste-Nachbarn-Klassifikatoren hier wieder Datensatz mit Klassen vorgegeben Beispiel: Fehlzuordnung durch Ausreißer möglich

"knn-klassifikator" (Böhm 2003)

Zusammenfassung zum knn-klassifikator: Diskussion: (Klawonn 2004)