3. Informationsgewinnung 3.1. Informationsextraktion

Transkript

1 3. sgewinnung 3.1. sextraktion Vorlesung Intelligente ssysteme Wintersemester 2004/2005 Prof. Dr. Bernhard Thalheim Systems Engineering Group Computer Science Institute Kiel University, Germany

2 Vorlesungprogramm Aufbereitung zum intelligenten Ausspiel Knowledge discovery als Prozeß Pragmatismus der sextraktion basierend auf Ähnlichkeitsmaßen, Datensäuberung, Vorverarbeitung, Datenintegration, -transformation, Bewertung, Visualisierung von dirty statistics zur Kunst Clustering Outlier detection Klassifikation Regression Programmbibliotheken zur Unterstützung des Extraktion z.b. WEKA, DaMiT

3 Knowledge Discovery anerkannte Definition Fayyad, Piatetsky-Shapiro & Smyth 1996 Knowledge Discovery in bases () ist der Prozeß der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen: (semi-) automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen. potentiell nützlich: für eine gegebene Anwendung. Teilbereiche: Statistik: modellbasierte Inferenzen Schwerpunkt auf numerischen Daten : Suchverfahren Schwerpunkt auf symbolischen Daten Intelligente ssysteme: Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays,...) Integration mit kommerziellen Datenbanksystemen

4 Das Prozeßmodell des Knowledge Discovery Fokussieren: Beschaffung der Daten; Säuberung von Inkonsistenzen und Rauschen; Verwaltung (File/DB); Selektion relevanter Daten Vorverarbeitung: Integration von Daten aus unterschiedlichen Quellen; Vervollständigung; Konsistenzprüfung Transformation: Diskretisierung numerischer Merkmale; Ableitung neuer Merkmale; Selektion relevanter Merkmale : Generierung der Muster bzw. Modelle Evaluation: Bewertung der Interessantheit durch den Benutzer; Validierung: Statistische Prüfung der Modelle svisualisierung in unterschiedlichen Präsentationsformaten je nach Rezeptionsmuster

5 Bestandteile des Knowledge Discovery Features: (Merkmale ( Features ) von Objekten) Oft sind die betrachteten Objekte komplex Eine Aufgabe des -Experten ist dann, geeignete Merkmale (Features) zu definieren bzw. auszuwählen, die für die Unterscheidung (Klassifikation, Ähnlichkeit) der Objekte relevant sind. Bilddatenbanken: Farbhistogramme; Gen-Datenbanken: Expressionslevel; Text-Datenbanken: Begriffshäufigkeiten Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten verschiedenster Anwendungsklassen Merkmalsvektoren: Im Kontext von statistischen Betrachtungen werden die Merkmale häufig auch als Variablen bezeichnet Die ausgewählten Merkmale werden zu Merkmalsvektoren (Feature Vector) zusammengefaßt Der Merkmalsraum ist häufig hochdimensional Ähnlichkeit von Objekten: mit Maßen Anwendung: Spezifiziere Anfrage-Objekt und......suche ähnliche Objekte Range-Query (Radius e) suche die k ähnlichsten Objekte Nearest Neighbor

6 Ähnlichkeit von Objekten Euklidische Maße: sim k ( p, q) = ( n i=1 p i q i k ) 1 k k = 1: Manhattan-Norm (Die Unähnlichkeiten der einzelnen Merkmale werden direkt addiert) k = 2: klassische Euklidische Norm (natürlichstes Distanzmaß) Maximumsnormen: sim 0 ( p, q) = (max n i=1 p i q i ) Die Unähnlichkeit des am wenigsten ähnlichen Merkmals zählt Anpaßbare Ähnlichkeitsmaße Gewichtetes Euklidisches Maß: sim k ( p, q) = ( n i=1 w i p i q i k ) 1 k Häufig sind die Wertebereiche der Merkmale deutlich unterschiedlich. Quadratische Form: d = (( p q)m( p q) T ) 1 2 Bei den bisherigen Ähnlichkeitsmaßen wird jedes Merkmal nur mit sich selbst verglichen. Besonders bei (Farb-)Histogrammen müssen auch verschiedene Merkmale verglichen werden. Statt mit Distanzmaßen, die die Unähnlichkeit zweier Objekte messen, arbeitet man manchmal auch mit positiven Ähnlichkeitsmaßen.

7 Skalierung von Merkmalen Nominal (kategorisch) Charakteristik: Wert gleich oder verschieden Keine Richtung (besser, schlechter) und kein Abstand. Merkmale mit nur zwei Werten: dichotom Beispiele: Geschlecht (dichotom), Augenfarbe Gesund/krank (dichotom) Ordinal Charakteristik: basiert auf Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand Beispiele: Schulnote (metrisch?), Güteklasse, Altersklasse Metrisch Charakteristik: Differenzen und Verhältnisse zwischen den Werten Werte diskret oder stetig Beispiele: Gewicht (stetig), Verkaufszahl (diskret), Alter (stetig oder diskret)

8 Datensäuberung Aufgaben Umgangsmöglichkeiten mit fehlenden Werten: Ignorieren des Tupel Manuelles Auffüllen Einsetzen einer globalen Konstante (z.b. unbekannt) Mittelwert aller Attribut-Tupel einsetzen Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen Den wahrscheinlichsten Wert einsetzen (z.b. mit Entscheidungsbäumen, Bayes schen Inferenzen oder Regression ermittelt) Umgangsmöglichkeiten mit verrauschten Daten: Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten. Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in bins : (4, 8, 15) (21, 21, 24) (25, 28, 34) Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34) Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden Manuelle Überprüfung von Ausreißer-Kandidaten Regression: (Multiple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw. mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden. Erkennen von inkonsistenten Daten: Vergleich der Daten mit externen Referenzen (z.b. Papierbelege) Berücksichtigung von Constraints Inkonsistenzen durch fehlerhafte Datenintegration

9 Datenintegration Aufgaben Schema-Integration (z.b. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie cust number versus customer id ). Erkennen von Redundanz (z.b. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.b. mit Korrelationsanalyse festgestellt werden) Erkennung von Duplikaten (z.b. identische Tupel) record matching, entity resolution Erkennen von Datenwertkonflikten (können z.b. durch unterschiedliche Maßeinheiten verursacht werden, z.b. Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.b. Preise mit/ohne Mwst).

10 Datentransformation Typische Transformationsoperationen für Glättung verrauschter Daten Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Cubes und Konzepthierarchien) Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.b. zwischen 0 und 1) Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.b. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen). Transformationen mit dem Ziel der Datenreduktion (z.b. Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation).

11 Aufgaben Wichtigste --Verfahren auf Merkmals-Vektoren: (1) Clustering Unsupervised learning (2) Outlier Detection Unsupervised learning (3) Klassifikation Supervised learning (4) Regression Supervised learning Supervised: Ein Ergebnis-Merkmal soll gelernt/geschätzt werden Unsupervised: Die Datenmenge soll lediglich in Gruppen unterteilt werden Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.b. auf Texten, Mengen, Graphen arbeiten.

12 Clustering Clustering: Zerlegung einer Menge von Objekten (bzw. Feature- Vektoren) so in Teilmengen (Cluster), daß die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbekannten Anzahl und Bedeutung der Klassen Thematische Karten: Aufnahme der Erdoberfläche in 5 verschiedenen Spektren; Cluster-Analyse; Rücktransformation in xy-koordinaten und Farbcodierung nach Cluster- Zugehörigkeit Gewebeklassifikation: mit Farbkodierung (Schwarz: Ventrikel + Hintergrund; Blau: Gewebe 1; Grün: Gewebe 2; Rot: Gewebe 3; Dunkelrot: Große Gefäße) Ergebnis: Klassifikation cerebralen Gewebes anhand funktioneller Parameter mittels dynamic CT möglich.

13 Ziele des Clustering Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten Objekte im gleichen Cluster sollen möglichst ähnlich sein Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein Cluster unterschiedlicher Größe, Form und Dichte hierarchische Cluster unterschiedliche Clustering-Algorithmen Typische Anwendungen: Kundensegmentierung (Clustering der Kundentransaktionen), Bestimmung von Benutzergruppen auf dem Web (Clustering der Web-Logs), Strukturierung von großen Mengen von Textdokumenten (Hierarchisches Clustering der Textdokumente), Erstellung von thematischen Karten aus Satellitenbildern (Clustering der aus den Rasterbildern gewonnenen Featurevektoren)

14 Clustering-Verfahren Typen Partitionierende Verfahren: Parameter: Anzahl k der Cluster, Distanzfunktion sucht ein flaches Clustering in k Cluster mit minimalen Kosten Hierarchische Verfahren: Parameter: Distanzfunktion für Punkte und für Cluster bestimmt Hierarchie von Clustern, mischt jeweils die ähnlichsten Cluster Dichtebasierte Verfahren: Parameter: minimale Dichte in einem Cluster, Distanzfunktion erweitert Punkte um ihre Nachbarn solange Dichte groß genug Andere Clustering-Verfahren: Fuzzy Clustering, graphentheoretische Verfahren, neuronale Netze

15 Partitionierende Verfahren Grundlagen Ziel: Partitionierung in k Cluster so daß eine Kostenfunktion miniert wird (Gütekriterium) Lokal optimierendes Verfahren: wähle k initiale Cluster- Repräsentanten möglichst gut separierbare Cluster mit q class( p)(sim( p, class( p)) sim( p, q)) optimiere diese Repräsentanten iterativ ordne jedes Objekt seinem ähnlichsten Repräsentanten zu Typen von Cluster-Repräsentanten: Mittelwert des Clusters (Konstruktion zentraler Punkte) Element des Clusters (Auswahl repräsentativer Punkte) Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)

16 Konstruktion zentraler Punkte Beispiel: Euklidischer Vektorraum mit Euklidischer Distanz Zentroid µ C : Mittelwert aller Punkte im Cluster C Maß für die Kosten (Kompaktheit) eines Clusters C T D 2 (C) = pinc sim( p, µ C) Maß für die Kosten (Kompaktheit) eines Clustering T D 2 = C T D2 (C) Brute-Force-Algorithmus 1. Start mit zufällig gewählten Punkten als Cluster- Repräsentanten Repeat until no change: 2A. Zuordnung jedes Datenpunktes zum räumlich nächsten Repräsentanten 2B. Neuberechnung der Repräsentanten (Zentroid der zugeordneten Punkte) ClusteringDurchVarianzMinimierung(Punktmenge D, Integer k) Erzeuge eine initiale Zerlegung der Punktmenge D in k Klassen; Berechne die Menge C=C1,..., Ck der Zentroide für die k Klassen; C = {}; repeat C = C; k Klassen durch Zuordnung jedes Punktes zum nächstliegenden Zentroid aus C; Menge C := {C 1,..., C k } der Zentroide für die neu bestimmten Klassen; until C = C; return C;

17 Varianten zur Konstruktion zentraler Punkte k-means: die betroffenen Zentroide werden direkt aktualisiert, wenn ein Punkt seine Clusterzugehörigkeit ändert K-means hat im wesentlichen die Eigenschaften des Basis-Algorithmus K-means ist aber reihenfolgeabhängig Aufwand: O(n) für eine Iteration, Anzahl der Iterationen ist im allgemeinen klein ( 5-10) einfache Implementierung Anfälligkeit gegenüber Rauschen und Ausreißern (alle Objekte gehen ein in die Berechnung des Zentroids) Cluster müssen konvexe Form haben die Anzahl k der Cluster ist oft schwer zu bestimmen starke Abhängigkeit von der initialen Zerlegung sowohl Ergebnis als auch Laufzeit ISODATA: basiert auf k-means Verbesserung des Ergebnisses durch Operationen wie Elimination sehr kleiner Cluster Verschmelzung und Aufspalten von Clustern Benutzer muß viele zusätzliche Parameter angeben

18 Auswahl repräsentativer Punkte nur Distanzfunktion für Paare von Objekten vorausgesetzt Medoid: ein zentrales Element des Clusters (repräsentativer Punkt) Maß für die Kosten (Kompaktheit) eines Clusters C T D(C) = pinc sim( p, µ C) Maß für die Kosten (Kompaktheit) eines Clustering T D = C T D2 (C) Laufzeitkomplexität der erschöpfenden Suche ist O(n k ) k-medoid Algorithmen PAM O(n 3 + k(n k) 2 AnzIterationen) Greedy-Algorithmus: in jedem Schritt wird nur ein Medoid mit einem Nicht-Medoid vertauscht vertauscht in jedem Schritt das Paar (Medoid, Nicht-Medoid), das die größte Reduktion der Kosten TD bewirkt CLARANS O(numlocal maxneighbor AnzErsetzungen n) zwei zusätzliche Parameter: maxneighbor und numlocal höchstens maxneighbor viele von zufällig ausgewählten Paaren (Medoid, Nicht-Medoid) werden betrachtet die erste Ersetzung, die überhaupt eine Reduzierung des TD-Wertes bewirkt, wird auch durchgeführt die Suche nach k optimalen Medoiden wird numlocal mal wiederholt

19 Auswahlalgorithmen für repräs. Punkte PAM i.a. höhere Qualität für kleine Nester PAM(Objektmenge D, Integer k, Float dist) Initialisiere die k Medoide; TD Änderung := ; while TD Änderung < 0 do Berechne für jedes Paar (Medoid M, Nicht-Medoid N) den Wert T D N M ; Wähle das Paar (M, N), für das der Wert TD Änderung := T D N M T D minimal ist; if TD Änderung < 0 then ersetze den Medoid M durch den Nicht-Medoid N; Speichere die aktuellen Medoide als die bisher beste Partitionierung; return Medoide; CLARANS praktisch O(n 2 ) CLARANS(Objektmenge D, Integer k, Real dist, Integer numlocal, Integer maxneighbor) for r from 1 to numlocal do wähle zufällig k Objekte als Medoide; i := 0; while i < maxneighbor do Wähle zufällig (Medoid M, Nicht-Medoid N); Berechne TD Änderung := T D N M - TD; if TD Änderung < 0 then ersetze M durch N; TD := T D N M ; i := 0; else i:= i + 1; if TD < TD best then TD best := TD; Speichere aktuelle Medoide; return Medoide;

20 Erwartungsmaximierung (EM) Punkte p = (x p 1,..., xp d ) in euklidischenm Vektorraum ein Cluster wird durch eine Wahrscheinlichkeitsverteilung beschrieben typisch: Modell für einen Cluster ist eine multivariate Normalverteilung Repräsentation eines Clusters C Mittelwert µ C aller Punkte des Clusters d x d Kovarianzmatrix Σ C für die Punkte im Cluster C Wahrscheinlichkeitsdichte eines Clusters C 1 P (x C) = e 1 2 (x µ c) T Σ 1 C (x µ c) (2π)d Σ C Idee: Jeder Punkt gehört zu mehreren (eigentlich allen) Clustern, jeweils mit unterschiedlicher Wahrscheinlichkeit, abh. von P (x C) Algorithmus besteht wieder aus zwei alternierenden Schritten: Zuordnung von Punkten zu Clustern (hier nicht absolut, sondern relativ/nach Wahrscheinlichkeit) Neuberechnung der Cluster-Repräsentanten (Gauß-Kurven) Auf stochastischer Grundlage: Bei Berechnung der Clusterzentren (µ i ) muß berücksichtigt werden, daß Punkte Clustern nicht absolut sondern nur relativ zugeordnet sind Wie groß ist die Wahrscheinlichkeit der Clusterzugehörigkeit?

21 Erwartungsmaximierung (EM) Cluster Ci durch eine Wahrscheinlichkeitsdichte-Funktion (Normalverteilung): 1 P (x C) = e 1 (2π) d 2 (x µ c) T Σ 1 C (x µ c) Σ C Dichtefunktion: Integral über den Gesamtraum ergibt 1 Integral über Region R ergibt Wahrscheinlichkeit, daß in der Region ein beliebiger Punkt des Clusters liegt, bzw. den relativen Anteil (z.b. 30%) der Punkte des Clusters, die in R liegen Bedingte Wahrscheinlichkeit: Unter der Voraussetzung, daß der Punkt x ausschließlich dem Cluster C i zugeordnet wäre (was nicht stimmt) Deshalb Notation als bedingte Wahrscheinlichkeit k Gaußverteilungen (durch k Cluster): P (x) = k i=1 W ip (x C i ) W i - relativer Anteil der Datenpunkte ist, der zum Cluster C i gehört (z.b. 5%), (Gesamt-Wahrscheinlichkeit des Clusters P (C i )) Satz von Bayes: P (C i x) (Wahrscheinlichkeit, daß ein gegebener Punkt x zum Cluster C i gehört) P (x C P (C i x) = W i ) i P (x) = P (C i) P (x C i ) P (x) (a-priori-wahrscheinlichkeit: P (A i ) a-posteriori-wahrscheinlichkeit: P (A i B) )

22 Erwartungsmaximierung (EM) Maß für die Güte eines Clustering M E(M) = x D log(p (x)) E(M) maximieren Anteil des Clusters an der Datenmenge: W i = P (C i ) = 1 n n i=1 P (C i x) Mittelwert und Kovarianzmatrix der Gaußverteilung: µ i = x D xp (C i x) σ i = Algorithmus x D P (C i x) x D (x µ i)(x µ i ) T P (C i x) x D P (C i x) O(n M Iterationen) ClusteringDurchErwartungsmaximierung (Punktmenge D, Integer k) Erzeuge ein initiales Modell M = (C 1,..., C k ); repeat // Neuzuordnung Berechne P (x C i ), P (x) und P (C i x) für jedes Objekt aus D und jede Gaußverteilung/jeden Cluster C i ; // Neuberechnung des Modells Berechne ein neues Modell M = {C 1,..., C k } durch Neuberechnung von W i, µ C und σ C für jedes i; M := M; until E(M) - E(M) < e; return M; Ergebnis und Laufzeit (wie beim k-means und k-medoid) stark abhängig von der initialen Zuordnung und von der richtigen Wahl des Parameters k Modifikation für Partitionierung der Daten in k disjunkte Cluster: jedes Objekt nur demjenigen Cluster zuordnen, zu dem es am wahrscheinlichsten gehört.

23 Silhouetten-Koeffizient Wahl des initialen Clustering Idee Clustering einer kleinen Stichprobe liefert im allgemeinen gute initiale Cluster einz. Stichproben sind ggf. deutlich anders verteilt als die Grundgesamtheit Methode ziehe unabhängig voneinander m verschiedene Stichproben clustere jede der Stichproben m verschiedene Schätzungen für k Clusterzentren A = (A 1, A 2,..., A k ), B = (B 1,..., B k ), C = (C 1,..., C k ),... Clustere nun die Menge DB = A B C... mit m verschiedenen Stichproben A, B, C,... als Startkonfiguration Wähle von den m Clusterings dasjenige mit dem besten Wert bzgl. des zugehörigen Maßes für die Güte eines Clustering Wahl des Parameters k: Methode Bestimme für k = 2,..., n-1 jeweils ein Clustering Wähle aus der Menge der Ergebnisse das beste Clustering aus Maß für die Güte eines Clusterings muß unabhängig von der Anzahl k sein bei k-means und k-medoid: T D 2 und T D sinken monoton mit steigendem k bei EM: E steigt monoton mit steigendem k Brauche ein von k unabhängiges Gütemaß für die k-means- und k-medoid- Verfahren

24 Dichtebasiertes Clustering Idee Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen getrennt durch Gebiete, in denen die Objekte weniger dicht liegen Anforderungen an dichtebasierte Cluster für jedes Objekt eines Clusters überschreitet die lokale Punktdichte einen gegebenen Grenzwert die Menge von Objekten, die den Cluster ausmacht, ist räumlich zusammenhängend o O Kernobjekt: N ɛ (o) > MinP ts mit N ɛ (o) = {o O dist(o, o) ɛ} p O direkt dichte-erreichbar von q O bzgl. ɛ und MinP ts: p N ɛ (q) und q ist ein Kernobjekt in O p dichte-erreichbar von q: eine Kette von direkt erreichbaren Objekten zwischen q und p p, q dichte-verbunden: beide von einem dritten Objekt o aus dichte-erreichbar Cluster C bzgl. ɛ und MinP ts: nicht-leere Teilmenge von O Maximalität: p, q O (p C q dichte-erreichbar von p q C) Verbundenheit: p, q C: p dichte-verbunden mit q

25 Dichtebasiertes Clustering Definition Clustering Ein dichte-basiertes Clustering CL der Menge O bzgl. ɛ und MinP ts: vollständige Menge von dichte-basierten Clustern bzgl. ɛ und MinP ts in O Noise CL ( Rauschen ): Menge aller Objekte aus O, die nicht zu einem der dichte-basierten Cluster C i gehören Grundlegende Eigenschaft Sei C ein dichte-basierter Cluster und sei p C ein Kernobjekt. Dann gilt: C = {o O odichte erreichbar von p bzgl.ɛminp ts} Algorithmus DBSCAN DBSCAN(Objektmenge D, Real e, Integer MinPts) // Zu Beginn sind alle Objekte unklassifiziert, // o.clid = UNKLASSIFIZIERT für alle o Objektmenge ClusterId := nextid(noise); for i from 1 to D do Objekt := D.get(i); if Objekt.ClId = UNKLASSIFIZIERT then if ExpandiereCluster(D, Objekt, ClusterId, ɛ, MinPts) then ClusterId:=nextId(ClusterId); Heuristik zur Parameterbestimmung: k-distanzen aller Objekte absteigend sortiert

26 Hierarchische Verfahren Hierarchische Untergliederung ist einfach überschaubar Konstruktion einer Hierarchie von Clustern (Dendrogramm), so daß immer die Cluster mit minimaler Distanz verschmolzen werden Dendrogramm: ein Baum, dessen Knoten jeweils ein Cluster repräsentieren, mit folgenden Eigenschaften: die Wurzel repräsentiert die ganze DB die Blätter repräsentieren einzelne Objekte ein innerer Knoten repräsentiert einen Cluster bestehend aus allen Objekten des darunter liegenden Teilbaums Typen von hierarchischen Verfahren Bottom-Up Konstruktion des Dendrogramms (agglomerative) Top-Down Konstruktion des Dendrogramms (divisive)

27 Hierarchische Verfahren Algorithmus Single-Link: Agglomeratives hierarchisches Clustering (1) Bilde initiale Cluster, die jeweils aus einem Objekt bestehen, und bestimme die Distanzen zwischen allen Paaren dieser Cluster. (2) Bilde einen neuen Cluster aus den zwei Clustern, die die geringste Distanz zueinander haben. (3) Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Clustern. (4) Wenn alle Objekte in einem einzigen Cluster befinden: Fertig, andernfalls wiederhole ab Schritt 2. Distanzfunktionen für Cluster auf der Grundlage des Distanzmaßes Single-Link: distsl(x, Y ) = min x X,y Y dist(x, y) Complete-Link: distcl(x, Y ) = max x X,y Y dist(x, y) Average-Link distal(x, Y ) = 1 X Y x X,y Y dist(x, y) Vor- und Nachteile: + erfordert keine Kenntnis der Anzahl k der Cluster + findet nicht nur ein flaches Clustering, sondern eine ganze Hierarchie + ein einzelnes Clustering kann aus dem Dendrogramm gewonnen werden, z.b. mit Hilfe eines horizontalen Schnitts durch das Dendrogramm (erfordert aber wieder Anwendungswissen) - Entscheidungen können nicht zurückgenommen werden - Anfälligkeit gegenüber Rauschen (Single-Link) eine Linie von Objekten kann zwei Cluster verbinden - Ineffizienz: Laufzeitkomplexität von mindestens O(n 2 ) für n Objekte

28 Dichte-basiertes hierarchisches Clustering für einen konstanten M inp ts-wert sind dichte-basierte Cluster bzgl. eines kleineren ɛ vollständig in Clustern bzgl. eines größeren ɛ enthalten in einem DBSCAN-ähnlichen Durchlauf gleichzeitig das Clustering für verschiedene Dichte-Parameter bestimmen zuerst die dichteren Teil-Cluster, dann den dünneren Rest-Cluster kein Dendrogramm, sondern eine auch noch bei sehr großen Datenmengen übersichtliche Darstellung der Cluster-Hierarchie Kerndistanz eines Objekts p bzgl. ɛ und MinP ts undef fallsn ɛ (n) < MinP ts, Kerndist ɛ,minp ts (o) = M inp tsdistanz(o) sonst. Erreichbarkeitsdistanz eines Objekts p relativ zu einem Objekt o Erreichdist ɛ,minp ts (o, p) = undef fallsn ɛ (n) < MinP ts, max(kerndist ɛ,minp ts (o), MinP tsdistanz(o)) sonst.

29 Outlier Detection Ermittlung von untypischen Daten Finde Ausreißer in den Daten An Outlier is an observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism Outlier sind alle Punkte, die nicht in einem Cluster liegen Anwendungen: Entdeckung von Mißbrauch etwa bei Kreditkarten Telekommunikation Datenfehler Beim Clustering: Rauschen (alle Punkte, die zu keinem Cluster gehören) Generell : keine allgemein gültige und akzeptierte Definition One person s noise could be another persons signal.

30 Depth-based: Identifikation von Outlier Jedes Objekt wird als ein Punk in einem d-dimensionalen Raum betrachtet. Die Tiefe der Objekte wird berechnet. Outlier haben eine kleinere Tiefe als die anderen Objekte. Theoretisch: gut auch für hochdimensionale Daten Praktisch: ineffizient für d 4, da die konvexe Hülle berechnet werden muß. Distance-based: Ein Objekt p in einem Datensatz D ist ein DB(pct,dmin)-Outlier (DB = distance-based), falls mindestens pct - Prozent von Objekten aus D eine größere Distanz als dmin zu p haben. Wahl von pct und dmin wird einem Experten überlassen. Theoretisch und praktisch: harte Separation

31 Klassifikation Lerne aus den bereits klassifizierten Trainingsdaten Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch) Anwendung: Neugeborenen-Screening Blutprobe des Neugeborenen; Massenspektrometrie; Metabolitenspektrum 14 analysierte Aminosäuren: alanine, arginine, argininosuccinate, citrulline, glutamate (als neuer unbekannter Marker), glycine, leuzine+isoleuzine, methionine, ornitine, phenylalanine, pyroglutamate, serine, tyrosine, valine Gegeben: Menge O von Objekten des Formats (o 1,..., o d ) mit Attributen A i, 1 i d und Klassenzugehörigkeit c i, c i C = {c 1,..., c k } Gesucht: Klassenzugehörigkeit für Objekte aus D \ O mit Klassifikator K : D C Abgrenzung zum Clustering: Klassifikation: Klassen a priori bekannt Clustering: Klassen werden erst gesucht Verwandtes Problem: Vorhersage (Prediction) (gesucht ist der Wert für ein numerisches Attribut, Methode z.b. Regression)

32 Bewertung von Klassifikatoren Sei K ein Klassifikator und sei T R O die Trainingsmenge. O D ist die Menge der Objekte, bei denen die Klassenzugehörigkeit bereits bekannt ist Problem der Bewertung: gewünscht ist gute Performanz auf ganz D. Klassifikator ist für T R optimiert. Test auf T R erzeugt in der Regel viel bessere Ergebnisse, als auf D \ T R. Daher kein realistisches Bild der Performanz auf D. Overfitting Train-and-Test Bewertung ohne Overfitting durch Aufteilen von O in : Trainingsmenge T R zum Lernen des Klassifikators (Konstruktion des Modells) Testmenge T E zum Bewerten des Klassifikators Train-and-Test nicht anwendbar, wenn nur wenige Objekte mit bekannter Klassenzugehörigkeit Stattdessen: m-fache Überkreuz-Validierung (m-fold Cross-Validation) m-fache Überkreuz-Validierung - teile die Menge O in m gleich große Teilmengen - verwende jeweils m-1 Teilmengen zum Training und die verbleibende Teilmenge zur Bewertung - kombiniere die erhaltenen m Klassifikationsfehler (und die m gefundenen Modelle!)

33 Klassifikatoren K - Klassifikator, T R O - Trainingsmenge, T E O - Testmenge. C(o) - Klasse eines Objekts o T i := {o T E C(o) = i} C i = {o T E K(o) = i} Klassifikationsgenauigkeit (classification accuracy) von K auf T E G T E (K) = {o T E K(o)=C(o)} T E Tatsächlicher Klassifikationsfehler (true classification error) F T E (K) = {o T E K(o) C(o)} T E Beobachteter Klassifikationsfehler (apparent classification error) F T R (K) = {o T R K(o) C(o)} T R Precision: Anzahl der Objekte aus einer Klasse, die richtig erkannt wurden P recision T E (K, i) = {o T i K(o)=C(o)} T i Recall: Anzahl der C i -Objekte, die richtig erkannt wurden Recall T E (K, i) = {o C i K(o)=C(o)} C i Kompaktheit des Modells z.b. Größe eines Entscheidungsbaums Interpretierbarkeit des Modells z.b. wieviel Einsichten vermittelt das Modell dem Benutzer Effizienz der Konstruktion des Modells bzw. der Anwendung des Modells Skalierbarkeit für große Datenmengen, für sekundärspeicherresidente Daten Robustheit gegenüber Rauschen und fehlenden Werten

34 Bayes-Klassifikatoren Statistische Klassifikatoren: Vorhersage der Class-Membership- Probability für verschiedene Klassen Verschiedene Verfahren: Naiver Bayes-Klassifikator: Relativ einfach zu implementierendes Verfahren; beruht auf Annahme der Unabhängigkeit zwischen den einzelnen Merkmalen (naiv) Bayes-Netzwerk (Bayesian Belief Network): Mögliche Abhängigkeiten zwischen Merkmalen werden in Form eines Graphen modelliert, der entweder durch den Benutzer vorgegeben wird oder durch das System selbst gelernt wird. Regeln und Fakten als bedingte Wahrscheinlichkeiten A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über die Häufigkeit einer Klasse und das Auftreten von Merkmalen A-Priori Wahrsch. f. Klassenzugehörigk: 20% - Äpfel; 30% - Orangen A-Priori Merkmalshäufigkeit: 50% rund; 40% orange Bedingte Wahrscheinlichkeiten ( A-Posteriori ) modellieren Zusammenhänge zwischen Klassen und Merkmalen: 100% der Orangen sind rund: P (rund Orange) = 100% 100% der Äpfel sind rund: P (rund Apfel) = 100% 90% der Orangen sind orange: P (orange Orange) = 90%

35 Bayes-Klassifikatoren Kontinuierliche metrische Merkmale können diskret approximiert werden oder als Wahrscheinlichkeits-Dichtefunktion definiert werden Bayes-Klassifikator schätzt die Wahrscheinlichkeit der Klassenzugehörigkeit eines Merkmalsvektors Zur eindeutigen Zuordnung eines Klassen-Labels geht man meist nach dem Prinzip Maximum Likelihood vor Annahme der bedingten Unabhängigkeit beim naiven Bayes-Klassifikator P (M 1 M 2 C) = P (M 1 C) P (M 2 C) Bayes-Netzwerke: Graph mit Knoten = Zufallsvariable (Tabelle der bedingten Wahrscheinlichkeiten); Kante = bedingte Abhängigkeit mit Trainieren des Netzwerkes (geg. Netzwerk-Struktur und bekannten Zufallsvariablen; geg. Netzwerk-Struktur und teilweise unbekannten Zufallsvariablen; a priori unbekannter Netzwerk-Struktur) Streichen der Kanten, die keinen sgewinn bringen + hohe Klassifikationsgenauigkeit in vielen Anwendungen + Inkrementalität: Klassifikator einfach an neue Trainingsobjekte adaptierbar + Einbezug von Anwendungswissen - Anwendbarkeit: erforderliche bedingten Wahrscheinlichkeiten oft unbekannt - Ineffizienz bei sehr vielen Attributen (insbesondere Bayes-Netzwerke)

36 Nächste-Nachbarn-Klassifikatoren Instanzbasiertes Lernen (instance based learning) Interpretiere Häufigkeit einer Klasse in der Entscheidungsmenge als Wahrscheinlichkeit der Klassenzugehörigkeit Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten Nachbarpunkts Verbesserung: k-nächste-nachbarn-klassifikator (Suche von k zur Optimierung) Regionen der Klassenzuordnung können als Voronoi-Diagramme dargestellt werden Entscheidungsregel: wähle die Mehrheitsklasse der Entscheidungsmenge Gewichte die Klassen der Entscheidungsmenge Anwendungsbeispiel: Hipparcos-Katalog ( Sterne mit 78 Attributen, Klassenattribut: Spektraltyp (Attribut H76))

37 Entscheidungsbaum-Klassifikatoren einfach, deshalb oft im Vordergrund, overfitting-sensitiv Entscheidungsbaum: Baum mit innerer Knoten repräsentiert ein Attribut Kante repräsentiert einen Test auf dem Attribut des Vaterknotens Blatt (mit Pfad) repräsentiert eine der Klassen Top-Down Konstruktion eines Entscheidungsbaums anhand der Trainingsmenge Attribut wird ausgewählt (Splitstrategie) und genutzt zur Partitionierung Anwendung eines Entscheidungsbaums Durchlauf des Entscheidungsbaum von der Wurzel zu einem der Blätter in eindeutigem Pfad Zuordnung des Objekts zur Klasse des erreichten Blatts lokal optimierender Algorithmus sgewinn des Attributs A für T mit Partitionierung T 1, T 2,..., T m : InfoGewinn(T, A) = entropie(t ) m T i i=1 entropie(t T i)