Data Mining. Klassifikation. Assoziationsregeln. Clustering
|
|
- Hermann Schulze
- vor 7 Jahren
- Abrufe
Transkript
1 Data Mining Klassifikation Assoziationsregeln Clustering
2 Klassifikationsregeln Vorhersageattribute V1, V2,..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1) P2(V2)... Pn(Vn) A = c Prädikate P1, P2,.., Pn Konstante c Beispielregel (wiealt>35) (Geschlecht =`m ) (Autotyp=`Coupé ) (Risiko= hoch )
3 Klassifikations/Entscheidungsbaum Geschlecht m w wiealt geringes Risiko <=35 >35 hohes Risiko Autotyp hohes Risiko Coupe Van geringes Risiko
4 Klassifikations/Entscheidungsbaum Geschlecht m w wiealt geringes Risiko <=35 >35 hohes Risiko Autotyp hohes Risiko Coupe Van geringes Risiko
5 Klassifikations/Entscheidungsbaum Geschlecht m w wiealt geringes Risiko <=35 >35 hohes Risiko Autotyp Coupe Van (wiealt>35) (Geschlecht =`m ) (Autotyp=`Coupé ) (Risiko= hoch ) hohes Risiko geringes Risiko
6 Konstruktion von Entscheidungsbäumen (Langley 1996, Quinlan 1993 ) Grundlagen - Entscheidungsbäume sind eine spezielle Form von Konzepthierarchien - Grundidee: aus gegebenen Trainingsbeispielen wird Entscheidungsbaum aufgebaut Entscheidungsbaum liefert intensionale Beschreibung der vorgegebenen Klassen Entscheidungsbaum ordnet neue Beispiele mit gewisser Fehlerrate einer der vorgegebenen Klassen zu
7 Konstruktion von Entscheidungsbäumen Generelle Voraussetzungen: Beispiele werden in Form von Attribut-Wert-Paaren beschrieben - Attribut hat Name und Wertebereich - Wertebereich ist nominal, diskret oder kontinuierlich - jedes Beispiel wird durch dieselben Attribute beschrieben (vgl. relationale Datenbanken ) Menge von Klassen (Konzepten) ist vordefiniert; i.a. ist die Anzahl der Klassen sehr viel kleiner als die Zahl der Trainingsbeispiele
8 Konstruktion von Entscheidungsbäumen Abbildung VI.1-1: Training instances from a cell domain involving four attributes and three distinct classes. ( Langley 1996 ) Attributes: number of nuclei (values: 1,2) number of tails (values: 1,2) color ( values: light, dark) wall (values: thin, thick)
9 Konstruktion von Entscheidungsbäumen Abbildung VI.1-2: A decision tree generated by the DDT algorithm for the training instances from Abbildung VI.1-1. Each terminal node specifies an associated class name and the number of training cases covered. Numbers next to the notes indicate the order in which the algorithm generated them. The notation (a), which associates attributes with nodes and values with links, is equivalent to (b), which shows the instances that each node covers. (Langley 1996)
10 Konstruktion von Entscheidungsbäumen Von jedem Trainingsbeispiel ist (idealerweise) die Klassenzugehörigkeit bekannt überwachtes Lernen (supervised learning) ein Attribut spezifiziert jeweils die Klassenzugehörigkeit (vgl. auch Holländer- Klassifizierung) Klassen müssen durch Entscheidungsbäume oder Produktionsregeln beschreibbar sein typischerweise Beschreibungen der Form [( atti = value ) (att value )] 1 i K 1 i = n i n Beispiel: Klasse Healthy: [( number_of_tails = 2) (number_of_nuclei = 1)] [( number_of_tails = 1) (color = dark) (number_of_nuclei = 2)]
11 Konstruktion von Entscheidungsbäumen Struktur eines univariaten Entscheidungsbaums: Blattknoten werden mit jeweils einer Klasse benannt, alle anderen Knoten mit jeweils einem Test auf ein einziges Attribut wenn das Attribut eines Knotens k verschiedene Werte hat (bzw. in k Wertebereiche aufgeteilt wird), dann hat der Knoten k Sohnknoten Beispielmenge wird an dem Knoten in k disjunkte Teilmengen partitioniert in Abhängigkeit vom jeweiligen Wert des Attributs Die Extension eines Knotens ist immer eine Obermenge der Extension aller Sohnknoten
12 Konstruktion von Entscheidungsbäumen verbinde jeden Knoten mit all seinen Sohnknoten und beschrifte die Kanten mit ihren zugehörigen Attributwerten neue Fälle durchlaufen für ihre Klassifikation den Entscheidungsbaum von der Wurzel ausgehend bis zu einem Blattknoten Graphisch: a i1 a i2 a i... a i k i - m Attribute a 1, a 2,... a m - Wertebereich von Attribut a i : von Attribut a l : { 1 i { 1 l a i,..., a ik } a l,..., a lk } a l1 al 2 a l... a lk l
13 Konstruktion von Entscheidungsbäumen Wie man in Holland Leute erkennt (ohne Gewähr)... Schuhe Normal Schuhe Lieblings- Käse Wohnwagen Holländisch 1 Unbek. Gouda Ja + 2 Unbek. Camembert Ja - 3 Klompen Gouda Ja + 4 Normal Gouda Nein - 5 Klompen Camembert Ja + 6 Unbek. Gouda Nein + 7 Normal Gouda Ja - 8 Klompen Gouda Nein + 9 Unbek. Camembert Nein - 10 Normal Camembert Ja - Nicht- Holländer Holländer 4, 7, 10 3, 5, 8 Klompen Gouda Holländer Unbekannt Käse Nicht- Holländer Ein Entscheidungsbaum zur Klassifikation 1, 6 2, 9
14 Konstruktion von Entscheidungsbäumen Grafische Veranschaulichung der Klassifikationsaufgabe: Schuhe Normal -/- -/- + : Holländer - : kein Holländer unbekannt Klompen +/+ -/- Wohnwagen ++ +/+ Gouda Camembert Käse
15 Konstruktion von Entscheidungsbäumen - Beispielalgorithmus für Aufbau eines univariaten Entscheidungsbaums: DDT - Algorithmus: Divisive Induction of Univariate Decision Trees - DDT ist nicht-inkrementell: - alle Trainingsbeispiele müssen verfügbar sein - DDT ist Greedy-Algorithmus (greedy=gierig): - lokal optimale Entscheidungen werden getroffen - getroffene Entscheidungen können nicht mehr zurückgenommen werden
16 Konstruktion von Entscheidungsbäumen DDT Algorithm: Divisive Induction of Univariate Decision Trees Inputs: The current node N of the decision tree. A set of classified training instances ISET. A set of symbolic attributes and their values ASET. Output: A univariate decision tree. Top-level call: DDT(root, ASET, ISET).
17 Konstruktion von Entscheidungsbäumen Procedure DDT(N, ASET, ISET) If the training set ISET is empty, Then label terminal node N as DEFAULT. Else IF all instances ISET are equal with respect to all attributes in ASET // neuer Blattknoten // this is especially the case if ASET is empty // gefunden Then label terminal node N with the class name. Else for each attribute A in ASET, Evaluate A according to its ability to // wähle bestes discriminate the classes in ISET. // Attribut B Select attribute B with the best evaluation score. For each value V of B, Create a new child C of node N. // expandiere Label the edge from N to C with V. // aktuellen Let JSET be the ISET instances having value V on B. // Knoten Let KSET be ASET \ {B}. DDT(C, KSET, JSET).
18 Konstruktion von Entscheidungsbäumen Beispiel "Spielen im Freien": 4 Attribute 2 Klassen: Play Don t Play Outlook Temp (F) Humidity (%) W indy? Class sunny true Play sunny true Dont t Play sunny false Dont t Play sunny false Dont t Play sunny false Play overcast true Play overcast false Play overcast true Play overcast false Play rain true Dont t Play rain true Dont t Play rain false Play rain false Play rain false Play Abbildung VI.1-3: A small training set (Quinlan 1993)
19 Konstruktion von Entscheidungsbäumen Abbildung VI.1-4: Final partition of cases and corresponding decision tree (Quinlan 1993)
20 Konstruktion von Entscheidungsbäumen Graphische Darstellung des Entscheidungsbaumes zum Beispiel: outlook sunny overcast rain humidity Play windy 75 > 75 true false Play Don t Play Don t Play Play
21 C4.5 - Algorithmus (Quinlan 1993) - weitverbreiteter Algorithmus zum Aufbau von Entscheidungsbäumen (oder entsprechenden Produktionsregeln) - Spezielle Variante des DDT-Algorithmus: Verwendung einer speziellen Bewertungsfunktion für Auswahl des besten Attributs: gain ratio beinhaltet zusätzlich Verfahren zur nachträglichen Vereinfachung des erzeugten Entscheidungsbaums: pruning aus Entscheidungsbaum können entsprechende Produktionsregeln erzeugt werden alternative lesbarere Darstellung Windowing - Technik für Handhabung einer großen Anzahl von Beispielen
22 Konstruktion von Entscheidungsbäumen a) Bewertungsfunktion für Attributauswahl für gegebene Menge von Trainingsbeispielen ist Anzahl der möglichen Entscheidungsbäume i.a. sehr groß Daher ist Generierung aller Entscheidungsbäume und dann Auswahl des Besten (exhaustive search) nicht möglich Daher wird in jedem Expansionsschritt das vielversprechendste Attribut ausgewählt (Greedy Algorithmus): verwende das Attribut, das am meisten Information liefert (im Sinne der Informationstheorie) C4.5 verwendet gain ratio als Kriterium. Es ist eine Abwandelung des im folgenden beschriebenen gain criterion.
23 Konstruktion von Entscheidungsbäumen gain criterion - Bezeichnungen: S: Gesamtbeispielmenge T: Menge der Trainingsbeispiele (T S) T 1, T 2,..., T n : Partition von T S T T 1 T 3 T 4 T 2
24 Konstruktion von Entscheidungsbäumen - Informationsgehalt einer Botschaft b i : hat b i die Wahrscheinlichkeit p i, so ist der Informationsgehalt von b i -log 2 (p i ) bits Beispiel: 8 gleichwahrscheinliche Botschaften b 1,...,b 8 : jedes b i hat den Informationsgehalt - log ( ) bits = bits
25 Konstruktion von Entscheidungsbäumen - Botschaft, die mitteilt, dass beliebig ausgewähltes Beispiel aus Menge T in Klasse c i liegt, hat den Informationsgehalt log 2 C i T T bits - Erwartungswert für den Informationsgehalt dieser Botschaften (bei k Klassen C 1,...,C k ): k info( T )= j= 1 C j T * log T 2 (Entropie von T) C j T T bits z.b.: k = 2 C 1 : play C 2 : don t play
26 Konstruktion von Entscheidungsbäumen - Sei X ein Test, der T in T 1,..., T n partitioniert. Dann ist der Erwartungswert für den Informationsgehalt einer Botschaft, die mitteilt, dass ein beliebig ausgewähltes Beispiel aus T i in der Klasse C j liegt (bei k Klassen C 1,..., C k ): info(t i k )= j= 1 n T info i x (T)= i= 1 T C j T i T i *info(t) i *log 2 C j T i T i bits Damit ist der Erwartungswert über alle T 1,..., T n : z.b.: X: outlook; n = 3 T 1 : sunny T 2 : overcast T 3 : rain z.b.: k = 2 C 1 : play C 2 : don t play
27 Konstruktion von Entscheidungsbäumen - gain criterion : gain(x) = info(t) - info x (T) Maß für den Informationsgewinn durch Partitionierung von T durch Test X: wähle Test X, so dass gain (X) maximiert wird, d.h. möglichst großer Informationsgewinn durch aussagekräftiges Attribut X mit info(t) fix wähle ein Attribut X mit möglichst kleinem info X (T), d.h. Erwartungswert für noch benötigte Informationen zur Klassifikation ist möglichst klein
28 Konstruktion von Entscheidungsbäumen info x (T) - info(t) gain(x) criterion gain = : - Bem.: Dies ist verwandt zum gemittelten Information Gain nur dass dort nur die Vorhersage einer Klasse C und nicht die Vorhersage in die Einteilung der Klassen C 1,..., C k betrachtet wurde. ) ( 1 ) ( )) ( ) ( ( 1 ), ( 1 ), ( i s i i s i s i i gain gain A c H s c H A c H c H s A c I s A c I = = = = = =
29 Konstruktion von Entscheidungsbäumen Fortführung des Beispiels "Spielen im Freien" : 2 Klassen : Play, Don t Play Klasse Play: 9 Fälle Klasse Don t Play : 5 Fälle damit: 2 C T j info(t) = j= 1 T = 14 9 * log 2 * log C T j T log bits bits k = 2 C 1 : play C 2 : don t play = bits (durchschnittlich benötigte Information zur Identifizierung der Klassenzugehörigkeit eines Beispiels aus T)
30 Konstruktion von Entscheidungsbäumen - Attribut outlook erzeugt 3 Teilmengen: T :outlook = sunny T = T 2 :outlook = overcast T :outlook = rain 3 Und liefert nach Definition damit: T 2 T 3 = 4 = 5 k = 2 C 1 : play C 2 : don t play X: outlook; n = 3 T 1 : sunny T 2 : overcast T 3 : rain info outlook 3 T (T) = i * info(t ) i i = 1 T * * log 5 3 *log = * 4 * log 4 0 *log * * log 5 2 log = bits
31 Konstruktion von Entscheidungsbäumen Daraus folgt: gain(outlook) = info(t) = ( ) info (T) outlook bits = bits k = 2 C 1 : play C 2 : don t play Vergleich mit dem Attribut windy : windy erzeugt 2 Teilmengen: o T 1 T 2 info : windy : windy windy = = false (T) o damit gain(windy true = 2 T i i = 1 T ) = (0.940 T = 6 1 T = 8 2 * info(t 0.892) ) i = K bits = = bits bits X: windy; n = 2 T 1 : true T 2 : false Also wird outlook als stärker diskriminierendes Merkmal weiter oben im Baum verwandt als windy.
32 Konstruktion von Entscheidungsbäumen Das gain criterion bevorzugt Tests mit vielen verschiedenen Testwerten (Attribut mit großem Wertebereich), wie das folgende Beispiel zeigt. Bildung von Teilmengen mit wenigen Fällen im Extremfall einelementige Teilmengen info X (T) = 0 Aber für Klassifizierungszwecke ist die Bildung derartiger Teilmengen unerwünscht (Overfitting)! Deswegen wird (nach dem Beispiel) die Variante gain ratio des gain criterion vorgestellt.
33 Konstruktion von Entscheidungsbäumen Fortführung des Beispiels "Spielen im Freien" : - füge neues Attribut Datum hinzu Attribut mit vielen verschiedenen Werten Attribut Datum liefert sehr hohen Informationsgewinn Datumsangabe bestimmt eindeutig Wert des Zielattributes, d.h. Klassenzugehörigkeit Attribut Datum würde als Wurzelattribut gewählt werden Das Attribut Datum ist sehr gut geeignet für die Beschreibung der Trainingsdaten, aber nicht geeignet für Klassifikation neuer, bisher unbekannter Beispiele.
34 Konstruktion von Entscheidungsbäumen - Idee: normalisiere 'gain criterion'durch 'split info' : Erwartungswert für Informationsgehalt einer Botschaft, die mitteilt, daß beliebig ausgewähltes Beispiel in Teilmenge T liegt i (T wird durch Test X in TeilmengenT, K,T n partitioniert) 1 n T split info(x)= i i= 1 T damit: gain ratio(x) = *log 2 T i T gain(x) split info(x) bits - da 'split info' für wenigegroße T sehr klein ist: i maximiere ' gain ratio' unter Nebenbedingung, dass gain wenigstens so groß ist wie der Durchschnittswert von gain über alle möglichen Tests X.
35 Konstruktion von Entscheidungsbäumen Anwendung auf das Beispiel: Attribut 'outlook' erzeugt 3 Teilmengen mit 5, 4 und 5 Beispielen; damit split info(outlook) = *log *log 2 14 = *log 2 bits 4 14 damit gain ratio(outlook) = gain(outlook) split info(outlook) = = 0.156
36 Pruning Original decision tree: physician fee freeze = n: adoption of the budget resolution = y: democrat (151) adoption of the budget resolution = u: democrat (1) adoption of the budget resolution = n: education spending = n: democrat (6) education spending = y: democrat (9) education spending = u: republican (1) physician fee freeze = y: synfuels corporation cutback = n: republican (97/3) synfuels corporation cutback = u: republican (4) synfuels corporation cutback = y: duty free exports = y: democrat (2) duty free exports = u: republican (1) duty free exports = n: education spending = n: democrat (5/2) education spending = y: republican (13/2) education spending = u: democrat (1) physician fee freeze = u: water project cost sharing = n: democrat (0) water project cost sharing = y: democrat (4) water project cost sharing = u: mx missile = n: republican (0) mx missile = y: democrat (3/1) mx missile = u: republican (2) After pruning: physician fee freeze = n: democrat (168/2.6) physician fee freeze = y: republican (123/13.9) physician fee freeze = u: mx missile = n: democrat (3/1.1) mx missile = y: democrat (4/2.2) mx missile = u: republican (2/1) Abbildung VI.1-5: Decision tree before and after pruning (Quinlan 1993 )
37 Kapitel VI.1: Konstruktion von Entscheidungsbäumen Erzeugung von Produktionsregeln - Komplexe Entscheidungsbäume sind schwer zu verstehen, da jeder Test im Kontext aller vorhergehenden Tests zu interpretieren ist. - Lösung: Betrachte alle Tests auf Pfad von Wurzel zu aktuellem Knoten und transformiere die Pfadtests in Bedingungen für Produktionsregeln der Form IF test 1 test 2.. test n THEN class = C1 Eine Klasse wird als Default-Klasse verwendet.
38 Kapitel VI.1: Konstruktion von Entscheidungsbäumen Abbildung VI.1-9: labor-neg decision tree in graph form (Quinlan 1993)
39 Kapitel VI.1: Konstruktion von Entscheidungsbäumen Abbildung VI.1-10: Result of postprocessing to rules (Quinlan 1993)
40 Kapitel VI.1: Konstruktion von Entscheidungsbäumen - Regeln können gegebenenfalls vereinfacht werden durch Entfernen von Tests aus dem Bedingungsteil: Beispiel: In Regel 4 in Abbildung VI.1-10 ist die Bedingung statutary holidays 10 entfernt worden. - Vorgehensweise für Klassifikation eines neuen Beispiels: gehe Regeln der Reihe nach durch ( Reihenfolge ist relevant ) erste Regel, deren Bedingungsteil erfüllt ist, wird ausgewählt rechte Seite der Regel bestimmt Klassenzugehörigkeit für betrachtetes Beispiel ist von keiner Regel der Bedingungsteil erfüllt, wird Default-Klasse gewählt
41 Kapitel VI.1: Konstruktion von Entscheidungsbäumen e) Fazit - C4.5 weitverbreitetes Verfahren zur Erzeugung von Entscheidungsbäumen und zugehörigen Produktionsregeln - Verfahren abhängig von Bewertungsfunktion für Attributauswahl Schätzung der Fehlerrate bei Pruning Schätzung der Fehlerrate bei Erzeugung und Vereinfachung von Produktionsregeln - vergleichbare Verfahren ID3 (Quinlan 1983) CN2 (Clark/Niblatt 1989)
42 Assoziationsregeln Beispielregel Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Confidence Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. Eine Confidence von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support Dieser Wert legt fest, wieviele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. Bei einem Support von 1% wäre also jeder Hundertste Verkauf ein PC zusammen mit einem Drucker.
43 VerkaufsTransaktionen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner Verkaufstransaktionen Warenkörbe Finde alle Assoziationsregeln L R mit einem Support größer als minsupp und einer Confidence von mindestens minconf Dazu sucht man zunächst die sogenannten frequent itemsets, also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müssen
44 A Priori Algorithmus für alle Produkte überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswägen enthalten ist k:=1 iteriere solange für jeden frequent itemset I k mit k Produkten generiere alle itemsets I k+1 mit k+1 Produkten und I k I k+1 lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank) und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen k:=k+1 bis keine neuen frequent itemsets gefunden werden
45 VerkaufsTransaktionen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner Minsupp=3 Disqualifiziert A Priori-Algorithmus FI-Kandidat {Drucker} {Papier} {PC} {Scanner} {Toner} {Drucker, Papier} {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} Zwischenergebnisse Anzahl
46 VerkaufsTransaktionen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner A Priori-Algorithmus Zwischenergebnisse FI-Kandidat Anzahl {Drucker, Papier} 3 {Drucker, PC} 3 {Drucker, Scanner} {Drucker, Toner} 3 {Papier, PC} 2 {Papier, Scanner} {Papier, Toner} 3 {PC, Scanner} {PC,Toner} 2 {Scanner, Toner} {Drucker, Papier, PC} 2 {Drucker, Papier, Toner} 3 {Drucker, PC, Toner} 2 {Papier, PC, Toner} 2
47 Ableitung von Assoziationsregeln aus den frequent itemsets Betrachte jeden FI mit hinreichen viel support Bilde alle nicht-leeren Teilmengen L FI und untersuche die Regel L FI L Die Confidence dieser Regel berechnet sich als Condicence(L FI L) = support(fi) / support(l) Wenn die Confidence ausreicht, also > minconf ist, behalte diese Regel Betrachte FI = {Drucker, Papier, Toner} Support = 3 Regel: {Drucker} {Papier, Toner} Confidence = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75 %
48 Erhöhung der Confidence Vergrößern der linken Seite (dadurch Verkleinern der rechten Seite) führt zur Erhöhung der Confidence Formal: L L +, R R - Confidence(L R) <= C(L + R - ) Beispiel-Regel: {Drucker} {Papier, Toner} Confidence = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75% Beispiel-Regel: {Drucker,Papier} {Toner} Conf. = S({Drucker, Papier, Toner}) / S({Drucker,Papier}) = (3/5) / (3/5) = 1 = 100%
49 Clustering Schadenshöhe Outlier Alter der Fahrer
50 Clusteranalyse (Bacher 1994) Zusammenfassung von Objekten in homogene Gruppen (Cluster, Klassen) Ziel dabei ist eine möglichst große Homogenität innerhalb der Cluster Heterogenität zwischen den Clustern
51 Clusteranalyse geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht:
52 Clusteranalyse geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht:
53 Clusteranalyse geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht:
54 Clusteranalyse geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht:
55 Clusteranalyse Clusteranalyseverfahren unterscheiden sich u.a. in den Zuordnungsprinzipien exakte Zuordnung probabilistische Zuordnung possibilistische Zuordnung in den benutzten Informationen partielle Verfahren paarweiser Vergleich globale Verfahren Distanz aller Objekte wird für Clusterbildung genutzt. in der Vorgehensweise hierarchisch partitionierend heuristisch objective function based begrifflich
56 Clusteranalyse Zuordnungsprinzipien exakte Zuordnung Objekte werden mit Wahrscheinlichkeit 1 einem Cluster (nicht-überlappende Zuordnung) oder mehreren Clustern (überlappende Zuordnung) zugeordnet. probabilistische Zuordnung Objekte werden mit einer zwischen 0 und 1 liegenden Wahrscheinlichkeit einem oder mehrern Clustern zugeordnet Verallgemeinerung der deterministischen Verfahren possibilistische Zuordnung Objekte werden über eine Zugehörigkeitsfunktion, die Werte zwischen 0 und 1 annehmen kann, jedem Cluster zu einem bestimmten Zugehörigkeitsgrad zugeordnet.
57 Clusteranalyse Vorgehensweise legt fest, nach welcher Vorgehensweise ein Cluster erzeugt wird. Partitionierende Verfahren zufällig gewählte Anfangspartition (Menge nicht-überlappender Cluster) der zu clusternden Objekte wird schrittweise verbessert durch Neuzuordnung der Objekte in den Clustern im folgenden betrachtet: K-Means Verfahren heuristische Vorgehensweise Dimensionalität der zu clusternden Objekte wird reduziert, um eine auf zwei bis drei Dimensionen reduzierte graphische Darstellung zu erreichen objective function based kein prozedurales Vorgehen wie bei hierarchischen Verfahren Basis bildet die Objektfunktion, die jedem Cluster einen Qualitätswert zuordnet
58 Clusteranalyse hierarchische Verfahren hierarchische Verfahren werden unterschieden in agglomerative Verfahren Cluster werden bottom-up erzeugt, ausgehend von einelementigen Clustern, den zu clusternden Objekten divisive Verfahren Cluster werden top-down erzeugt, ausgehend von einem Cluster, das alle zu clusternden Objekte enthält divisive Verfahren waren in der Vergangenheit eher weniger bedeutend, gewinnen aber gerade für das Clustering von Dokumenten an Bedeutung
59 Clusteranalyse Hierarchisch agglomerativer Algorithmus bei n geg. Objekten werden (n-1) überlappungsfreie Clusterlösungen berechnet Algorithmus kann mit verschiedenen Ähnlichkeitsmaßen bzw. Unähnlichkeitsmaßen arbeiten, u.a. Complete Linkage Single Linkage
60 Clusteranalyse Complete Linkage Unähnlichkeit zwischen zwei Clustern wird durch das Maximum der paarweisen Unähnlichkeiten der Clusterelemente bestimmt: für c 1, c 2 Cluster, d Abstandsmaß: D( c, c ) = max d( x, ) 1 2 y x c y c 1, 2 hohe Anforderungen an die Homogenität der zu bildenen Cluster
61 Feature Based Similarity
62 Simple Similarity Queries Specify query object and Find similar objects range query Find the k most similar objects nearest neighbor q.
63 Join Applications: Catalogue Matching Catalogue matching E.g. Astronomic catalogues R S
64 Join Applications: Clustering Clustering (e.g. DBSCAN) Similarity self-join
65 R-tree Spatial Join (RSJ) procedure r_tree_sim_join (R, S, ε) if IsDirpg (R) IsDirpg (S) then foreach r R.children do foreach s S.children do if mindist (r,s) εthen CacheLoad(r); CacheLoad(s); r_tree_sim_join (r,s,ε) ; else (* assume R,S both DataPg *) foreach p R.points do foreach q S.points do if p q εthen report (p,q); ε R S
66 Clusteranalyse Single Linkage Unähnlichkeit zwischen zwei Clustern wird durch das Minimum der paarweisen Unähnlichkeiten der Clusterelemente bestimmt: für c 1, c 2 Cluster, d Abstandsmaß: D( c1, c2) = min d( x, y) x c 1, y c 2 geringe Anforderungen an die Homogenität der zu bildenen Cluster
67 Clusteranalyse Algorithmus (hierarchisch agglomerativ) Schritt 1: Schritt 2: Schritt 3: Schritt 4: Jedes Klassifikationsobjekt bildet zu Beginn ein selbständiges Cluster. Setze daher die Clusterzahl K gleich der Klassifikationsobjektzahl n. Suche das Clusterpaar ({p},{q}) mit der größten Ähnlichkeit bzw. der geringsten Unähnlichkeit, verschmelze das Clusterpaar zu einem neuen Cluster {p,q} und reduziere die Clusterzahl K um 1 (K=K-1). Prüfe, ob K gleich 1 ist. Ist das der Fall, beende den Algorithmus, da alle Klassifikationsobjekte einem einzigen Cluster angehören. Bei nein fahre mit Schritt 4 fort. Berechne die Ähnlichkeiten bzw. Unähnlichkeiten des neu gebildeten Clusters {p,q} zu den verbleibenden Clustern k. Schritt 5: Gehe zu Schritt 2.
68 Clusteranalyse Beispiel (Bacher 1994): geg. Datenmatrix mit 9 Objekten und 2 Variablen Datenmatrix X1 X2 A -2 1 B -1 2 C -1-2 D 0-1 E 1-1 F 2 2 G 3 2 H 4 2 I 4 3 Matrix der quadrierten euklidischen Distanzen A B C D E F G H I x 2 A B F G I H C D E x 1
69 Clusteranalyse K-Means Verfahren K-Means ist ein partitionierendes, globales Verfahren mit exakter Zuordnung, das Clusterzentren zur Clusterbildung verwendet Grundidee: Annahme: Objekte g durch numerische Variablen j charakterisiert, d.h. jedes Objekt ist ein Punkt im R m berechne die Clusterzentren für K Cluster derart, dass Streuungsquadratsumme in den Clustern ein Minimum ist. sei K = Anzahl der zu bildenden Cluster (k = 1,..., K) m = Anzahl der Variablen (j = 1,..., m) x gj x kj = Wert der Variablen j für Objekt g = Clusterzentrum für Variable j im Cluster k damit: in ( K ) = 2 SQ ( x x ) min (*) k g k j gj kj
70 Clusteranalyse da für die quadrierte euklidische Distanz zwischen Objekt g und Clusterzentrum k gilt, dass 2 2 d = ( x x ), g, k j gj kann Minimierungsaufgabe (*) spezifiziert werden als SQ 2 in ( K) d g, k k g k = da die Gesamtstreuungsquadratsumme geg. Objektmenge konstant ist, ergibt sich mit für eine : Streuungsquadratsumme in den Clustern : Streuungsquadratsumme zwischen den Clustern Minimierung von ist gleichbedeutend zur Maximierung von kj min SQ in (K) SQ zw (K) SQ ( K) = SQ SQ ( K) zw ges SQ in (K) SQ zw (K) in SQ ges
71 Kapitel VII.1 Clusteranalyse SQ zw ( K) = SQ SQ ( K) ges SQges = SQzw ( K ) + SQin( K ) in Ohne Einschränkung der Allgemeinheit: Annahme, dass Daten um (0,...0) zentriert sind 2 SQ ges = x gj g j SQ ( K ) = ( x in gj kj k g k j 2 SQ zw ( K ) = x = kj k k g k j k x 2 ) x 2 k
72 Clusteranalyse K-Means Alogrithmus: (1) Lege Clusteranzahl K fest (2) Wahl von Startwerten für die Clusterzentren, z.b. zufällig gewählte Werte (3) Zuordnung der Objekte zu den Clusterzentren: jedes Objekt g wird jenem Clusterzentrum k zugeordnet, zu dem die quadrierte euklidische Distanz minimal ist. g k k = min k = 1,...,K (d 2 g, k ) SQ ( K) = 2 in d g, k k g k damit: wird minimiert, in dem in jedem Schritt SQ in ( K) berechnet wird. 2 = min d g k = 1,..., K g, k
73 Clusteranalyse (4) Neuberechnung der Clusterzentren: nach der Zuordnung aller Objekte zu den K Clustern werden die Clusterzentren neu berechnet: sei n kj = Zahl der Objekte des Clusters k mit gültigem Angaben in der Variablen j damit: x kj x kj = g k x n gj kj ist Mittelwert für Variable j über alle Objekte g in Cluster k (5) Iteration: sofern sich im Schritt (3) die Zuordnung der Objekte geändert hat, wird bei Schritt (3) fortgefahren; andernfalls endet der Algorithmus
74 Clusteranalyse Bemerkung: in jedem Iterationsschritt wird die Streuungsquadratsumme in den Clustern kleiner oder bleibt gleich SQ in (K) SQ in (K) Algorithmus findet für ein lokales Minimum. D.h. das Ergebnis ist von den gewählten Startwerten abhängig!! D. h. diese sind geeignet auszuwählen und das Ergebnis ist ggf.hinterher kritisch zu hinterfragen. diese Variante des K-Means Algorithmus wurde 1965 von Forgy entwickelt und wird deshalb auch als Forgy Methode bezeichnet zu dieser Basis-Variante des Algorithmus existieren verschiedene Modifikationen in K-Means können auch andere Distanzmaße verwendet werden (damit ist auch Behandlung nicht-numerischer Variablen möglich, wenn für diese die Durchschnittsbildung Bedeutung trägt.) Algorithmus hat geringe Komplexität, da nicht alle G ² Distanzen berücksichtigt werden müssen. O(Kn) mit n Anzahl der Datenpunkte
75 Clusteranalyse Beispiel (Bacher 1994) geg. Datamatrix mit 9 Objekten und 2 Variablen: Datenmatrix Matrix der quadrierten euklidischen Distanzen X1 X2 A B C D E F G H I A B C D E F G H I Bildung von 3 Clustern (K = 3)
76 Clusteranalyse Anwendung des K-Means Algorithmus auf geg. Objekte 1. Iteration Clusterzentren 2. Iteration Clusterzentren 3. Iteration Clusterzentren (Startwerte) (Startwerte) (Startwerte) C1 C2 C3 C1 C2 C3 C1 C2 C3 X1-2,00-1,00-1,00-2,00 2,40 0,00-1,50 3,25 0,00 X2 1,00 2,00-2,00 1,00 2,20-1,33 1,50 2,25-1,33 X1 X2 Zuord. Zuord. Zuord. A ,00 2,00 10,00 C1* 0,00 20,80 9,43 C1 0,50 29,13 9,43 C1 B ,00 0,00 16,00 C2* 2,00 11,60 12,09 C1* 0,50 18,13 12,09 C1 C ,00 16,00 0,00 C3* 10,00 29,20 1,45 C3 12,50 36,13 1,45 C3 D 0-1 8,00 10,00 2,00 C3* 8,00 16,00 0,11 C3 8,50 21,13 0,11 C3 E ,00 13,00 5,00 C3* 13,00 12,20 1,11 C3 12,50 15,63 1,11 C3 F ,00 9,00 25,00 C2* 17,00 0,20 15,09 C2 12,50 1,63 15,09 C2 G ,00 16,00 32,00 C2* 26,00 0,40 20,09 C2 20,50 0,13 20,09 C2 H ,00 25,00 41,00 C2* 37,00 2,60 27,09 C2 30,50 0,63 27,09 C2 I ,00 26,00 50,00 C2* 40,00 3,20 34,75 C2 32,50 1,13 34,75 C2 neue Clusterzentren neue Clusterzentren neue Clusterzentren C1 C2 C3 C1 C2 C3 C1 C2 C3-2,00 2,40 0,00-1,50 3,25 0,00-1,50 3,25 0,00 1,00 2,20-1,33 1,50 2,25-1,33 1,50 2,25-1,33 Zahl der Vertauschungen = 9 Zahl der Vertauschungen = 1 Zahl der Vertauschungen = 0 (Bacher 1994)
77 Clusteranalyse Erläuterungen: die Objekte A, B, C werden als Startwerte für Clusterzentren der Cluster C1, C2, C3 gewählt die restlichen Objekte werden jenem Cluster zugeordnet, zu dem es die kleinste quadrierte euklidische Distanz besitzt (fettgedruckte Werte) das neue Clusterzentrum für C2 ergibt sich in der 1. Iteration (C2 besteht aus den Objekten B, F, G, H, I): x21 = ( ) / 5 = 2.40 x = ( ) / = in der 2. Iteration wird das Objekt B einem neuen Cluster zugeordnet: C1 in der 3. Iteration tritt keine Veränderung der Zuordnung mehr auf, Algorithmus stoppt
VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrVII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
MehrEntscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
Mehrfuzzy-entscheidungsbäume
fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian
Mehr4. Lernen von Entscheidungsbäumen
4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrDecision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrBetriebliche Anwendungen
Betriebliche Anwendungen OLTP Data Warehouse Data Mining Kapitel 17 1 OLTP: Online Transaction Processing Beispiele Flugbuchungssystem Bestellungen in einem Handelsunternehmen Charakterisierung Hoher Parallelitätsgrad
MehrDecision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume
Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrMultivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrA linear-regression analysis resulted in the following coefficients for the available training data
Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients
Mehr4 Induktion von Regeln
4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung
MehrDatenbanksysteme 2009
Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny
MehrSplitting. Impurity. c 1. c 2. c 3. c 4
Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von
MehrSelbstständiges Lernen
Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrClusteranalyse K-Means-Verfahren
Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrInduktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
MehrDarstellung, Verarbeitung und Erwerb von Wissen
Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169 Struktur der DVEW 1
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
MehrInhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
MehrMining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
Mehr5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
MehrKapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation
Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c
MehrRückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation
Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrDarstellung, Verarbeitung und Erwerb von Wissen
Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 169
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.
MehrMathias Krüger / Seminar Datamining
Entscheidungsbäume mit SLIQ und SPRINT Mathias Krüger Institut für Informatik FernUniversität Hagen 4.7.2008 / Seminar Datamining Gliederung Einleitung Klassifikationsproblem Entscheidungsbäume SLIQ (
MehrBetriebliche Anwendungen
Betriebliche Anwendungen OLTP Data Warehouse Data Mining OLTP: Online Transaction Processing Beispiele Flugbuchungssystem Bestellungen in einem Handelsunternehmen Charakterisierung Hoher Parallelitätsgrad
MehrPraktikum Data Warehousing und Data Mining
Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger
Mehr6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrEntscheidungsbaum-Lernen: Übersicht
Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume als Repräsentationsformalismus Semantik: Klassifikation Lernen von Entscheidungsbäumen vollst. Suche vs. TDIDT Tests, Ausdrucksfähigkeit Maße: Information
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
MehrData Warehouses und Data Mining
Data Warehouses und Data Mining Online Transaction Processing Data Warehouse-Anwendungen Data Mining OLTP: Online Transaction Processing Beispiele: Flugbuchungssystem Bestellungen in einem Handelsunternehmen
MehrVorlesung Methodische Grundlagen des Software-Engineering im Sommersemester 2013
Vorlesung des Software-Engineering im Sommersemester 2013 Prof. Dr. Jan Jürjens TU Dortmund, Fakultät Informatik, Lehrstuhl XIV Teil 2.3: Data-Mining v. 11.06.2013 1 [mit freundlicher Genehmigung basierend
MehrMaschinelles Lernen in der Bioinformatik
Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut
Mehr3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
MehrInformatik II, SS 2016
Informatik II - SS 208 (Algorithmen & Datenstrukturen) Vorlesung 4 (..208) Graphenalgorithmen III Algorithmen und Komplexität Bäume Gegeben: Zusammenhängender, ungerichteter Graph G = V, E Baum: Zusammenhängender,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
Mehr8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick
Grundlagen der Künstlichen Intelligenz 5. April 0 8. Suchalgorithmen: Lokale Suche Grundlagen der Künstlichen Intelligenz 8. Suchalgorithmen: Lokale Suche 8.1 Einleitung Malte Helmert Universität Basel
MehrKapitel 17: Date Warehouse
Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical
MehrKapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
Mehr2. Entsprechende Listen P i von Vorgängern von i 3. for i := 1 to n do. (ii) S i = Knoten 2 + 1}
1. Berechne für jeden Knoten i in BFS-Art eine Liste S i von von i aus erreichbaren Knoten, so dass (i) oder (ii) gilt: (i) S i < n 2 + 1 und Si enthält alle von i aus erreichbaren Knoten (ii) S i = n
MehrXML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrInductive Logic Programming Relational Data Mining
Hauptseminar Machine Learning Inductive Logic Programming Relational Data Mining Christoph Petzinger WS 2003/2004 Inhaltsverzeichnis 1 Relational Data Mining 3 2 Inductive Logic Programming 4 2.1 Prädikatenlogik.................................
MehrClustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining
Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen
MehrData Mining. Informationssysteme, Sommersemester 2017
Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter
MehrSeminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme
Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen
MehrOLTP: Online Transaction Processing
Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing (bisheriger Fokus) Data Warehouse-Anwendungen Data Mining OLTP: Online Transaction Processing Beispiele Flugbuchungssystem
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
MehrData Mining und Text Mining Einführung. S2 Einfache Regellerner
Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein
MehrEinführung in die Methoden der Künstlichen Intelligenz
www.is.cs.uni-fra ankfurt.de Einführung in die Methoden der Künstlichen Intelligenz Vorlesung 8 Entscheidungsbaumlernen 2 19. Mai 2009 Ingo J. Timm, René Schumann Übersicht 1. Einführung 2. Grundlegende
MehrÜberdeckende Algorithmen. Vorlesungsplan. Regeln vs. Bäume. Beispiel: Erzeugung einer Regel. Mögliche Regelmenge für Klasse b :
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgae 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Mehr