Darstellung, Verarbeitung und Erwerb von Wissen

Transkript

1 Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169

2 Struktur der DVEW 1 Einführung und Motivation 2 Klassische und regelbasierte Wissensrepräsentation 3 Qualitative Unsicherheit Default-Logiken 4 Quantitative Unsicherheit Wahrscheinlichkeiten & Co. 5 6 Agenten, Aktionen und Planen 7 Wissensrevision 8 Wiederholung und Fragestunde G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 2 / 169

3 Kapitel 5 5. Wissenserwerb und Wissensentdeckung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 3 / 169

4 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

5 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

6 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering 5.3 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

7 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

8 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

9 Kapitel 5 (Kurze) Einführung 5. Wissenserwerb und Wissensentdeckung 5.1 (Kurze) Einführung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 5 / 169

10 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

11 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

12 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] Die Untersuchung und maschinelle Modellierung von Lernprozessen in ihren vielfältigen Ausprägungen stellen das Hauptthema des maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

13 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] Die Untersuchung und maschinelle Modellierung von Lernprozessen in ihren vielfältigen Ausprägungen stellen das Hauptthema des maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83] Forschung im Bereich des maschinellen Lernens beinhaltet die Implementation von Computer-Programmen, die in der Lage sind, durch Informationsinput neues Wissen aufzubauen oder vorhandenes Wissen zu verbessern. [Michalski, Kodratoff 90]. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

14 (Kurze) Einführung Schema eines Lernmodells Environment Learning Element Knowledge Base Performance Element G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 7 / 169

15 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

16 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

17 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

18 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

19 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) positive und/oder negative Beispiele G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

20 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) positive und/oder negative Beispiele inkrementell vs. alle auf einmal G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

21 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) positive und/oder negative Beispiele inkrementell vs. alle auf einmal aus Beobachtungen & Experimenten (unüberwachtes Lernen) Beobachten der Umgebung (passiv) Ausführen von Experimenten (aktiv) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

22 (Kurze) Einführung Lernstrategien 2/2 Überwachtes vs. unüberwachtes Lernen Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169

23 (Kurze) Einführung Lernstrategien 2/2 Überwachtes vs. unüberwachtes Lernen Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169

24 (Kurze) Einführung Lernstrategien 2/2 Überwachtes vs. unüberwachtes Lernen Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren. Inkrementelles vs. nicht-inkrementelles Lernen: Hier wird danach unterschieden, ob die Beispiele/Beobachtungen alle zu Beginn zur Verfügung stehen müssen oder nach und nach verarbeitet werden können. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169

25 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

26 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

27 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

28 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

29 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) Konzepte G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

30 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) Konzepte Ontologien G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

31 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) Konzepte Ontologien Bayes-Netze... G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

32 Clustering Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 11 / 169

33 Clustering Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.2 Clustering G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 12 / 169

34 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

35 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: Ähnlichkeit innerhalb eines Clusters (intra-class similarity); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

36 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: Ähnlichkeit innerhalb eines Clusters (intra-class similarity); Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class dissimilarity). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

37 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: Ähnlichkeit innerhalb eines Clusters (intra-class similarity); Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class dissimilarity). Beobachtungen innerhalb eines Clusters sind zueinander ähnlicher als zu Beobachtungen aus anderen Clustern. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

38 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

39 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

40 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) den eigentlichen Clustering-Vorgang G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

41 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) den eigentlichen Clustering-Vorgang Datenabstraktion (bei Bedarf) ( Wissensdarstellung) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

42 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) den eigentlichen Clustering-Vorgang Datenabstraktion (bei Bedarf) ( Wissensdarstellung) Beurteilung des Outputs (bei Bedarf) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

43 Clustering Unterschiedliche Clusterformen Y x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x X G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 20 / 169

44 Clustering Unterschiedliche Clusterformen Y Y x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x X X G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 20 / 169

45 Clustering Quadratfehler-Kriterium Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte einer partitionierenden Clusterung ist der quadratische Fehler (squared error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge B wie folgt berechnet wird: e 2 (B, P) = K nj j=1 i=1 x(j) i c j 2 wobei x (j) i die i-te Beobachtung des j-ten Clusters und c j das Zentroid des j-ten Clusters ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 41 / 169

46 Clustering Quadratfehler-Kriterium Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte einer partitionierenden Clusterung ist der quadratische Fehler (squared error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge B wie folgt berechnet wird: e 2 (B, P) = K nj j=1 i=1 x(j) i c j 2 wobei x (j) i die i-te Beobachtung des j-ten Clusters und c j das Zentroid des j-ten Clusters ist. Der populärste Clustering-Algorithmus, der das Quadratfehler-Kriterium verwendet, ist das sog. k-means-clustering. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 41 / 169

47 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

48 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

49 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

50 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

51 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. Typische Konvergenzkriterien sind: die Partitionierung bleibt stabil; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

52 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. Typische Konvergenzkriterien sind: die Partitionierung bleibt stabil; der Quadratfehler verändert sich nicht. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

53 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

54 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: Güte der Partitionierung hängt stark von der initialen Partitionierung ab; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

55 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: Güte der Partitionierung hängt stark von der initialen Partitionierung ab; kann in lokales Optimum konvergieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

56 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: Güte der Partitionierung hängt stark von der initialen Partitionierung ab; kann in lokales Optimum konvergieren. Deswegen werden oft mehrere Läufe mit zufälligen Start-Zentroiden durchgeführt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

57 Clustering Beispiel k-means-clustering 1/2 X2 F G A C B D E X1 Wählen wir hier als initiale Zentroide die Beobachtungen A, B, C, so erhalten wir die Ellipsen-Partitionierung {A}, {B, C}, {D, E, F, G} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 44 / 169

58 Clustering Beispiel k-means-clustering 2/2 X2 F G A C B D E X1 Das globale Minimum des Quadratfehlers (bei drei Clustern) wird jedoch bei der Rechteck-Partitionierung {A, B, C}, {D, E}, {F, G} angenommen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 45 / 169

59 Clustering Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 45 / 169

60 Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 56 / 169

61 Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.3 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 57 / 169

62 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

63 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

64 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) Was sind? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

65 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) Was sind? Wie benutzt man? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

66 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) Was sind? Wie benutzt man? Wie baut man auf? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

67 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

68 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

69 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. Die Blätter enthalten die Klassifikation. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

70 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. Die Blätter enthalten die Klassifikation. Objekte werden durch vollständige Pfade durch den Baum klassifiziert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

71 Kino-Beispiel Entscheidungssituation: Kino ja oder nein? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169

72 Kino-Beispiel Entscheidungssituation: Kino ja oder nein? zu klassifizierende Objekte: Situationen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169

73 Kino-Beispiel Entscheidungssituation: Kino ja oder nein? zu klassifizierende Objekte: Situationen relevante Attribute: Attribut Werte Attraktivität hoch, mittel, gering Preis normal ($) oder mit Zuschlag ($$) Loge verfügbar (ja) oder nicht (nein) Wetter schön, mittel, schlecht Warten Wartezeit (ja) oder nicht (nein) Besetzung Cast und Regie sind top, mittel(mäßig) Kategorie Action (AC), Komödie (KO), Drama (DR), SciFi (SF) Reservierung besteht (ja) oder nicht (nein) Land nationale (N) oder internationale (I) Produktion Gruppe mit Freunde(n), als Paar, oder allein G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169

74 Ein möglicher Entscheidungsbaum für das Kino-Problem Attraktivität? gering mittel hoch nein Warten? Besetzung? ja nein top mittel Land? Gruppe? ja nein int. nat. Freunde Paar allein Kategorie? nein ja Kategorie? ja DR AC KO SF DR AC KO SF nein ja ja nein ja ja Wetter? nein schön mittel schlecht nein ja ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 61 / 169

75 Aufbau von n 1/2 Lernaufgabe: Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von klassifizierten Beispielen), so dass Beispiele der Trainingsmenge korrekt klassifiziert werden G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 62 / 169

76 Aufbau von n 1/2 Lernaufgabe: Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von klassifizierten Beispielen), so dass Beispiele der Trainingsmenge korrekt klassifiziert werden und sich der Entscheidungsbaum auch für andere Beispiele generalisieren lässt induktives Lernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 62 / 169

77 Aufbau von n 2/2 Beisp. Attr. Preis Loge Wetter Warten Bes. Kat. Land Res. Gruppe Kino? X 1 hoch $$ ja schlecht ja top AC int. ja Freunde ja X 2 mittel $ ja mittel nein mittel KO int. nein Paar ja X 3 mittel $ nein mittel ja mittel DR int. nein Freunde nein X 4 gering $ ja mittel ja mittel SF int. nein allein nein X 5 mittel $ ja mittel nein mittel DR int. nein Paar ja X 6 hoch $$ ja schön nein top SF int. ja Freunde ja X 7 mittel $ ja schlecht nein mittel KO nat. nein Freunde ja X 8 mittel $ nein schlecht ja mittel AC int. nein Freunde ja X 9 gering $ ja schön nein mittel KO nat. nein Freunde nein X 10 mittel $ ja schön nein mittel KO int. nein Paar nein X 11 hoch $ ja mittel ja top DR int. nein Paar ja X 12 mittel $ nein schlecht ja mittel AC nat. nein allein nein X 13 hoch $$ ja mittel ja mittel SF int. nein allein nein X 14 mittel $ ja schön ja top DR int. ja Freunde nein X 15 mittel $ ja schlecht nein mittel AC int. nein Paar ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 63 / 169

78 Occam s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169

79 Occam s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es daher, einen möglichst kompakten Entscheidungsbaum zu generieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169

80 Occam s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es daher, einen möglichst kompakten Entscheidungsbaum zu generieren. Dieser Überlegung liegt ein generelles Prinzip des induktiven Lernens zugrunde: Occam s Razor Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. (William of Occam, engl. Philosoph, ca ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169

81 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

82 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

83 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. 3 Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten, entsprechend den jeweiligen Werten von a. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

84 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. 3 Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten, entsprechend den jeweiligen Werten von a. 4 wende TDIDT auf die neuen Blattknoten an (Rekursion) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

85 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

86 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

87 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation 3 es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

88 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation 3 es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) 4 es gibt noch positive und negative Beispiele, die aktuelle Menge der Attribute ist nicht leer nächster Rekursionsschritt G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

89 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation 3 es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) 4 es gibt noch positive und negative Beispiele, die aktuelle Menge der Attribute ist nicht leer nächster Rekursionsschritt Zentrales Problem: Wie findet man das (jeweils nächste) beste Attribut, um den Entscheidungsbaum aufzubauen? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

90 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

91 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? Wähle dasjenige Attribut, das am wichtigsten ist G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

92 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das soviel Beispiele wie möglich klassifiziert ( Kardinalitätskriterium); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

93 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das soviel Beispiele wie möglich klassifiziert ( Kardinalitätskriterium); die meiste Information enthält ( ID3, C4.5). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

94 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

95 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

96 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde + : X1,X6,X7,X8 : X3,X9,X14 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

97 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

98 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 Beim Wert Gruppe = allein werden alle verfügbaren (drei) Beispiele vollständig klassifiziert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

99 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Kategorie? DR AC KO SF + : X5,X11 + : X1,X8,X15 + : X2,X7 + : X6 : X3,X14 : X12 : X9,X10 : X4,X13 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169

100 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Kategorie? DR AC KO SF + : X5,X11 + : X1,X8,X15 + : X2,X7 + : X6 : X3,X14 : X12 : X9,X10 : X4,X13 Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem Test klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169

101 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Kategorie? DR AC KO SF + : X5,X11 + : X1,X8,X15 + : X2,X7 + : X6 : X3,X14 : X12 : X9,X10 : X4,X13 Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem Test klassifizieren. Gruppe ist also nach dem Kardinalitätskriterium als erstes Attribut des Entscheidungsbaumes besser geeignet als Kategorie. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169

102 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169

103 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 Wetter? schön mittel schlecht + : : X10 + : X2,X5,X11 : + : X15 : G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169

104 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 Wetter? schön mittel schlecht + : : X10 + : X2,X5,X11 : + : X15 : Wetter klassifiziert alle Beispiele der Menge E Gruppe=P aar vollständig. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169

105 Kino-Beispiel (Forts.) + : X2,X5,X11,X15 : X10 Kategorie? DR AC KO SF + : X5,X11 + : X15 + : X2 + : : : : X10 : G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

106 Kino-Beispiel (Forts.) + : X2,X5,X11,X15 : X10 Kategorie? DR AC KO SF + : X5,X11 + : X15 + : X2 + : : : : X10 : Kategorie kann bei E Gruppe=P aar zwei Beispiele nicht eindeutig klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

107 Kino-Beispiel (Forts.) + : X2,X5,X11,X15 : X10 Kategorie? DR AC KO SF + : X5,X11 + : X15 + : X2 + : : : : X10 : Kategorie kann bei E Gruppe=P aar zwei Beispiele nicht eindeutig klassifizieren. Folglich ist Wetter als zweites Attribut an dieser Stelle besser geeignet. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

108 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

109 Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff sie hängt stark von der aktuellen Beispielmenge ab! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169

110 Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff sie hängt stark von der aktuellen Beispielmenge ab! Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte Beispielmenge {X 1,..., X 15 } ziemlich nutzlos G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169

111 Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff sie hängt stark von der aktuellen Beispielmenge ab! Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte Beispielmenge {X 1,..., X 15 } ziemlich nutzlos andererseits hat gerade dieses Attribut für die Beispielmenge E Gruppe=F reunde = {X 1, X 3, X 6, X 7, X 8, X 9, X 14 } unter allen übrig gebliebenen Attributen die größte Wichtigkeit (es klassifiziert 5 Beispiele vollständig). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169

112 TDIDT-Algorithmus 1/2 function DT (E, A, default) Eingabe: E Menge von Beispielen A Menge von Attributen default Default-Klassifikation Ausgabe: Entscheidungsbaum G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 73 / 169

113 TDIDT-Algorithmus 2/2 if E = then return default G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

114 TDIDT-Algorithmus 2/2 if E = then return default else if alle Elemente in E haben die gleiche Klassifikation c {ja, nein} then return c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

115 TDIDT-Algorithmus 2/2 if E = then return default else if alle Elemente in E haben die gleiche Klassifikation c {ja, nein} then return c else if A = then Fehler gleiche Beispiele mit unterschiedlicher Klassifikation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

116 TDIDT-Algorithmus 2/2 if E = then return default else if alle Elemente in E haben die gleiche Klassifikation c {ja, nein} then return c else if A = then Fehler gleiche Beispiele mit unterschiedlicher Klassifikation else a := ChooseAttribute(A, E) T := neuer Entscheidungsbaum mit Wurzelmarkierung a for each Attributwert w i von a do E i := {e E a(e) = w i } T i := DT (E i, A\{a}, MajorityVal(E)) hänge an den Wurzelknoten von T eine neue Kante mit Markierung w i und Unterbaum T i an end return T G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

117 Kino-Beispiel (Forts.) Gruppe? Freunde allein Paar Kategorie? AC DR KO SF nein Wetter? schön mittel schlecht ja nein Wetter? ja nein ja ja schön mittel schlecht nein ja ja Der fertige Entscheidungsbaum G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 169

118 TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169

119 TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung C4.5, die beide auf Quinlan zurückgehen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169

120 TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung C4.5, die beide auf Quinlan zurückgehen. Zur Bestimmung des jeweils besten Attributes verwenden diese beiden Systeme grundsätzlich den Informationsgehalt eines Attributes, der durch den jeweiligen Informationsgewinn bestimmt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169

121 Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p auszuwählen, p + n bzw. n p + n. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169

122 Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p auszuwählen, p + n bzw. n p + n. Der Informationsgehalt I(E) der Antwort auf die Frage Handelt es sich bei einem beliebigen Beispiel aus E um ein positives oder ein negatives Beispiel? beträgt daher (wobei H die Entropie bezeichnet) I(E) := H ( ) p p + n ; n p + n G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169

123 Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p auszuwählen, p + n bzw. n p + n. Der Informationsgehalt I(E) der Antwort auf die Frage Handelt es sich bei einem beliebigen Beispiel aus E um ein positives oder ein negatives Beispiel? beträgt daher (wobei H die Entropie bezeichnet) I(E) := H ( p p + n ; = p p + n log 2 ) n p + n p p + n n p + n log 2 n p + n [bit] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169

124 Informationsgewinn 2/6 Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser Informationsgehalt p H( p + n ; n p + n ) = H( 8 15 ; 7 ) bit 15 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 78 / 169

125 Informationsgewinn 2/6 Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser Informationsgehalt p H( p + n ; n p + n ) = H( 8 15 ; 7 ) bit 15 Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 78 / 169

126 Informationsgewinn 3/6 Informell errechnet sich also der Informationsgewinn als Differenz Informationsgewinn = Informationsgehalt vor Attributauswahl Informationsgehalt nach Attributauswahl wobei der Informationsgehalt einer Trainingsmenge als die Entropie der zugehörigen Verteilung definiert wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 79 / 169

127 Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E 1,..., E k auf, wobei jedes E i die zum Wert w i von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w 1,..., w k ist, die a annehmen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169

128 Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E 1,..., E k auf, wobei jedes E i die zum Wert w i von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w 1,..., w k ist, die a annehmen kann. Jedes E i habe p i positive und n i negative Beispiele. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169

129 Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E 1,..., E k auf, wobei jedes E i die zum Wert w i von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w 1,..., w k ist, die a annehmen kann. Jedes E i habe p i positive und n i negative Beispiele. Wenn wir a = w i wissen, benötigen wir also noch an Information. p i n i I(E i ) = H( ; ) bit p i + n i p i + n i G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169

130 Informationsgewinn 5/6 Durch die Berücksichtigung aller Attributwerte a = w i ergibt sich nach dem Test des Attributes a die folgende bedingte mittlere Information: I(E a bekannt) = k P (a = w i ) I(E i ) i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 81 / 169

131 Informationsgewinn 5/6 Durch die Berücksichtigung aller Attributwerte a = w i ergibt sich nach dem Test des Attributes a die folgende bedingte mittlere Information: I(E a bekannt) = = k P (a = w i ) I(E i ) i=1 k p i + n i p + n H( p i n i ; ) p i + n i p i + n i i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 81 / 169

132 Informationsgewinn 6/6 Der Informationsgewinn des Attributes a ist nun : gain(a) = I(E) I(E a bekannt) (ist also nichts anderes als die gegenseitige Information zwischen dem Attribut a und der Ausprägung positiv/negativ.) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169

133 Informationsgewinn 6/6 Der Informationsgewinn des Attributes a ist nun : gain(a) = I(E) I(E a bekannt) (ist also nichts anderes als die gegenseitige Information zwischen dem Attribut a und der Ausprägung positiv/negativ.) Das Lernsystem ID3 wählt als nächstes zu testendes Attribut a dasjenige aus, bei dem gain(a) maximal ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169

134 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169

135 Informationsgewinn Beispiel Für das Kinoproblem errechnet man für die Wurzel des Entscheidungsbaumes: gain(gruppe) = I(E) I(E Gruppe bekannt) [ 7 15 H( 4 7 ; 3 7 ) H( 4 5 ; 1 5 ) H(0; 1)] bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 83 / 169

136 Informationsgewinn Beispiel Für das Kinoproblem errechnet man für die Wurzel des Entscheidungsbaumes: gain(gruppe) = I(E) I(E Gruppe bekannt) [ 7 15 H( 4 7 ; 3 7 ) H( 4 5 ; 1 5 ) H(0; 1)] bit gain(kategorie) = I(E) I(E Kategorie bekannt) [ 4 15 H( 3 4 ; 1 4 ) H( 1 2 ; 1 2 ) H( 1 2 ; 1 2 ) I( 1 3 ; 2 3 )] bit Es zeigt sich, dass gain(gruppe) maximal ist und daher von ID3 als erstes Attribut ausgewählt würde. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 83 / 169

137 Informationsgewinn Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169

138 Informationsgewinn Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute die persönliche Identifikationsnummer (PIN) eines Patienten benutzt. Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt, und partitioniert daher die Beispielmenge E in eben soviele Teilmengen mit je einem Element. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169

139 Informationsgewinn Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute die persönliche Identifikationsnummer (PIN) eines Patienten benutzt. Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt, und partitioniert daher die Beispielmenge E in eben soviele Teilmengen mit je einem Element. In diesem Fall ist die bedingte mittlere Information n 1 I(E PIN bekannt) = H(0; 1) = 0 bit n der Informationsgewinn also maximal. Für die Diagnose selbst jedoch ist das Attribut PIN nutzlos. i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169

140 Normierter Informationsgewinn 1/2 Das System C4.5 benutzt statt des absoluten Informationsgewinns einen normierten Informationsgewinn gain ratio(a) = gain(a) split info(a) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 85 / 169

141 Normierter Informationsgewinn 1/2 Das System C4.5 benutzt statt des absoluten Informationsgewinns einen normierten Informationsgewinn gain ratio(a) = gain(a) split info(a) wobei split info(a) die Entropie des Attributes a ist: k split info(a) = H(a) = P (a = w i ) log 2 P (a = w i ) i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 85 / 169

142 Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = w i ) = 1 n ), also ist der Normierungsfaktor H(PIN ) = log 2 n und damit maximal. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169

143 Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = w i ) = 1 n ), also ist der Normierungsfaktor H(PIN ) = log 2 n und damit maximal. Damit ist gain ratio(pin ) = I(E) log 2 n, der Informationsgewinn durch PIN ist also minimal (bei konstantem Zähler). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169

144 Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = w i ) = 1 n ), also ist der Normierungsfaktor H(PIN ) = log 2 n und damit maximal. Damit ist gain ratio(pin ) = I(E) log 2 n, der Informationsgewinn durch PIN ist also minimal (bei konstantem Zähler). Das System C4.5 wählt als nächstes Attribut dasjenige mit dem maximalen gain ratio-wert aus (gain ratio-kriterium). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169

145 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

146 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.b. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

147 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.b. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja if Gruppe = Freunde and Kategorie = SF then Kinobesuch = ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

148 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.b. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja if Gruppe = Freunde and Kategorie = SF then Kinobesuch = ja if Gruppe = Freunde and Kategorie = Komödie and Wetter = schön then Kinobesuch = nein G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

149 Data Mining und Assoziationsregeln Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Data Mining und Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 88 / 169

150 Kapitel 5 Data Mining und Assoziationsregeln 5. Wissenserwerb und Wissensentdeckung 5.6 Data Mining und Assoziationsregeln G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 89 / 169

151 KDD & DM Data Mining und Assoziationsregeln Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an... G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169

152 KDD & DM Data Mining und Assoziationsregeln Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an... Knowledge Discovery in Databases (KDD) bezeichnet den Prozess, neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169

153 KDD & DM Data Mining und Assoziationsregeln Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an... Knowledge Discovery in Databases (KDD) bezeichnet den Prozess, neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren. Data Mining (DM)... bezeichnet die konkrete Anwendung von Algorithmen zur Wissensfindung in Daten. [Fayyad & Uthurusamy, ACM Communications 1996] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169

154 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

155 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. Datenauswahl: Festlegung der zu untersuchenden Datenmenge. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

156 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. Datenauswahl: Festlegung der zu untersuchenden Datenmenge. Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten, Behandlung fehlender Daten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

157 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. Datenauswahl: Festlegung der zu untersuchenden Datenmenge. Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten, Behandlung fehlender Daten. Datenreduktion und -projektion: Komprimierung der Datenmenge durch Reduktion und/oder Transformation der Variablen ( feature selection, feature extraction). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

158 Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 Modellfunktionalität: Welchem Zweck dient das Data Mining? Klassifikation, Clustering, Regressionsanalyse etc. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169

159 Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 Modellfunktionalität: Welchem Zweck dient das Data Mining? Klassifikation, Clustering, Regressionsanalyse etc. Verfahrenswahl: Bestimmung des Data Mining-Verfahrens. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169