Darstellung, Verarbeitung und Erwerb von Wissen

Größe: px
Ab Seite anzeigen:

Download "Darstellung, Verarbeitung und Erwerb von Wissen"

Transkript

1 Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169

2 Struktur der DVEW 1 Einführung und Motivation 2 Klassische und regelbasierte Wissensrepräsentation 3 Qualitative Unsicherheit Default-Logiken 4 Quantitative Unsicherheit Wahrscheinlichkeiten & Co. 5 6 Agenten, Aktionen und Planen 7 Wissensrevision 8 Wiederholung und Fragestunde G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 2 / 169

3 Kapitel 5 5. Wissenserwerb und Wissensentdeckung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 3 / 169

4 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

5 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

6 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering 5.3 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

7 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

8 (Kurze) Einführung Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169

9 Kapitel 5 (Kurze) Einführung 5. Wissenserwerb und Wissensentdeckung 5.1 (Kurze) Einführung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 5 / 169

10 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

11 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

12 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] Die Untersuchung und maschinelle Modellierung von Lernprozessen in ihren vielfältigen Ausprägungen stellen das Hauptthema des maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

13 (Kurze) Einführung Maschinelles Lernen Definitionen Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] Die Untersuchung und maschinelle Modellierung von Lernprozessen in ihren vielfältigen Ausprägungen stellen das Hauptthema des maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83] Forschung im Bereich des maschinellen Lernens beinhaltet die Implementation von Computer-Programmen, die in der Lage sind, durch Informationsinput neues Wissen aufzubauen oder vorhandenes Wissen zu verbessern. [Michalski, Kodratoff 90]. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169

14 (Kurze) Einführung Schema eines Lernmodells Environment Learning Element Knowledge Base Performance Element G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 7 / 169

15 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

16 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

17 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

18 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

19 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) positive und/oder negative Beispiele G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

20 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) positive und/oder negative Beispiele inkrementell vs. alle auf einmal G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

21 (Kurze) Einführung Lernstrategien 1/2 Lernen durch direkte Eingabe von Wissen in die Wissensbasis durch Deduktion durch Analogieschließen aus Beispielen (überwachtes Lernen) von einer Quelle (Lehrer, Umgebung) positive und/oder negative Beispiele inkrementell vs. alle auf einmal aus Beobachtungen & Experimenten (unüberwachtes Lernen) Beobachten der Umgebung (passiv) Ausführen von Experimenten (aktiv) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169

22 (Kurze) Einführung Lernstrategien 2/2 Überwachtes vs. unüberwachtes Lernen Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169

23 (Kurze) Einführung Lernstrategien 2/2 Überwachtes vs. unüberwachtes Lernen Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169

24 (Kurze) Einführung Lernstrategien 2/2 Überwachtes vs. unüberwachtes Lernen Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren. Inkrementelles vs. nicht-inkrementelles Lernen: Hier wird danach unterschieden, ob die Beispiele/Beobachtungen alle zu Beginn zur Verfügung stehen müssen oder nach und nach verarbeitet werden können. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169

25 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

26 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

27 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

28 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

29 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) Konzepte G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

30 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) Konzepte Ontologien G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

31 (Kurze) Einführung Typen des gelernten Wissens Parameter in algebraischen Ausdrücken formale Grammatiken Regeln (Assoziationsregeln) Konzepte Ontologien Bayes-Netze... G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169

32 Clustering Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 11 / 169

33 Clustering Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.2 Clustering G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 12 / 169

34 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

35 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: Ähnlichkeit innerhalb eines Clusters (intra-class similarity); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

36 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: Ähnlichkeit innerhalb eines Clusters (intra-class similarity); Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class dissimilarity). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

37 Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: Ähnlichkeit innerhalb eines Clusters (intra-class similarity); Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class dissimilarity). Beobachtungen innerhalb eines Clusters sind zueinander ähnlicher als zu Beobachtungen aus anderen Clustern. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169

38 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

39 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

40 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) den eigentlichen Clustering-Vorgang G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

41 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) den eigentlichen Clustering-Vorgang Datenabstraktion (bei Bedarf) ( Wissensdarstellung) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

42 Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: Repräsentation von Beobachtungen (Daten) Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) den eigentlichen Clustering-Vorgang Datenabstraktion (bei Bedarf) ( Wissensdarstellung) Beurteilung des Outputs (bei Bedarf) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169

43 Clustering Unterschiedliche Clusterformen Y x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x X G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 20 / 169

44 Clustering Unterschiedliche Clusterformen Y Y x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x X X G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 20 / 169

45 Clustering Quadratfehler-Kriterium Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte einer partitionierenden Clusterung ist der quadratische Fehler (squared error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge B wie folgt berechnet wird: e 2 (B, P) = K nj j=1 i=1 x(j) i c j 2 wobei x (j) i die i-te Beobachtung des j-ten Clusters und c j das Zentroid des j-ten Clusters ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 41 / 169

46 Clustering Quadratfehler-Kriterium Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte einer partitionierenden Clusterung ist der quadratische Fehler (squared error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge B wie folgt berechnet wird: e 2 (B, P) = K nj j=1 i=1 x(j) i c j 2 wobei x (j) i die i-te Beobachtung des j-ten Clusters und c j das Zentroid des j-ten Clusters ist. Der populärste Clustering-Algorithmus, der das Quadratfehler-Kriterium verwendet, ist das sog. k-means-clustering. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 41 / 169

47 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

48 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

49 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

50 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

51 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. Typische Konvergenzkriterien sind: die Partitionierung bleibt stabil; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

52 Clustering k-means-clustering 1/2 Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. Ordne jede Beobachtung dem nächsten Zentroid zu. Berechne neue Zentroide der so entstehenden Cluster (z.b. als Mittelwerte). Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. Typische Konvergenzkriterien sind: die Partitionierung bleibt stabil; der Quadratfehler verändert sich nicht. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169

53 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

54 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: Güte der Partitionierung hängt stark von der initialen Partitionierung ab; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

55 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: Güte der Partitionierung hängt stark von der initialen Partitionierung ab; kann in lokales Optimum konvergieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

56 Clustering k-means-clustering 2/2 Vorteile von k-means: leicht zu implementieren; lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: Güte der Partitionierung hängt stark von der initialen Partitionierung ab; kann in lokales Optimum konvergieren. Deswegen werden oft mehrere Läufe mit zufälligen Start-Zentroiden durchgeführt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169

57 Clustering Beispiel k-means-clustering 1/2 X2 F G A C B D E X1 Wählen wir hier als initiale Zentroide die Beobachtungen A, B, C, so erhalten wir die Ellipsen-Partitionierung {A}, {B, C}, {D, E, F, G} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 44 / 169

58 Clustering Beispiel k-means-clustering 2/2 X2 F G A C B D E X1 Das globale Minimum des Quadratfehlers (bei drei Clustern) wird jedoch bei der Rechteck-Partitionierung {A, B, C}, {D, E}, {F, G} angenommen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 45 / 169

59 Clustering Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 45 / 169

60 Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 56 / 169

61 Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.3 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 57 / 169

62 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

63 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

64 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) Was sind? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

65 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) Was sind? Wie benutzt man? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

66 Wozu benutzt man? dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) Was sind? Wie benutzt man? Wie baut man auf? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169

67 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

68 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

69 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. Die Blätter enthalten die Klassifikation. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

70 Struktur Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. Die Blätter enthalten die Klassifikation. Objekte werden durch vollständige Pfade durch den Baum klassifiziert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169

71 Kino-Beispiel Entscheidungssituation: Kino ja oder nein? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169

72 Kino-Beispiel Entscheidungssituation: Kino ja oder nein? zu klassifizierende Objekte: Situationen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169

73 Kino-Beispiel Entscheidungssituation: Kino ja oder nein? zu klassifizierende Objekte: Situationen relevante Attribute: Attribut Werte Attraktivität hoch, mittel, gering Preis normal ($) oder mit Zuschlag ($$) Loge verfügbar (ja) oder nicht (nein) Wetter schön, mittel, schlecht Warten Wartezeit (ja) oder nicht (nein) Besetzung Cast und Regie sind top, mittel(mäßig) Kategorie Action (AC), Komödie (KO), Drama (DR), SciFi (SF) Reservierung besteht (ja) oder nicht (nein) Land nationale (N) oder internationale (I) Produktion Gruppe mit Freunde(n), als Paar, oder allein G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169

74 Ein möglicher Entscheidungsbaum für das Kino-Problem Attraktivität? gering mittel hoch nein Warten? Besetzung? ja nein top mittel Land? Gruppe? ja nein int. nat. Freunde Paar allein Kategorie? nein ja Kategorie? ja DR AC KO SF DR AC KO SF nein ja ja nein ja ja Wetter? nein schön mittel schlecht nein ja ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 61 / 169

75 Aufbau von n 1/2 Lernaufgabe: Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von klassifizierten Beispielen), so dass Beispiele der Trainingsmenge korrekt klassifiziert werden G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 62 / 169

76 Aufbau von n 1/2 Lernaufgabe: Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von klassifizierten Beispielen), so dass Beispiele der Trainingsmenge korrekt klassifiziert werden und sich der Entscheidungsbaum auch für andere Beispiele generalisieren lässt induktives Lernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 62 / 169

77 Aufbau von n 2/2 Beisp. Attr. Preis Loge Wetter Warten Bes. Kat. Land Res. Gruppe Kino? X 1 hoch $$ ja schlecht ja top AC int. ja Freunde ja X 2 mittel $ ja mittel nein mittel KO int. nein Paar ja X 3 mittel $ nein mittel ja mittel DR int. nein Freunde nein X 4 gering $ ja mittel ja mittel SF int. nein allein nein X 5 mittel $ ja mittel nein mittel DR int. nein Paar ja X 6 hoch $$ ja schön nein top SF int. ja Freunde ja X 7 mittel $ ja schlecht nein mittel KO nat. nein Freunde ja X 8 mittel $ nein schlecht ja mittel AC int. nein Freunde ja X 9 gering $ ja schön nein mittel KO nat. nein Freunde nein X 10 mittel $ ja schön nein mittel KO int. nein Paar nein X 11 hoch $ ja mittel ja top DR int. nein Paar ja X 12 mittel $ nein schlecht ja mittel AC nat. nein allein nein X 13 hoch $$ ja mittel ja mittel SF int. nein allein nein X 14 mittel $ ja schön ja top DR int. ja Freunde nein X 15 mittel $ ja schlecht nein mittel AC int. nein Paar ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 63 / 169

78 Occam s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169

79 Occam s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es daher, einen möglichst kompakten Entscheidungsbaum zu generieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169

80 Occam s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es daher, einen möglichst kompakten Entscheidungsbaum zu generieren. Dieser Überlegung liegt ein generelles Prinzip des induktiven Lernens zugrunde: Occam s Razor Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. (William of Occam, engl. Philosoph, ca ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169

81 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

82 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

83 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. 3 Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten, entsprechend den jeweiligen Werten von a. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

84 Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. 3 Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten, entsprechend den jeweiligen Werten von a. 4 wende TDIDT auf die neuen Blattknoten an (Rekursion) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169

85 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

86 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

87 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation 3 es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

88 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation 3 es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) 4 es gibt noch positive und negative Beispiele, die aktuelle Menge der Attribute ist nicht leer nächster Rekursionsschritt G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

89 Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C Blatt mit Klassifikation C 2 Beispielmenge ist leer Blatt mit Default-Klassifikation 3 es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) 4 es gibt noch positive und negative Beispiele, die aktuelle Menge der Attribute ist nicht leer nächster Rekursionsschritt Zentrales Problem: Wie findet man das (jeweils nächste) beste Attribut, um den Entscheidungsbaum aufzubauen? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169

90 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

91 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? Wähle dasjenige Attribut, das am wichtigsten ist G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

92 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das soviel Beispiele wie möglich klassifiziert ( Kardinalitätskriterium); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

93 Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das soviel Beispiele wie möglich klassifiziert ( Kardinalitätskriterium); die meiste Information enthält ( ID3, C4.5). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169

94 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

95 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

96 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde + : X1,X6,X7,X8 : X3,X9,X14 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

97 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

98 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 Beim Wert Gruppe = allein werden alle verfügbaren (drei) Beispiele vollständig klassifiziert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169

99 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Kategorie? DR AC KO SF + : X5,X11 + : X1,X8,X15 + : X2,X7 + : X6 : X3,X14 : X12 : X9,X10 : X4,X13 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169

100 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Kategorie? DR AC KO SF + : X5,X11 + : X1,X8,X15 + : X2,X7 + : X6 : X3,X14 : X12 : X9,X10 : X4,X13 Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem Test klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169

101 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Kategorie? DR AC KO SF + : X5,X11 + : X1,X8,X15 + : X2,X7 + : X6 : X3,X14 : X12 : X9,X10 : X4,X13 Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem Test klassifizieren. Gruppe ist also nach dem Kardinalitätskriterium als erstes Attribut des Entscheidungsbaumes besser geeignet als Kategorie. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169

102 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169

103 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 Wetter? schön mittel schlecht + : : X10 + : X2,X5,X11 : + : X15 : G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169

104 Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde allein Paar + : X1,X6,X7,X8 + : + : X2,X5,X11,X15 : X3,X9,X14 : X4,X12,X13 : X10 Wetter? schön mittel schlecht + : : X10 + : X2,X5,X11 : + : X15 : Wetter klassifiziert alle Beispiele der Menge E Gruppe=P aar vollständig. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169

105 Kino-Beispiel (Forts.) + : X2,X5,X11,X15 : X10 Kategorie? DR AC KO SF + : X5,X11 + : X15 + : X2 + : : : : X10 : G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

106 Kino-Beispiel (Forts.) + : X2,X5,X11,X15 : X10 Kategorie? DR AC KO SF + : X5,X11 + : X15 + : X2 + : : : : X10 : Kategorie kann bei E Gruppe=P aar zwei Beispiele nicht eindeutig klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

107 Kino-Beispiel (Forts.) + : X2,X5,X11,X15 : X10 Kategorie? DR AC KO SF + : X5,X11 + : X15 + : X2 + : : : : X10 : Kategorie kann bei E Gruppe=P aar zwei Beispiele nicht eindeutig klassifizieren. Folglich ist Wetter als zweites Attribut an dieser Stelle besser geeignet. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

108 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169

109 Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff sie hängt stark von der aktuellen Beispielmenge ab! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169

110 Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff sie hängt stark von der aktuellen Beispielmenge ab! Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte Beispielmenge {X 1,..., X 15 } ziemlich nutzlos G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169

111 Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff sie hängt stark von der aktuellen Beispielmenge ab! Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte Beispielmenge {X 1,..., X 15 } ziemlich nutzlos andererseits hat gerade dieses Attribut für die Beispielmenge E Gruppe=F reunde = {X 1, X 3, X 6, X 7, X 8, X 9, X 14 } unter allen übrig gebliebenen Attributen die größte Wichtigkeit (es klassifiziert 5 Beispiele vollständig). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169

112 TDIDT-Algorithmus 1/2 function DT (E, A, default) Eingabe: E Menge von Beispielen A Menge von Attributen default Default-Klassifikation Ausgabe: Entscheidungsbaum G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 73 / 169

113 TDIDT-Algorithmus 2/2 if E = then return default G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

114 TDIDT-Algorithmus 2/2 if E = then return default else if alle Elemente in E haben die gleiche Klassifikation c {ja, nein} then return c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

115 TDIDT-Algorithmus 2/2 if E = then return default else if alle Elemente in E haben die gleiche Klassifikation c {ja, nein} then return c else if A = then Fehler gleiche Beispiele mit unterschiedlicher Klassifikation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

116 TDIDT-Algorithmus 2/2 if E = then return default else if alle Elemente in E haben die gleiche Klassifikation c {ja, nein} then return c else if A = then Fehler gleiche Beispiele mit unterschiedlicher Klassifikation else a := ChooseAttribute(A, E) T := neuer Entscheidungsbaum mit Wurzelmarkierung a for each Attributwert w i von a do E i := {e E a(e) = w i } T i := DT (E i, A\{a}, MajorityVal(E)) hänge an den Wurzelknoten von T eine neue Kante mit Markierung w i und Unterbaum T i an end return T G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169

117 Kino-Beispiel (Forts.) Gruppe? Freunde allein Paar Kategorie? AC DR KO SF nein Wetter? schön mittel schlecht ja nein Wetter? ja nein ja ja schön mittel schlecht nein ja ja Der fertige Entscheidungsbaum G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 169

118 TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169

119 TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung C4.5, die beide auf Quinlan zurückgehen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169

120 TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung C4.5, die beide auf Quinlan zurückgehen. Zur Bestimmung des jeweils besten Attributes verwenden diese beiden Systeme grundsätzlich den Informationsgehalt eines Attributes, der durch den jeweiligen Informationsgewinn bestimmt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169

121 Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p auszuwählen, p + n bzw. n p + n. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169

122 Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p auszuwählen, p + n bzw. n p + n. Der Informationsgehalt I(E) der Antwort auf die Frage Handelt es sich bei einem beliebigen Beispiel aus E um ein positives oder ein negatives Beispiel? beträgt daher (wobei H die Entropie bezeichnet) I(E) := H ( ) p p + n ; n p + n G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169

123 Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p auszuwählen, p + n bzw. n p + n. Der Informationsgehalt I(E) der Antwort auf die Frage Handelt es sich bei einem beliebigen Beispiel aus E um ein positives oder ein negatives Beispiel? beträgt daher (wobei H die Entropie bezeichnet) I(E) := H ( p p + n ; = p p + n log 2 ) n p + n p p + n n p + n log 2 n p + n [bit] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169

124 Informationsgewinn 2/6 Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser Informationsgehalt p H( p + n ; n p + n ) = H( 8 15 ; 7 ) bit 15 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 78 / 169

125 Informationsgewinn 2/6 Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser Informationsgehalt p H( p + n ; n p + n ) = H( 8 15 ; 7 ) bit 15 Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 78 / 169

126 Informationsgewinn 3/6 Informell errechnet sich also der Informationsgewinn als Differenz Informationsgewinn = Informationsgehalt vor Attributauswahl Informationsgehalt nach Attributauswahl wobei der Informationsgehalt einer Trainingsmenge als die Entropie der zugehörigen Verteilung definiert wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 79 / 169

127 Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E 1,..., E k auf, wobei jedes E i die zum Wert w i von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w 1,..., w k ist, die a annehmen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169

128 Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E 1,..., E k auf, wobei jedes E i die zum Wert w i von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w 1,..., w k ist, die a annehmen kann. Jedes E i habe p i positive und n i negative Beispiele. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169

129 Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E 1,..., E k auf, wobei jedes E i die zum Wert w i von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w 1,..., w k ist, die a annehmen kann. Jedes E i habe p i positive und n i negative Beispiele. Wenn wir a = w i wissen, benötigen wir also noch an Information. p i n i I(E i ) = H( ; ) bit p i + n i p i + n i G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169

130 Informationsgewinn 5/6 Durch die Berücksichtigung aller Attributwerte a = w i ergibt sich nach dem Test des Attributes a die folgende bedingte mittlere Information: I(E a bekannt) = k P (a = w i ) I(E i ) i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 81 / 169

131 Informationsgewinn 5/6 Durch die Berücksichtigung aller Attributwerte a = w i ergibt sich nach dem Test des Attributes a die folgende bedingte mittlere Information: I(E a bekannt) = = k P (a = w i ) I(E i ) i=1 k p i + n i p + n H( p i n i ; ) p i + n i p i + n i i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 81 / 169

132 Informationsgewinn 6/6 Der Informationsgewinn des Attributes a ist nun : gain(a) = I(E) I(E a bekannt) (ist also nichts anderes als die gegenseitige Information zwischen dem Attribut a und der Ausprägung positiv/negativ.) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169

133 Informationsgewinn 6/6 Der Informationsgewinn des Attributes a ist nun : gain(a) = I(E) I(E a bekannt) (ist also nichts anderes als die gegenseitige Information zwischen dem Attribut a und der Ausprägung positiv/negativ.) Das Lernsystem ID3 wählt als nächstes zu testendes Attribut a dasjenige aus, bei dem gain(a) maximal ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169

134 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169

135 Informationsgewinn Beispiel Für das Kinoproblem errechnet man für die Wurzel des Entscheidungsbaumes: gain(gruppe) = I(E) I(E Gruppe bekannt) [ 7 15 H( 4 7 ; 3 7 ) H( 4 5 ; 1 5 ) H(0; 1)] bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 83 / 169

136 Informationsgewinn Beispiel Für das Kinoproblem errechnet man für die Wurzel des Entscheidungsbaumes: gain(gruppe) = I(E) I(E Gruppe bekannt) [ 7 15 H( 4 7 ; 3 7 ) H( 4 5 ; 1 5 ) H(0; 1)] bit gain(kategorie) = I(E) I(E Kategorie bekannt) [ 4 15 H( 3 4 ; 1 4 ) H( 1 2 ; 1 2 ) H( 1 2 ; 1 2 ) I( 1 3 ; 2 3 )] bit Es zeigt sich, dass gain(gruppe) maximal ist und daher von ID3 als erstes Attribut ausgewählt würde. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 83 / 169

137 Informationsgewinn Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169

138 Informationsgewinn Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute die persönliche Identifikationsnummer (PIN) eines Patienten benutzt. Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt, und partitioniert daher die Beispielmenge E in eben soviele Teilmengen mit je einem Element. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169

139 Informationsgewinn Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute die persönliche Identifikationsnummer (PIN) eines Patienten benutzt. Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt, und partitioniert daher die Beispielmenge E in eben soviele Teilmengen mit je einem Element. In diesem Fall ist die bedingte mittlere Information n 1 I(E PIN bekannt) = H(0; 1) = 0 bit n der Informationsgewinn also maximal. Für die Diagnose selbst jedoch ist das Attribut PIN nutzlos. i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169

140 Normierter Informationsgewinn 1/2 Das System C4.5 benutzt statt des absoluten Informationsgewinns einen normierten Informationsgewinn gain ratio(a) = gain(a) split info(a) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 85 / 169

141 Normierter Informationsgewinn 1/2 Das System C4.5 benutzt statt des absoluten Informationsgewinns einen normierten Informationsgewinn gain ratio(a) = gain(a) split info(a) wobei split info(a) die Entropie des Attributes a ist: k split info(a) = H(a) = P (a = w i ) log 2 P (a = w i ) i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 85 / 169

142 Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = w i ) = 1 n ), also ist der Normierungsfaktor H(PIN ) = log 2 n und damit maximal. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169

143 Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = w i ) = 1 n ), also ist der Normierungsfaktor H(PIN ) = log 2 n und damit maximal. Damit ist gain ratio(pin ) = I(E) log 2 n, der Informationsgewinn durch PIN ist also minimal (bei konstantem Zähler). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169

144 Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = w i ) = 1 n ), also ist der Normierungsfaktor H(PIN ) = log 2 n und damit maximal. Damit ist gain ratio(pin ) = I(E) log 2 n, der Informationsgewinn durch PIN ist also minimal (bei konstantem Zähler). Das System C4.5 wählt als nächstes Attribut dasjenige mit dem maximalen gain ratio-wert aus (gain ratio-kriterium). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169

145 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

146 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.b. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

147 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.b. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja if Gruppe = Freunde and Kategorie = SF then Kinobesuch = ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

148 Erzeugung von Regeln aus n Aus n kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.b. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja if Gruppe = Freunde and Kategorie = SF then Kinobesuch = ja if Gruppe = Freunde and Kategorie = Komödie and Wetter = schön then Kinobesuch = nein G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169

149 Data Mining und Assoziationsregeln Übersicht Kapitel (Kurze) Einführung 5.2 Clustering Data Mining und Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 88 / 169

150 Kapitel 5 Data Mining und Assoziationsregeln 5. Wissenserwerb und Wissensentdeckung 5.6 Data Mining und Assoziationsregeln G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 89 / 169

151 KDD & DM Data Mining und Assoziationsregeln Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an... G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169

152 KDD & DM Data Mining und Assoziationsregeln Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an... Knowledge Discovery in Databases (KDD) bezeichnet den Prozess, neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169

153 KDD & DM Data Mining und Assoziationsregeln Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an... Knowledge Discovery in Databases (KDD) bezeichnet den Prozess, neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren. Data Mining (DM)... bezeichnet die konkrete Anwendung von Algorithmen zur Wissensfindung in Daten. [Fayyad & Uthurusamy, ACM Communications 1996] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169

154 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

155 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. Datenauswahl: Festlegung der zu untersuchenden Datenmenge. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

156 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. Datenauswahl: Festlegung der zu untersuchenden Datenmenge. Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten, Behandlung fehlender Daten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

157 Data Mining und Assoziationsregeln Der KDD-Prozess 1/2... umfasst die folgenden Schritte: Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. Datenauswahl: Festlegung der zu untersuchenden Datenmenge. Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten, Behandlung fehlender Daten. Datenreduktion und -projektion: Komprimierung der Datenmenge durch Reduktion und/oder Transformation der Variablen ( feature selection, feature extraction). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169

158 Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 Modellfunktionalität: Welchem Zweck dient das Data Mining? Klassifikation, Clustering, Regressionsanalyse etc. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169

159 Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 Modellfunktionalität: Welchem Zweck dient das Data Mining? Klassifikation, Clustering, Regressionsanalyse etc. Verfahrenswahl: Bestimmung des Data Mining-Verfahrens. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 169

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169 Kapitel 5 Entscheidungsbäume

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

4 Induktion von Regeln

4 Induktion von Regeln 4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 169

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Intelligente Systeme. Einführung. Christian Moewes

Intelligente Systeme. Einführung. Christian Moewes Intelligente Systeme Einführung Prof. Dr. Rudolf Kruse Christian Moewes Georg Ruß {kruse,russ,cmoewes}@iws.cs.uni-magdeburg.de Arbeitsgruppe Computational Intelligence Institut für Wissens- und Sprachverarbeitung

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

1. Lernen von Konzepten

1. Lernen von Konzepten 1. Lernen von Konzepten Definition des Lernens 1. Lernen von Konzepten Lernziele: Definitionen des maschinellen Lernens kennen, Klassifikationen des maschinellen Lernens kennen, Das Prinzip des induktiven

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Intelligente Systeme

Intelligente Systeme Intelligente Systeme Maschinelles Lernen Prof. Dr. R. Kruse C. Moewes G. Ruß {kruse,cmoewes,russ}@iws.cs.uni-magdeburg.de Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke

Mehr

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele Einführung Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Direkte Programmierung eines intelligenten Agenten nicht möglich (bisher) Daher benötigt:

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Erstes Mathe-Tutorium am Themen können gewählt werden unter:

Erstes Mathe-Tutorium am Themen können gewählt werden unter: Mathe-Tutorium Erstes Mathe-Tutorium am 07.05. Themen können gewählt werden unter: https://docs.google.com/forms/d/1lyfgke7skvql cgzspjt4mkirnrgnrfpkkn3j2vqos/iewform 1 Uniersität Potsdam Institut für

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

Intelligente Systeme

Intelligente Systeme Intelligente Systeme Maschinelles Lernen Prof. Dr. R. Kruse C. Braune C. Moewes {kruse,cmoewes,russ}@iws.cs.uni-magdeburg.de Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 6. Übungsblatt Aufgabe 1 Gegeben sei eine Beispielmenge mit folgenden Eigenschaften: Jedes Beispiel ist durch 10 nominale Attribute A 1,...,

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

11. Übung Knowledge Discovery

11. Übung Knowledge Discovery Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

4. OBDDs und Modellüberprüfung

4. OBDDs und Modellüberprüfung 4. OBDDs und Modellüberprüfung OBDD Ordered Binary Decision Diagrams Geordnete binäre Entscheidungsdiagramme Binäres Entscheidungsdiagramm: in der einfachsten Form ein binärer Entscheidungsbaum, in dem

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Beispiellösungen DM. Prof. Dr. Jürgen Cleve. Das Beispiel zum Support und der Kondenz

Beispiellösungen DM. Prof. Dr. Jürgen Cleve. Das Beispiel zum Support und der Kondenz Beispiellösungen DM Prof. Dr. Jürgen Cleve Inhaltsverzeichnis 1 Einführung 1 Grundlagen 1 Anwendungsklassen 1 4 Wissensrepräsentation 1 Methoden und Verfahren 6 Vorverarbeitung 9 7 Bewertung 9 Im folgenden

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume als Repräsentationsformalismus Semantik: Klassifikation Lernen von Entscheidungsbäumen vollst. Suche vs. TDIDT Tests, Ausdrucksfähigkeit Maße: Information

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Classification and Regression Trees. Markus Müller

Classification and Regression Trees. Markus Müller Classification and Regression Trees Markus Müller Gliederung Lernen Entscheidungsbäume Induktives Lernen von Bäumen ID3 Algorithmus Einfluß der Beispielmenge auf den Baum Möglichkeiten zur Verbesserung

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Klassische Klassifikationsalgorithmen

Klassische Klassifikationsalgorithmen Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Inductive Logic Programming Relational Data Mining

Inductive Logic Programming Relational Data Mining Hauptseminar Machine Learning Inductive Logic Programming Relational Data Mining Christoph Petzinger WS 2003/2004 Inhaltsverzeichnis 1 Relational Data Mining 3 2 Inductive Logic Programming 4 2.1 Prädikatenlogik.................................

Mehr

Symbolisches Lernen. Proseminar Kognitive Robotik. Johannes Klein. Technische Universität München. June 22, 2012

Symbolisches Lernen. Proseminar Kognitive Robotik. Johannes Klein. Technische Universität München. June 22, 2012 Symbolisches Lernen Proseminar Kognitive Robotik Johannes Klein Technische Universität München June 22, 2012 1/18 Einleitung Lernverfahren Entscheidungsbaum ID3 Diskussion Inhalt Übersicht Symbolisches

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Lerneinheit 3: Greedy Algorithmen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2016 10.5.2016 Einleitung Einleitung Diese Lerneinheit

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 169

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

B6.1 Introduction. Algorithmen und Datenstrukturen. Algorithmen und Datenstrukturen. B6.1 Introduction. B6.3 Analyse. B6.4 Ordnungsbasierte Methoden

B6.1 Introduction. Algorithmen und Datenstrukturen. Algorithmen und Datenstrukturen. B6.1 Introduction. B6.3 Analyse. B6.4 Ordnungsbasierte Methoden Algorithmen und Datenstrukturen 11. April 2018 B6. Binäre Suchbäume a Algorithmen und Datenstrukturen B6. Binäre Suchbäume 1 Marcel Lüthi and Gabriele Röger Universität Basel 11. April 2018 a Folien basieren

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge von Datensätzen. Beispiele

Mehr

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning Kapitel ML: III III. Entscheidungsbäume Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning ML: III-1 Decision Trees c STEIN/LETTMANN 2005-2011 Spezifikation von Klassifikationsproblemen

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 122 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 123 Das Suchproblem Gegeben Menge von Datensätzen.

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 119 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 120 Das Suchproblem Gegeben

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen PD Dr. David Sabel SoSe 2014 Stand der Folien: 24. Juni 2014 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

Algorithmen und Datenstrukturen. Bäume. M. Herpers, Y. Jung, P. Klingebiel

Algorithmen und Datenstrukturen. Bäume. M. Herpers, Y. Jung, P. Klingebiel Algorithmen und Datenstrukturen Bäume M. Herpers, Y. Jung, P. Klingebiel 1 Lernziele Baumstrukturen und Ihre Verwendung kennen Grundbegriffe zu Bäumen anwenden können Baumstruktur in C anlegen können Suchbäume

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 12. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Übersicht Rückblick, Zusammenhänge Mysterien 2 Inhalte im abstrakten Überblick Künstliche

Mehr

Expertensysteme / XPS

Expertensysteme / XPS Expertensysteme / XPS Alexander Pentzlin und Thiemo Bannasch KI II Claes Neuefeind 27.06.2012 1 Inhalt Was ist ein Expertensystem Geschichtlicher Hintergrund Prinzip eines XPS Komponenten Realisierungsprinzipien

Mehr

Learning to Optimize Mobile Robot Navigation Based on HTN Plans

Learning to Optimize Mobile Robot Navigation Based on HTN Plans Learning to Optimize Mobile Robot Navigation Based on HTN Plans lernen Betreuer: Freek Stulp Hauptseminar Intelligente Autonome Systeme (WiSe 2004/05) Forschungs- und Lehreinheit Informatik IX 8. Dezember

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Klassische Klassifikationsalgorithmen

Klassische Klassifikationsalgorithmen Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Ein Fragment von Pascal

Ein Fragment von Pascal Ein Fragment von Pascal Wir beschreiben einen (allerdings sehr kleinen) Ausschnitt von Pascal durch eine kontextfreie Grammatik. Wir benutzen das Alphabet Σ = {a,..., z, ;, :=, begin, end, while, do} und

Mehr

Induktion von Entscheidungsbäumen

Induktion von Entscheidungsbäumen Induktion von Entscheidungsbäumen Christian Borgelt Institut für Wissens- und Sprachverarbeitung Otto-von-Guericke-Universität Magdeburg Universitätsplatz 2, 39106 Magdeburg E-mail: borgelt@iws.cs.uni-magdeburg.de

Mehr

Technische Universität

Technische Universität Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik VI Symbolisches Lernen Proseminar Kognitive Robotik (SS1) Johannes Klein Betreuer: Dr. Florian Röhrbein Leitung:

Mehr

Abschnitt 19: Sortierverfahren

Abschnitt 19: Sortierverfahren Abschnitt 19: Sortierverfahren 19. Sortierverfahren 19.1 Allgemeines 19.2 Einfache Sortierverfahren 19.3 Effizientes Sortieren: Quicksort 19.4 Zusammenfassung 19 Sortierverfahren Informatik 2 (SS 07) 758

Mehr

Algorithmen und Datenstrukturen Heapsort

Algorithmen und Datenstrukturen Heapsort Algorithmen und Datenstrukturen 2 5 Heapsort In diesem Kapitel wird Heapsort, ein weiterer Sortieralgorithmus, vorgestellt. Dieser besitzt wie MERGE-SORT eine Laufzeit von O(n log n), sortiert jedoch das

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Logik. Gabriele Kern-Isberner LS 1 Information Engineering. TU Dortmund Wintersemester 2014/15 WS 2014/15

Logik. Gabriele Kern-Isberner LS 1 Information Engineering. TU Dortmund Wintersemester 2014/15 WS 2014/15 Logik Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2014/15 WS 2014/15 G. Kern-Isberner (TU Dortmund) Logik WS 2014/15 1 / 125 Übersicht Modallogik 5. Grundlagen 6. Erfüllbarkeit

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169 Kapitel 5 5. Wissenserwerb

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende

Mehr

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN Kapitel LF: I I. Einführung in das Maschinelle Lernen Bemerkungen: Dieses Kapitel orientiert sich an dem Buch Machine Learning von Tom Mitchell. http://www.cs.cmu.edu/ tom/mlbook.html 1 Autoeinkaufsberater?

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Grundlagen: Algorithmen und Datenstrukturen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 00

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Lösungen von Übungsblatt 12

Lösungen von Übungsblatt 12 Lösungen von Übungsblatt 12 Algorithmen (WS 2018, Ulrike von Luxburg) Lösungen zu Aufgabe 1 Eine (kanonische) Möglichkeit, die Branch-Schritte auszuführen ergibt sich wie folgt: Das ursprüngliche Problem

Mehr