Decision Tree Learning

Ähnliche Dokumente
Entscheidungsbaum-Lernen: Übersicht

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Bayes sches Lernen: Übersicht

Mathematische Grundlagen III

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester

Moderne Methoden der KI: Maschinelles Lernen

Maschinelles Lernen Entscheidungsbäume

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

2. Lernen von Entscheidungsbäumen

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Kapitel ML:IV (Fortsetzung)

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Künstliche Intelligenz Maschinelles Lernen

Weka: Software-Suite mit Maschineller Lernsoftware

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Vorlesung Maschinelles Lernen

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Vorlesung. Machine Learning - Entscheidungsbäume

Vorlesung Wissensentdeckung

Einführung in die Computerlinguistik Suche mit regulären Ausdrücken

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Data Mining - Wiederholung

Kapitel VI. Wahrscheinlichkeitsbegriff. Wahrscheinlichkeitsbegriff. LF: VI Bayesian Learning c STEIN

3. Lernen von Entscheidungsbäumen

Data Warehousing und Data Mining

Maschinelles Lernen Entscheidungsbäume

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Kapitel 5: Ensemble Techniken

x 2 x 1 x Lernen mit Entscheidungsbäumen

Kapitel ML: III (Fortsetzung)

Seminar Text- und Datamining Datamining-Grundlagen

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Textkategorisierung : Entscheidungsbäume

Maschinelles Lernen: Symbolische Ansätze

Data Mining in Datenbanken

Vorlesungsplan. Data Mining in Datenbanken. Einleitung. Veranstaltungsmodalitäten. Alexander Hinneburg

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Überwachtes Lernen: Klassifikation und Regression

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Gliederung. 1. KI im Allgemeinen und in dieser Vorlesung 2. Heuristische Suche 3. Logik und Inferenz 4. Wissensrepräsentation 5.

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Einführung in die Wahrscheinlichkeitsrechnung

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Überwachtes Lernen I: Klassifikation und Regression

Maschinelles Lernen: Symbolische Ansätze

Teil 5. Maschinelles Lernen

Klassifikation. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Mining High-Speed Data Streams

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Wahrscheinlichkeitstheorie und Naive Bayes

Folien zu Data Mining von I. H. Witten and E. Frank. übersetzt von N. Fuhr

Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN)

1. Lernen von Konzepten

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Einführung in die Computerlinguistik

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004

Agenda. 1 Einleitung. 2 Binäre Bäume. 3 Binäre Suchbäume. 4 Rose Trees. 5 Zusammenfassung & Ausblick. Haskell Bäume. Einleitung.

Randomisierte Algorithmen 2. Erste Beispiele

Referat zum Thema Huffman-Codes

15 Optimales Kodieren

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Programmierkurs Python II

TU5 Aussagenlogik II

Grundlagen und Diskrete Strukturen Wiederholungsaufgaben

PMML Predictive Modeling Markup Language

Automatisches Lernen von Regeln zur quellseitigen Umordnung

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Visualisierung der Imperfektion in multidimensionalen Daten

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, oliviaklose.

Projekt Maschinelles Lernen WS 06/07

Programmierung und Modellierung

Text Mining 4. Seminar Klassifikation

2 Informationstheorie

Bayessches Lernen Aufgaben

Übung 4: Aussagenlogik II

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Data Mining-Modelle und -Algorithmen

Algorithmische Modelle als neues Paradigma

Sortierverfahren für Felder (Listen)

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Survival of the Fittest Optimierung mittels Genetischer Algorithmen

Konzepte der AI: Maschinelles Lernen

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut

Haskell, Typen, und Typberechnung. Grundlagen der Programmierung 3 A. Einige andere Programmiersprachen. Typisierung in Haskell

Einführung in die Computerlinguistik

Algorithmentheorie Randomisierung. Robert Elsässer

6.6 Vorlesung: Von OLAP zu Mining

Clusteranalyse: Gauß sche Mischmodelle

Grundlagen der Programmierung 2. Bäume

Aufgabe 4.2 Sei G = (V, E, l) ein ungerichteter, gewichteter und zusammenhängender Graph.

Data Warehousing und Data Mining

Transkript:

Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011

Entscheidungsbäume

Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis? Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes

Repräsentation von Regeln als Entscheidungsbaum (2) Entscheidungsbäume repräsentieren Disjunktionen von Konjunktionen von Attribut-Wert-Paaren. Zum Beispiel: Outlook = overcast (Outlook = sunny Humidity = normal) (Outlook = rain Wind = weak)

Entscheidungsbäume Wann Entscheidungsbäume? Instanzen können durch Attribut-Wert-Paare repräsentiert werden Targetfunktion ist diskret disjunktive Hypothesen sind notwendig fehlerhafte oder inkonsistente Trainingsdaten (Noise)

Lernen von Entscheidungsbäumen

Entscheidungsbäume Lernen Was wäre ein guter Entscheidungsbaum für die folgenden Daten? Num Doz The Wo We Max da? 1 B A D S N 2 A D F R N 3 B D D R J 4 A A F S N 5 B A D R J

Einfacher Algorithmus 1 wähle ein Attribut A für den nächsten Knoten n 2 für jeden Wert von A erstelle einen Tochterknoten 3 teile die Trainingsbeispiele unter den Tochterknoten auf (je nachdem, welchen Wert sie für A haben) 4 wenn positive und negative Beispiele perfekt separiert sind STOP, ansonsten iteriere über Tochterknoten

Einfacher Algorithmus 1 wähle ein Attribut A für den nächsten Knoten n 2 für jeden Wert von A erstelle einen Tochterknoten 3 teile die Trainingsbeispiele unter den Tochterknoten auf (je nachdem, welchen Wert sie für A haben) 4 wenn positive und negative Beispiele perfekt separiert sind STOP, ansonsten iteriere über Tochterknoten Welches Attribut ist das beste?

Welches Attribut ist das beste? (1) A1=? [29+,35-] [29+,35-] A2=? t f t f [21+,5-] [8+,30-] [18+,33-] [11+,2-]

Welches Attribut ist das beste? (2) ein Attribut mit n Werten teilt die Menge der Instanzen S in eine Partition aus n Teilmengen S 1 bis S n ideal ist ein Partition, deren Teilmengen möglichst rein sind, d.h. möglichst viele Instanzen einer Ausgabeklasse (z.b., positiv oder negativ) je reiner die Partition, die durch ein Attribut entsteht, desto früher sollte das Attribut ausgewählt werden Wir brauchen ein Reinheitsmaß für Mengen von Instanzen

Entropie (1) 1.0 Entropy(S) 0.5 0.0 0.5 1.0 p + S ist eine Menge von Trainingsinstanzen p ist der Anteil der positiven Beispiele in S p ist der Anteil der negativen Beispiele in S Entropy mißt die Verunreinigung (impurity) von S Entropy(S) p log 2 p p log 2 p

Entropie (2) Warum? Entropie(S) = erwartete Anzahl von Bits, die benötigt wird um die Ausgabeklasse ( oder ) einer zufällig gewählten Instanz aus S zu kodieren (mit optimaler, kürzester Kodierung) Informationstheorie: der Code mit optimaler Länge benötigt log 2 p Bits für Nachrichten der Wahrscheinlichkeit p. D.h. die erwartete Anzahl von Bits, die benötigt werden um oder zufällig gewählte Instanzen aus S zu kodieren ist: p ( log 2 p ) + p ( log 2 p ) Entropy(S) p log 2 p p log 2 p

Information Gain (IG) (1) Gain(S, A) = erwartete Reduktion in Entropie, wenn S anhand von A geteilt wird. Gain(S, A) Entropy(S) v Values(A) S v S Entropy(S v )

Beispiel (1) Trainingsinstanzen Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No

Beispiel (2) S: [9+,5-] S: [9+,5-] E =0.940 E =0.940 Humidity Wind High Normal Weak Strong [3+,4-] [6+,1-] [6+,2-] [3+,3-] E =0.985 E =0.592 E =0.811 E =1.00 Gain (S, Humidity ) Gain (S, Wind) =.940 - (7/14).985 - (7/14).592 =.151 =.940 - (8/14).811 - (6/14)1.0 =.048

Hypothesenraum und induktiver Bias

Hypothesenraum Was ist der Hypothesenraum?

Hypothesenraum Was ist der Hypothesenraum? + + A1 + + + A2 + +...... + + A2 A3 + A2 + + A4......

Suche im Hypothesenraum Hypothesenraum ist vollständig der Algorithmus gibt genau eine Hypothese zurück Suche ist greedy Attributauswahl ist statistisch (robust gegenüber verrauschten Daten)

Induktiver Bias Hypothesenraum, H, ist die Potenzmenge der Instanzen in X Was ist der induktive Bias?

Induktiver Bias Hypothesenraum, H, ist die Potenzmenge der Instanzen in X Was ist der induktive Bias? Präferenz für kurze Bäume, mit Attributen, die einen hohen IG haben, in der Nähe der Wurzel Bias ist eine Hypothesen-Präferenz, keine Restriktion des Hypothesenraums Occam s razor: Präferenz für die kürzeste Hypothese, die die Daten erklärt

Occam s Razor Warum eine Präferenz für kurze Hypothesen? es gibt weniger kurze als lange Hypothesen es ist unwahrscheinlich, dass eine kurze Hypothese zufällig die Daten erklärt eine lange Hypothese, die die Daten erkärt, kann dagegen Zufall sein

Overfitting

Overfitting (1) Was passiert, wenn ein verrauschtes Beispiel dazukommt? < Sunny, Hot, Normal, Strong, No > Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes

Overfitting (2) Der Fehler der Hypothese h über: Trainingsdaten: error train (h) die gesamte Distribution D der Daten: error D (h) Hypothese h H overfits die Trainingsdaten, wenn es eine alternative Hypothese h H gibt, so dass error train (h) < error train (h ) und error D (h) > error D (h )

Overfitting (3) 0.9 0.85 0.8 Accuracy 0.75 0.7 0.65 0.6 0.55 On training data On test data 0.5 0 10 20 30 40 50 60 70 80 90 100 Size of tree (number of nodes)

Overfitting (4) Wie kann Overfitting vermieden werden?

Overfitting (4) Wie kann Overfitting vermieden werden? Stoppe Attributselektion, wenn der Datensplit nicht mehr signifikant ist Baue vollständigen Baum, dann schneide zurück (pruning)

Overfitting (4) Wie kann Overfitting vermieden werden? Stoppe Attributselektion, wenn der Datensplit nicht mehr signifikant ist Baue vollständigen Baum, dann schneide zurück (pruning) Wie wird der beste Baum ausgewählt? Messe die Performanz des Baums auf den Trainingsdaten Messe die Performanz auf einem separaten Validierungsset Minimum Description Length (MDL): minimize size(tree) + size(misclassifications(tree))

Reduced Error Pruning Teile die Daten in Trainings (T ) und Validierungsset (V ) Wiederhole solange die Performanz nicht sinkt: 1 Für jeden Knoten, n, messe den Effekt den das prunen von n auf V hätte 2 Lösche den Knoten, n, der die Performanz auf V am stärksten erhöht.

Exkurs: Precision und Recall

Evaluationsmaße Fehlertypen korrekte Ausgabeklasse vorhergesagte Ausgabeklasse + - + true positive (TP) false positive (FP) - false negative (FN) true negative (TN) Performanzmaße Accuracy = Precision = Recall = TP TP+FN F-Score = 2 Prec Rec Prec+Rec TP+TN TP+TN+FP+FN TP TP+FP

Zusammenfassung

Zusammenfassung Was ihr gelernt haben solltet: Was ist ein Entscheidungsbaum und wie können durch Entscheidungsbäume Regeln repräsentiert werden? Wie können Entscheidungsbäume gelernt werden? Unter welchen Umständen ist Entscheidungsbaumlernen sinnvoll (vgl. mit Candidate Elimination)? Was ist der Hypothesenraum? Was ist der induktive Bias? Was ist Overfitting und wie kann es vermieden werden?