Maschinelles Lernen Entscheidungsbäume



Ähnliche Dokumente
Erstes Mathe-Tutorium am Themen können gewählt werden unter:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Künstliche Intelligenz Maschinelles Lernen

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

2. Lernen von Entscheidungsbäumen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

INTELLIGENTE DATENANALYSE IN MATLAB

Moderne Methoden der KI: Maschinelles Lernen

Grundlagen der Theoretischen Informatik, SoSe 2008

Zeichen bei Zahlen entschlüsseln

Was meinen die Leute eigentlich mit: Grexit?

Kapiteltests zum Leitprogramm Binäre Suchbäume

Die Post hat eine Umfrage gemacht

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

Grundbegriffe der Informatik

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

15 Optimales Kodieren

ZfP-Sonderpreis der DGZfP beim Regionalwettbewerb Jugend forscht BREMERHAVEN. Der Zauberwürfel-Roboter. Paul Giese. Schule: Wilhelm-Raabe-Schule

WS 2009/10. Diskrete Strukturen

1 topologisches Sortieren

Anmerkungen zur Übergangsprüfung

Entscheidungsbäume aus großen Datenbanken: SLIQ

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Mediator 9 - Lernprogramm

Mining High-Speed Data Streams

1. Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes

Grundlagen der Informatik

2 Darstellung von Zahlen und Zeichen

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10

Die Wirtschaftskrise aus Sicht der Kinder

Informationsblatt Induktionsbeweis

Windows 7: Neue Funktionen im praktischen Einsatz - Die neue Taskleiste nutzen

Die Industrie- und Handelskammer arbeitet dafür, dass Menschen überall mit machen können

Anwendungsbeispiele Buchhaltung

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

ecaros2 - Accountmanager

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes

Nachtrag zu binären Suchbäumen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Programmierkurs Java

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Kirkpatrick s Four Levels of Evaluation

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme


Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Professionelle Seminare im Bereich MS-Office

Guten Morgen und Willkommen zur Saalübung!

Das Briefträgerproblem

Data Mining und maschinelles Lernen

Moodle-Kurzübersicht Kurse Sichern und Zurücksetzen

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Technische Analyse der Zukunft

AUF LETZTER SEITE DIESER ANLEITUNG!!!

Vorlesung Maschinelles Lernen

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Lastenheft. Poker iphone App

Theoretische Informatik SS 04 Übung 1

Beweisbar sichere Verschlüsselung

Formale Systeme. Binary Decision Diagrams. Prof. Dr. Bernhard Beckert WS 2010/2011 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

Lichtbrechung an Linsen

Was ist Sozial-Raum-Orientierung?

Das Persönliche Budget in verständlicher Sprache

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Erstellen von x-y-diagrammen in OpenOffice.calc

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Primzahlen und RSA-Verschlüsselung

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Programmieren I. Kapitel 7. Sortieren und Suchen

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Software-Engineering SS03. Zustandsautomat

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Programmiertechnik II

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Whitebox-Tests: Allgemeines

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

impact ordering Info Produktkonfigurator

Algorithmen & Datenstrukturen 1. Klausur

SDD System Design Document

Anleitung Typo3-Extension - Raumbuchungssystem

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Einführung in. Logische Schaltungen

Test: Sind Sie ein Unternehmertyp?

50 Fragen, um Dir das Rauchen abzugewöhnen 1/6

Datenstrukturen & Algorithmen

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse

Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten > 2 x verfügbares Einkommen? Arbeitslos? Länger als 3 Monate beschäftigt? abgelehnt Ja Schufa-Auskunft positiv? abgelehnt abgelehnt Kredit - Sicherheiten > 5 x verfügbares Einkommen? Student? abgelehnt angenommen angenommen abgelehnt 2

Entscheidungsbäume Warum? Einfach zu interpretieren. Liefern Klassifikation plus Begründung. Abgelehnt, weil weniger als 3 Monate beschäftigt und Kredit-Sicherheiten < 2 x verfügbares Einkommen. Können aus Beispielen gelernt werden. Einfacher Lernalgorithmus. Effizient, skalierbar. Verschiedene Lernprobleme werden abgedeckt Klassifikations- und Regressionsbäume. Klassifikations-, Regressions-, Modellbäume häufig Komponenten komplexer (z.b. Risiko-)Modelle. 3

Klassifikation Eingabe: Instanz (Objekt) x X. Instanzen sind durch Vektoren von Attributen repräsentiert. Eine Instanz ist eine Belegung der Attribute. Instanzen werden auch als Merkmalsvektoren bezeichnet. x x x Ausgabe: Klasse y Y; endliche Menge. Beispiele: 1 m {akzeptiert, abgelehnt}; {Kind, Frau, Mann}. z.b. Merkmale wie Farbe, Testergebnisse, Form, Y Klasse wird auch als Zielattribut bezeichnet. 4

Klassifikationslernen Eingabe: Trainingsdaten. Ausgabe: Klassifikator. L ( x, y ),...,( x, y ) x i x x 1 1 1 m f : X Y n Entscheidungsbaum: Pfad entlang der Kanten zu einem Blatt liefert Klassifikation n 5

Regression Eingabe: Instanz (Objekt) x X. Instanzen sind durch Vektoren (fett gedruckt) von Attributen (kursiv) repräsentiert. Eine Instanz ist eine Belegung der Attribute. Ausgabe: Funktionswert y Y; kontinuierlicher Wert. Lernproblem: kontinuierliche Trainingsdaten. L ( x, y ),...,( x, y ) z.b. 1 1 n ( x 1,3.5),...,(, 2.8) n x N Temperatur, Körpergröße, Bindungsstärke 6

Andere Lernprobleme Im Laufe des Semesters werden wir noch andere Problemstellungen kennen lernen. Ordinale Regression: Präferenzlernen, Instanzen in die richtige Reihenfolge bringen. Sequenzlernen: Eingabe: Sequenz (z.b. Folge von Wörtern) Ausgabe: Sequenz (z.b. Folge semantischer Tags). Strukturlernen: Eingabe: Sequenz, Baum, Graph (z.b. Text, Web). Ausgabe: Baum, Graph (z.b. Parsbaum, Klassifikation von Webseiten). 7

Entscheidungsbäume - Aufbau Testknoten: Testen, ob der Wert des Attributs die Bedingung erfüllen; bedingte Verzweigung in einen Ast. Terminalknoten: Liefern einen Wert als Ausgabe. Kredit - Sicherheiten > 2 x verfügbares Einkommen? Arbeitslos? Länger als 3 Monate beschäftigt? abgelehnt Ja Schufa-Auskunft positiv? abgelehnt abgelehnt Kredit - Sicherheiten > 5 x verfügbares Einkommen? Student? abgelehnt angenommen angenommen abgelehnt 8

Entscheidungsbäume - Repräsentation Entscheidungsbäume können logische Operationen repräsentieren, wie:,, XOR A B C D E Kredit - Sicherheiten > 2 x verfügbares Einkommen? Arbeitslos? Länger als 3 Monate beschäftigt? abgelehnt Ja Schufa-Auskunft positiv? abgelehnt abgelehnt Kredit - Sicherheiten > 5 x verfügbares Einkommen? Student? abgelehnt angenommen angenommen abgelehnt 9

Anwendung von Entscheidungsbäumen Testknoten: Führe Test aus, wähle passende Verzweigung, rekursiver Aufruf. Terminalknoten: Liefere Wert als Klasse zurück. Kredit - Sicherheiten > 2 x verfügbares Einkommen? Arbeitslos? Länger als 3 Monate beschäftigt? abgelehnt Ja Schufa-Auskunft positiv? abgelehnt abgelehnt Kredit - Sicherheiten > 5 x verfügbares Einkommen? Student? abgelehnt angenommen angenommen abgelehnt 10

Entscheidungsbäume Wann sinnvoll? Entscheidungsbäume sinnvoll, wenn: Instanzen durch Attribut-Werte-Paare beschrieben werden. Zielattribut einen diskreten Wertebereich hat. Bei Erweiterung auf Modellbäume auch kontinuierlicherer Wertebereich möglich. Interpretierbarkeit der Vorhersage gewünscht ist. Anwendungsgebiete: Medizinische Diagnose Kreditwürdigkeit Vorverarbeitungsschritt in der Computer Vision (z.b. Objekterkennung) 11

Lernen von Entscheidungsbäumen Tag Aussicht Temperatur Luftfeuchtigkeit Wind Tennis? 1 sonnig heiß hoch schwach 2 sonnig heiß hoch stark 3 bedeckt heiß hoch schwach 4 Regen mild hoch schwach 5 Regen kühl normal schwach 6 Regen kühl normal stark 7 bedeckt kühl normal stark 8 sonnig mild hoch schwach 9 sonnig kühl normal schwach 10 Regen mild normal schwach Finde Entscheidungsbaum, der zumindest für die Trainingsdaten die richtige Klasse liefert. Trivialer Weg: Erzeuge einen Baum, der lediglich die Trainingsdaten repräsentiert. 12

Lernen von Entscheidungsbäumen Tag Aussicht Temperatur Wind Tennis? 1 sonnig heiß schwach 2 sonnig heiß stark 3 bedeckt heiß schwach 4 bedeckt kühl stark 5 bedeckt kühl schwach sonnig Aussicht bedeckt Temperatur Temperatur heiß kühl heiß kühl Wind Wind Wind Wind schwach stark schwach stark schwach schwach stark stark??? 13

Lernen von Entscheidungsbäumen Eleganter Weg: Unter den Bäumen, die mit den Trainingsdaten konsistent sind, wähle einen möglichst kleinen Baum (möglichst wenige Knoten). Kleine Bäume sind gut, weil: sie leichter zu interpretieren sind; sie in vielen Fällen besser generalisieren. Es gibt mehr Beispiele pro Blattknoten. Klassenentscheidungen in den Blättern stützen sich so auf mehr Beispiele. 14

Vollständige Suche nach kleinstem Baum Wie viele Entscheidungsbäume gibt es? Angenommen m binäre Attribute, zwei Klassen. Komplexität einer vollständigen Suche nach kleinstem Baum? 15

Lernen von Entscheidungsbäumen Greedy-Algorithmus, der einen kleinen Baum (statt des kleinsten Baumes) findet, dafür aber polynomiell in Anzahl der Attribute ist. Idee für Algorithmus? 16

Greedy-Algorithmus Top-Down Konstruktion Solange die Trainingsdaten nicht perfekt klassifiziert sind: Wähle das beste Attribut A, um die Trainingsdaten zu trennen. Erzeuge für jeden Wert des Attributs A einen neuen Nachfolgeknoten und weise die Trainingsdaten dem so entstandenen Baum zu. Problem: Welches Attribut ist das beste? [29 +, 35 -] x 1 x 2 [29 +, 35 -] [21+, 5 -] [8+, 30 -] [18+, 33 -] [11+, 2 -] 17

Splitkriterium: Entropie Entropie = Maß für Unsicherheit. Beobachtungen Kopf Zahl S ist Menge von Trainingsdaten. p + ist Anteil von positiven Beispielen in S. p ist Anteil von negativen Beispielen in S. Entropie misst die Unsicherheit in S : H S = p + log 2 p + p log 2 p 18

Splitkriterium: Entropie H S = Erwartete Anzahl von Bits, die benötigt werden, um die Zielklasse von zufällig gezogenen Beispielen aus der Menge S zu kodieren. Optimaler, kürzester Kode Entropie einer Zufallsvariable y: H y = p y = v log 2 p(y = v) v Empirische Entropie Zufallsvariable y auf Daten L : H L, y = p L y = v log 2 p L y = v v 19

Splitkriterium: Bedingte Entropie Bedingte Entropie von Zufallsvariable y gegeben Ereignis x=v: Empirische bedingte Entropie auf Daten L: 20 ' 2 ) ' ( )log ' ( ) ( ) ( v v x v x v y p v x v y p v x y H y H ' 2 ) ' ( ˆ )log ' ( ˆ ), ( ), ( v L L v x v x v y p v x v y p v x y L H y L H

Splitkriterium: Information Gain Entropie der Klassenvariable: Unsicherheit über korrekte Klassifikation. Information Gain: Transinformation eines Attributes. Verringerung der Entropie der Klassenvariable nach Test des Wertes des Attributes x. Information Gain auf Daten L für Attribut x IG( x) H( y) p( x v) H ( y) v xv IG ˆ, y) ( L, x) H( L, y) p v L( x v) H( L xv 21

Beispiel Information Gain Beispiele IG = 0,05 IG = 0,46 IG = 0,05 x 1 : Kredit > 3 x Einkommen? H L, y) pˆ ( y v)log pˆ ( y v) ( v L 2 0.92 x 2 : Länger als 3 Monate beschäftigt? IG ˆ, y) ( L, x) H( L, y) p v L( x v) H( L xv L x 3 : Student? 1 Ja Ja Nein Ja 2 Ja Nein Nein Nein 3 Nein Ja Ja Ja 4 Nein Nein Ja Nein 5 Nein Ja Nein Ja 6 Nein Nein Nein Ja y: Kredit zurückgezahlt? 22

Beispiel II Information Gain IG L, x = Erwartete Reduktion der Unsicherheit durch den Split an Attribut x. Welcher Split ist besser? [29 +, 35 -] x 1 x 2 H L, y = 29 64 log 2 29 64 + 35 64 log 2 35 64 = 0,99 [29 +, 35 -] IG L, x 1 = 0,99 26 64 H L x1=,y + 38 64 H L x1=,y = 0,26 IG L, x 2 = 0,99 51 64 H L x2=,y + 13 64 H L x2=,y = 0,11 [21+, 5 -] [8+, 30 -] [18+, 33 -] [11+, 2 -] 23

Information Gain / Gain Ratio Motivation: Vorhersage ob ein Student die Prüfung besteht. Wie hoch ist der Information Gain des Attributes Matrikelnummer? Informationsgehalt des Tests ist riesig. 24

Information Gain / Gain Ratio Motivation: Vorhersage ob ein Student die Prüfung besteht. Wie hoch ist der Information Gain des Attributes Matrikelnummer? Informationsgehalt des Tests ist riesig. Idee: Informationsgehalt des Tests bestrafen. IG( L, x) GainRatio ( L, x) SplitInfo ( L, x) SplitInfo ( L, x) v L xv log L 2 L xv L 25

Beispiel: Info Gain Ratio Welcher Split ist besser? [2+, 2-] 1 2 [1+, 0-] [1+, 0 -] IG L, x 1 = 1 x 1 3 4 [0+, 1-] [0+, 1-] SplitInfo L, x 1 = 4 1 4 log 2 1 4 = 2 GainRatio L, x 1 = 0,5 [2+, 2-] x 2 [2+, 1 -] [0+, 1 -] IG L, x 2 = 1 3 4 0,92 = 0,68 SplitInfo L, x 2 = 3 4 log 2 3 4 +1 4 log 2 1 4 = 0,81 GainRatio L, x 2 = 0,84 26

Algorithmus ID3 Voraussetzung: Klassifikationslernen, Alle Attribute haben festen, diskreten Wertebereich. Idee: rekursiver Algorithmus. Wähle das Attribut, welches die Unsicherheit bzgl. der Zielklasse maximal verringert Information Gain, Gain Ratio, Gini Index Dann rekursiver Aufruf für alle Werte des gewählten Attributs. Solange, bis in einem Zweig nur noch Beispiele derselben Klasse sind. Originalreferenz: J.R. Quinlan: Induction of Decision Trees. 1986 27

Algorithmus ID3 Eingabe: L ( x, y ),...,( x, y ), verfügbare Attribute = ( x1,..., x m ) 1 1 Wenn alle Beispiele in L dieselbe Klasse y haben, dann gib Terminalknoten mit Klasse y zurück. Wenn Menge der verfügbaren Attribute =, Gib Terminalknoten mit häufigster Klasse in L zurück. Sonst konstruiere Testknoten: Bestimme bestes Attribut x v j Für alle Werte dieses Attributs: Teile Trainingsmenge, L (x n n arg max IG( L, x * xiverfügbar i j k, yk ) L xk* v j v j L j * Rekursion: Zweig für Wert = ID3 (, verfügbar \ x ). ) 28

Algorithmus ID3: Beispiel Beispiele x 1 : Kredit > 3 x Einkommen? x 2 : Länger als 3 Monate beschäftigt? x 3 : Student? 1 Ja Ja Nein Ja 2 Ja Nein Nein Nein 3 Nein Ja Ja Ja 4 Nein Nein Ja Nein 5 Nein Ja Nein Ja 6 Nein Nein Nein Ja y: Kredit zurückgezahlt? 29

Kontinuierliche Attribute ID3 wählt Attribute mit größtem Informationsgehalt aus und bildet dann einen Zweig für jeden Wert dieses Attributes. Problem: Geht nur für diskrete Attribute. Attribute wie Größe, Einkommen, Entfernung haben unendlich viele Werte. Idee? 30

Kontinuierliche Attribute Idee: Binäre Entscheidungsbäume, -Tests. Problem: Unendlich viele Werte für binäre Tests. Idee: Nur endlich viele Werte kommen in Trainingsdaten vor. Beispiel: Kontinuierliches Attribut hat folgende Werte: 0,2; 0,4; 0,7; 0,9 Mögliche Splits: 0,2; 0,4; 0,7; 0,9 Andere Möglichkeiten: Attribute in einen diskreten Wertebereich abbilden. 31

Algorithmus C4.5 Weiterentwicklung von ID3 Verbesserungen: auch kontinuierliche Attribute behandelt Trainingsdaten mit fehlenden Attributwerten behandelt Attribute mit Kosten Pruning Nicht der letzte Stand: siehe C5.0 Originalreferenz: J.R. Quinlan: C4.5: Programs for Machine Learning. 1993 32

Algorithmus C4.5 Eingabe: L ( x, y ),...,( x, y ). Wenn alle Beispiele in L dieselbe Klasse y haben, dann gib Terminalknoten mit Klasse y zurück. Wenn alle Instanzen identisch sind: Gib Terminalknoten mit häufigster Klasse in L zurück. Sonst konstruiere besten Testknoten, iteriere dazu über alle Attribute. 1 1 Diskrete Attribute: wie ID3. Kontinuierliche Attribute: n Wenn bestes Attribut diskret, Rekursion wie ID3. n [ in x* v* ] arg max Attribute, Werte v L IG( L,[ xi v]) Wenn bestes Attribut kontinuierlich, teile Trainingsmenge: L ( x, y ) L x v links k k k* *, L rechts xk, yk ) L Rekursion: linker Zweig= 4.5( Llinks) x i ( x v * 4 rechts C, rechter Zweig= C.5( L ) k* 33

Information Gain für kontinuierliche Attribute Information Gain eines Tests [ x v] : Empirischer Information Gain: IG([ x v]) H( y) p([ x v]) H xv] ( y) p([ x v]) H[ xv] ( [ y IG( L,[ x v]) H( L, y) pˆ ([ ]) (, ) ˆ L x v H L [ xv] y pl([ x v]) H( L [ xv], y) ) 34

C4.5: Beispiel x 1 0,7 0,5 0,5 1 1,5 x 2 x 2 0,5 t f t x 2 1,5 x 1 0,5 x 1 0,6 t f t f f t x 1 0,7 f 35

Pruning Problem: Blattknoten, die nur von einem (oder sehr wenigen) Beispielen gestützt werden, liefern häufig keine gute Klassifikation(Generalisierungsproblem). Pruning: Entferne Testknoten, die Blätter mit weniger als einer Mindestzahl von Beispielen erzeugen. Dadurch entstehen Blattknoten, die dann mit der am häufigsten auftretenden Klasse beschriftet werden. 36

Pruning mit Schwellwert Für alle Blattknoten: Wenn weniger als r Trainingsbeispiele in den Blattknoten fallen Entferne darüberliegenden Testknoten. Erzeuge neuen Blattknoten, sage Mehrheitsklasse vorraus. Regularisierungsparameter r. Einstellung mit Cross Validation. 37

Reduced Error Pruning Aufteilen der Trainingsdaten in Trainingsmenge und Pruningmenge. Nach dem Aufbau des Baumes mit der Trainingsmenge: Versuche, zwei Blattknoten durch Löschen eines Tests zusammenzulegen, Solange dadurch die Fehlerrate auf der Pruningmenge verringert wird. 38

Umwandlung von Bäumen in Regeln Pfad durch den Baum: Bedingung der Regel Klasse: Schlussfolgerung Pruning von Regeln: Testen, welche Bedingungen weggelassen werden können, ohne dass die Fehlerrate dadurch steigt. 39

Umwandlung von Bäumen in Regeln Ausblick sonnig bewölkt regnerisch Luftfeuchtigkeit hoch normal stark schwach Nein Ja R 1 = Wenn Ausblick = sonnig Ja Nein Wind Ja Luftfeuchtigkeit = hoch, dann kein Tennis spielen R 2 = Wenn Ausblick = sonnig Luftfeuchtigkeit = normal, dann Tennis spielen R 3 = Wenn Ausblick = bewölkt, dann Tennis spielen R 4 = Wenn Ausblick = regnerisch Wind = stark, dann kein Tennis spielen R 5 = Wenn Ausblick = regnerisch Wind = schwach, dann Tennis spielen 40