Lernen von Klassifikationen

Ähnliche Dokumente
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Data Mining - Wiederholung

Decision Tree Learning

4. Lernen von Entscheidungsbäumen

Maschinelles Lernen: Symbolische Ansätze

Entscheidungsbäume aus großen Datenbanken: SLIQ

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),

2. Lernen von Entscheidungsbäumen

Mathematische Grundlagen III

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Moderne Methoden der KI: Maschinelles Lernen

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

Maschinelles Lernen: Symbolische Ansätze

8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick

Prädiktion und Klassifikation mit

fuzzy-entscheidungsbäume

Data Mining - Wiederholung

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Maschinelles Lernen: Symbolische Ansätze

Bayes sches Lernen: Übersicht

Pareto optimale lineare Klassifikation

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Bayes sches Lernen: Übersicht

Maschinelles Lernen: Symbolische Ansätze

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

3.3 Nächste-Nachbarn-Klassifikatoren

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

Lineare Regression. Volker Tresp

4. OBDDs und Modellüberprüfung

11. Übung Knowledge Discovery

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Moderne Methoden der KI: Maschinelles Lernen

Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen

Maschinelles Lernen Entscheidungsbäume

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Entscheidungsbaum-Lernen: Übersicht

Analytics Entscheidungsbäume

Splitting. Impurity. c 1. c 2. c 3. c 4

Vorlesung Wissensentdeckung

Logistische Regression

Reinforcement Learning

Mathematische Grundlagen III

Softwareprojektpraktikum Maschinelle Übersetzung

4 Induktion von Regeln

Kapitel L:II. II. Aussagenlogik

Erfüllbarkeit und Allgemeingültigkeit

Formale Grundlagen der Informatik 1 Kapitel 16 Normalformen und Hornformeln

Vorlesung Wissensentdeckung

Künstliche Intelligenz Maschinelles Lernen

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Vorlesung Wissensentdeckung

Greedy Algorithms - Gierige Algorithmen

Data Warehousing und Data Mining

Grundlagen des Maschinellen Lernens Kapitel 4: PAC Lernen

Entscheidungsverfahren für die Software-Verifikation. 4 - BDDs

Symbolisches Lernen in Go

Künstliche Intelligenz Maschinelles Lernen

Grundzüge DS & Alg (WS14/15) Lösungsvorschlag zu Aufgabenblatt 3. Aufgabe 1. (a) nicht-heap (b) Heap 25. (c) Beinahe-Heap 9.

Theoretische Informatik 1

Repetitive Strukturen

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Von schwachen zu starken Lernern

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Data Mining auf Datenströmen Andreas M. Weiner

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Teil 2.2: Lernen formaler Sprachen: Hypothesenräume

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier

- Theorie der uninterpretierten

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Lernmodul 7 Algorithmus von Dijkstra

Konzepte der AI: Maschinelles Lernen

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Policy Learning Teil 2. von Susanne Schilling

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Wissensentdeckung in Datenbanken

Algorithmische Bioinformatik 1

Algorithmen für OBDD s. 1. Reduziere 2. Boole sche Operationen

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

, Data Mining, 2 VO Sommersemester 2008

Grundlagen der Künstlichen Intelligenz

Algorithmen und Datenstrukturen

Aussagenlogik. Übersicht: 1 Teil 1: Syntax und Semantik. 2 Teil 2: Modellierung und Beweise. Aussagenlogik H. Kleine Büning 1/37

Der Alpha-Beta-Algorithmus

NICHTRESTRINGIERTE OPTIMIERUNG

Einführung in das Maschinelle Lernen I

Unüberwachte Nächste Nachbarn

Transkript:

Lernen von Klassifikationen Gegeben: Trainingsbeispiele: Paare der Form (x i, f(x i )) Gesucht: Funktion f, die die Trainingsbeispiele klassifiziert. (a): Lernen mit Trainingsdaten (b): Genauigkeitsüberprüfung mit Testdaten 1

Aspekte der Klassifikationslernens Datenvorverarbeitung: Datensäuberung (Reduktion von Rauschen und fehlenden Werten) Relevanz-Analyse Datentransformation (z.b. Verallgemeinerung mit Konzept-Hierarchien, Verallgemeinerung numerischer Werte, Normalisierung) Kriterien zum Vergleich von Klassifikationslernverfahren: Vorhersagegenauigkeit Effizienz Robustheit Skalierbarkeit Interpretierbarkeit Inkrementalität (Bei großen Datenmengen:, bei kleinen: ) Verfahren: Induktion von Entscheidungsbäumen (ID3) und Regeln [Bayes Theorem, Bayessche Netze] [K-nearest neighbor und fallbasierte Klassifikation] [Perceptrons, Backpropagation] lineare und multiple Regression, [nichtlineare Regression] Versionenraumlernen, Stern-Methode 2

Einteilung von Lernverfahren Lernen als Suche Man kann sich den Lernprozess häufig als Suche nach einer geeigneten Hypothese in einem vorgegebenen Hypothesenraum vorstellen. Mögliche Suchstrategien sind: Hill-Climbing-Suche (Greedy-Algorithmen): Allgemeine Hypothesen werden schrittweise spezialisiert (z.b. ID3, Star- Methode) Breitensuche mit schrittweiser Verfeinerung (z.b. Apriori- Algorithmus, Versionenraumlernen) Gradientensuche (Gradientenabstieg): Wenn Hypothesenräume aus Funktionen mit vorgegebener Struktur und numerischen, zu lernenden Parametern bestehen, werden die Parameter häufig schrittweise in Richtung der stärksten Fehlerminimierung verändert (z.b. Perceptron, Backpropagation). Stochastische Suche: Suche, die auch größere Sprünge im Hypothesenraum zulässt (z.b. simulated annealing, genetische Algorithmen). Lernen als Berechnung: Funktionen mit vorgegebener Struktur und numerischen, zu lernenden Parametern können auch direkt durch Formeln berechnet werden (z.b. Regression, Bayes Theorem). Lernen als verzögerte Abstraktion (lazy abstraction): Statt die Lernbeispiele zu verallgemeinern und die abstrahierten Strukturen zur Klassifikation neuer Fälle zu nutzen, kann man auch die Beispiele unverändert lassen und erst bei der Klassifikation neuer Fälle Verallgemeinerungswissen anwenden (z.b. k-nearest-neighbor, fallbasiertem Schließen). 3

Induktion von Entscheidungsbäumen Algorithmus: Input: The training samples, samples, represented by discrete-valued attributes; the set of candidate attributes, attribute-list. Output: A decision tree. Method: (1) create a node N; (2) if samples are all of the same class, C then (3) return N as a leaf node labeled with the class C; (4) if attribute-list is empty then (5) return N as a leaf node labeled with the most common class in samples; // majority voting (6) select test-attribute, the attribute among attribute-list with the highest information gain; (7) label node N with test-attribute; (8) for each known value a i of test-attribute // sample partition (9) grow a branch from node N for the condition test-attribute = a i ; (10) let s i be the set of samples in samples for which test-attribute = a i ; // a partition (11) if s i is empty then (12) attach a leaf labeled with the most common class in samples; (13) else attach the node returned by Generate-decision-tree(s i, attribute-list-test-attribute); highest information gain: e.g. entropy 4

Beispiel: Berechnung des Attributes mit größtem Informationsgewinn: Erwartete Information: 9:5 0,94 (-9/14 log 2 9/14-5/14 log 2 5/14) Informationsgewinn (Alter): 30: 2:3; 31-40: 4:0; >40: 3:2 0,25 Informationsgewinn (Einkommen): 0,03 Informationsgewinn (Student): 0,15 Informationsgewinn (Kreditbewertung): 0,05 5

Beschneiden des Baumes Problem: Wegen Anomalien (Ausreißer, Rauschen) sind generierte Entscheidungsbäume oft überspezialisiert. Lösung: Abschneiden von weniger relevanten Zweigen im Baum und Einfügen der häufigsten Klasse in neuer Menge als Lösung. Ansatz1 (Prepruning): Während der Generierung wird bewertet, ob sich eine weitere Aufspaltung lohnt. Das wird mit einem Schwellwert entschieden, der auf Entropie-Gewinn oder erweitertem Chi-Quadrat-Test basiert. Problem: Festlegung des Schwellwertes. Ansatz2 (Postpruning): Ein voll ausgewachsener Baum wird nachträglich beschnitten. Ein Zweig wird entfernt, wenn dadurch die erwartete Fehlerrate sinkt (oder nur unwesentlich steigt). Als Kriterium kann auch die resultierende Baumkomplexität dienen. 6

Generierung von Regeln aus Entscheidungsbäumen Jeder Pfad eines Entscheidungsbaumes kann als eigene Regel geschrieben werden. Beispiel: Entscheidungsbaum: äquivalente Regeln: IF Age 30 AND Student = no THEN buys_computer = no IF Age 30 AND Student = yes THEN buys_computer = yes IF Age 31..40 THEN buys_computer = yes IF Age > 40 AND credit_rating = exc. THEN buys_computer = no IF Age > 40 AND credit_rating = fair THEN buys_computer = yes Beschneiden von Regeln: Beschneiden entspricht Weglassen einer Vorbedingung. Als Bewertungskriterium dient, ob die Genauigkeit der Regel sinkt. Da nach Beschneiden eventuell nicht mehr alle Situationen abgedeckt werden, wird eine (oder mehrere spezialisierte) Default-Regeln hinzugefügt, die die im jeweiligen Kontext häufigste Klasse liefert. 7

Verbesserungen zum Entscheidungsbaumlernen Behandlung numerischer Attribute: Herausfinden von guter Intervall-Aufteilung Alternativen zum Entropie-Maß: Da es Attribute mit vielen Alternativen bevorzugt, wurden andere Maße für Informationsgewinn erprobt, z.b. erweiterter Chi-Quadrat-Test. Behandlung unbekannter Attributwerte: (s.o.) Reduktion von Fragmentierung: Beschneiden, Verwenden nur von binären Aufspaltungen (führt zur potentiellen Wiederholung von Attributen). Vorverarbeitung durch Eliminierung irrelevanter Attribute bzw. Konstruktion neuer, aussagekräftigerer Attribute aus den alten. Inkrementeller Aufbau durch kontinuierliche Restrukturierung Skalierung auf große Datenmengen (nicht hauptspeicherresident) 8

Versionenraumlernen Idee: Least Commitment: Es werden alle Hypothesen repräsentiert, die noch mit den Beispielen konsistent sind. Problem: Wie kann man alle konsistenten Hypothesen effizient repräsentieren (Analog: Wie kann man alle reellen Zahlen zwischen 1 und 2 repräsentieren?)? Lösung: Durch Angabe einer Ober- und Untergrenze entlang der Generalisierungs-/Spezialisierungs-Ordnung! Die Obergrenze nennen wird G-Menge (most general boundary; alle allgemeineren Hypothesen sind inkonsistent); die Untergrenze S-Menge (most specific boundary; alle spezielleren Hypothesen sind ebenfalls inkonsistent). Im allgemeinen sind die Mengen eine Disjunktion von Hypothesen, d.h. S-Menge sei S1 v... v Sn und G-Menge sei G1 v... v Gm. 9

Algorithmus Versionenraumlernen Initialisierung: Setze die S-Menge auf "Falsch" und die G- Menge auf "Wahr". Aktualisierung: Für jedes neue Beispiel B tue: Wenn B falsch positiv für ein S i dann entferne S i aus S-Menge. Wenn B falsch negativ für ein G i dann entferne G i aus G-Menge. Wenn B falsch negativ für ein S i dann ersetze S i durch seine direkten Generalisierungen. Wenn B falsch positiv für ein G i dann ersetze G i durch seine direkten Spezialisierungen. bis einer von 3 Fällen eintritt: 1. Es bleibt nur ein Konzept im Versionenraum übrig -> Lösung 2. Entweder G oder S enthalten die leere Menge -> keine Lösung 3. Es gibt keine Beispiele mehr, ohne das G und S zusammenfallen, -> viele Lösungen (alle Hypothesen zwischen G & S). 10

Beispiel für Versionenraumlernen 1 2 3 4 5 Herkunft Japan Japan Japan USA Japan Hersteller Honda Toyota Toyota Chrysler Honda Farbe Blau Grün Blau Rot Weiß Dekade 1980 1970 1990 1980 1980 Typ Normal Sport Normal Normal Normal Klasse + - + - + 1. Beispiel: G: (X1, X2, X3, X4, X5) S: (Japan, Honda, Blau, 1980, Normal) 2. Beispiel: G: (X1, Honda, X3, X4, X5) (X1, X2, Blau, X4, X5) (X1, X2, X3, 1980, X5) (X1, X2, X3, X4, Normal) S: (Japan, Honda, Blau, 1980, Normal) 3. Beispiel: G: (X1, X2, Blau, X4, X5) (X1, X2, X3, X4, Normal) S: (Japan, X2, Blau, X4, Normal) 4. Beispiel: G: (Japan, X2, Blau, X4, X5) (Japan, X2, X3, X4, Normal) S: (Japan, X2, Blau, X4, Normal) 5. Beispiel: G: (Japan, X2, X3, X4, Normal) S: (Japan, X2, X3, X4, Normal) 11

Diskussion Versionenraumlernen inkrementelles Verfahren Least-Commitment-Breitensuche: Großer Speicherbedarf Problematisches Lernen disjunktiver Konzepte (z.b. grün oder blau) Konzepthierarchien (z.b. dunkle und helle Farben) erfordert konsistente Beispiele 12

Stern(Star)-Methode Lernt Regeln für Beispiele (typischerweise in disjunktiver Normalform, DNF) und kann Anzahl der Elemente in Konjunktionen oder Disjunktionen minimieren. Def.: Ein Stern von einer Menge von positiven und negativen Beispielen ist die Menge aller maximal allgemeinen Ausdrücke, die alle positiven Beispiele, aber keine negativen Beispiele überdecken. Def.: Ein reduzierter Stern ist ein Stern, der nicht mehr als eine maximale Anzahl von Ausdrücken hat. Stern-Algorithmus: Eingabe: Menge von positiven (P) und negativen (N) Beispielen Ausgabe: Beschreibung, die P, aber nicht N überdeckt. 1. Wähle zufällig ein positives Beispiel. 2. Generiere daraus reduzierte Sterne, die keine negativen Beispiele überdecken. Verwende dabei Verallgemeinerungs- Regeln und - falls vorhanden - Hintergrundwissen. 3. Wähle aus den reduzierten Sternen den besten Ausdruck aus. 4. Falls der Ausdruck alle positiven Beispiele überdeckt, gehe zu Schritt 6. 5. Andernfalls, entferne aus P alle überdeckten Beispiele und wiederhole das Verfahren mit der Restmenge von P. 6. Die Disjunktion der gefundenen Ausdrücke ist eine vollständige und konsistente Beschreibung der Beispiele. Versuche die Beschreibung mit Reformulierungs- und Zusammenfassungs-Regeln zu vereinfachen. Varianten: Verschiedene Methoden zur Ausdrucksgenerierung (Schritt 1-2) Auswahl des besten Ausdrucks (Schritt 3): - Korrekt klassifizierte Beispiele in Relation zu allen durch den Ausdruck überdeckten Beispiele. - Laplace Fehler-Schätzung: = (n - nc + k - 1) / (n + k) wobei: n = alle überdeckten Beispiele, nc = positive Beispiele, k = Anzahl der betrachteten Klassen im Problem. - Informationsgewinn, z.b. Entropie-Maß wie bei ID3 13

Lineare & multiple Regression Lineare Regression ermittelt einen linearen Zusammenhang (d.h. eine Regressionsgerade) zwischen zwei Variablen, einer Antwort- Variable Y und einer Vorhersage-Variable X: Y = α + βx α und β sind die Regressionskoeffizienten. Sie können mit der least-square-methode gut approximiert werden: wobei x = Durchschnitt von x 1, x 2... x s und y = Durchschnitt von y 1, y 2... y s Multiple Regression: Erweiterung auf mehrere Vorhersagevariablen, z.b. Berechnungsverfahren für multiple Regression: Least-Square- Methode ist übertragbar. 14

Beispiel für lineare Regression Ausgangsdaten: Berufsjahre (X, Einheit: Jahre) und Gehalt von Uni-Absolventen (Y, Einheit: K ) 3 30 8 57 9 64 13 72 3 36 6 43 11 59 21 90 1 20 16 83 1. Datenplot suggeriert linearen Zusammenhang: 2. Ausrechnen der Mittelwerte: x = 9,1 und y = 55,4 3. Ausrechnen der Regressionskoeffizienten: Daraus folgt z.b. das bei 10 Berufsjahren ein durchschnittliches Gehalt von 58600 resultiert. (58,6 = 23,6 + 10*3,5) 15