Lernen von Klassifikationen

Transkript

1 Lernen von Klassifikationen Gegeben: Trainingsbeispiele: Paare der Form (x i, f(x i )) Gesucht: Funktion f, die die Trainingsbeispiele klassifiziert. (a): Lernen mit Trainingsdaten (b): Genauigkeitsüberprüfung mit Testdaten 1

2 Aspekte der Klassifikationslernens Datenvorverarbeitung: Datensäuberung (Reduktion von Rauschen und fehlenden Werten) Relevanz-Analyse Datentransformation (z.b. Verallgemeinerung mit Konzept-Hierarchien, Verallgemeinerung numerischer Werte, Normalisierung) Kriterien zum Vergleich von Klassifikationslernverfahren: Vorhersagegenauigkeit Effizienz Robustheit Skalierbarkeit Interpretierbarkeit Inkrementalität (Bei großen Datenmengen:, bei kleinen: ) Verfahren: Induktion von Entscheidungsbäumen (ID3) und Regeln [Bayes Theorem, Bayessche Netze] [K-nearest neighbor und fallbasierte Klassifikation] [Perceptrons, Backpropagation] lineare und multiple Regression, [nichtlineare Regression] Versionenraumlernen, Stern-Methode 2

3 Einteilung von Lernverfahren Lernen als Suche Man kann sich den Lernprozess häufig als Suche nach einer geeigneten Hypothese in einem vorgegebenen Hypothesenraum vorstellen. Mögliche Suchstrategien sind: Hill-Climbing-Suche (Greedy-Algorithmen): Allgemeine Hypothesen werden schrittweise spezialisiert (z.b. ID3, Star- Methode) Breitensuche mit schrittweiser Verfeinerung (z.b. Apriori- Algorithmus, Versionenraumlernen) Gradientensuche (Gradientenabstieg): Wenn Hypothesenräume aus Funktionen mit vorgegebener Struktur und numerischen, zu lernenden Parametern bestehen, werden die Parameter häufig schrittweise in Richtung der stärksten Fehlerminimierung verändert (z.b. Perceptron, Backpropagation). Stochastische Suche: Suche, die auch größere Sprünge im Hypothesenraum zulässt (z.b. simulated annealing, genetische Algorithmen). Lernen als Berechnung: Funktionen mit vorgegebener Struktur und numerischen, zu lernenden Parametern können auch direkt durch Formeln berechnet werden (z.b. Regression, Bayes Theorem). Lernen als verzögerte Abstraktion (lazy abstraction): Statt die Lernbeispiele zu verallgemeinern und die abstrahierten Strukturen zur Klassifikation neuer Fälle zu nutzen, kann man auch die Beispiele unverändert lassen und erst bei der Klassifikation neuer Fälle Verallgemeinerungswissen anwenden (z.b. k-nearest-neighbor, fallbasiertem Schließen). 3

4 Induktion von Entscheidungsbäumen Algorithmus: Input: The training samples, samples, represented by discrete-valued attributes; the set of candidate attributes, attribute-list. Output: A decision tree. Method: (1) create a node N; (2) if samples are all of the same class, C then (3) return N as a leaf node labeled with the class C; (4) if attribute-list is empty then (5) return N as a leaf node labeled with the most common class in samples; // majority voting (6) select test-attribute, the attribute among attribute-list with the highest information gain; (7) label node N with test-attribute; (8) for each known value a i of test-attribute // sample partition (9) grow a branch from node N for the condition test-attribute = a i ; (10) let s i be the set of samples in samples for which test-attribute = a i ; // a partition (11) if s i is empty then (12) attach a leaf labeled with the most common class in samples; (13) else attach the node returned by Generate-decision-tree(s i, attribute-list-test-attribute); highest information gain: e.g. entropy 4

5 Beispiel: Berechnung des Attributes mit größtem Informationsgewinn: Erwartete Information: 9:5 0,94 (-9/14 log 2 9/14-5/14 log 2 5/14) Informationsgewinn (Alter): 30: 2:3; 31-40: 4:0; >40: 3:2 0,25 Informationsgewinn (Einkommen): 0,03 Informationsgewinn (Student): 0,15 Informationsgewinn (Kreditbewertung): 0,05 5

6 Beschneiden des Baumes Problem: Wegen Anomalien (Ausreißer, Rauschen) sind generierte Entscheidungsbäume oft überspezialisiert. Lösung: Abschneiden von weniger relevanten Zweigen im Baum und Einfügen der häufigsten Klasse in neuer Menge als Lösung. Ansatz1 (Prepruning): Während der Generierung wird bewertet, ob sich eine weitere Aufspaltung lohnt. Das wird mit einem Schwellwert entschieden, der auf Entropie-Gewinn oder erweitertem Chi-Quadrat-Test basiert. Problem: Festlegung des Schwellwertes. Ansatz2 (Postpruning): Ein voll ausgewachsener Baum wird nachträglich beschnitten. Ein Zweig wird entfernt, wenn dadurch die erwartete Fehlerrate sinkt (oder nur unwesentlich steigt). Als Kriterium kann auch die resultierende Baumkomplexität dienen. 6

7 Generierung von Regeln aus Entscheidungsbäumen Jeder Pfad eines Entscheidungsbaumes kann als eigene Regel geschrieben werden. Beispiel: Entscheidungsbaum: äquivalente Regeln: IF Age 30 AND Student = no THEN buys_computer = no IF Age 30 AND Student = yes THEN buys_computer = yes IF Age THEN buys_computer = yes IF Age > 40 AND credit_rating = exc. THEN buys_computer = no IF Age > 40 AND credit_rating = fair THEN buys_computer = yes Beschneiden von Regeln: Beschneiden entspricht Weglassen einer Vorbedingung. Als Bewertungskriterium dient, ob die Genauigkeit der Regel sinkt. Da nach Beschneiden eventuell nicht mehr alle Situationen abgedeckt werden, wird eine (oder mehrere spezialisierte) Default-Regeln hinzugefügt, die die im jeweiligen Kontext häufigste Klasse liefert. 7

8 Verbesserungen zum Entscheidungsbaumlernen Behandlung numerischer Attribute: Herausfinden von guter Intervall-Aufteilung Alternativen zum Entropie-Maß: Da es Attribute mit vielen Alternativen bevorzugt, wurden andere Maße für Informationsgewinn erprobt, z.b. erweiterter Chi-Quadrat-Test. Behandlung unbekannter Attributwerte: (s.o.) Reduktion von Fragmentierung: Beschneiden, Verwenden nur von binären Aufspaltungen (führt zur potentiellen Wiederholung von Attributen). Vorverarbeitung durch Eliminierung irrelevanter Attribute bzw. Konstruktion neuer, aussagekräftigerer Attribute aus den alten. Inkrementeller Aufbau durch kontinuierliche Restrukturierung Skalierung auf große Datenmengen (nicht hauptspeicherresident) 8

9 Versionenraumlernen Idee: Least Commitment: Es werden alle Hypothesen repräsentiert, die noch mit den Beispielen konsistent sind. Problem: Wie kann man alle konsistenten Hypothesen effizient repräsentieren (Analog: Wie kann man alle reellen Zahlen zwischen 1 und 2 repräsentieren?)? Lösung: Durch Angabe einer Ober- und Untergrenze entlang der Generalisierungs-/Spezialisierungs-Ordnung! Die Obergrenze nennen wird G-Menge (most general boundary; alle allgemeineren Hypothesen sind inkonsistent); die Untergrenze S-Menge (most specific boundary; alle spezielleren Hypothesen sind ebenfalls inkonsistent). Im allgemeinen sind die Mengen eine Disjunktion von Hypothesen, d.h. S-Menge sei S1 v... v Sn und G-Menge sei G1 v... v Gm. 9

10 Algorithmus Versionenraumlernen Initialisierung: Setze die S-Menge auf "Falsch" und die G- Menge auf "Wahr". Aktualisierung: Für jedes neue Beispiel B tue: Wenn B falsch positiv für ein S i dann entferne S i aus S-Menge. Wenn B falsch negativ für ein G i dann entferne G i aus G-Menge. Wenn B falsch negativ für ein S i dann ersetze S i durch seine direkten Generalisierungen. Wenn B falsch positiv für ein G i dann ersetze G i durch seine direkten Spezialisierungen. bis einer von 3 Fällen eintritt: 1. Es bleibt nur ein Konzept im Versionenraum übrig -> Lösung 2. Entweder G oder S enthalten die leere Menge -> keine Lösung 3. Es gibt keine Beispiele mehr, ohne das G und S zusammenfallen, -> viele Lösungen (alle Hypothesen zwischen G & S). 10

11 Beispiel für Versionenraumlernen Herkunft Japan Japan Japan USA Japan Hersteller Honda Toyota Toyota Chrysler Honda Farbe Blau Grün Blau Rot Weiß Dekade Typ Normal Sport Normal Normal Normal Klasse Beispiel: G: (X1, X2, X3, X4, X5) S: (Japan, Honda, Blau, 1980, Normal) 2. Beispiel: G: (X1, Honda, X3, X4, X5) (X1, X2, Blau, X4, X5) (X1, X2, X3, 1980, X5) (X1, X2, X3, X4, Normal) S: (Japan, Honda, Blau, 1980, Normal) 3. Beispiel: G: (X1, X2, Blau, X4, X5) (X1, X2, X3, X4, Normal) S: (Japan, X2, Blau, X4, Normal) 4. Beispiel: G: (Japan, X2, Blau, X4, X5) (Japan, X2, X3, X4, Normal) S: (Japan, X2, Blau, X4, Normal) 5. Beispiel: G: (Japan, X2, X3, X4, Normal) S: (Japan, X2, X3, X4, Normal) 11

12 Diskussion Versionenraumlernen inkrementelles Verfahren Least-Commitment-Breitensuche: Großer Speicherbedarf Problematisches Lernen disjunktiver Konzepte (z.b. grün oder blau) Konzepthierarchien (z.b. dunkle und helle Farben) erfordert konsistente Beispiele 12

13 Stern(Star)-Methode Lernt Regeln für Beispiele (typischerweise in disjunktiver Normalform, DNF) und kann Anzahl der Elemente in Konjunktionen oder Disjunktionen minimieren. Def.: Ein Stern von einer Menge von positiven und negativen Beispielen ist die Menge aller maximal allgemeinen Ausdrücke, die alle positiven Beispiele, aber keine negativen Beispiele überdecken. Def.: Ein reduzierter Stern ist ein Stern, der nicht mehr als eine maximale Anzahl von Ausdrücken hat. Stern-Algorithmus: Eingabe: Menge von positiven (P) und negativen (N) Beispielen Ausgabe: Beschreibung, die P, aber nicht N überdeckt. 1. Wähle zufällig ein positives Beispiel. 2. Generiere daraus reduzierte Sterne, die keine negativen Beispiele überdecken. Verwende dabei Verallgemeinerungs- Regeln und - falls vorhanden - Hintergrundwissen. 3. Wähle aus den reduzierten Sternen den besten Ausdruck aus. 4. Falls der Ausdruck alle positiven Beispiele überdeckt, gehe zu Schritt Andernfalls, entferne aus P alle überdeckten Beispiele und wiederhole das Verfahren mit der Restmenge von P. 6. Die Disjunktion der gefundenen Ausdrücke ist eine vollständige und konsistente Beschreibung der Beispiele. Versuche die Beschreibung mit Reformulierungs- und Zusammenfassungs-Regeln zu vereinfachen. Varianten: Verschiedene Methoden zur Ausdrucksgenerierung (Schritt 1-2) Auswahl des besten Ausdrucks (Schritt 3): - Korrekt klassifizierte Beispiele in Relation zu allen durch den Ausdruck überdeckten Beispiele. - Laplace Fehler-Schätzung: = (n - nc + k - 1) / (n + k) wobei: n = alle überdeckten Beispiele, nc = positive Beispiele, k = Anzahl der betrachteten Klassen im Problem. - Informationsgewinn, z.b. Entropie-Maß wie bei ID3 13

14 Lineare & multiple Regression Lineare Regression ermittelt einen linearen Zusammenhang (d.h. eine Regressionsgerade) zwischen zwei Variablen, einer Antwort- Variable Y und einer Vorhersage-Variable X: Y = α + βx α und β sind die Regressionskoeffizienten. Sie können mit der least-square-methode gut approximiert werden: wobei x = Durchschnitt von x 1, x 2... x s und y = Durchschnitt von y 1, y 2... y s Multiple Regression: Erweiterung auf mehrere Vorhersagevariablen, z.b. Berechnungsverfahren für multiple Regression: Least-Square- Methode ist übertragbar. 14

15 Beispiel für lineare Regression Ausgangsdaten: Berufsjahre (X, Einheit: Jahre) und Gehalt von Uni-Absolventen (Y, Einheit: K ) Datenplot suggeriert linearen Zusammenhang: 2. Ausrechnen der Mittelwerte: x = 9,1 und y = 55,4 3. Ausrechnen der Regressionskoeffizienten: Daraus folgt z.b. das bei 10 Berufsjahren ein durchschnittliches Gehalt von resultiert. (58,6 = 23,6 + 10*3,5) 15