Wie können Computer lernen?

Größe: px

Ab Seite anzeigen:

Download "Wie können Computer lernen?"

Victoria Martin
vor 6 Jahren
Abrufe

1 Wie können Computer lernen? Ringvorlesung Perspektiven der Informatik, Prof. Jun. Matthias Hein Department of Computer Science, Saarland University, Saarbrücken, Germany

2 Inferenz I Wie lernen wir? Wie wird neues Wissen gewonnen? In den Naturwissenschaften unterscheidet man zwei Typen von Inferenz: Induktive Inferenz: Lernen von Zusammenhängen durch Beobachtungen. Deduktive Inferenz: Ableitung spezifischer Aussagen von allgemeinen Prinzipien (Axiomen). 1

3 Inferenz II Deduktive Inferenz: Mathematik: System aus Axiomen Ableitung von Theoremen Physik: Postulate über Natur Naturgesetze Methoden in der Künstlichen Intelligenz Logik Automatisches Beweisen von Theoremen Probleme: fuer nicht-mathematische Probleme existiert keine axiomatische Darstellung 2

4 Inferenz III Indduktive Inferenz: Induktive Inferenz ist das zentrale Mittel in den Naturwissenschaften. Vorgehensweise: 1. Sammeln von Beobachtungen. 2. Modellbildung. 3. Vorhersage Falsifikation Induktive Aussagen werden verworfen aber nie verifiziert. Maschinelles Lernen versucht den Prozess der Induktion zu automatisieren. 3

5 Was ist maschinelles Lernen? Lernproblem: Erkennung von handschriftlichen Zahlen 4

6 Was ist maschinelles Lernen? Terminologie im Maschinellen Lernen: Eingabe Pixeldarstellung des Bildes (Jedes Bild liegt in R ) Merkmal Eigenschaft der Eingabe (hier: Grauwert eines bestimmten Pixels Ausgabe eine Zahl {1, 2,..., 10} = Mehrklassenproblem Klassifikator eine Funktion von Eingabe nach Ausgabe, hier f : R 784 {1,2,...,10}. 5

7 Was ist maschinelles Lernen? Terminologie im Maschinellen Lernen: Training Test Generalisierung Modell Konstruktion des Klassifikators (Optimierungsproblem) Zählen der Fehler auf neuen Bildern Klassifikator macht wenig/keine Fehler auf neuen Bildern Modell über den Zusammenhang zwischen Bild und Klasse 6

8 Anwendungen von maschinellem Lernen Die wichtigsten Anwendungsgebiete sind: Bioinformatik, Computer Vision/Image Processing/Computer Graphics, Information Retrieval/Collaborative Filtering, spam filter/intrusion detection, Robotik, jedes Problem wo Daten analysiert werden müssen. Mehr und mehr Daten werden gesammelt. Ein Mensch allein kann sie nicht analysieren. = Nachfrage nach maschinellem Lernen steigt! 7

9 Maschinelles Lernen Man unterscheidet zwischen drei Arten des Lernens: überwachtes Lernen, halbüberwachtes Lernen, unüberwachtes Lernen. Im folgenden: X ist der Eingaberaum, X i sind die Trainingseingaben, Y ist der Ausgaberaum, Y i sind die Trainingsausgaben. 8

10 Überwachtes Lernen Überwachtes Lernen: Gegeben n Beobachtungen T = (X i, Y i ) n i=1 konstruiere Funktion f n : X Y. Ausgaberaum Y diskret = Klassifikation. Ausgaberaum Y = R or Y = R d = (multivariate) Regression. Ausgaberaum Y allgemeiner = Lernen mit strukturierter Ausgabe. 9

11 Unüberwachtes Lernen Unüberwachtes Lernen: Gegeben n Eingabepunkte (X i ) n i=1 : Clustering: Einteilung von (X i ) n i=1 in Gruppen ähnlicher Punkte, sogenannter Cluster. Dichtesschätzung: Schätzung der Verteilung auf X. Verwandtes Problem: Detektion von Ausreißern. Dimensionsreduktion: Konstruktion einer Abbildung φ : X R m, wobei die Dimension m des Bildraums viel kleiner als die des Eingaberaums X ist. The Abbildung sollte gewisse Eigenschaften von X erhalten z.b. Distanzen. 10

12 Statistisches Lernen I Annahme: Es existiert ein datengenerierendes Wahrscheinlichkeitsma ss P on X Y. Was bedeutet das? 1. Trainingsdaten sind eine zufällige Stichprobe von P, 2. Die Ausgaben y Y sind nicht-deterministisch, d.h. es existiert nicht notwendigerweise y = g(x). Stattdessen für ein x gibt es eine Verteilung über Y. 3. Letzteres heißt, daß eine perfekte Lösung nicht existiert. 11

13 Statistisches Lernen II Binäre Klassifikation, d.h. Y = { 1,1}, and X = R d. Die gemeinsame Dichte p(x, y) des Wahrscheinlichkeitsmaßes P auf X Y kann aufgespalten werden in Die Verteilung einer Klasse p(x y) modelliert die Verteilung der Eingaben einer Klasse. Die bedingte Verteilung p(y x) ist die Wahrscheinlichkeit für eine Klasse y gegeben die Eingabe x. Die wahrscheinlichste Klasse y wird zur Vorhersage verwendet. Die Randverteilung p(x) modelliert die Verteilung der Eingabe x über alle Klassen. Die Klassenwahrscheinlichkeiten p(y). Die Gesamtwahrscheinlichkeit von Klasse y. 12

14 Statistical Learning III Lernproblem: Vorhersage des Geschlechts, Y = {male,female}, basierend auf der Körpergröße (Eingaberaum: X = R) p(x man) p(x woman) p(x) p(woman x) 3 Density value x 13

15 But! 14

16 Herausforderungen im maschinellen Lernen Herausforderungen im maschinellen Lernen: Was für Merkmale sind diskriminativ? Wie kann man Vorwissen über das Problem integrieren? Komplexität, curse of dimensionality, over-and underfitting Generalisierung? 15

17 Overfitting and underfitting I Regression: Eingabe X = R, Ausgabe Y = R, Trainingsdaten (X i, Y i ) n i= True function Sampled Points Interpolation Linear Model Polynomial Model 0.5 y x Figure 1: blaue Kurve: wahre Funktion, blaue Kreise: 20 verrauschte Datenpunkte, rote Kurve: Interpolation der Trainingspunkte, black solid line: lineares Modell, dotted black line: Polynomiales Modell. 16

18 Overfitting and underfitting II Mit Hilfe von Interpolation kann man die Daten immer perfekt anpassen! (falls keine Widersprüche, d.h. Y i Y j für X i = X j ), = Overfitting der Daten. = keine Generalisierung ein sehr einfaches Modell z.b. ein lineares führt zu underfitting, d.h. die gelernte Funktion kann den Zusammenhang von Eingabe und Ausgabe nicht darstellen. = keine Generalisierung 17

19 Komplexität einer Funktion Figure 2: Links: Relativ einfache Function, sehr glatt, Rechts: Komplexe Funktion, weniger glatt. 18

20 Ockham s Rasiermesser Allgemeines Prinzip: bevorzuge weniger komplexe Funktion falls die Daten gleich gut von beiden Funktionen erklärt werden. Occam s razor : Pluralitas non est ponenda sine necessitas. (Plurality should not be posited without necessity.), oder ähnlich: Von zwei Theorien, die die gleichen Vorhersagen treffen, ist die einfachere, zu bevorzugen. 19

21 Curse of dimensionality I Oft hat man sehr viele Merkmale = Eingaberaum ist hoch-dimensional. Naiver Histogramschätzer auf X = [0,1] d. unterteile das Interval [0,1] jeder Dimension in k gleichgroße Intervalle, das ergibt k d verschiedene Zellen, Klassifiziere jede Zelle durch Mehrheitsentscheidung. Um den ganzen Eingaberaum klassifizieren zu können, benötigt man wenigstens n = k d Traingsdaten. die Anzahl der benötigten Trainingsdaten steigt exponentiell mit der Dimension! Curse of dimensionality! 20

22 Curse of dimensionality III In 10 Dimensionen benötigt man mit k = 10 schon mindestens n = samples. Lernen ist unmöglich (mit dem naiven Histogramm-Schätzer). Wie can man den curse of dimensionality vermeiden? die Eingabe-Merkmale sind nicht unabhängig voneinander, Der Eingabe-Ausgabe-Zusammenhang ist einfach d.h. Ausgabe verändert sich nur wenig wenn sich die Eingabe verändert (glatte Funktion). In diesen Fällen ist Lernen immer noch möglich. 21

23 Curse of dimensionality IV Distanzen sind alle fast gleich! Lemma 1. Sei x, y R d und ɛ 1, ɛ 2 N(0, σ 2 ) und X = x + ɛ 1 and Y = y + ɛ 2, E X Y 2 = x y 2 + 2dσ 2. Datenpunkte sind alle fast gleich voneinander entfernt, Differenzierung zwischen nah und fern existiert nicht mehr! ähnlich: In hohen Dimensionen ist das Volumen eines Balls unterhalb der Oberfläche konzentriert. 22

24 Zusammenfassung Computer können lernen aber vollständig automatisches Lernen derzeit noch nicht möglich. 23

25 Forschungsthemen Aktuelle Forschungsthemen: strukturierte Eingabe (Graphen, Bäume,...), strukturierte Ausgabe, Transfer von Wissen von einer Aufgabe auf die nächste, Lernen von kausalen Zusammenhängen. Aktuelle/Neue Anwendungen: Machine Learning in Computer Games, Machine Learning in Software Engineering. 24

26 Matting User-guided image segmentation - Example of Semisupervised Learning: Left: Input Image with user labels, Right: Image segmentation 25

27 Geometric modelling Left: Thin-Plate splines + Proj., Middle: Harmonic energy, Right: Eells energy (the Eells energy is distortion minimizing) 26

Ähnliche Dokumente

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation