Die Datenmatrix für Überwachtes Lernen

Größe: px

Ab Seite anzeigen:

Download "Die Datenmatrix für Überwachtes Lernen"

Eike Siegel
vor 6 Jahren
Abrufe

1 Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x i,0,..., x i,m 1 ) T i-ter Eingangsvektor x i,j j-te Komponente von x i y i i-te Zielgröße d i = (x i,0,..., x i,m 1, y i ) T i-tes Muster D = {d 1,..., d N } (Trainings-) Datensatz z Testeingangsvektor t Unbekannte Testzielgröße zu z X = (x 1,... x N ) T design matrix 1

2 Das Lernmodell 2

3 Lineare Regression Volker Tresp 3

4 Verschiedene statistische Prinzipien des Maschinellen Lernens Minimierung des empirischen Risikos Grundlage der Statistischen Lerntheorie Regression: Methode der kleinsten Quadrate (Gauss) Regularisierungstheorie 4

5 Empirische Risiko Minimierung (ERM) Überwachtes Lernen: Die Zielgröße Y soll anhand von Eingangsvariablen X vorhergesagt werden Die einzige wesentliche Annahme ist, dass P (x, y) stationär (fest und unbekannt) ist Man definiert eine Klasse von Lernmaschinen (Funktionenklasse) Beispiel: Funktionen f(x, w) mit Parametervektor w Man definiert eine Verlustfunktion (Fehlerfunktion). Bei der Regression ist der quadratische Fehler gebräuchlich loss(y, f(x, w)) = (y f(x, w)) 2 5

6 Empirische Risiko Minimierung (2) Ziel ist es, aus der Menge der ausgewählten Funktionenklasse diejenige Funktion zu finden, die den erwartete Verlust minimiert, der durch das Risikofunktional R(w) = loss(y, f(x, w))p (x, y) dxdy definiert ist Im Falle des quadratischen Fehlermaßes ergibt sich R(w) = (y f(x, w)) 2 P (x, y) dxdy 6

7 Empirische Risiko Minimierung (3) In der Wahrscheinlichleitslehre (Probability) nimmt man an, dass P (x, y) bekannt ist; eine typische Aufgabe ist es dann, z.b. den besten linearen Schätzer zu finden In der Statistik ist P (x, y) unbekannt; man kennt nur einen Trainingsdatensatz (Stichprobe, sample) der Größe N, D = {(x i, y i )} N i=1 Wir nehmen an, dass die Daten i.i.d. (independent, identically distributed) sind 7

8 Empirische Risiko Minimierung (4) Folgt man dem Prinzip der empirischen Risiko Minimierung (empirical risk minimization), minimiert man im Training das empirische Risiko R(w) R emp (w) = 1 N N i=1 loss(y, f(x, w)) Definiert man als Verlustfunktion den quadratischen Fehler, ergibt sich als empirisches Risiko der mittlere quadratische Fehler der Trainingsdaten R emp (w) = 1 N wobei wir auch gleich definieren N (y i f(x i, w)) 2 i=1 J N (w) = N (y i f(x i, w)) 2 = N R emp (w) i=1 8

9 Empirische Risiko Minimierung und das Prinzip der kleinsten Quadrate Wählt man als Verlustfunktion den quadratischen Abstand, so reduziert sich das ERM Prinzip reduziert auf die Methode der kleinsten Quadrate, least squares (LS) principle) 9

10 Kleinste-Quadrate Schätzer für lineare Regression (eindimensional) Eindimensionales Modell: f(x, w) = w 0 + w 1 x w = (w 0, w 1 ) T Empirischer quadratischer Fehler: J N (w) = N (y i f(x i, w)) 2 i=1 Finde: w LS = arg min w J N(w) w 0 = 1, w 1 = 2, var(ɛ) = 1 10

11 Mehrdimensionale Lineare Regression 11

12 Das Lineare Neuron Ein lineares Modell kann man als Neuron mit linearer Übertragungsfunktion interpretieren (Adaline) Zunächst wird die Aktivierungsfunktion als gewichtete Summe der Eingangsgrössen x i berechnet zu h = M 1 j=0 w j x j Das lineare Neuron unterscheidet sich vom Perceptron durch die Übertagungsfunktion Perceptron : ŷ = sign(h) LinearesNeuron : ŷ = h 12

13 Kleinste-Quadrate Schätzer für Regression (mehrdimensional) Mehrdimensionales Modell: f(x i, w) = w 0 + M 1 j=1 w j x i,j = x T i w w = (w 0, w 1,... w M 1 ) T x i = (1, x i,1,..., x i,m 1 ) T 13

14 LS-Lösung Empirischer quadratischer Fehler: J N (w) = N (y i f(x i, w)) 2 i=1 = (y Xw) T (y Xw) y = (y 1,..., y N ) T X = x 1,0... x 1,M x N,0... x N,M 1 14

15 LS-Lösung (2) Matrix calculus: Daher J N (w) w (y Xw) = w 2(y Xw) = 2X T (y Xw) 15

16 LS-Lösung (3) Berechnung der LS-Lösung: J N (w) w = 2XT (y Xw) = 0 ŵ LS = (X T X) 1 X T y Komplexität (linear in N): O(M 3 + NM 2 ) ŵ 0 = 0.75, ŵ 1 =

17 Diskussion: Empirische Risiko Minimierung Der Vorteil des ERM Prinzips ist, dass keine Annahmen über das zugrundeliegende wahre datengenerierende Model gemacht werden müssen Die einzige wesentliche Annahme ist, dass P (x, y) stationär ist Nachteil: für ein endliches N wird ein zu komplexes Modell ausgewählt (Überanpassung, overfitting) Dies zeigt sich ebenso daran, dass ŵ LS sehr instabil sein kann (wenn M N), das heißt, sehr empfindlich auf kleine Änderungen der Daten reagiert Diesem Problem behilft man sich durch Einführung eines Strafterms R emp (w) + complexity term Regularisierungstheorie: theory of ill-conditioned problems Beispiel: complexity term = λw T w =λ i w2 i, mit λ 0 17

18 Das ERM Prinzip ist die Grundlage für die Statistical Learning Theory (VC-Theory) Hier zeigt man, dass mit hoher Wahrscheinlichkeit R(w) R emp (w) + complexity term(vc-dimension) und man wählt die Funktion aus, die rechte Seite minimiert (mehr später)

19 Regularisierungstheorie Inverse Probleme sind häufig schlecht gestellt (ill-posed): hier: Die Lösung hängt nicht stetig von den Daten ab Um das Problem numerisch zu lösen führt man Zusatzannahmen ein: Glattheit,... Tikhonov Regularisierung (Andrey Nikolayevich Tychonoff): Kompromiss zwischen Anpassung an die Daten und einer Reduktion der Norm: Ridge Regression Regularisierungstheorie: minimale Annahmen; ohne Bezug zu Probability oder Statistik! Bayes sche Interpretation: Stetigkeitsannahmen als a prior Annahme 18

20 Lineare Regression und Regularisierung Regularisierte Kostenfunktion (penalized least squares (PLS), Ridge Regression, Weight Decay): der Einfluss einer Eingangsgröße sollte klein sein J pen N N (w) = (y i f(x i, w)) 2 + λ i=1 M 1 i=0 w 2 i ŵ P en = ( X T X + λi) 1 X T y Herleitung: J pen N (w) w = 2X T (y Xw) + 2λw = 2[ X T y + (X T X + λi)w] 19

21 Lineare Regression: Regularisierung Regularisierung verringert den Einfluss von Kollinearität Kollinearität erhöht die Anzahl der Freiheitsgrade ohne neue Information einzubringen Die zusätzlichen Freiheitsgrade werden dazu verwendet, um das Rauschen zu fitten Regularisierung beschränkt die Freiheitsgrade sinnvoll 20

22 Beispiel Drei Datenpunkte werden generiert nach y = x 1 + ɛ (korrekten) Modell 1 y = w 0 + w 1 x 1 + ɛ Korrelierter weiterer Eingang x 2 = x 1 + δ Modell 2 y = w 0 + w 1 x 1 + w 2 x 2 + ɛ 21

23 Beispiel (2) Daten, die Modell 1 sieht: x 1 y Daten, die Modell 2 sieht: x 1 x 2 y

24 Beispiel (3) Gewichte: w ŵ ML ŵ ML,2 ŵ pen, Training: y f ML f ML,2 f pen, Test: y true f ML f ML,2 f pen,

25 Prostate Cancer Data 8 Inputs, 97 Data Points; y: prostate-specific antigen; M eff = fach Kreuzvalidierung LS Best Subset (3) Ridge (Weight Decay)

Ähnliche Dokumente

Basisfunktionen. und Neuronale Netze. Volker Tresp

Basisfunktionen. und Neuronale Netze. Volker Tresp Basisfunktionen und Neuronale Netze Volker Tresp 1 I am an AI optimist. We ve got a lot of work in machine learning, which is sort of the polite term for AI nowadays because it got so broad that it s not