So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

Größe: px

Ab Seite anzeigen:

Download "So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta"

Sigrid Steinmann
vor 3 Jahren
Abrufe

1 Multivariate Lineare Regression Christian Herta Oktober, von 34 Christian Herta Multivariate Lineare Regression

2 Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion (cost function) Gradientenabstiegsverfahren (gradient descent) Umskalieren der Input-Daten 2 von 34 Christian Herta Multivariate Lineare Regression

3 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 3 von 34 Christian Herta Multivariate Lineare Regression

4 Multivariare Regression Überwachtes Lernen (supervised learning): m Beobachtungen (Trainingsbeispiele) mit n Merkmale (Features): 1 j n (bisher n = 1): Input-Features x (i) des i-ten Trainingsbeispiels: x (i) = x (i) 1, x (i) 2,..., x (i) n i-ten Zielwert y (i) x (i) : Wert des Features j für das i-te Trainingsbeispiel j Ziel: Vorhersage eines Wertes y für einen neuen Wert für x. 4 von 34 Christian Herta Multivariate Lineare Regression

5 Beispiel: Boston-Dataset zur Vorhersage der Hauspreise #l o a d d a t a from s k l e a r n. d a t a s e t s import load_boston b o s t o n = load_boston ( ) p r i n t b o s t o n. DESCR # f e a t u r e names b o s t o n. feature_names # f e a t u r e s b o s t o n. data # h o u s e p r i c e : b o s t o n. t a r g e t 5 von 34 Christian Herta Multivariate Lineare Regression

6 Multiple Features 6 von 34 Christian Herta Multivariate Lineare Regression

7 7 von 34 Christian Herta Multivariate Lineare Regression

8 Multivariare Lineare Regression Lineares Modell, d.h. linear bezüglich der Parameter Θ j auch (erstmal) linear bezüglich der x j n h Θ (x 1,..., x n ) = Θ 0 + Θ 1 x Θ n x n = Θ 0 + Θ j x j j=1 8 von 34 Christian Herta Multivariate Lineare Regression

9 Beispielplot Datenpunkte und beste Hypothese(Ebene). 9 von 34 Christian Herta Multivariate Lineare Regression

10 Vektor-Darstellung h Θ ( x) = Θ 0 + Θ 1 x 1 + Θ 2 x Θ n x n = Θ T x = x T Θ mit x = x 0 = 1 x 1 x 2... x n Θ = Θ 0 Θ 1 Θ 2... Θ n 10 von 34 Christian Herta Multivariate Lineare Regression

11 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 11 von 34 Christian Herta Multivariate Lineare Regression

12 Problemstellung Hypothese: h Θ ( x) = Θ T x = Θ 0 x 0 + Θ 1 x Θ n x n mit x 0 = 1 n + 1 Parameter: Θ T = (Θ 0, Θ 1,..., Θ n ) Minimierung der Kostenfunktion J: J( Θ) = 1 m (h Θ ( x (i) ) y (i) ) 2 2m i=1 12 von 34 Christian Herta Multivariate Lineare Regression

13 Gradient Descent Wiederhole bis Konvergenz erreicht ist: Θ j Θ j α Θ j J(Θ) Beachte bei Implementierung: Simultanes Update für alle Θ j 13 von 34 Christian Herta Multivariate Lineare Regression

14 Vektorform: Gradient Descent Mit der Denition des Gradienten: grad(j(θ)) = J(Θ) = J(Θ) Θ 0 J(Θ) Θ 1... J(Θ) Θ n Θ neu Θ alt α grad(j(θ alt )) 14 von 34 Christian Herta Multivariate Lineare Regression

15 Update Rule Θ j J(Θ) = Θ j 1 2m = Θ j 1 2m m (h Θ ( x (i) ) y (i) ) 2 i=1 m ( Θ T x (i) y (i) ) 2 Ergibt folgende Update Rules für alle n + 1 Θ j mit 0 j n: i=1 Θ j Θ j α 1 m m i=1 ( Θ T x (i) y (i) )x (i) j 15 von 34 Christian Herta Multivariate Lineare Regression

16 Vektorform der Update Rule Θ neu Θ alt α 1 m m ( Θ T x (i) y (i) ) x (i) i=1 16 von 34 Christian Herta Multivariate Lineare Regression

17 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 17 von 34 Christian Herta Multivariate Lineare Regression

18 Feature-Scaling: Skalieren der x-werte Idee: Werte aller Features (Merkmale), d.h. alle x j, sollen etwa im Bereich 1 x j 1 liegen. Wie könnte dies erreicht werden?? 18 von 34 Christian Herta Multivariate Lineare Regression

19 Feature-Scaling: Skalieren der Features Berechnen der umskalierten Features x j mittels Standardisierung (z-transformation): mit x j = x j µ j std(x j ) µ j = x j = i x (i) /m: Mittelwert für x j j std(x j ) = var(x j ): Standardabweichung von x j var(x j ) = (x j µ j ) 2 = x 2 j µ 2 j : Varianz von x j Für die transformierten Daten x ist der Mittelwert 0 und die Standardabweichung von 34 Christian Herta Multivariate Lineare Regression

20 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 20 von 34 Christian Herta Multivariate Lineare Regression

21 Implementierung mit Vektoren und Matrizen Daten als Matrix X mit X ij x (i) j Zeilen i: einzelnen Datensätze x (i) Spalten j: für die einzelnen Features mit x (i) 0 = 1 Vorhersagen für alle Datensätze in Matrix X : h(x) = X Θ z.b: bei 3 Features und 700 Trainingsdaten mit numpy: I n [ 9 ] : X. s h a p e Out [ 9 ] : ( 7 0 0, 4) I n [ 1 0 ] : t h e t a. s h a p e Out [ 1 0 ] : ( 4, ) I n [ 1 1 ] : h = X. dot ( t h e t a ) Out [ 1 1 ] : a r r a y ( [ 1. 3,... I n [ 1 2 ] : h. s h a p e Out [ 1 2 ] : ( 7 0 0, ) 21 von 34 Christian Herta Multivariate Lineare Regression

22 Vektorisierte Form der Update Rule mit Daten-Matrix X aus der vektorisierten Form der Update Rule Θ neu Θ alt α 1 m m (h( x (i) ) y (i) ) x (i) i=1 ergibt sich mit der Daten-Matrix X Θ neu Θ alt α 1 m XT ( h(x) y) in Python: theta = theta alpha ( 1. 0 / m) X.T. dot ( h y ) 22 von 34 Christian Herta Multivariate Lineare Regression

23 Oene Fragen Update Rules: Θ j Θ j α Θ j J(Θ) Debuggen: Wie kann man überprüfen, ob die Gradient Descent Implementierung funktioniert? Wie soll man die Lernrate α wählen? 23 von 34 Christian Herta Multivariate Lineare Regression

24 Funktioniert Gradient Descent? Ziel: min Θ J(Θ) Auftragen von J(Θ) über den Interationen (Epochen): J(Θ) muss in jeder Iteration kleiner werden. 24 von 34 Christian Herta Multivariate Lineare Regression

25 Lernrate α - zu kleine Werte Beispieldatensatz: Boston house-price data 25 von 34 Christian Herta Multivariate Lineare Regression

26 Lernrate α - zu groÿe Werte Beispieldatensatz: Boston house-price data 26 von 34 Christian Herta Multivariate Lineare Regression

27 Wahl von α Wenn α zu klein ist langsame Konvergenz Wenn α zu groÿ ist, eventuell keine Konvergenz: J wächst (oder oszilliert) Versuche mit verschiedenen α, z.b.: 0.001, 0.003, 0.01, 0.03, 0.1, 27 von 34 Christian Herta Multivariate Lineare Regression

28 Feature-Scaling: Θ für unskalierte Features x x = x mean(x) std(x) = x µ σ x Lernen ergibt modizierte Parameter : Θ 0 und Θ 1 d.h. h(x) = Θ 0 + Θ 1 x = Θ 0 + Θ 1 x µ = (Θ 0 Θ 1 µ ) + Θ 1 σ x σ x Θ 0 = Θ 0 Θ 1 µ σ x Θ 1 = Θ 1 σ x σ x x 28 von 34 Christian Herta Multivariate Lineare Regression

29 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 29 von 34 Christian Herta Multivariate Lineare Regression

30 Multivariare Lineare Regression Bisher: Linearität bezüglich der Inputs x i (starke Einschränkung) n h Θ ( x) = Θ 0 + Θ j x j j=1 Erweiterung: Ersetzen der x j mit Basisfunktionen φ j ( x): n h Θ ( x) = Θ 0 + Θ j φ j ( x) Immer noch lineares Modell, da linear bezüglich der Parameter Θ j j=1 30 von 34 Christian Herta Multivariate Lineare Regression

31 Beispiele für Basisfunktionen Polynome: φ j ( x) = x 2 1 φ j ( x) = x 1 x 3 Gaussian Basis Funktion φ j ( x) = exp{ (x µ j) 2 } 2σ 2 j 31 von 34 Christian Herta Multivariate Lineare Regression

32 Features Transformation der Rohdaten x i in Features φ( x i ) Beispiel: Vorhersage des Preises von rechteckigen Grundstücken: Rohdaten: Länge x 1 und Breite x 2. statt: h θ = Θ 0 + Θ 1 laenge + Θ 2 breite mit der Fläche als Feature φ 1 : aeche = laenge breite h θ = Θ 0 + Θ 1 aeche 32 von 34 Christian Herta Multivariate Lineare Regression

33 Polynominale Regression siehe Bild Lsf.gif 33 von 34 Christian Herta Multivariate Lineare Regression

34 Literaturangabe Andrew Ng: Machine Learning (Stanford OpenClassroom) Weiterführende Literatur: C. Bishop: Pattern recognition and Machine Learning, Springer Verlag von 34 Christian Herta Multivariate Lineare Regression

Ähnliche Dokumente

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion