2.4 Gradientenabstiegsverfahren

Transkript

1 2.4 Gradientenabstiegsverfahren Optimale Parameter lassen sich bei linearer Regression analytisch bestimmen, dennoch verwendet man in der Regel das sogenannte Gradientenabstiegsverfahren, um diese (näherungsweise) zu bestimmen Gradientenabstiegsverfahren ist meist effizienter als das Invertieren der Matrix (X T X) -1 und findet auch dann Parameter, wenn diese nicht invertierbar ist Gradientenabstiegsverfahren auch für andere Probleme einsetzbar, deren optimale Parameter nicht analytisch bestimmt werden können 45

2 Gradient Gradient verallgemeinert das Konzept der Ableitung für Funktionen in mehreren Veränderlichen Gradient ist eine Funktion in mehreren Veränderlichen und gibt die Richtung des steilsten Anstiegs an 2 3 rf (x) = 6 4 F x 1. F x n

3 Gradient Beispiel: Betrachte die Funktion F(x 0, x 1 ) = 4x 02 + x 1 2 F F x 0 =8x 0 x 1 =2x 1 rf apple = apple rf apple = apple

4 Gradientenabstiegsverfahren Gradientenabstiegsverfahren (gradient descent) beruht auf folgender Idee: starte mit zufälliger Wahl der Parameter w wiederhole für bestimmte Rundenzahl oder bis Konvergenz berechne den Gradienten L(w) an dieser Stelle, als die Richtung des steilsten Aufstiegs aktualisiere die Parameter als w = w η L(w), mit Lernrate η > 0.0, d.h. laufe ein Stück entgegen der Richtung des steilsten Aufstiegs 48

5 Ein einfaches Beispiel Betrachten wir folgende einfache Funktion in x f(x) =x 2 +2x f 0 (x) =2x +2 Wir können analytisch bestimmen, dass diese Funktion ihr Minimum an der Stelle -1 annimmt 49

6 Ein weiteres Beispiel Betrachten wir folgende Funktion in x f(x) =x 2 +2sin(4x) f 0 (x) =2x + 8 cos(4 x) Für die gewählte Lernrate wird nur ein lokales Minimum, nicht jedoch das global Minimum gefunden 50

7 Multiple Lineare Regression Gradient für multiple lineare Regression ist definiert als ÒL(w) = 2X T y +2X T Xw = 2X T (y Xw) S 2 q n i=1 x i,0 = W U 2 q n i=1 x i,m 1 y i q m j=0 x i,j w j 2 T 1. X y i q 2V m j=0 x i,j w j 51

8 Stochastisches Gradientenabstiegsverfahren Berechnung des Gradienten über alle Datenpunkte ist zu teuer bei sehr großen Datenmengen Stochastisches Gradientenabstiegsverfahren (stochastic gradient descent, SGD) betrachtet in jedem Schritt nur einen einzelnen zufällig gewählten Datenpunkt, um den Gradienten anzunähern Als Mittelweg kann eine kleine Anzahl zufällig gewählter Datenpunkte betrachtet werden 52

9 Adaptive Lernrate Zudem wird häufig eine adaptive Lernrate verwendet, welche vom Fortschritt des Verfahrens abhängt, z.b. (r) = c 1 r + c 2 in Runde r {1, 2, } mit Konstanten c 1 c 2 Die Idee hierbei ist, dass das Verfahren zunehmend vorsichtig wird und kleinere Schritte macht und so z.b. ein gefundenes (lokales) Minimum in späteren Iterationen nicht mehr verlässt 53

10 2.5 Polynomiale Regression Polynomiale Regression nimmt an, dass das abhängige Merkmal sich als Polynom vom Grad d in den abhängigen Merkmalen beschreiben lässt, z.b. bei einem abhängigen Merkmal als ŷ = w 0 + w 1 x + w 2 x w d x d Die Werte x 2,, x d werden vorberechnet und wie zusätzliche unabhängige Merkmale bei einer multiplen linearen Regression behandelt Grad des Polynoms d ist ein sog. Hyperparameter, der die Gestalt des Modells beeinflusst 54

11 Polynomiale Regression Auch bei mehreren ursprünglichen unabhängigen Merkmalen können wir ein Polynom vom Grad d anpassen, um das abhängige Merkmal vorherzusagen, z.b. ŷ = w 0,0 + w 1,0 x 0 + w 0,1 x 1 + w 1,1 x 0 x 1 + w 2,0 x w 0,2 x w d,d x d 0 x d 1 Bei m ursprünglichen unabhängigen Merkmal und einem Polynom vom Grad d erhalten wir somit (d + 1) m unabhängige Merkmale insgesamt 55

12 Polynomiale Regression in Python import pandas as pd import numpy as np from sklearn import linear_model, preprocessing, metrics import matplotlib.pyplot as plt # Autodaten lesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Verbrauchswerte extrahieren y = cars.iloc[:,0].values # Leistungswerte extrahieren X = cars.iloc[:,[3]].values X = X.reshape(X.size, 1) # Polynomiale Merkmale (d.h. Leistung^2) berechnen poly = preprocessing.polynomialfeatures(2) Xp = poly.fit_transform(x) # Lineare Regression reg = linear_model.linearregression() reg.fit(xp,y) 56

13 Polynomiale Regression in Python # Polynom plotten Xs = np.array(sorted(x)) Xs = Xs.reshape(Xs.size,1) Xsp = poly.fit_transform(xs) plt.scatter(x, y, color='blue', marker='x') plt.plot(xs, reg.predict(xsp), color='red', lw=2) plt.xlabel('leistung [hp]') plt.ylabel('verbrauch [mpg]') plt.show() # Parameter ausgeben print('parameter:') print('w0: %f'%reg.intercept_) print('w1: %f'%reg.coef_[0]) print('w2: %f'%reg.coef_[1]) print('bestimmtheitsmaß') print('r2: %f'%metrics.r2_score(y,reg.predict(xp))) Vollständiges Jupyter-Notebook unter: [HTML] [IPYNB] 57

14 Polynomiale Regression in Python 58

15 2.6 Merkmalstransformation Besteht zwischen dem zu erklärenden abhängigen Merkmal und den unabhängigen Merkmalen ein nicht-linearer Zusammenhang, so lässt sich dieser häufig durch eine Transformation der Merkmale auf einen linearen Zusammenhang zurückführen 59

16 Potenzgesetze (power laws) Zahlreiche Phänomene in der Natur folgen einem sogenannten Potenzgesetz (power law), d.h. die Größe y verhält sich zur Größe x als y = f(x) = 0 x 1 Skaleninvarianz (scale invariance) ist eine Eigenschaft solcher Phänomene, d.h. multiplizieren wir den Wert von x mit einem Faktor c, ändert sich der Wert von y immer um einen Faktor c β 1 f(cx) = 0 (cx) 1 = 0 c 1 x 1 = c 1 f(x) 60

17 Zipf sches Gesetz (Zipf s law) George K. Zipf ( ) beobachtete, dass für natürlichsprachliche Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang

18 Lotka sches Gesetz (Lotka s law) Alfred J. Lotka ( ) beobachtete, dass sich die Anzahl f(n) der Autoren mit n Veröffentlichungen beschreiben lässt als f(n) = C n a mit Parametern C und a, die von der Gesamtzahl der Autoren und dem Fachgebiet abhängen 62

19 Wachstumsmodelle Wachstumsmodelle beschreiben Populationsgröße, z.b. einer Bakterienkultur, nach Ablauf von t Zeiteinheiten Einfaches Modell unter der Annahme geometrischen Wachstums mit Wachstumsrate r und Anfangsgröße der Population P(0) als Parameter P (t) =P (0) r t mit r Ø 1 Komplexere Modelle berücksichtigen zeitabhängige Wachstumsraten und Kapazitätsbeschränkungen 63

20 Merkmalstransformation Gesetze von Zipf und Lotka und das einfache Wachstumsmodell beschreiben nicht-lineare Zusammenhänge zwischen Merkmalen Wie können wir ihre Parameter (z.b. Wachstumsrate r) anhand von beobachteten Daten schätzen? Idee: Transformiere das abhängige und die unabhängigen Merkmale so, dass ein linearer Zusammenhang zwischen ihnen entsteht; dann können wir lineare Regression verwenden 64

21 Merkmalstransformation für Zipf sches Gesetz Worthäufigkeit f(w) verhält sich zum Häufigkeitsrang r als f(w) Ã 1 r(w) mit 1 Logarithmische Transformation der Merkmale log f(w) Ã log 1 r(w) log f(w) Ã log r(w) Parameter α kann also anhand der logarithmisch transformierten Merkmale geschätzt werden 65

22 Merkmalstransformation für Zipf sches Gesetz Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) log(häufigkeitsrang) 66

23 2.7 Evaluation Bisher haben wir die Güte unserer Modelle immer auf den gleichen Daten gemessen, auf denen auch das Modell selbst trainiert wurde Dies ist eine sehr schlechte Idee (und verpönt), da wir nicht wissen, wie gut unser Modell auf zuvor unbekannten Daten Vorhersagen treffen kann (z.b. neue Autos in unseren Autodaten) eine Überanpassung des Modells an unsere Daten stattfinden kann, wenn es sehr viele Merkmale, aber nur vergleichsweise wenige Datenpunkte gibt 67

24 Überanpassung Verwendet man sehr viele unabhängige Merkmale (z.b. bei polynomialer Regression mit hohem Grad d) kann es zu einer Überanpassung (overfitting) des Modells an die Daten kommen Das gelernte Modell beschreibt dann die vorhandenen Daten nahezu perfekt, kann aber auf bisher unbekannten Daten keine verlässlichen Vorhersagen treffen 68

25 Überanpassung 69

26 Modellauswahl Um eine Überanpassung zu vermeiden, müssen wir zuerst ein Modell geeigneter Komplexität auswählen, indem wir seine Hyperparameter abstimmen Hyperparameter sind solche Parameter, welche die Gestalt des Modells beeinflussen, also z.b. der Grad des Polynoms d oder die berücksichtigten Merkmale Dies bezeichnet man als Modellauswahl (model selection) 70

27 2-Fache Kreuzvalidierung Eine einfache Möglichkeit zur Modellauswahl und zur Einschätzung der Vorhersagekraft bietet die 2-fache Kreuzvalidierung (2-fold cross validation) Die vorhandenen Daten werden zufällig aufgeteilt in Trainingsdaten (z.b. 60%) Validierungsdaten (z.b. 20%) Testdaten (z.b. 20%) 71

28 2-Fache Kreuzvalidierung Daten Training Validierung Test Modellauswahl Einschätzung der Vorhersagekraft Trainingsdaten zum Bestimmen der Parameter Validierungsdaten zur Modellauswahl Testdaten zur Einschätzung der Vorhersagekraft des gewählten Modells 72

29 2-Fache Kreuzvalidierung Beispiel: Polynomiale Regression mit Grad d bestimme den Grad d, so dass ein auf den entsprechendes auf den Trainingsdaten trainiertes Modell die beste Vorhersagekraft auf den Validierungsdaten erreicht schätze die Vorhersagekraft des gewählten Modells durch Anwendung auf die Testdaten 73

30 k-fache Kreuzvalidierung Bei der k-fachen Kreuzvalidierung (k-fold cross validation) werden die Daten zufällig in k gleich große Teilmengen aufgeteilt Es werden k Iterationen durchgeführt, wobei jede Teilmenge einmal zum Testen verwendet wird Dies führt zu einer robusteren Einschätzung der Vorhersagekraft, insbesondere wenn die ursprüngliche Datenmenge klein ist 74

31 k-fache Kreuzvalidierung M 1 (e.g., MSE 1 ) M 2 (e.g., MSE 2 ) M 3 (e.g., MSE 3 ) M 4 (e.g., MSE 4 ) M 5 (e.g., MSE 5 ) 75

32 k-fache Kreuzvalidierung Jede Iteration liefert eine Schätzung der Vorhersagekraft, aus denen wir Mittelwert und Varianz bestimmen können Da die Vorhersagekraft auf den Testdaten, die in anderen Iterationen Trainingsdaten sind, geschätzt wird, kann es zu einer Überanpassung kommen Bei der geschachtelten k-fachen Kreuzvalidierung wird dieses Problem durch eine Aufteilung der Trainingsdaten in Trainingsdaten und Testdaten vermieden 76

33 k-fache Kreuzvalidierung in Python import pandas as pd import numpy as np from sklearn import linear_model, preprocessing, metrics, model_selection import matplotlib.pyplot as plt # Autodaten lesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Verbrauchswerte extrahieren y = cars.iloc[:,0].values # Leistungswerte extrahieren X = cars.iloc[:,[3]].values X = X.reshape(X.size, 1) # Polynomiale Merkmale (d.h. Leistung^2) berechnen poly = preprocessing.polynomialfeatures(2) X = poly.fit_transform(x) 77

34 k-fache Kreuzvalidierung in Python # 5-Fache Kreuzvalidierung durchführen kf = model_selection.kfold(n_splits=5, shuffle=true) mses = [] for train_index, test_index in kf.split(x): # Aufteilung in Trainings- und Testdaten X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] # Lineare Regression reg = linear_model.linearregression() reg.fit(x_train, y_train) # Parameter ausgeben print('parameter:') print('w0: %f'%reg.intercept_) print('w1: %f'%reg.coef_[0]) print('w2: %f'%reg.coef_[1]) # MSE berechnen mse = sum((y_test - reg.predict(x_test))**2) / len(y_test) print('mse: %f' % mse) mses.append(mse) print('mse (Mittelwert): %f' % (sum(mses) / len(mses))) 78

35 2.8 Regularisierung Regularisierung (regularization oder shrinkage) bietet eine Möglichkeit, die Komplexität des Modells in der Straffunktion zu berücksichtigen Beim Trainieren, d.h. Bestimmen der Parameter, können dann bessere Vorhersagekraft und Modellkomplexität gegeneinander abgewogen werden Ridge Regression und LASSO sind gängige regularisierte Varianten der linearen Regression 79

36 Ridge Regression Ridge Regression verwendet folgende Straffunktion L(w) =(y Xw) T (y Xw)+ w T w mit w T w = und λ > 0 als Hyperparameter mÿ i=1 w 2 i Komplexe Modelle, die viele Parameter verwenden, werden damit durch die Straffunktion benachteiligt 80

37 LASSO LASSO verwendet folgende Straffunktion L(w) =(y Xw) T (y Xw)+ ÎwÎ 1 mit mÿ ÎwÎ 1 = w i und λ > 0 als Hyperparameter i=1 LASSO weist, im Vergleich zu Ridge Regression, vielen Parametern den Wert 0 zu und verwendet damit nur eine Teilmenge der Merkmale 81

38 Ridge Regression 82

39 Ridge Regression in Python import pandas as pd import numpy as np from sklearn import linear_model, preprocessing import matplotlib.pyplot as plt # Autodaten lesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Stichprobe von 10 Autos sample = random.sample(range(0,len(cars)), 10) out_of_sample = list(set(range(0,len(cars))) - set(sample)) # Leistungs- und Verbrauchswerte extrahieren y = cars.iloc[sample, 0].values y_oos = cars.iloc[out_of_sample, 0].values # Leistungswerte für Stichprobe auswählen X = cars.iloc[sample, [3]].values X.reshape(X.size, 1) # Polynomiale Merkmale berechnen poly = preprocessing.polynomialfeatures(5) Xp = poly.fit_transform(x) 83

40 Ridge Regression in Python for lmbd in [0.0, , , 0.001, 0.01, 0.1, 1.0, 10.0, 100.0]: # Ridge Regression reg = linear_model.ridge(alpha=lmbd, normalize=true) reg.fit(xp,y) # Plot erstellen hp = cars.iloc[:,3].values mpg = cars.iloc[:,0].values hps = np.array(sorted(hp)) hps = hps.reshape(hps.size, 1) hpsp = poly.fit_transform(hps) plt.title("lambda: " + str(lmbd)) plt.scatter(hp, mpg, color='gray', marker='x') plt.scatter(x, y, color='blue', marker='o') plt.plot(hps, reg.predict(hpsp), color='red', lw=2) plt.xlabel('leistung [hp]') plt.ylabel('verbrauch [mpg]') plt.xlim([min(hp), max(hp)]) plt.ylim([min(mpg), max(mpg)]) plt.show() 84

41 Zusammenfassung Gradientenabstiegsverfahren zum Bestimmen (nahezu) optimaler Parameter für multiple lineare Regression Polynomiale Regression und Merkmalstransformation zum Anpassen polynomialer bzw. nicht-linearer Modelle Kreuzvalidierung zum Vermeiden von einer Überanpassung des Modells an die Daten Regularisierung zum Abwägen zwischen Modellkomplexität und Vorhersagekraft 85

42 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer, 2017 (Kapitel 12) [2] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 6 und 10) 86