Automatisierte Hyperparameter Optimierung im Maschinellen Lernen

Transkript

1 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Nicolas Schilling Information Systems and Machine Learning Lab (ISMLL) Institute of Computer Science University of Hildesheim, Germany / 35

2 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Outline Einführung in Maschinelles Lernen Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung / 35

3 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Outline Einführung in Maschinelles Lernen Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung / 35

4 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Ziel des Maschinellen Lernens Ziel im maschinellen Lernen ist es, aus gegebenen Inputs einen oder mehrere Outputs vorherzusagen, zum Beispiel anhand der Wörter in einer Mail bestimmen, ob es Spam ist erkennen, ob und wo auf einem Bild ein Objekt zu sehen ist aus Gesprochenem bestimmen, welche Wörter gesagt wurden vorherzusagen, welche Gegenstände für den Kunden eines Web-Shops interessant sind und viele mehr / 35

5 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Maschinelles Lernen Das Ziel ist also eine Abbildung/Modell f zu lernen welches zu gegebenem Input x einen Output y vorhersagt, so dass f (x) y für das Lernen werden Trainingsdaten benötigt D = {(x 1, y 1 ),..., (x n, y n )} das gelernte Modell wird auf Testdaten evaluiert, die unterschiedlich zu den Trainingsdaten sind / 35

6 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Fehlerfunktionen Wann ist ein gelerntes Modell ein gutes Modell? wenn es die Trainingsdaten akkurat vorhersagen kann also wenn der Fehler in der Vorhersage gering wird Als Fehlerfunktion wird beispielsweise der quadratische Fehler genutzt L(f, D) = (y f (x)) 2 (x,y) D das Ziel ist es ein Modell f zu finden welches den Fehler minimiert / 35

7 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Beispiel: Lineare Regression Das Vorhersagemodell für p verschiedene Input Variablen wird definiert als p f (x; θ) = θ 0 + θ i x i i=1 = θ 0 + θ 1 x θ p x p Ein lineares Regressionsmodell wird dann komplett durch seine Parameter θ bestimmt / 35

8 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Lernen des Modells Gesucht werden dann die Parameter θ die den Fehler minimieren θ = arg min (y f (x; θ)) 2 θ (x,y) D Üblicherweise werden die Parameter regularisiert, um eine Überanpassung an die Trainingsdaten zu vermeiden θ = arg min (y f (x; θ)) 2 + λ θ 2 θ (x,y) D Dafür muss jedoch der richtige Tradeoff λ erst gefunden werden! / 35

9 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Überanpassung Wird ein Modell nicht entsprechend regularisiert: kann es sich den Trainingsdaten überanpassen die Fähigkeit zu generalisieren verschwindet die Performance auf den Testdaten ist schlecht / 35

10 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Lernen des Modells Üblicherweise werden die Parameter zufällig initialisiert und dann mit einem Gradientenabstieg gelernt: der Gradient des Trainingsfehlers zeigt in die Richtung des stärksten Anstiegs also folgen wir der entgegengesetzten (negativen) Richtung die Parameter werden aktualisiert: θ neu i = θ alt i α L θ i die Schrittweite α bestimmt wie lange wir dem negativen Gradienten folgen / 35

11 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Einfluss der Schrittweite / 35

12 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Einfluss der Schrittweite / 35

13 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Empfehlungssysteme im E-Commerce Ziel ist es, zu einem Item/Nutzer Input das Rating vorherzusagen, dazu sind Daten gegeben: Nutzer Matrix Toy Story 3 Titanic Tim Lara 2-1 Lucas Sarah 1-5 Wie kann ein Modell aussehen, welches die Bewertungen vorhersagt? / 35

14 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Empfehlungssysteme im E-Commerce Lineare Regression funktioniert nicht, da keine aussagekräftigen Features vorhanden sind f (x) = θ 0 + θ Nutzer + θ Film erstelle Features/Merkmale für jeden Nutzer und Film beispielsweise wie sehr ein Nutzer ein gewisses Genre mag oder wie sehr ein Film einem Genre entspricht / 35

15 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Empfehlungssysteme im E-Commerce Es seien Merkmale p i gegeben wie sehr der Film i einem von drei Genres angehört. Für die Genres Action, Comedy und Romance und für den Film Toy Story 3 beispielsweise: p i = ( ) Dazu kennen Sie die Kundeninteressen q u für den u-ten Kunden: q u = ( ) Dann könnte eine Vorhersage aussehen: f (i, u) = p i q u = p i,1 q u,1 + p i,2 q u,2 + p i,3 q u,3 = = / 35

16 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Empfehlungssysteme im E-Commerce Wo ist der Haken an dem Modell? jeder Film muss aufwändig einsortiert werden. wie sehr ein Film dem Genre Comedy entspricht liegt im Auge des Betrachters jeder Nutzer müsste eingeben, welche Genres er wie sehr mag wieviele Genres sollten genommen werden? Die Lösung ist nicht praktikabel! Allerdings kann so ein Modell und die Features direkt gelernt werden! / 35

17 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Einführung in Maschinelles Lernen Empfehlungssysteme: Faktorisierungsmodelle Das Rating von Nutzer u für Item i wird als Faktorisierung modelliert: r(u, i) = q u p i q u R K beschreibt latente Features für den Nutzer u p i R K beschreibt latente Features für das Item i Interaktion der beiden Vektoren (Skalarprodukt) beschreibt das Rating alle Parameter werden aus den Daten gelernt Welche Dimensionalität K ist sinnvoll? / 35

18 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im Maschinellen Lernen Outline Einführung in Maschinelles Lernen Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung / 35

19 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter im Maschinellen Lernen Parameter die von Hand gesetzt werden müssen und nicht von Daten gelernt werden heißen Hyperparameter. Sie tauchen überall im Maschinellen Lernen auf Regularisierung/Komplexität des Modells Lernalgorithmus Auswahl der Fehlerfunktion Auswahl des Modells an sich Vorverarbeitung der Daten / 35

20 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung Für Daten D, Fehlerfunktion L und Lernalgorithmus A, finde die Hyperparameter Konfiguration λ Λ so dass: λ := arg min λ Λ L(A λ (D train ), D val ) := arg min λ Λ b(λ, D). suchen die Konfiguration, die auf den Validierungsdaten die beste Performance zeigt wir schreiben die Black Box Funktion kurz b(λ, D) / 35

21 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Hyperparameter Optimierung im Maschinellen Lernen Grid Suche Grid Suche ist eine primitive Form der Suche für jeden Hyperparameter, definiere eine Menge von Konfigurationen z.b. für die Schrittweite α {0.1, 0.001, , } lerne das Modell unter jeglicher möglichen Hyperparameter Kombination nehme das Modell welches den geringsten Fehler auf den Validierungsdaten hat Problem: Die Anzahl an Auswertungen wachst exponenziell mit der Anzahl an Hyperparametern immer komplexere Modelle benötigen immer mehr Rechenzeit / 35

22 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Outline Einführung in Maschinelles Lernen Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung / 35

23 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Sequential Model Based Optimization Optimierung der Validierungsperformance ist kostspielig, daher lerne ein sogenanntes Surrogatmodell auf den bekannten Observationen sodass Ψ b nutze das Surrogatmodell um Regionen zu finden in denen die Hyperparameter gut funktionieren evaluiere die Black Box (lerne das Modell zu der Hyperparameter Konfiguration) wiederhole den Prozess, bis b optimiert ist oder das Budget ausgeht / 35

24 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Sequential Model Based Optimization Angenommen, ein Surrogat Modell ist schon gelernt: Wie wird der nächste Punkt ausgewählt? Punkt mit maximaler Performance? = Exploitation Punkt mit maximaler Unsicherheit? = Exploration Einen guten Tradeoff bietet das Expected Improvement EI (λ) = 0 I P(I Ψ, λ best ) di / 35

25 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung SMBO Beispiel Objective Predicted Mean Prediction Uncertainty Expected Improvement Observed Points / 35

29 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Hyperparameter Optimierung über Datensätze Üblicherweise wird die Hyperparameter Optimierung für jeden Datensatz neu gemacht Grid Suche funktioniert wenn der Suchraum durch Erfahrung schon eingeschränkt werden kann diese Erfahrung macht man typischerweise beim Optimieren der Hyperparameter für andere Datensätze können wir das nicht auch automatisieren, indem wir vergangene Ergebnisse auf anderen Datensätzen in das Surrogatmodell integrieren? / 35

30 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Hinzunahme der Datensatzinformation Datensatz Ids können beispielsweise über eine binäre Indikator Variable eingefügt werden leicht und intuitiv ein normales Regressionsmodell lernt wieder nur einen Bias Datensatzcharakteristiken können berechnet werden, beispielsweise die Anzahl der Features, Instanzen usw. höhere Ausdrucksstärke aufwendig zu berechnen / 35

31 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Meta Surrogatmodelle - Anforderungen Nichtlinearität: Validierungsperformance in Abhängigkeit der Hyperparameter ist nichtlinear Ein Multilayer Perceptron kann gut mit Nichtlinearität umgehen Kategorische Features: Das Surrogatmodell sollte mehr als einen Bias aus kategorischen features lernen Faktorisierungsmodelle funktionieren gut in diesem Szenario Latente Features können als gelernte Meta-Features verstanden werden = Kombination aus Multilayer Perceptrons und Faktorisierungsmodellen? / 35

32 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Unsere Herangehensweise: Factorized Multilayer Perceptrons Wir nutzen ein neues Surrogatmodell: der erste Layer hat eine Faktorisierungsmaschine als Signalfunktion (normalerweise nur eine lineare Summe) ( z k = σ w 0,k + n w i,k x i i=1 n i=1 j=i+1 v i,k sind latente Features für Input i und Output k n ) v i,k, v j,k x i x j Interaktionen von Hyperparametern und Datensätzen kann so modelliert werden das Modell bietet ausreichend Komplexität um nichtlineare Vorhersagen zu treffen kann mittels Backpropagation gelernt werden / 35

33 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Erstellung der Meta Daten Wir haben für zwei bekannte Modelle: LibSVM und AdaBoost die Validierungsperformance für 25 Datensätze durch eine Grid Suche berechnet. AdaBoost LibSVM Anzahl an Iterationen I Anzahl der Produktterme M Insgesamt 108 Observationen pro Datensatz Wahl des Kernels Tradeoff Parameter C Kernel Breite γ, Kernel Grad d Insgesamt 288 Observationen pro Datensatz / 35

34 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Evaluationsmetriken Alle Experimente werden im leave-one-out Scheme über alle 25 Datensätze ausgeführt Average Rank: Durchschnittlicher Rang aller zu vergleichenden Methoden Average Hyperparameter Rank: Durschnittlicher Rang der besten Hyperparameter Konfiguration die bisher gefunden wurde / 35

35 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung SMBO: Konkurrierende Surrogatmodelle Random Search (Bergstra and Bengio) Independent Gaussian Process (Snoek et al.) SMAC++ (Random Forest Surrogate) (Hutter et al.) SCoT (SVM Rank + Gaussian Process) (Bardenet et al.) MKL-GP (Gaussian Process with Kernel also modelling data set distances) (Yogatama and Mann) Multilayer Perceptron Factorized Multilayer Perceptron / 35

36 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Average Rank AdaBoost SVM Random Random 6 SMAC++ 6 SMAC++ SCoT SCoT Average Rank 4 FMLP Average Rank 4 FMLP 2 Optimal Random I GP SMAC++ SCoT MKL GP MLP FMLP Optimal 2 Optimal Number of Trials Number of Trials / 35

37 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Average Hyperparameter Rank AdaBoost SVM 40 Random I GP SMAC++ SCoT MKL GP MLP FMLP 100 Random I GP SMAC++ SCoT MKL GP MLP FMLP Average Hyperparameter Rank MKL GP SCoT Average Hyperparameter Rank SMAC++ MKL GP FMLP 0 FMLP Number of Trials Number of Trials / 35

38 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Zusammenfassung Hyperparameter Optimierung ist ein allgegenwärtiges Problem im Maschinellen Lernen automatische Hyperparameter Optimierung ist mit Hilfe von Meta-Wissen möglich Auch die Wahl des Vorhersagemodells kann teilautomatisiert werden für mehr Informationen: / 35

39 Automatisierte Hyperparameter Optimierung im Maschinellen Lernen Automatisierte Hyperparameter Optimierung Vielen Dank für die Aufmerksamkeit Kontakt: Nicolas Schilling Mail: The authors gratefully acknowledge the co-funding of their work by the German Research Foundation (DFG) under grant SCHM 2583/ / 35