Lineare Regression. Volker Tresp

Ähnliche Dokumente
Neuronale Netze mit mehreren Schichten

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Einführung in neuronale Netze

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Lernende Suchmaschinen

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Approximation von Warteschlangenkennzahlen mit Künstlichen Neuronalen Netzen

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek KDD Übung

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Datenanalyse mit Python. Dr. Wolfram Schroers <Wolfram.Schroers - at - Field-theory.org>

3. LINEARE GLEICHUNGSSYSTEME

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Kurs Multivariate Datenanalyse (MVA) Versuchsplanung (design of experiments)

Kybernetik Systemidentifikation

Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder

ML-Werkzeuge und ihre Anwendung

Vorlesung 3 MINIMALE SPANNBÄUME

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

Computational Intelligence I Künstliche Neuronale Netze

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Computer Vision: Optische Flüsse

Korrelation - Regression. Berghold, IMI

Rekonstruktion 3D-Datensätze

Projekt 7. Machine Learning. (Matthias Bethge) 7.1 Overtüre

Algorithms for Regression and Classification

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

(künstliche) Neuronale Netze. (c) Till Hänisch 2003,2015, DHBW Heidenheim

IBM SPSS Neural Networks 22

Statistik Einführung // Lineare Regression 9 p.2/72

Prof. J. Zhang Universität Hamburg. AB Technische Aspekte Multimodaler Systeme. 6. Januar 2004

Machine Learning - Maschinen besser als das menschliche Gehirn?

Multivariate Statistik

Künstliche neuronale Netze

Lineare Gleichungssysteme

Seminar Text- und Datamining Datamining-Grundlagen

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

2.5.2 Selbstorganisierte Karten: das Modell von Kohonen. Weil es beim Perzeptron keine Wechselwirkung in der Verarbeitungsschicht

Kommentierter SPSS-Ausdruck zur logistischen Regression

Aufabe 7: Baum-Welch Algorithmus

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume


Lineare Gleichungssysteme I (Matrixgleichungen)

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

Statische Versuchsplanung (DoE - Design of Experiments)

Bestimmung einer ersten

Überblick: Entscheidungstheoretische Konzepte Seminar Online-Optimierung Diana Balbus

Diskriminanzanalyse Beispiel

3.3 Eigenwerte und Eigenräume, Diagonalisierung

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Das Perzeptron. Künstliche neuronale Netze. Sebastian Otte. 1 Grundlegendes. 2 Perzeptron Modell

Hochschule Regensburg. Spezielle Algorithmen (SAL) Lehrbeauftragter: Prof. Sauer

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Rating. { 0 = kein Ausfall des Kreditnehmers i

Teil II. Nichtlineare Optimierung

Skriptum zum ersten Teil der Einführung in die Wissensverarbeitung

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Realtime Human Body Tracking

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

4. Dynamische Optimierung

Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg

Fehler in numerischen Rechnungen

Kapiteltests zum Leitprogramm Binäre Suchbäume

Klassifizieren und Visualisieren von Daten mit Selbstorganisierenden Karten

Maschinelles Lernen Entscheidungsbäume

Mehrgleichungsmodelle

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Statistisches Programmieren

Künstliche Neuronale Netze und Data Mining

Mathematik 1 für Wirtschaftsinformatik

Weiterbildungskurs Stochastik

Statistik - Fehlerrechnung - Auswertung von Messungen

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

Repetitionsaufgaben Wurzelgleichungen

Fortgeschrittene Computerintensive Methoden

Übersicht. 20. Verstärkungslernen

9. Schätzen und Testen bei unbekannter Varianz

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 04/05. Musterlösung 9

Portfolio Management

Anwenderdokumentation Beleg Neuronale Netze

Adaptive Modellierung und Simulation

Lasso in LMs und GLMs

Transkript:

Lineare Regression Volker Tresp 1

Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M 1 j=0 w i,j x i,j (beachte: x i,0 = 1 ist ein konstanter Eingang, so dass w 0 dem Bias entspricht) Es wird nun jedoch keine Binarisierung mehr vorgenommen, sondern ŷ i = f(x i ) = h i 2

Diskussion: Empirische Risiko Minimierung Wie beim Perzeptron stellen wir eine geeignete Kostenfunktion auf und Ziel im Training ist es, die Kostenfunktion zu minimieren Wir verwenden als Kostenfunktion den empirischer quadratischer Fehler: cost(w) = N (y i f(x i, w)) 2 i=1 Der Parametervektor, der diesen Fehler minimiert heißt Least-Squares (LS-) Schätzer, w ls = arg min w cost(w) Bei einer binären Klassifikation kann man als Zielwerte y i { 1, 1} wählen und als Prognose das Vorzeichen von f(.) wählen Das lineare System eignet sich ebenso zur Modellierung stetiger Abhängigkeiten: lineare Regression 3

Warnung: Wie beim Perzeptron wird auch das lineare Modell typischerweise angewandt, wenn die Eingangsdimension groß ist, also M >> 1 Zur Visualisierung wählt man jedoch M = 2

Kleinste-Quadrate Schätzer für lineare Regression (eindimensional) Eindimensionales Modell: f(x, w) = w 0 + w 1 x w = (w 0, w 1 ) T Empirischer quadratischer Fehler: Finde: cost(w) = N (y i f(x i, w)) 2 i=1 w ls = arg min w cost(w) w 0 = 1, w 1 = 2, var(ɛ) = 1 4

Kleinste-Quadrate Schätzer für Regression (mehrdimensional) Mehrdimensionales Modell: f(x i, w) = w 0 + M 1 j=1 w j x i,j = x T i w w = (w 0, w 1,... w M 1 ) T x i = (1, x i,1,..., x i,m 1 ) T 5

Mehrdimensionale Lineare Regression 6

Gradientenabstieg Wie beim Perzeptron können wir den optimalen Parameter durch Gradientenabstieg finden Man initialisiert die Parameter (typischerweise durch kleine Zufallszahlen) In jedem Lernschritt verändert man die Parameter, so dass die Kostenfunktion verringert wird Gradientenabstieg: Man verändert den Parametervektor in Richtung des negativen Gradienten Mit cost(w) = N yi M 1 2 w j x i,j i=1 j=0 7

Die Ableitung der Kostenfunktion nach den Gewichten ist (Beispiel w j ) cost w j N = 2 (y i f(x i ))x i,j i=1 Eine sinnvolle Lernregel ist somit w j w j + η N (y i f(x i ))x i,j i=1

Die ADALINE-Lernregel Im tatsächlichen Algorithmus werden in zufälliger Reihenfolge dem Perzeptron falsch klassifizierte Muster angeboten (stochastischer Gradientenabstieg). Einmal ist dies biologisch plausibler, und zweitens ist die Konvergenz schneller. Seien x t und y t die angebotenen Muster im t-ten Iterationsschritt. Dann wird adaptiert t = 1, 2,... w j w j + η(y t ŷ t )x t,j j = 1, 2,..., M η > 0 ist die Lernrate, typischerweise 0 < η < 0.1 Die least-squares Lösung lässt sich auch nicht-iterativ in einem Schritt herleiten 8

Geschlossene LS-Lösung Empirischer quadratischer Fehler: cost(w) = N (y i f(x i, w)) 2 i=1 = (y Xw) T (y Xw) y = (y 1,..., y N ) T X = x 1,0... x 1,M 1......... x N,0... x N,M 1 9

LS-Lösung (2) Matrix Kalkül: Daher cost(w) w = (y Xw) w 2(y Xw) = 2X T (y Xw) 10

LS-Lösung (3) Berechnung der LS-Lösung: cost(w) w = 2X T (y Xw) = 0 ŵ ls = (X T X) 1 X T y Komplexität (linear in N): O(M 3 + NM 2 ) ŵ 0 = 0.75, ŵ 1 = 2.13 11

Stabilität der Lösung Wenn N >> M, ist die least squares Lösung brauchbar Wenn N < M ist X T X nicht eindeutig invertiertbar: es gibt viele Lösungen for den Gewichtsvektor, die alle einen Trainingsfehler Null produzieren minimiert (regulari- Von all diesen Lösungen bevorzugt man diejenige, die M i=0 wi 2 sierte Lösung) Der j te Eingang trägt mit w j x i,j zur Lösung bei; auch hier erreicht man eine Robustheit gegen Fehler im Eingang, wenn man die regularisierte Lösung wählt Wenn es Rauschen auf den Zielwerten gibt, ist es Vorteilhaft, auch dann eine regularisierte Lösung zu wählen, selbst wenn N > M Regularisierungstheorie: Theorie der schlecht-konditionierten Probleme (kleine Änderungen in den Daten bewirken große Änderungen in der Lösung) 12

Lineare Regression und Regularisierung Regularisierte Kostenfunktion (penalized least squares (PLS), Ridge Regression, Weight Decay): der Einfluss einer Eingangsgröße sollte klein sein cost pen (w) = N (y i f(x i, w)) 2 + λ i=1 M 1 i=0 w 2 i ŵ pen = ( X T X + λi) 1 X T y Herleitung: J pen N (w) w = 2X T (y Xw) + 2λw = 2[ X T y + (X T X + λi)w] 13

Beispiel Drei Datenpunkte werden generiert nach (wahres Modell) Hier ist ɛ i unabhängiges Rauschen (korrektes) Modell 1 Trainingsdaten für Modell 1: x 1 y -0.2 0.49 0.2 0.64 1 1.39 y i = 0.5 + x i,1 + ɛ i y i = w 0 + w 1 x i,1 Die LS- Lösung liefert w ls = (0.58, 0.77) Im Vergleich: die wahren Gewichte sind: w = (0.50, 1.00) 14

Modell 2 Hier generieren wir einen korrelierten weiteren Eingang x i,2 = x i,1 + δ i Wieder ist δ i unkorreliertes Rauschen. Modell 2 y i = w 0 + w 1 x i,1 + w 2 x i,2 Daten, die Modell 2 sieht: x 1 x 2 y -0.2-0.1996 0.49 0.2 0.1993 0.64 1 1.0017 1.39 Die least squares Lösung liefert w ls = (0.67, 136, 137)!!! 15

Modell 2 mit Regularisierung Alles wie zuvor, nur dass wir große Gewichte bestrafen Die penalized least squares Lösung liefert w pen = (0.58, 0.38, 0.39)!!! Vergleiche die LS- Lösung zu Modell-1 lieferte w ls = (0.58, 0.77) Die Kollinearität (hohe Korreliertheit der beiden Eingänge) ) schadet bei der LS-Lösung sehr, bei der PLS-Lösung hingegen nicht. Es entsteht sogar eine höhere Robustheit in Bezug auf Fehler in x! 16

Trainingsdaten Training: y M1 : ŷ ML M2 : ŷ ML M2 : ŷ pen 0.50 0.43 0.50 0.43 0.65 0.74 0.65 0.74 1.39 1.36 1.39 1.36 Für Modell 1 und Model 2 mit Regularisierung bleibt ein Restfehler auf den Trainingsdaten Für Modell 2 ohne Regularisierung ist der Trainingsfehler Null Nur aufgrund des Trainingsfehlers würde man das unregularisierte Modell 2 auswählen 17

Testdaten Testdaten: y M1 : ŷ ML M2 : ŷ ML M2 : ŷ pen 0.20 0.36 0.69 0.36 0.80 0.82 0.51 0.82 1.10 1.05 1.30 1.05 Bei den Testdaten sieht man, dass Modell 1 und Model 2 mit Regularisierung bessere Ergebnisse liefern Noch dramatischer wäre der Unterschied in der Extrapolation! 18

Experiment mir realen Daten: Prostata-Krebs Daten 8 Eingänge, 97 Datenpunkte; y: Prostata-spezifisches Antigen; M eff = 4.16 10-facher Kreuzvalidierungsfehler LS 0.586 Best Subset (3) 0.574 Ridge (Weight Decay) 0.540 19