LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Gliederung Lineare Mdelle zur Klassifikatin und Regressin 1 Lineare

Ähnliche Dokumente
Vorlesung Wissensentdeckung in Datenbanken

Maschinelles Lernen. Skript zur Vorlesung. Katharina Morik. September 17, 2013

Teil III: Wissensrepräsentation und Inferenz. Nachtrag zu Kap.5: Neuronale Netze. w i,neu = w i,alt + x i * (Output soll - Output ist ) Delta-Regel

Statistik, Datenanalyse und Simulation

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Wichtige Definitionen und Aussagen

Mathematik für Naturwissenschaften, Teil 2

Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn Referenten: Belinda Höher, Thomas Holub, Maria Böhm.

Lineare Regression. Volker Tresp

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Mathematik 2 Probeprüfung 1

Vorlesung 8a. Kovarianz und Korrelation

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Eine zweidimensionale Stichprobe

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

70 Wichtige kontinuierliche Verteilungen

Didaktisches Seminar über Stochastik. Themen: ffl Korrelation von zwei Zufallsvariablen

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Reelle Zufallsvariablen

5. Spezielle stetige Verteilungen

2 Zufallsvariable und Verteilungsfunktionen

1.5 Erwartungswert und Varianz

5 Erwartungswerte, Varianzen und Kovarianzen

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Forschungsstatistik I

1 Beispiel zur Methode der kleinsten Quadrate

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Probeklausur zu Mathematik 3 für Informatik Lösungshinweise (ohne Garantie auf Fehlefreiheit)

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Ausgleichsproblem. Definition (1.0.3)

Wahrscheinlichkeitstheorie und Statistik vom

1.5 Erwartungswert und Varianz

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

6. Schätzverfahren für Parameter

Vorlesung Wissensentdeckung

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Übung Teil 1: Einkommen, Lorenzkurven und Equity

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Taylorreihen. Kapitel 9. Lernziele. Taylorreihe. (x x 0 ) + f (x 0 ) 2! (x x 0 ) f (n) (x 0 ) (x x 0 ) n. Taylorreihe und MacLaurinreihe

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass

Der metrische Raum (X, d) ist gegeben. Zeigen Sie, dass auch

Zufallsvariable: Verteilungen & Kennzahlen

15.5 Stetige Zufallsvariablen

Numerische Methoden und Algorithmen in der Physik

Sabrina Kallus, Eva Lotte Reinartz, André Salé

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Nachklausur zur Vorlesung. Statistik für Studierende der Biologie

18.2 Implizit definierte Funktionen

Kapitel 3 Schließende Statistik

Statistisches Testen

Übung V Lineares Regressionsmodell

Überbestimmte lineare Gleichungssysteme

Zufallsvariablen [random variable]

7.5 Erwartungswert, Varianz

Erwartungswert und Varianz von Zufallsvariablen

67 Zufallsvariable, Erwartungswert, Varianz

Lernzettel Nr Definition eines Zufallsversuchs und die Begriffe rund um diesen

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Musterlösung. Modulklausur Multivariate Verfahren

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Klassifikation von Daten Einleitung

Mathematik für Biologen

Varianz und Kovarianz

Wahrscheinlichkeitsrechnung und Statistik für Studierende der Informatik. PD Dr. U. Ludwig. Vorlesung 7 1 / 19

Rückblick auf die letzte Vorlesung. Bemerkung

4. Verteilungen von Funktionen von Zufallsvariablen

Finanzmathematische Modelle und Simulation

1 Multivariate Zufallsvariablen

2 Zufallsvariable, Verteilungen, Erwartungswert

Übungsblatt 9 (25. bis 29. Juni)

Einführung in die Maximum Likelihood Methodik

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Eindimensionale Zufallsvariablen

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Die Familie der χ 2 (n)-verteilungen

7.2 Moment und Varianz

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Die Funktion f X;Y (x; y) := Pr[X = x; Y = y] heit gemeinsame Dichte der Zufallsvariablen X und Y. Aus der gemeinsamen Dichte f X;Y kann man ableiten

Support Vector Machines (SVM)

Analysis II 14. Übungsblatt

Korrelation und Regression

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Die folgende Grafik zeigt eine Übergangsmatrix mit zugehörigem Graph: Geben Sie analog zu den folgenden Graphen jeweils eine Transitionsmatrix an.

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

1 Diskriminanzanalyse

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Klausur zur Mathematik für Biologen

Transkript:

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Vrlesung Maschinelles Lernen Klassifikatin und Regressin: Lineare Mdelle Katharina Mrik LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund 21.10.2008 1 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Gliederung Lineare Mdelle zur Klassifikatin und Regressin 1 Lineare Mdelle zur Klassifikatin und Regressin Klassifikatin und Regressin Lineare Mdelle Gemetrie linearer Mdelle: Hyperebenen 2 Exkurs:Erwartungswert Bias und Varianz bei linearen Mdellen 2 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Grundlagen Lineare Mdelle zur Klassifikatin und Regressin Sei X = {X 1,..., X p } eine Menge vn Zufallsvariablen und Y eine Menge. Ein Beispiel (der Bebachtung) x ist ein knkreter p-dimensinaler Vektr über diesen Zufallsvariablen. Eine Menge vn n Beispielen X = { x 1,..., x N } können wir dann als (N p)-matrix auffassen: x 1,1 x 1,2... x 1,p. X = x.. 2,1...... x N,1 x N,2... x N,p Dabei entspricht jede Zeile x i der Matrix X einem Beispiel. 3 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Klassifikatin und Regressin Lineare Mdelle zur Klassifikatin und Regressin Beim überwachten Lernen (darum geht es hier), ist zusätzlich zu jeder Bebachtung x ein Label (Klasse) y gegeben, d.h. wir haben Bebachtungen ( x, y) X Y. Y kann swhl eine qualitative, als auch eine quantitative Beschreibung vn x sein. Für den quantitativen Fall ist z.b. Y = R und wir versuchen für unbekanntes x den Wert y vrherzusagen Regressin. Im Falle qualitativer Beschreibungen ist Y eine diskrete Menge und wir nutzen f zur Klassifikatin. 4 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lernen auf Trainingsdaten Lineare Mdelle zur Klassifikatin und Regressin Wvn gehen wir als aus? Was ist unser Ziel? Wir suchen die wahre Funktin f : X Y mit f( x) =y ( x, y) X Y Wir haben jedch nur eine Teilmenge der Bebachtungen gegeben (Trainingsdaten) 5 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Klassifikatin und Regressin Lineare Mdelle zur Klassifikatin und Regressin Auf Grundlage der Trainingsdaten suchen wir eine möglichst gute Annäherung ˆf an die wahre Funktin f. Die Funktin ˆf bezeichnen wir auch als das gelernte Mdell. Haben wir ein Mdell ˆf gelernt, s liefert uns dieses Mdell mit ŷ = ˆf ( x) für neue Daten x X eine Vrhersage ŷ Y. 6 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Klassifikatin und Regressin Lineare Mdelle zur Klassifikatin und Regressin Im Falle der Regressin läßt sich s für zuvr unbekannte x X der Wert ŷ = ˆf ( x) mit ŷ R vrhersagen. Dieses Mdell ˆf läßt sich auch für die Klassifikatin nutzen, bei der z.b. ŷ { 1, +1} vrhergesagt werden sllen: { +1, falls ˆf ( x) θ ŷ = 1, snst Hier ist θ ein vrgegebener Schwellwert. 7 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin Gegeben seien Gewicht (X 1 ) und Größe (X 2 ) einiger Persnen und ein Label y {m, w}: X 1 X 2 Y x 1 91 190 m x 2 60 170 w x 3 41 160 w. Die Tabelle enthält die zur Verfügung stehenden Trainingsdaten, als 91 190 60 170 X = 41 160..... 8 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin Es wird nun eine Funktin ˆf gesucht, die für neue Daten x das Attribut Y (Geschlecht) vraussagt, als { m, falls ˆf(x) >θ ŷ = w, snst 9 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin Es wird nun eine Funktin ˆf gesucht, die für neue Daten x das Attribut Y (Geschlecht) vraussagt, als { m, falls ˆf(x) >θ ŷ = w, snst 200 Klasse m Klasse w 190 Größe (in cm) 180 170 160 150 40 50 60 70 80 90 100 9 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle Lineare Mdelle zur Klassifikatin und Regressin Welche Art vn Funktinen sind denkbar? Lineare Funktinen als einfachste Funktinenklasse: y = f(x) =mx + b Gerade im R 2 Allerdings betrachten wir als Beispielraum den R p, d.h. wir brauchen eine verallgemeinerte Frm: y = f ( x) = p β i x i + β 0 mit β 0 R, x, β R p (1) i=1 Die Funktin f wird als durch β und β 0 festgelegt und sagt uns für ein gegebenes x das entsprechende y vraus 10 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Ntatin, Vereinbarungen Lineare Mdelle zur Klassifikatin und Regressin Bei genauerer Betrachtung vn Frmel (1) läßt sich p i=1 β ix i als Matrizenmultiplikatin schreiben, als y = p β i x i + β 0 = x T β + β0 i=1 Zur einfacheren Darstellung vn f, wird β 0 in den Vektr β cdiert, indem jedes Beispiel x =(x 1,..., x p ) aufgefasst wird als (p + 1)-dimensinaler Vektr (x 1,..., x p ) (1,x 1,..., x p ) Dies ermöglicht die Darstellung vn f als: y = f ( x) = p β i x i = x T β i=0 11 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Was haben wir nun gemacht? Lineare Mdelle zur Klassifikatin und Regressin Wir haben (bei der Beschränkung auf lineare Mdelle) nun eine Darstellung für das, was wir lernen wllen: y = ˆf( x) = x T β Wir haben die Zielfunktin ˆf in Abhängigkeit vn β geschrieben und müssen nur nch das passende β finden. 12 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Veranschaulichung Lineare Mdelle zur Klassifikatin und Regressin Bevr wir uns an die Wahl des passenden β machen, zunächst einige Vrüberlegungen. Betrachten wir dazu die binäre Klassifikatin (Y = { 1, +1}): Was passiert dabei eigentlich anschaulich? Wie klassifiziert unser ˆf die Daten? Wie wirkt sich die Wahl vn β aus? 13 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Zur Erinnerung: Hyperebene Lineare Mdelle zur Klassifikatin und Regressin Sei V = R p ein Vektrraum, dann ist eine Hyperebene H ein (p 1)-dimensinaler affiner Untervektrraum. H lässt sich über einen Stützvektr a und einen Nrmalenvektr β schreiben als { H = x R p β( x } a) =0 Hesse Nrmalfrm Die Ebenengleichung β( x a) = 0 ist in Hesse Nrmalfrm, falls β =1. 14 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Zur Erinnerung: Hyperebene Lineare Mdelle zur Klassifikatin und Regressin Sei V = R p ein Vektrraum, dann ist eine Hyperebene H ein (p 1)-dimensinaler affiner Untervektrraum. H lässt sich über einen Stützvektr a und einen Nrmalenvektr β schreiben als { H = x R p β( x } a) =0 Hesse Nrmalfrm Die Ebenengleichung β( x a) = 0 ist in Hesse Nrmalfrm, falls β =1. 14 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin (Hyper-) Ebene im R 3 mit Nrmalenvektr β und Stützvektr a. 15 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin 16 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel: Ein mögliches β 200 Lineare Mdelle zur Klassifikatin und Regressin Klasse m Klasse w f(x) 190 Größe (in cm) 180 170 160 150 40 50 60 70 80 90 100 Gewicht (in kg) f( x) = x T ˆ β mit ˆ β = β 0 β 1 β 2 = 260 1 1.2 17 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Es ist nicht garantiert, dass β immer paßt! Lineare Mdelle zur Klassifikatin und Regressin 200 Klasse m Klasse w 190 Größe (in cm) 180 170 160 150 40 50 60 70 80 90 100 Gewicht (in kg) 18 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Mdell-Anpassung Lineare Mdelle zur Klassifikatin und Regressin Unsere linearen Mdelle sind durch β parametrisiert, das Lernen eines Mdells haben wir als auf die Wahl eines β abgewälzt. Das wirft eine Reihe vn Fragen auf: Was ist ein gutes β? Gibt es ein ptimales β? Welche Möglichkeiten haben wir, unser Mdell zu beurteilen? 19 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Mdell-Anpassung Lineare Mdelle zur Klassifikatin und Regressin Unsere linearen Mdelle sind durch β parametrisiert, das Lernen eines Mdells haben wir als auf die Wahl eines β abgewälzt. Das wirft eine Reihe vn Fragen auf: Was ist ein gutes β? Gibt es ein ptimales β? Welche Möglichkeiten haben wir, unser Mdell zu beurteilen? Eine Möglichkeit: Berechne den Trainingsfehler Err( β)= N y i ˆf( x i ) = i=1 N y i x T i β i=1 19 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Mdell-Anpassung Lineare Mdelle zur Klassifikatin und Regressin Häufig wird als Fehlerfunktin die quadratische Fehlersumme (RSS) verwendet: RSS( β) = N T (y i x i β) 2 i=1 = ( y X β) T ( y X β) Wir wählen jetzt β derart, dass der Fehler minimiert wird: min RSS( β) β R p Knvexes Minimierungsprblem! 20 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Minimierung vn RSS( β) Lineare Mdelle zur Klassifikatin und Regressin Um RSS( β) zu minimieren, bilden wir die partielle Ableitung nach β: RSS( β) β = X T (y X β) Ntwendige Bedingung für die Existenz eines (lkalen) Minimums vn RSS ist RSS( β) β = X T (y X β) = 0 Ist X T X regulär, s erhalten wir ˆ β =(X T X) 1 X T y 21 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Optimales ˆ β? Lineare Mdelle zur Klassifikatin und Regressin Mit Hilfe der Minimierung der (quadratischen) Fehlerfunktin RSS auf unseren Trainingsdaten haben wir ein (bzgl. RSS) ptimales ˆ β gefunden. Damit liefert unser Mdell Vraussagen ŷ für x X: ŷ = ˆf( x) =x T ˆ β 22 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Sind wir schn fertig? Lineare Mdelle zur Klassifikatin und Regressin Schön wär s! Aber drei Gründe sprechen für weitere Arbeit: 1 Es ist nicht immer s einfach, z.b. dann nicht, wenn wir viele Dimensinen haben (Fluch der hhen Dimensin). 2 Vielleicht lassen sich die Beispiele nicht linear trennen! 3 Nur den Fehler zu minimieren reicht nicht aus, wir suchen nch nach weiteren Beschränkungen, die zu besseren Lösungen führen. Als schauen wir uns den Fehler nch einmal genauer an, stßen auf Bias und Varianz und merken, dass wir nch keine perfekte Lösung haben. 23 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Fehler Lineare Mdelle zur Klassifikatin und Regressin Bisher haben wir mit RSS die Fehler einfach summiert. Wir wllen aber einbeziehen, wie wahrscheinlich der Fehler ist vielleicht ist er ja ganz unwahrscheinlich! Wann können wir denn einen Fehler erwarten? 24 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Zur Erinnerung: Erwartungswert Lineare Mdelle zur Klassifikatin und Regressin Erwartungswert Sei X eine diskrete Zufallsvariable, mit Werten x 1,..., x n und p i die Wahrscheinlichkeit für x i. Der Erwartungswert vn X ist E(X) = i x i p i = i x i P (X = x i ) Ist X eine stetige Zufallsvariable und f die zugehörige Wahrscheinlichkeitsdichtefunktin, s ist der Erwartungswert vn X E(X) = xf(x)dx 25 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Erwartungswert (Eigenschaften) Lineare Mdelle zur Klassifikatin und Regressin Eigenschaften Seien X, Y und X 1,..., X n Zufallsvariablen, dann gilt: Der Erwartungswert ist additiv, d.h. es gilt ( n ) n E X i = E(X i ) (2) i=1 i=1 Ist Y = kx + d, s gilt für den Erwartungswert E(Y )=E(kX + d) =ke(x)+d Sind die Zufallsvariablen X i stchastisch unabhängig, gilt ( n ) n E X i = E(X i ) i=1 i=1 26 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Varianz und Standardabweichung Lineare Mdelle zur Klassifikatin und Regressin Über den Erwartungswert einer Zufallsvariablen X sind mehrere Eigenschaften vn X definiert, die helfen, X zu charakterisieren: Varianz Sei X eine Zufallsvariable mit µ = E(X). Die Varianz V ar(x) ist definiert als V ar(x) := E ( (X µ) 2). Standardabweichung Die Standardabweichung σ einer Zufallsvariable X ist definiert als σ := V ar(x) 27 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Varianz und Standardabweichung Lineare Mdelle zur Klassifikatin und Regressin Über den Erwartungswert einer Zufallsvariablen X sind mehrere Eigenschaften vn X definiert, die helfen, X zu charakterisieren: Varianz Sei X eine Zufallsvariable mit µ = E(X). Die Varianz V ar(x) ist definiert als V ar(x) := E ( (X µ) 2). Standardabweichung Die Standardabweichung σ einer Zufallsvariable X ist definiert als σ := V ar(x) Die Varianz wird häufig auch mit σ 2 bezeichnet. 27 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Varianz und Standardabweichung Lineare Mdelle zur Klassifikatin und Regressin Verschiebungssatz Sei X eine Zufallsvariable, für die Varianz gilt V ar(x) =E(X E(X)) 2 = E(X 2 ) (E(X)) 2 (3) Eine weitere Charakteristik, die häufig zur Beschreibung vn erwarteten Fehlern verwendet wird, ist die Verzerrung: Verzerrung (Bias) Sei X eine Zufallsvariable, dann ist die Verzerrung definiert als der erwartete Schätzfehler für X Bias(ˆx) =E(X ˆx) (4) 28 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Erwartungswert des Fehlers einer Regressin Lineare Mdelle zur Klassifikatin und Regressin Erwarteter quadratischer Fehler: Gelernte Funktin ˆf : X Y, der Erwartungswert ihres Fehlers ist: EP E(f) =E(Y ˆf(X)) 2 (5) Optimierungsprblem: Wähle ˆf s, dass der erwartete Fehler minimiert wird! ˆf(x) =argmin c E Y X ((Y c) 2 X = x) Lösung (Regressinsfunktin): f(x) = E(Y X = x) 29 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Bias und Varianz Lineare Mdelle zur Klassifikatin und Regressin Zwei Aspekte machen den erwarteten Fehler aus, die Verzerrung (Bias) und die Varianz. Wir wllen den Fehler an einem Testpunkt x 0 =0angeben und mitteln über allen Trainingsmengen T. Wie das? MSE( x 0 ) = E T [y 0 ŷ 0 ] 2 = E T [ŷ 0 E T (ŷ 0 )] 2 +[E T (ŷ 0 y 0 )] 2 = E T [y 2 0] E T [2y 0 ŷ 0 ]+E T [ŷ 2 0] = V ar T (ŷ 0 )+Bias 2 (ŷ 0 ) 30 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Herleitung der Varianz in MSE Lineare Mdelle zur Klassifikatin und Regressin Nach dem Verschiebungssatz (3) gilt V ar T (y 0 )=E T [ŷ 2 0] (E T [ŷ 0 ]) 2 E T [ŷ 2 0]=V ar T (y 0 )+(E T [ŷ 0 ]) 2 (6) Damit flgt MSE( x 0 ) = E T [y 0 ŷ 0 ] 2 [ = E T y 2 0 2y 0 ŷ 0 +ŷ0 2 ] (2) = E T [y 2 0] E T [2yŷ 0 ]+E T [ŷ 2 0] (6) = E T [y 2 0] E T [2y 0 ŷ 0 ]+V ar T (ŷ 0 )+(E T [ŷ 0 ]) 2 = E T [y 2 0 2yŷ 0 +ŷ 2 0]+V ar T (ŷ 0 ) = E T [y 0 ŷ 0 ] 2 + V ar T (ŷ 0 ) (4) = Bias 2 (ŷ 0 )+V ar T (ŷ 0 ) 31 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Herleitung des Bias in MSE Lineare Mdelle zur Klassifikatin und Regressin Smit gilt MSE( x 0 )=V ar T (ŷ 0 )+Bias 2 (ŷ 0 ) Die Dekmpsitin des MSE in Bias und Varianz abstrahiert s, dass wir besser über Mdelle nachdenken können. Frage: Wie wirken sich Bias und Varianz nun auf unsere linearen Mdelle aus? 32 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Erwartungswert des Fehlers bei linearen Mdellen Unter der Annahme, dass unsere Beispiele Messfehler enhalten, aber X und Y wirklich linear vneinander abhängen (Bias=0), passen wir das Mdell Y = X T β + ɛ durch Minimieren des quadratischen Fehlers an. Der erwartete Fehler der ŷ-vrhersage für ein beliebiges x 0 ist: EP E( x 0 ) = E y0 x 0 E T (y 0 ŷ 0 ) 2 = V ar(y 0 x 0 )+E T (ŷ 0 E T (y 0 )) 2 +(E T (ŷ 0 ) E T (y 0 )) 2 = V ar(y 0 x 0 )+V ar T (ŷ 0 )+Bias 2 (ŷ 0 ) = σ 2 + E T ( x 0 T (X T X) 1 x 0 σ 2 )+0 2 Die zusätzliche Varianz kmmt durch das Rauschen. 33 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Zusammenhang zwischen Anzahl der Beispiele, der Attribute und erwartetem Fehler Beziehen wir den Erwartungswert vn x ein, erhalten wir E x EP E( x) =σ 2 (p/n)+σ 2 Bei kleinem σ 2 und grßem N klappt alles auch bei grßem p, wenn das lineare Mdell perfekt passt, d.h. die Beispiele sind linear trennbar. 34 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Fluch der hhen Dimensin bei linearen Mdellen Leider mussten wir annehmen, dass das Mdell genau passt, um den erwarteten Fehler klein zu halten. Wir wissen aber nicht, welche Art vn Funktin gut zu unseren Daten passt! Mdellselektin ist schwierig! Das Mdell muss immer kmplizierter werden, je mehr Dimensinen es gibt. Bei linearen Mdellen entspricht die Kmplexität des Mdells direkt p, denn β hat s viele Kmpnenten wie p bzw. p +1. 35 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Bias und Varianz bei linearen Mdellen Lineare Mdelle zur Klassifikatin und Regressin Das lineare Mdell wird an die Daten angepasst durch ˆf p ( x) = ˆβ T x Der Fehler ist dann für ein beliebiges x: Err( x) = E[(Y ˆf p ( x)) 2 X = x] (7) = σɛ 2 + V ar( ˆf [ p ( x)+ f( x) E ˆf 2 p ( x)] (8) Im Mittel über allen x i ist V ar( ˆf p ) = (p/n)σ 2. Mdellkmplexität und Varianz hängen bei linearen Mdellen direkt zusammen. Der Trainingsfehler linearer Mdelle ist: 1 N N Err(x i )=σɛ 2 + p 1 N σ2 ɛ N i=1 N i=1 [ f( x i ) E ˆf( x i )] 2 (9) 36 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Lineare Mdelle Die grünen und rten Datenpunkte werden durch eine Ebene getrennt. Linear Regressin f 0/1 Respnse................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ Figure 2.1: A classificatin example in tw dimensins. The classes are cded as a binary variable GREEN = 0, RED = 1 and then fit by linear regressin. The line is the decisin bundary defined by x T ˆβ = 0.5. 37 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Was wissen Sie jetzt? Lineare Mdelle zur Klassifikatin und Regressin Sie haben theretisch lineare Mdelle für Klassifikatin und Regressin kennengelernt. Sie kennen das Optimierungsprblem der kleinsten Quadrate RSS für lineare Mdelle (Gleichung 9). Sie kennen den erwarteten Fehler EPE bei linearen Mdellen. Sie kennen den Fluch der hhen Dimensin bei linearen Mdellen: Kmplexität und Varianz hängen an der Dimensin! Der Bias kann sehr hch sein, wenn die Beispiele tatsächlich nicht linear separierbar sind. 38 vn 39

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Bis zum nächsten Mal... Lineare Mdelle zur Klassifikatin und Regressin Gehen Sie alle Flien nch einmal in Ruhe durch. Vertiefen Sie sich nch einmal in die Ebenengleichung! Die lineare Algebra wird immer wieder vrkmmen. Sie können auch die partiellen Ableitungen für RSS mit der Nrmalengleichung vrnehmen. Rechnen Sie mal ein Beispiel durch mit Gleichung (9), (9)... Diskutieren Sie, warum Bias und Varianz s wichtig sind! Prbieren Sie lineare Regressin in RapidMiner aus! 39 vn 39