LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Vrlesung Maschinelles Lernen Klassifikatin und Regressin: Lineare Mdelle Katharina Mrik LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund 21.10.2008 1 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Gliederung Lineare Mdelle zur Klassifikatin und Regressin 1 Lineare Mdelle zur Klassifikatin und Regressin Klassifikatin und Regressin Lineare Mdelle Gemetrie linearer Mdelle: Hyperebenen 2 Exkurs:Erwartungswert Bias und Varianz bei linearen Mdellen 2 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Grundlagen Lineare Mdelle zur Klassifikatin und Regressin Sei X = {X 1,..., X p } eine Menge vn Zufallsvariablen und Y eine Menge. Ein Beispiel (der Bebachtung) x ist ein knkreter p-dimensinaler Vektr über diesen Zufallsvariablen. Eine Menge vn n Beispielen X = { x 1,..., x N } können wir dann als (N p)-matrix auffassen: x 1,1 x 1,2... x 1,p. X = x.. 2,1...... x N,1 x N,2... x N,p Dabei entspricht jede Zeile x i der Matrix X einem Beispiel. 3 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Klassifikatin und Regressin Lineare Mdelle zur Klassifikatin und Regressin Beim überwachten Lernen (darum geht es hier), ist zusätzlich zu jeder Bebachtung x ein Label (Klasse) y gegeben, d.h. wir haben Bebachtungen ( x, y) X Y. Y kann swhl eine qualitative, als auch eine quantitative Beschreibung vn x sein. Für den quantitativen Fall ist z.b. Y = R und wir versuchen für unbekanntes x den Wert y vrherzusagen Regressin. Im Falle qualitativer Beschreibungen ist Y eine diskrete Menge und wir nutzen f zur Klassifikatin. 4 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lernen auf Trainingsdaten Lineare Mdelle zur Klassifikatin und Regressin Wvn gehen wir als aus? Was ist unser Ziel? Wir suchen die wahre Funktin f : X Y mit f( x) =y ( x, y) X Y Wir haben jedch nur eine Teilmenge der Bebachtungen gegeben (Trainingsdaten) 5 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Klassifikatin und Regressin Lineare Mdelle zur Klassifikatin und Regressin Auf Grundlage der Trainingsdaten suchen wir eine möglichst gute Annäherung ˆf an die wahre Funktin f. Die Funktin ˆf bezeichnen wir auch als das gelernte Mdell. Haben wir ein Mdell ˆf gelernt, s liefert uns dieses Mdell mit ŷ = ˆf ( x) für neue Daten x X eine Vrhersage ŷ Y. 6 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Klassifikatin und Regressin Lineare Mdelle zur Klassifikatin und Regressin Im Falle der Regressin läßt sich s für zuvr unbekannte x X der Wert ŷ = ˆf ( x) mit ŷ R vrhersagen. Dieses Mdell ˆf läßt sich auch für die Klassifikatin nutzen, bei der z.b. ŷ { 1, +1} vrhergesagt werden sllen: { +1, falls ˆf ( x) θ ŷ = 1, snst Hier ist θ ein vrgegebener Schwellwert. 7 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin Gegeben seien Gewicht (X 1 ) und Größe (X 2 ) einiger Persnen und ein Label y {m, w}: X 1 X 2 Y x 1 91 190 m x 2 60 170 w x 3 41 160 w. Die Tabelle enthält die zur Verfügung stehenden Trainingsdaten, als 91 190 60 170 X = 41 160..... 8 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin Es wird nun eine Funktin ˆf gesucht, die für neue Daten x das Attribut Y (Geschlecht) vraussagt, als { m, falls ˆf(x) >θ ŷ = w, snst 9 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin Es wird nun eine Funktin ˆf gesucht, die für neue Daten x das Attribut Y (Geschlecht) vraussagt, als { m, falls ˆf(x) >θ ŷ = w, snst 200 Klasse m Klasse w 190 Größe (in cm) 180 170 160 150 40 50 60 70 80 90 100 9 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle Lineare Mdelle zur Klassifikatin und Regressin Welche Art vn Funktinen sind denkbar? Lineare Funktinen als einfachste Funktinenklasse: y = f(x) =mx + b Gerade im R 2 Allerdings betrachten wir als Beispielraum den R p, d.h. wir brauchen eine verallgemeinerte Frm: y = f ( x) = p β i x i + β 0 mit β 0 R, x, β R p (1) i=1 Die Funktin f wird als durch β und β 0 festgelegt und sagt uns für ein gegebenes x das entsprechende y vraus 10 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Ntatin, Vereinbarungen Lineare Mdelle zur Klassifikatin und Regressin Bei genauerer Betrachtung vn Frmel (1) läßt sich p i=1 β ix i als Matrizenmultiplikatin schreiben, als y = p β i x i + β 0 = x T β + β0 i=1 Zur einfacheren Darstellung vn f, wird β 0 in den Vektr β cdiert, indem jedes Beispiel x =(x 1,..., x p ) aufgefasst wird als (p + 1)-dimensinaler Vektr (x 1,..., x p ) (1,x 1,..., x p ) Dies ermöglicht die Darstellung vn f als: y = f ( x) = p β i x i = x T β i=0 11 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Was haben wir nun gemacht? Lineare Mdelle zur Klassifikatin und Regressin Wir haben (bei der Beschränkung auf lineare Mdelle) nun eine Darstellung für das, was wir lernen wllen: y = ˆf( x) = x T β Wir haben die Zielfunktin ˆf in Abhängigkeit vn β geschrieben und müssen nur nch das passende β finden. 12 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Veranschaulichung Lineare Mdelle zur Klassifikatin und Regressin Bevr wir uns an die Wahl des passenden β machen, zunächst einige Vrüberlegungen. Betrachten wir dazu die binäre Klassifikatin (Y = { 1, +1}): Was passiert dabei eigentlich anschaulich? Wie klassifiziert unser ˆf die Daten? Wie wirkt sich die Wahl vn β aus? 13 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Zur Erinnerung: Hyperebene Lineare Mdelle zur Klassifikatin und Regressin Sei V = R p ein Vektrraum, dann ist eine Hyperebene H ein (p 1)-dimensinaler affiner Untervektrraum. H lässt sich über einen Stützvektr a und einen Nrmalenvektr β schreiben als { H = x R p β( x } a) =0 Hesse Nrmalfrm Die Ebenengleichung β( x a) = 0 ist in Hesse Nrmalfrm, falls β =1. 14 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Zur Erinnerung: Hyperebene Lineare Mdelle zur Klassifikatin und Regressin Sei V = R p ein Vektrraum, dann ist eine Hyperebene H ein (p 1)-dimensinaler affiner Untervektrraum. H lässt sich über einen Stützvektr a und einen Nrmalenvektr β schreiben als { H = x R p β( x } a) =0 Hesse Nrmalfrm Die Ebenengleichung β( x a) = 0 ist in Hesse Nrmalfrm, falls β =1. 14 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin (Hyper-) Ebene im R 3 mit Nrmalenvektr β und Stützvektr a. 15 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel Lineare Mdelle zur Klassifikatin und Regressin 16 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Beispiel: Ein mögliches β 200 Lineare Mdelle zur Klassifikatin und Regressin Klasse m Klasse w f(x) 190 Größe (in cm) 180 170 160 150 40 50 60 70 80 90 100 Gewicht (in kg) f( x) = x T ˆ β mit ˆ β = β 0 β 1 β 2 = 260 1 1.2 17 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Es ist nicht garantiert, dass β immer paßt! Lineare Mdelle zur Klassifikatin und Regressin 200 Klasse m Klasse w 190 Größe (in cm) 180 170 160 150 40 50 60 70 80 90 100 Gewicht (in kg) 18 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Mdell-Anpassung Lineare Mdelle zur Klassifikatin und Regressin Unsere linearen Mdelle sind durch β parametrisiert, das Lernen eines Mdells haben wir als auf die Wahl eines β abgewälzt. Das wirft eine Reihe vn Fragen auf: Was ist ein gutes β? Gibt es ein ptimales β? Welche Möglichkeiten haben wir, unser Mdell zu beurteilen? 19 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Mdell-Anpassung Lineare Mdelle zur Klassifikatin und Regressin Unsere linearen Mdelle sind durch β parametrisiert, das Lernen eines Mdells haben wir als auf die Wahl eines β abgewälzt. Das wirft eine Reihe vn Fragen auf: Was ist ein gutes β? Gibt es ein ptimales β? Welche Möglichkeiten haben wir, unser Mdell zu beurteilen? Eine Möglichkeit: Berechne den Trainingsfehler Err( β)= N y i ˆf( x i ) = i=1 N y i x T i β i=1 19 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Mdell-Anpassung Lineare Mdelle zur Klassifikatin und Regressin Häufig wird als Fehlerfunktin die quadratische Fehlersumme (RSS) verwendet: RSS( β) = N T (y i x i β) 2 i=1 = ( y X β) T ( y X β) Wir wählen jetzt β derart, dass der Fehler minimiert wird: min RSS( β) β R p Knvexes Minimierungsprblem! 20 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Minimierung vn RSS( β) Lineare Mdelle zur Klassifikatin und Regressin Um RSS( β) zu minimieren, bilden wir die partielle Ableitung nach β: RSS( β) β = X T (y X β) Ntwendige Bedingung für die Existenz eines (lkalen) Minimums vn RSS ist RSS( β) β = X T (y X β) = 0 Ist X T X regulär, s erhalten wir ˆ β =(X T X) 1 X T y 21 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Optimales ˆ β? Lineare Mdelle zur Klassifikatin und Regressin Mit Hilfe der Minimierung der (quadratischen) Fehlerfunktin RSS auf unseren Trainingsdaten haben wir ein (bzgl. RSS) ptimales ˆ β gefunden. Damit liefert unser Mdell Vraussagen ŷ für x X: ŷ = ˆf( x) =x T ˆ β 22 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Sind wir schn fertig? Lineare Mdelle zur Klassifikatin und Regressin Schön wär s! Aber drei Gründe sprechen für weitere Arbeit: 1 Es ist nicht immer s einfach, z.b. dann nicht, wenn wir viele Dimensinen haben (Fluch der hhen Dimensin). 2 Vielleicht lassen sich die Beispiele nicht linear trennen! 3 Nur den Fehler zu minimieren reicht nicht aus, wir suchen nch nach weiteren Beschränkungen, die zu besseren Lösungen führen. Als schauen wir uns den Fehler nch einmal genauer an, stßen auf Bias und Varianz und merken, dass wir nch keine perfekte Lösung haben. 23 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Fehler Lineare Mdelle zur Klassifikatin und Regressin Bisher haben wir mit RSS die Fehler einfach summiert. Wir wllen aber einbeziehen, wie wahrscheinlich der Fehler ist vielleicht ist er ja ganz unwahrscheinlich! Wann können wir denn einen Fehler erwarten? 24 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Zur Erinnerung: Erwartungswert Lineare Mdelle zur Klassifikatin und Regressin Erwartungswert Sei X eine diskrete Zufallsvariable, mit Werten x 1,..., x n und p i die Wahrscheinlichkeit für x i. Der Erwartungswert vn X ist E(X) = i x i p i = i x i P (X = x i ) Ist X eine stetige Zufallsvariable und f die zugehörige Wahrscheinlichkeitsdichtefunktin, s ist der Erwartungswert vn X E(X) = xf(x)dx 25 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Erwartungswert (Eigenschaften) Lineare Mdelle zur Klassifikatin und Regressin Eigenschaften Seien X, Y und X 1,..., X n Zufallsvariablen, dann gilt: Der Erwartungswert ist additiv, d.h. es gilt ( n ) n E X i = E(X i ) (2) i=1 i=1 Ist Y = kx + d, s gilt für den Erwartungswert E(Y )=E(kX + d) =ke(x)+d Sind die Zufallsvariablen X i stchastisch unabhängig, gilt ( n ) n E X i = E(X i ) i=1 i=1 26 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Varianz und Standardabweichung Lineare Mdelle zur Klassifikatin und Regressin Über den Erwartungswert einer Zufallsvariablen X sind mehrere Eigenschaften vn X definiert, die helfen, X zu charakterisieren: Varianz Sei X eine Zufallsvariable mit µ = E(X). Die Varianz V ar(x) ist definiert als V ar(x) := E ( (X µ) 2). Standardabweichung Die Standardabweichung σ einer Zufallsvariable X ist definiert als σ := V ar(x) 27 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Varianz und Standardabweichung Lineare Mdelle zur Klassifikatin und Regressin Über den Erwartungswert einer Zufallsvariablen X sind mehrere Eigenschaften vn X definiert, die helfen, X zu charakterisieren: Varianz Sei X eine Zufallsvariable mit µ = E(X). Die Varianz V ar(x) ist definiert als V ar(x) := E ( (X µ) 2). Standardabweichung Die Standardabweichung σ einer Zufallsvariable X ist definiert als σ := V ar(x) Die Varianz wird häufig auch mit σ 2 bezeichnet. 27 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Varianz und Standardabweichung Lineare Mdelle zur Klassifikatin und Regressin Verschiebungssatz Sei X eine Zufallsvariable, für die Varianz gilt V ar(x) =E(X E(X)) 2 = E(X 2 ) (E(X)) 2 (3) Eine weitere Charakteristik, die häufig zur Beschreibung vn erwarteten Fehlern verwendet wird, ist die Verzerrung: Verzerrung (Bias) Sei X eine Zufallsvariable, dann ist die Verzerrung definiert als der erwartete Schätzfehler für X Bias(ˆx) =E(X ˆx) (4) 28 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Erwartungswert des Fehlers einer Regressin Lineare Mdelle zur Klassifikatin und Regressin Erwarteter quadratischer Fehler: Gelernte Funktin ˆf : X Y, der Erwartungswert ihres Fehlers ist: EP E(f) =E(Y ˆf(X)) 2 (5) Optimierungsprblem: Wähle ˆf s, dass der erwartete Fehler minimiert wird! ˆf(x) =argmin c E Y X ((Y c) 2 X = x) Lösung (Regressinsfunktin): f(x) = E(Y X = x) 29 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Bias und Varianz Lineare Mdelle zur Klassifikatin und Regressin Zwei Aspekte machen den erwarteten Fehler aus, die Verzerrung (Bias) und die Varianz. Wir wllen den Fehler an einem Testpunkt x 0 =0angeben und mitteln über allen Trainingsmengen T. Wie das? MSE( x 0 ) = E T [y 0 ŷ 0 ] 2 = E T [ŷ 0 E T (ŷ 0 )] 2 +[E T (ŷ 0 y 0 )] 2 = E T [y 2 0] E T [2y 0 ŷ 0 ]+E T [ŷ 2 0] = V ar T (ŷ 0 )+Bias 2 (ŷ 0 ) 30 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Herleitung der Varianz in MSE Lineare Mdelle zur Klassifikatin und Regressin Nach dem Verschiebungssatz (3) gilt V ar T (y 0 )=E T [ŷ 2 0] (E T [ŷ 0 ]) 2 E T [ŷ 2 0]=V ar T (y 0 )+(E T [ŷ 0 ]) 2 (6) Damit flgt MSE( x 0 ) = E T [y 0 ŷ 0 ] 2 [ = E T y 2 0 2y 0 ŷ 0 +ŷ0 2 ] (2) = E T [y 2 0] E T [2yŷ 0 ]+E T [ŷ 2 0] (6) = E T [y 2 0] E T [2y 0 ŷ 0 ]+V ar T (ŷ 0 )+(E T [ŷ 0 ]) 2 = E T [y 2 0 2yŷ 0 +ŷ 2 0]+V ar T (ŷ 0 ) = E T [y 0 ŷ 0 ] 2 + V ar T (ŷ 0 ) (4) = Bias 2 (ŷ 0 )+V ar T (ŷ 0 ) 31 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Herleitung des Bias in MSE Lineare Mdelle zur Klassifikatin und Regressin Smit gilt MSE( x 0 )=V ar T (ŷ 0 )+Bias 2 (ŷ 0 ) Die Dekmpsitin des MSE in Bias und Varianz abstrahiert s, dass wir besser über Mdelle nachdenken können. Frage: Wie wirken sich Bias und Varianz nun auf unsere linearen Mdelle aus? 32 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Erwartungswert des Fehlers bei linearen Mdellen Unter der Annahme, dass unsere Beispiele Messfehler enhalten, aber X und Y wirklich linear vneinander abhängen (Bias=0), passen wir das Mdell Y = X T β + ɛ durch Minimieren des quadratischen Fehlers an. Der erwartete Fehler der ŷ-vrhersage für ein beliebiges x 0 ist: EP E( x 0 ) = E y0 x 0 E T (y 0 ŷ 0 ) 2 = V ar(y 0 x 0 )+E T (ŷ 0 E T (y 0 )) 2 +(E T (ŷ 0 ) E T (y 0 )) 2 = V ar(y 0 x 0 )+V ar T (ŷ 0 )+Bias 2 (ŷ 0 ) = σ 2 + E T ( x 0 T (X T X) 1 x 0 σ 2 )+0 2 Die zusätzliche Varianz kmmt durch das Rauschen. 33 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Zusammenhang zwischen Anzahl der Beispiele, der Attribute und erwartetem Fehler Beziehen wir den Erwartungswert vn x ein, erhalten wir E x EP E( x) =σ 2 (p/n)+σ 2 Bei kleinem σ 2 und grßem N klappt alles auch bei grßem p, wenn das lineare Mdell perfekt passt, d.h. die Beispiele sind linear trennbar. 34 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Fluch der hhen Dimensin bei linearen Mdellen Leider mussten wir annehmen, dass das Mdell genau passt, um den erwarteten Fehler klein zu halten. Wir wissen aber nicht, welche Art vn Funktin gut zu unseren Daten passt! Mdellselektin ist schwierig! Das Mdell muss immer kmplizierter werden, je mehr Dimensinen es gibt. Bei linearen Mdellen entspricht die Kmplexität des Mdells direkt p, denn β hat s viele Kmpnenten wie p bzw. p +1. 35 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Bias und Varianz bei linearen Mdellen Lineare Mdelle zur Klassifikatin und Regressin Das lineare Mdell wird an die Daten angepasst durch ˆf p ( x) = ˆβ T x Der Fehler ist dann für ein beliebiges x: Err( x) = E[(Y ˆf p ( x)) 2 X = x] (7) = σɛ 2 + V ar( ˆf [ p ( x)+ f( x) E ˆf 2 p ( x)] (8) Im Mittel über allen x i ist V ar( ˆf p ) = (p/n)σ 2. Mdellkmplexität und Varianz hängen bei linearen Mdellen direkt zusammen. Der Trainingsfehler linearer Mdelle ist: 1 N N Err(x i )=σɛ 2 + p 1 N σ2 ɛ N i=1 N i=1 [ f( x i ) E ˆf( x i )] 2 (9) 36 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Lineare Mdelle Die grünen und rten Datenpunkte werden durch eine Ebene getrennt. Linear Regressin f 0/1 Respnse................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ Figure 2.1: A classificatin example in tw dimensins. The classes are cded as a binary variable GREEN = 0, RED = 1 and then fit by linear regressin. The line is the decisin bundary defined by x T ˆβ = 0.5. 37 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Was wissen Sie jetzt? Lineare Mdelle zur Klassifikatin und Regressin Sie haben theretisch lineare Mdelle für Klassifikatin und Regressin kennengelernt. Sie kennen das Optimierungsprblem der kleinsten Quadrate RSS für lineare Mdelle (Gleichung 9). Sie kennen den erwarteten Fehler EPE bei linearen Mdellen. Sie kennen den Fluch der hhen Dimensin bei linearen Mdellen: Kmplexität und Varianz hängen an der Dimensin! Der Bias kann sehr hch sein, wenn die Beispiele tatsächlich nicht linear separierbar sind. 38 vn 39
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Bis zum nächsten Mal... Lineare Mdelle zur Klassifikatin und Regressin Gehen Sie alle Flien nch einmal in Ruhe durch. Vertiefen Sie sich nch einmal in die Ebenengleichung! Die lineare Algebra wird immer wieder vrkmmen. Sie können auch die partiellen Ableitungen für RSS mit der Nrmalengleichung vrnehmen. Rechnen Sie mal ein Beispiel durch mit Gleichung (9), (9)... Diskutieren Sie, warum Bias und Varianz s wichtig sind! Prbieren Sie lineare Regressin in RapidMiner aus! 39 vn 39