Vorlesung Wissensentdeckung in Datenbanken

Größe: px
Ab Seite anzeigen:

Download "Vorlesung Wissensentdeckung in Datenbanken"

Transkript

1 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Vrlesung Wissensentdeckung in Datenbanken Klassifikatin und Regressin Katharina Mrik, Uwe Ligges LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund vn 53

2 Gliederung LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin 1 Lineare Mdelle zur Klassifikatin und Regressin Klassifikatin und Regressin Lineare Mdelle 2 Bias-Varianz Exkurs:Erwartungswert Bias und Varianz bei linearen Mdellen 3 knn zur Klassifikatin, Regressin Bias und Varianz bei knn 2 vn 53

3 Gliederung LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin 1 Lineare Mdelle zur Klassifikatin und Regressin Klassifikatin und Regressin Lineare Mdelle 2 Bias-Varianz Exkurs:Erwartungswert Bias und Varianz bei linearen Mdellen 3 knn zur Klassifikatin, Regressin Bias und Varianz bei knn 2 vn 53

4 Gliederung LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin 1 Lineare Mdelle zur Klassifikatin und Regressin Klassifikatin und Regressin Lineare Mdelle 2 Bias-Varianz Exkurs:Erwartungswert Bias und Varianz bei linearen Mdellen 3 knn zur Klassifikatin, Regressin Bias und Varianz bei knn 2 vn 53

5 Grundlagen LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Sei X = {X 1,..., X p } eine Menge vn Zufallsvariablen und Y eine Menge. Ein Beispiel (der Bebachtung) x ist ein knkreter p-dimensinaler Vektr über diese Zufallsvariablen. Eine Menge vn n Beispielen X = { x 1,..., x N } können wir dann als (N p)-matrix auffassen: x 1,1 x 1,2... x 1,p. X = x.. 2, x N,1 x N,2... x N,p Dabei entspricht jede Zeile x i der Matrix X einem Beispiel. 3 vn 53

6 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Klassifikatin und Regressin Beim überwachten Lernen (darum geht es hier), ist zusätzlich zu jeder Bebachtung x ein Label (Klasse) y gegeben, d.h. wir haben Bebachtungen ( x, y) X Y. Y kann swhl eine qualitative, als auch eine quantitative Beschreibung vn x sein. Für den quantitativen Fall ist z.b. Y = R und wir versuchen für unbekanntes x den Wert y vrherzusagen Regressin. Im Falle qualitativer Beschreibungen ist Y eine diskrete Menge und wir nutzen f zur Klassifikatin. 4 vn 53

7 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Lernen auf Trainingsdaten Wvn gehen wir als aus? Was ist unser Ziel? Wir suchen die wahre Funktin f : X Y mit f( x) = y ( x, y) X Y Wir haben jedch nur eine Teilmenge der Bebachtungen gegeben (Trainingsdaten) 5 vn 53

8 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Klassifikatin und Regressin Auf Grundlage der Trainingsdaten suchen wir eine möglichst gute Annäherung ˆf an die wahre Funktin f. Die Funktin ˆf bezeichnen wir auch als das gelernte Mdell. Haben wir ein Mdell ˆf gelernt, s liefert uns dieses Mdell mit ŷ = ˆf ( x) für neue Daten x X eine Vrhersage ŷ Y. 6 vn 53

9 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Klassifikatin und Regressin Im Falle der Regressin lässt sich s für zuvr unbekannte x X der Wert ŷ = ˆf ( x) mit ŷ R vrhersagen. Dieses Mdell ˆf lässt sich auch für die Klassifikatin nutzen, bei der z.b. ŷ { 1, +1} vrhergesagt werden sllen: { +1, falls ˆf ( x) θ ŷ = 1, snst Hier ist θ ein vrgegebener Schwellwert. 7 vn 53

10 Beispiel LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Gegeben seien Gewicht (X 1 ) und Größe (X 2 ) einiger Persnen und ein Label y {m, w}: X 1 X 2 Y x m x w x w. Die Tabelle enthält die zur Verfügung stehenden Trainingsdaten, als X = vn 53

11 Beispiel LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Es wird nun eine Funktin ˆf gesucht, die für neue Daten x das Attribut Y (Geschlecht) vraussagt, als { m, falls ˆf(x) > θ ŷ = w, snst 9 vn 53

12 Beispiel LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Es wird nun eine Funktin ˆf gesucht, die für neue Daten x das Attribut Y (Geschlecht) vraussagt, als { m, falls ˆf(x) > θ ŷ = w, snst 200 Klasse m Klasse w 190 Größe (in cm) vn 53

13 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Lineare Mdelle Welche Art vn Funktinen sind denkbar? Lineare Funktinen als einfachste Funktinenklasse: y = f(x) = mx + b Gerade im R 2 Allerdings betrachten wir als Beispielraum den R p, d.h. wir brauchen eine verallgemeinerte Frm: y = f ( x) = p β i x i + β 0 mit β 0 R, x, β R p (1) i=1 Die Funktin f wird als durch β und β 0 festgelegt und sagt uns für ein gegebenes x das entsprechende y vraus 10 vn 53

14 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Ntatin, Vereinbarungen Bei genauerer Betrachtung vn Frmel (1) lässt sich p i=1 β ix i als Matrizenmultiplikatin der Skalarprdukt schreiben, als y = p β i x i + β 0 = x T β + β0 = i=1 x, β + β 0 Zur einfacheren Darstellung vn f, wird β 0 in den Vektr β cdiert, indem jedes Beispiel x = (x 1,..., x p ) aufgefasst wird als (p + 1)-dimensinaler Vektr (x 1,..., x p ) (1, x 1,..., x p ) Dies ermöglicht die Darstellung vn f als: y = f ( x) = p i=0 β i x i = x T β = x, β 11 vn 53

15 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Was haben wir nun gemacht? Wir haben (bei der Beschränkung auf lineare Mdelle) nun eine Darstellung für das, was wir lernen wllen: y = ˆf( x) = x T β Wir haben die Zielfunktin ˆf in Abhängigkeit vn β geschrieben und müssen nur nch das passende β finden. 12 vn 53

16 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Beispiel: Ein mögliches β 200 Klasse m Klasse w f(x) 190 Größe (in cm) Gewicht (in kg) f( x) = x T ˆ β mit ˆ β = β 0 β 1 β 2 = θ = vn 53

17 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Es ist nicht garantiert, dass β immer passt! 200 Klasse m Klasse w 190 Größe (in cm) Gewicht (in kg) 14 vn 53

18 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Mdell-Anpassung Unsere linearen Mdelle sind durch β parametrisiert, das Lernen eines Mdells haben wir als auf die Wahl eines β abgewälzt. Das wirft eine Reihe vn Fragen auf: Was ist ein gutes β? Gibt es ein ptimales β? Welche Möglichkeiten haben wir, unser Mdell zu beurteilen? 15 vn 53

19 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Mdell-Anpassung Unsere linearen Mdelle sind durch β parametrisiert, das Lernen eines Mdells haben wir als auf die Wahl eines β abgewälzt. Das wirft eine Reihe vn Fragen auf: Was ist ein gutes β? Gibt es ein ptimales β? Welche Möglichkeiten haben wir, unser Mdell zu beurteilen? Eine Möglichkeit: Berechne den Trainingsfehler Err( β) = N y i ˆf( x i ) = i=1 N y i x T i β i=1 15 vn 53

20 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Mdell-Anpassung Häufig wird als Fehlerfunktin die quadratische Fehlersumme (RSS) verwendet: RSS( β) = N T (y i x i β) 2 i=1 = ( y X β) T ( y X β) Wir wählen jetzt β derart, dass der Fehler minimiert wird: Knvexes Minimierungsprblem! min RSS( β) (2) β R p 16 vn 53

21 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Minimierung vn RSS( β) Um RSS( β) zu minimieren, bilden wir die partielle Ableitung nach β: RSS( β) β = X T (y X β) Ntwendige Bedingung für die Existenz eines (lkalen) Minimums vn RSS ist RSS( β) β = X T (y X β) = 0 Ist X T X regulär, s erhalten wir ˆ β = (X T X) 1 X T y (3) 17 vn 53

22 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Reguläre Matrix Wenn es zu einer quadratischen Matrix X eine Matrix X 1 gibt mit XX 1 = X 1 X = I Einheitsmatrix I = dann ist die Matrix X invertierbar der regulär, snst singulär. 18 vn 53

23 Optimales ˆ β? LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Mit Hilfe der Minimierung der (quadratischen) Fehlerfunktin RSS auf unseren Trainingsdaten haben wir ein (bzgl. RSS) ptimales ˆ β gefunden. Bei einem knvexen Prblem ist das lkale auch das glbale Minimum. Damit liefert unser Mdell Vraussagen ŷ für x X: ŷ = ˆf( x) = x T ˆ β 19 vn 53

24 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Sind wir schn fertig? Schön wär s! Aber drei Gründe sprechen für weitere Arbeit: 1 Es ist nicht immer s einfach, z.b. dann nicht, wenn wir viele Dimensinen haben (Fluch der hhen Dimensin). 2 Vielleicht lassen sich die Beispiele nicht linear trennen! 3 Nur den Fehler zu minimieren reicht nicht aus, wir suchen nch nach weiteren Beschränkungen, die zu besseren Lösungen führen. Als schauen wir uns den Fehler nch einmal genauer an, stßen auf Bias und Varianz und merken, dass wir nch keine perfekte Lösung haben. 20 vn 53

25 Fehler LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bisher haben wir mit RSS die Fehler einfach summiert. Wir wllen aber einbeziehen, wie wahrscheinlich der Fehler ist vielleicht ist er ja ganz unwahrscheinlich! Das machen wir über den Erwartungswert. Wir können sehr unterschiedliche Stichprben als Beispielmenge haben. Der Fehler sll sich auf alle möglichen Trainingsmengen beziehen nicht nur eine, zufällig günstige! 21 vn 53

26 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Zur Erinnerung: Erwartungswert Erwartungswert Sei X eine diskrete Zufallsvariable, mit Werten x 1,..., x n und p i die Wahrscheinlichkeit für x i. Der Erwartungswert vn X ist E(X) = i x i p i = i x i P (X = x i ) Ist X eine stetige Zufallsvariable und f die zugehörige Wahrscheinlichkeitsdichtefunktin, s ist der Erwartungswert vn X E(X) = x f(x)dx 22 vn 53

27 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Erwartungswert (Eigenschaften) Eigenschaften Seien X, Y und X 1,..., X n Zufallsvariablen, dann gilt: Der Erwartungswert ist additiv, d.h. es gilt ( n ) n E X i = E(X i ) (4) i=1 i=1 Ist Y = kx + d, s gilt für den Erwartungswert E(Y ) = E(kX + d) = ke(x) + d (5) Sind die Zufallsvariablen X i stchastisch unabhängig, gilt ( n ) n E X i = E(X i ) i=1 i=1 23 vn 53

28 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Varianz und Standardabweichung Über den Erwartungswert einer Zufallsvariablen X sind mehrere Eigenschaften vn X definiert, die helfen, X zu charakterisieren: Varianz Sei X eine Zufallsvariable mit µ = E(X). Die Varianz V ar(x) ist definiert als V ar(x) := E ( (X µ) 2). Die Varianz wird häufig auch mit σ 2 bezeichnet. Standardabweichung Die Standardabweichung σ einer Zufallsvariable X ist definiert als σ := V ar(x) 24 vn 53

29 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Varianz und Standardabweichung Verschiebungssatz Sei X eine Zufallsvariable, für die Varianz gilt V ar(x) = E(X E(X)) 2 = E(X 2 ) (E(X)) 2 25 vn 53

30 Bias LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Eine weitere Charakteristik, die häufig zur Beschreibung vn erwarteten Fehlern verwendet wird, ist die Verzerrung: Verzerrung (Bias) Sei Y eine Zufallsvariable, dann ist die Verzerrung definiert als der erwartete Schätzfehler für Y als wie im Durchschnitt die Schätzungen vm wahren Mittelwert abweichen Bias(ŷ) = E(Y ŷ) = E(Y ) ŷ 26 vn 53

31 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Fehler der Regressin Fehlerfunktin L(y, ŷ) für gelernte Mdelle ˆf abslut (y i ŷ i ) quadratisch (y i ŷ i ) 2 0,1-Fehler δ i, δ = 1, falls y = ŷ, snst 0. Es geht um Y. Wir unterscheiden das wahre y, das in der Beispielmenge genannte y, das vm Mdell vrhergesagte ŷ Wir wllen den Erwartungswert des Fehlers minimieren. Wir mitteln über alle möglichen Beispielmengen T. 27 vn 53

32 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Erwartungswert des Fehlers einer Regressin minimieren! Erwarteter quadratischer Vrhersagefehler: Gelernte Funktin ˆf : X Y, der Erwartungswert ihres Fehlers ist: EP E(f) = E(Y ˆf(X)) 2 (6) Optimierungsprblem: Wähle ˆf s, dass der erwartete Fehler minimiert wird! ˆf(x) = argmin c E Y X ((Y c) 2 X = x) (7) Lösung (Regressinsfunktin): ˆf(x) = E(Y X = x) 28 vn 53

33 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bias und Varianz Zwei Aspekte machen den erwarteten Fehler aus, die Verzerrung (Bias) und die Varianz. Wir wllen den Fehler an einem Testpunkt x 0 = 0 angeben und mitteln über allen Trainingsmengen T. Wir gehen davn aus, dass die Angaben in den Daten nicht immer ganz stimmen, s dass es einen Messfehler ɛ gibt, dessen Erwartungswert aber 0 ist. Der Bias ist unabhängig vm Beispielsatz und 0 bei einem perfekten Lerner. Die Varianz ist unabhängig vm wahren Wert y und 0 bei einem Lerner, der bei allen Beispielsätzen dasselbe ausgibt. 29 vn 53

34 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin MSE Dekmpsitin in Bias und Varianz Wir nehmen für unser Mdell an, dass Y = f(x) + ɛ und E(ɛ) = 0. EP E(x 0 ) = E Y,T ((Y ŷ 0 ) 2 x 0 ) Wie das?! = E Y ((Y f(x 0 )) 2 x 0 )+ σ 2 Rauschen E T ((f(x 0 ) E T (ŷ 0 )) 2 x 0 )+ Bias 2 E T ((E T (ŷ 0 ) ŷ 0 ) 2 x 0 ) V arianz Haupttrick: kreatives Einfügen vn Termen, +a a, die nichts ändern, aber Umfrmungen erlauben. 30 vn 53

35 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Herleitung der Dekmpsitin - 1 EP E(x 0 ) = E Y,T ((Y ŷ 0 ) 2 x 0 ) = E Y,T (((Y f(x 0 )) + (f(x 0 ) ŷ 0 )) 2 x 0 ) kreativ = E Y,T ((Y f(x 0 )) 2 + (f(x 0 ) ŷ 0 ) 2 + binmisch 2(Y f(x 0 ))(f(x 0 ) ŷ 0 ) x 0 ) = E Y ((Y f(x 0 )) 2 x 0 )+ herausziehen E Y,T ((f(x 0 ) ŷ 0 ) 2 x 0 )+ s.f rmel(4) 2E Y (Y f(x 0 ) x 0 )E Y,T (f(x 0 ) ŷ 0 x 0 ) E(2) = 2 Jetzt E Y (Y f(x 0 ) x 0 ) = E Y (Y x 0 ) f(x 0 ) = 0 wegen der Mdellannahme E Y (Y x 0 ) = f(x 0 ). 31 vn 53

36 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Herleitung der Dekmpsitin - 2 EP E(x 0 ) = E Y ((Y f(x 0 )) 2 x 0 )+ V ar ɛ E Y,T ((f(x 0 ) ŷ 0 ) 2 x 0 ) = V ar ɛ + E Y,T ((f(x 0 ) ŷ 0 ) 2 x 0 ) = V ar ɛ + E Y,T (((f(x 0 ) E Y,T (ŷ 0 ))+ kreativ (E Y,T (ŷ 0 ) ŷ 0 )) 2 x 0 ) = V ar ɛ + E Y,T ((f(x 0 ) E Y,T (ŷ 0 )) 2 + binmisch (E Y,T (ŷ 0 ) ŷ 0 ) 2 + 2(f(x 0 ) E Y,T (ŷ 0 ))(E Y,T (ŷ 0 ) ŷ 0 x 0 )) = V ar ɛ + E Y,T ((f(x 0 ) E Y,T (ŷ 0 )) 2 x 0 )+ herausziehen E Y,T ((E Y,T (ŷ 0 ) ŷ 0 ) 2 x 0 )+ (4) 2E Y,T ((f(x 0 ) E Y,T (ŷ 0 )) (E Y,T (ŷ 0 ) ŷ 0 ) x 0 ) 32 vn 53

37 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Herleitung der Dekmpsitin - 3 Rauschen haben wir schn gefunden. Bias und Varianz auch! EP E(x 0 ) = V ar ɛ + σ 2 Rauschen E Y,T ((f(x 0 ) E Y,T (ŷ 0 )) 2 x 0 )+ Bias 2 E Y,T ((E Y,T (ŷ 0 ) ŷ 0 ) 2 x 0 )+ 2E Y,T (f(x 0 ) E Y,T (ŷ 0 )) (E Y,T (E Y,T ŷ 0 ŷ 0 x 0 )) = 0 V arianz = E Y,T ((Y ŷ 0 ) 2 x 0 ) q.e.d. Knstanten Wir betrachten den Fehler als als zusammengesetzt aus Rauschen, Verzerrung und Varianz. Die Dekmpsitin des MSE in Bias und Varianz abstrahiert s, dass wir besser über Mdelle nachdenken können. 33 vn 53

38 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bias und Varianz bei linearen Mdellen Das lineare Mdell wird an die Daten angepasst durch ˆf p ( x) = ˆβ T x Der Fehler ist dann für ein beliebiges x: Err( x 0 ) = E[(Y ˆf p ( x 0 )) 2 X = x 0 ] (8) = σɛ 2 + V ar( ˆf [ p ( x 0 )) + f( x 0 ) E ˆf 2 p ( x 0 )] (9) Die Anpassung des linearen Mdells geht über alle N Beispiele und gewichtet alle p Merkmale (s. (3)). Diese Varianz ist vn x i zu x i verschieden. Im Mittel über allen x i ist V ar( ˆf p ) = (p/n)σ 2 ɛ. 34 vn 53

39 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Zusammenhang zwischen Anzahl der Beispiele, der Attribute und erwartetem Fehler Mdellkmplexität (p, N) und Varianz der Schätzungen bei unterschiedlichen Trainingsmengen hängen bei linearen Mdellen direkt zusammen. Gemittelt über alle x i ist der Trainingsfehler linearer Mdelle: 1 N N Err(x i ) = σɛ 2 + p N σ2 ɛ + 1 N i=1 N i=1 [ f( x i ) E ˆf( x i )] 2 (10) Wir haben als wieder das Rauschen, die Varianz, die die Schwankungen der Schätzungen angibt, und den Bias, der sich auf die Differenz vn Schätzung und Wahrheit bezieht (in-sample errr). 35 vn 53

40 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Fluch der hhen Dimensin bei linearen Mdellen Leider mussten wir annehmen, dass das Mdell genau passt, um den erwarteten Fehler klein zu halten. Wir wissen aber nicht, welche Art vn Funktin gut zu unseren Daten passt! Mdellselektin ist schwierig! Das Mdell muss immer kmplizierter werden, je mehr Dimensinen es gibt. Bei linearen Mdellen entspricht die Kmplexität des Mdells direkt p, denn β hat s viele Kmpnenten wie p bzw. p vn 53

41 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Lineare Mdelle Die grünen und rten Datenpunkte werden durch eine Ebene getrennt. Elements f Statistical Learning c Hastie, Tibshirani & Friedman 2001 Chapter 2 Linear Regressin f 0/1 Respnse Figure 2.1: A classificatin example in tw dimensins. The classes are cded as a binary variable GREEN = 0, RED = 1 and then fit by linear regressin. The line is the decisin bundary defined by x T ˆβ = vn 53

42 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Was wissen Sie jetzt? Sie haben theretisch lineare Mdelle für Klassifikatin und Regressin kennengelernt. Sie kennen das Optimierungsprblem der kleinsten Quadrate RSS (Gleichung 2) für lineare Mdelle (Gleichung 3). Sie kennen den erwarteten Fehler EPE bei linearen Mdellen (Gleichung 6). Sie kennen den Fluch der hhen Dimensin bei linearen Mdellen: Kmplexität und Varianz hängen an der Dimensin! Der Bias kann sehr hch sein, wenn die Beispiele tatsächlich nicht linear separierbar sind. 38 vn 53

43 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bis zum nächsten Mal... Gehen Sie alle Flien nch einmal in Ruhe durch. Rechnen Sie mal ein Beispiel durch mit Gleichung zur Optimierung linearer Mdelle (3), der Minimierung des Trainingsfehlers (10)... Diskutieren Sie, warum Bias und Varianz s wichtig sind! Prbieren Sie lineare Regressin in RapidMiner aus! 39 vn 53

44 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Glbale und lkale Mdelle Lineare Mdelle finden eine trennende Hyperebene. Die durch β angegebene Hyperebene wurde durch alle Beispiele bestimmt. Deshalb sind lineare Mdelle glbale Mdelle. Klassifiziert man ein Beispiel nur anhand der Beispiele seiner Umgebung, spricht man vn einem lkalen Mdell. Nächste Nachbarn sind ein lkales Mdell. 40 vn 53

45 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Nächste Nachbarn Das knn-mdell betrachtet nur nch die k nächsten Nachbarn eines Beispiel x: ˆf( x) = 1 k x i N k ( x) y i (11) Die Nachbarschaft N k ( x) wird durch ein Abstandsmaß, z.b. den Euklidschen Abstand bestimmt. Es gibt maximal N k Nachbarschaften und in jeder bestimmen wir den Durchschnitt (11). 41 vn 53

46 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Regressin und Klassifikatin Gleichung (11) gibt als Regressinsfunktin den Mittelwert der y i zurück. ˆf( x) = 1 y i k x i N k ( x) Wir können durch einen Schwellwert aus der Regressin eine Klassifikatin machen: { 1, falls ˆf( x) 0, 5 ŷ = 0, snst 42 vn 53

47 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Die grünen und rten Datenpunkte werden in Nachbarschaften gruppiert Elements f Statistical Learning c Hastie, Tibshirani & Friedman 2001 Chapter 2 15-Nearest Neighbr Classifier Figure 2.2: The same classificatin example in tw dimensins as in Figure 2.1. The classes are cded as a binary variable (GREEN = 0, RED = 1) and then fit by 15- nearest-neighbr averaging as in (2.8). The predicted class is hence chsen by majrity vte amngst the 15- nearest neighbrs. 43 vn 53

48 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bei k=1 wird nur auswendig gelernt. Falls x = x y = y, gibt es bei k = 1 keinen Trainingsfehler. Wenn allein der Trainingsfehler das Optimierungskriterium ist, würden wir stets k = 1 nehmen und nur auswendig lernen. Vermutlich ergibt das auf den Testdaten einen grßen Fehler! 44 vn 53

49 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Overfitting Elements f Statistical Learning c Hastie, Tibshirani & Friedman 2001 Chapter 2 1-Nearest Neighbr Classifier Figure 2.3: The same classificatin example in tw dimensins as in Figure 2.1. The classes are cded as a binary variable (GREEN = 0, RED = 1), and then predicted by 1-nearest-neighbr classificatin. 45 vn 53

50 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Training- und Testfehler bei verschiedenen k Elements f Statistical Learning c Hastie, Tibshirani & Friedman 2001 Chapter 2 k - Number f Nearest Neighbrs Test Errr Linear Train Test Bayes Degrees f Freedm - N/k Figure 2.4: Misclassificatin curves fr the simulatin example used in Figures 2.1, 2.2 and 2.3. A single training sample f size 200 was used, and a test sample f size 10, 000. The red curves are test and the green are training errr fr k-nearest-neighbr classificatin. The results fr linear regressin are the bigger green and red dts at three degrees f freedm. The purple line is the ptimal Bayes Errr Rate. 46 vn 53

51 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Erwartungswert vn Y bei k Nächsten Nachbarn Der Erwartungswert vn Y, E(Y ) = N i=1 y ip i, geht bei linearen Mdellen in den Fehler ein: EP E( ˆf) = E(Y ˆf(X)) 2. knn verwendet den Erwartungswert vn Y direkt zur Vrhersage, allerdings beschränkt auf die Nachbarschaft E(Y ) = 1 k k x i N k ( x) y i. Für die Vrhersage sind wir an bedingten Wahrscheinlichkeiten interessiert P (Y X = x). Bei knn wird die bedingte Wahrscheinlichkeit auf die Nachbarschaft begrenzt E(Y x i N k ( x)). Gerechnet wird dies mit Hilfe Gleichung (11). 47 vn 53

52 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Asympttisches Ergebnis zu knn Wenn k/n gegen 0 und N, k gegen knvergieren, knvergiert auch ˆf(x) gegen E(Y X = x). (Hastie/etal/2001, S. 19) Haben wir als schn (wieder) den perfekten Lernalgrithmus gefunden? 48 vn 53

53 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Fluch der hhen Dimensin bei knn Die Dichte der Beispiele ist prprtinal zu N 1 p. Schn bei p = 10 brauchen wir 80% der möglichen Werte jedes Attributs X i, um wenigstens 10% der Daten in einer Nachbarschaft gesehen zu haben! Die Dichte der Datenpunkte in der Nachbarschaft ist bei hher Dimensin furchtbar spärlich. N 1 p ist bei 100 Beispielen und p = 10 nur 100 1/10 = Wenn 100 Beispiele bei p = 1 einen dichten Raum ergeben, muss man für die selbe Dichte bei p = 10 schn Beispiele sammeln: 100 1/1 = 100, = vn 53

54 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bias und Varianz bei knn Wenn man die richtige, dicht besetzte Nachbarschaft hat, verzerrt knn die Vrhersage nicht (kleiner Bias). Wenn - wie bei hhen Dimensinen - die Nachbarschaft wild variiert, schwankt auch die Güte der Vrhersage (grße Varianz). 50 vn 53

55 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bias und Varianz Elements bildlich f Statistical Learning c Hastie, Tibshirani & Friedman 2001 Chapter 7 k-nn - Regressin Linear Mdel - Regressin Number f Neighbrs k Subset Size p k-nn - Classificatin Linear Mdel - Classificatin Number f Neighbrs k Subset Size p Figure 7.3: Predictin errr (red), squared bias (green) and variance (blue) fr a simulated example. The tp rw is regressin with squared errr lss; the bttm rw is classificatin with 0 1 lss. The mdels are k-nearest neighbrs (left) and best subset regressin f size p (right). The variance and bias curves are the same in regressin and classi- 51 vn 53

56 Elements f Statistical Learning c Hastie, Tibshirani & Friedman 2001 Chapter LS7 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Bias, Varianz und Mdellkmplexität bildlich Predictin Errr High Bias Lw Variance Test Sample Lw Bias High Variance Lw Training Sample Mdel Cmplexity High Figure 7.1: Behavir f test sample and training sample errr as the mdel cmplexity is varied. Dieser Zusammenhang vn Training-/Testfehler und Kmplexität bestimmt alle Lernverfahren. Kreuzvalidierung lasst abschätzen, wie gut das Mdell zu den Daten passt (Mdellselektin). 52 vn 53

57 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin Was wissen Sie jetzt? Sie kennen den Fluch der hhen Dimensin bei knn: kleiner Bias, aber hhe Varianz. Bei linearen Mdellen war es umgekehrt: kleine Varianz, aber hher Bias (falls die Annahme des linearen Zusammenhangs vn X, Y nicht stimmt). 53 vn 53

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Gliederung Lineare Mdelle zur Klassifikatin und Regressin 1 Lineare

LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Gliederung Lineare Mdelle zur Klassifikatin und Regressin 1 Lineare LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Vrlesung Maschinelles Lernen Klassifikatin und Regressin: Lineare Mdelle

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung LS 8 Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz Vrlesung Wissensentdeckung Klassifikatin und Regressin: Lineare Mdelle

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz Vrlesung Wissensentdeckung in Datenbanken

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Bias und Varianz Kristian Kersting, (Katharina Morik), Claus Weihs LS 8 Informatik Computergestützte Statistik Technische Universität Dortmund 22.05.2014 1 von

Mehr

1 Anwendungen 1. 2 Menschliches Lernen Begriffsbildung Maschinelles Lernen 5. 4 Vorlesungsablauf 9

1 Anwendungen 1. 2 Menschliches Lernen Begriffsbildung Maschinelles Lernen 5. 4 Vorlesungsablauf 9 Inhaltsverzeichnis 1 Anwendungen 1 2 Menschliches Lernen 1 2.1 Begriffsbildung.......................................... 2 3 Maschinelles Lernen 5 4 Vrlesungsablauf 9 5 Lineare Mdelle zur Klassifikatin

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Maschinelles Lernen. Skript zur Vorlesung. Katharina Morik. September 17, 2013

Maschinelles Lernen. Skript zur Vorlesung. Katharina Morik. September 17, 2013 Maschinelles Lernen Skript zur Vrlesung Katharina Mrik September 17, 2013 LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Inhaltsverzeichnis 1 Einführung 1 1.1 Anwendungen........................................

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken, Häufige Mengen Nico Piatkowski und Uwe Ligges 09.05.2017 1 von 15 Überblick Was bisher geschah... Heute Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Modell Komplexität und Generalisierung

Modell Komplexität und Generalisierung Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr. Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;

Mehr

Proxies, Endogenität, Instrumentvariablenschätzung

Proxies, Endogenität, Instrumentvariablenschätzung 1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN 1 EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN UFBAU 1 Historie 2 Anwendungen / Ziele 3 Lineare Regression/ Beispiel KQ 4 Nichtlineare Regression 5 Eigenschaften der Schätzer istorie früheste Form

Mehr

Grundlagen zu neuronalen Netzen. Kristina Tesch

Grundlagen zu neuronalen Netzen. Kristina Tesch Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Goethe-Universität Frankfurt

Goethe-Universität Frankfurt Goethe-Universität Frankfurt Fachbereich Wirtschaftswissenschaft PD Dr. Martin Biewen Dr. Ralf Wilke Sommersemester 2006 Klausur Statistik II 1. Alle Aufgaben sind zu beantworten. 2. Bitte runden Sie Ihre

Mehr

Teil III: Wissensrepräsentation und Inferenz. Nachtrag zu Kap.5: Neuronale Netze. w i,neu = w i,alt + x i * (Output soll - Output ist ) Delta-Regel

Teil III: Wissensrepräsentation und Inferenz. Nachtrag zu Kap.5: Neuronale Netze. w i,neu = w i,alt + x i * (Output soll - Output ist ) Delta-Regel Einfaches Perzeptrn Delta-Regel Vrlesung Künstliche Intelligenz Wintersemester 2006/07 Teil III: Wissensrepräsentatin und Inferenz Nachtrag zu Kap.5: Neurnale Netze Beim Training werden die Beispiele dem

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der

Mehr

D-CHAB Frühlingssemester 2017 T =

D-CHAB Frühlingssemester 2017 T = D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 10.6.2010 1 von 40 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 2 von

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges 02.05.2017 1 von 15 Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Computer in der Wissenschaft

Computer in der Wissenschaft Dr. Michael O. Distler distler@uni-mainz.de Mainz, 8. Januar 2014 Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der kleinsten

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Zusammenfassung 11. Sara dos Reis.

Zusammenfassung 11. Sara dos Reis. Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Nichtlineare Klassifikatoren

Nichtlineare Klassifikatoren Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212 1.6.2 Poisson Verteilung Eine weitere wichtige diskrete Verteilung ist die Poisson-Verteilung. Sie modelliert die Anzahl (eher seltener) Ereignisse in einem Zeitintervall (Unfälle, Todesfälle; Sozialkontakte,

Mehr

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an.

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an. 2.5 Suchen Eine Menge S will nach einem Element durchsucht werden. Die Menge S ist statisch und S = n. S ist Teilmenge eines Universums auf dem eine lineare Ordnung definiert ist und soll so gespeichert

Mehr

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 23.5.2013 1 von 48 Gliederung 1 Geometrie linearer Modelle: Hyperebenen Einführung von Schölkopf/Smola 2 Lagrange-Optimierung

Mehr

1.5 Erwartungswert und Varianz

1.5 Erwartungswert und Varianz Ziel: Charakterisiere Verteilungen von Zufallsvariablen durch Kenngrößen (in Analogie zu Lage- und Streuungsmaßen der deskriptiven Statistik). Insbesondere: a) durchschnittlicher Wert Erwartungswert, z.b.

Mehr

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Softwaretechnik Prof. Dr. Rainer Koschke Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Wintersemester 2010/11 Überblick I Statistik bei kontrollierten Experimenten

Mehr

Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen?

Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen? 1. Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen? a.) Anzahl der Kunden, die an der Kasse in der Schlange stehen. b.) Die Menge an Energie, die pro Tag von einem Energieversorgungsunternehmen

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Lageparameter: Erwartungswert d) Erwartungswert

Mehr

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) 1 Zusammenfassung Bedingte Verteilung: P (y x) = P (x, y) P (x) mit P (x) > 0 Produktsatz P (x, y) = P (x y)p (y) = P (y x)p (x) Kettenregel

Mehr

1.5 Erwartungswert und Varianz

1.5 Erwartungswert und Varianz Ziel: Charakterisiere Verteilungen von Zufallsvariablen (Bildbereich also reelle Zahlen, metrische Skala) durch Kenngrößen (in Analogie zu Lage- und Streuungsmaßen der deskriptiven Statistik). Insbesondere:

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Stützvektormethode 1 Hinführungen zur SVM Katharina Morik, Claus Weihs 26.5.2009 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 1 von 40 2 von

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Linear nichtseparable Probleme

Linear nichtseparable Probleme Linear nichtseparable Probleme Mustererkennung und Klassifikation, Vorlesung No. 10 1 M. O. Franz 20.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion und σ > 0 heißt

Mehr

Lineare Klassifikationsmethoden

Lineare Klassifikationsmethoden Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung

Mehr

Was ist Regression? Übersicht. Statistik II

Was ist Regression? Übersicht. Statistik II Was ist? Statistik II Übersicht Parameterschätzung für die lineare Literatur Was ist? : Standardmodell der linearen : Wahrscheinlichkeitsverteilungen Parameterschätzung für die lineare Statistik II (1/35)

Mehr

Einführung in das statistische Lernen

Einführung in das statistische Lernen Universität Ulm 24. April 2007 Inhalt Motivation Grundbegriffe Kleinste Quadrate und k-nächste-nachbar-methode Statistische Entscheidungstheorie Regressionsmodelle und Kernmethoden Zusammenfassung Modellwahl

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 22. September 2015 Evelina Erlacher 1 Mengen Es sei Ω eine Menge (die Universalmenge ) und A, B seien Teilmengen von Ω. Dann schreiben

Mehr

Mathematik 2 Probeprüfung 1

Mathematik 2 Probeprüfung 1 WWZ Wirtschaftswissenschaftliche Fakultät der Universität Basel Dr. Thomas Zehrt Bitte in Druckbuchstaben ausfüllen: Name Vorname Mathematik 2 Probeprüfung 1 Zeit: 90 Minuten, Maximale Punktzahl: 72 Zur

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fortgeschrittene Ökonometrie: Maximum Likelihood Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven

Mehr

Lineare Regression. Kapitel Regressionsgerade

Lineare Regression. Kapitel Regressionsgerade Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell

Mehr

Statistisches Lernen

Statistisches Lernen Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte Kapitel 8 Parameter multivariater Verteilungen 8.1 Erwartungswerte Wir können auch bei mehrdimensionalen Zufallsvariablen den Erwartungswert betrachten. Dieser ist nichts anderes als der vektor der Erwartungswerte

Mehr

Nachklausur zur Vorlesung. Statistik für Studierende der Biologie

Nachklausur zur Vorlesung. Statistik für Studierende der Biologie Institut für Mathematische Stochastik WS 1999/2000 Universität Karlsruhe 11. Mai 2000 Dr. Bernhard Klar Nachklausur zur Vorlesung Statistik für Studierende der Biologie Bearbeitungszeit: 90 Minuten Name:

Mehr

i =1 i =2 i =3 x i y i 4 0 1

i =1 i =2 i =3 x i y i 4 0 1 Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x

Mehr

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 1 A 2. Klausur Wintersemester 2013/2014 Hamburg, 18.03.2014 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................

Mehr

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt Universität Basel Wirtschaftswissenschaftliches Zentrum Zufallsvariablen Dr. Thomas Zehrt Inhalt: 1. Einführung 2. Zufallsvariablen 3. Diskrete Zufallsvariablen 4. Stetige Zufallsvariablen 5. Erwartungswert

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Wahrscheinlichkeit und Statistik BSc D-INFK

Wahrscheinlichkeit und Statistik BSc D-INFK Prof. Dr. P. Bühlmann ETH Zürich Sommer 2010 Wahrscheinlichkeit und Statistik BSc D-INFK 1. (10 Punkte) Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete

Mehr

Mathematik für Naturwissenschaften, Teil 2

Mathematik für Naturwissenschaften, Teil 2 Lösungsvorschläge für die Aufgaben zur Vorlesung Mathematik für Naturwissenschaften, Teil Zusatzblatt SS 09 Dr. J. Schürmann keine Abgabe Aufgabe : Eine Familie habe fünf Kinder. Wir nehmen an, dass die

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38 Gliederung 1 2 Lagrange-Optimierung 2 von 38 Übersicht über die Stützvektormethode (SVM) Eigenschaften

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2010 Karlsruher Institut für Technologie Priv.-Doz. Dr. D. Kadelka Klausur Wahrscheinlichkeitstheorie und Statistik vom 14.9.2010 Musterlösungen Aufgabe 1: Gegeben sei eine Urliste

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

Musterlösung der Klausur vom 29. Juli 2003

Musterlösung der Klausur vom 29. Juli 2003 Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.

Mehr

TU DORTMUND Sommersemester 2018

TU DORTMUND Sommersemester 2018 Fakultät Statistik. April 08 Blatt Aufgabe.: Wir betrachten das Zufallsexperiment gleichzeitiges Werfen zweier nicht unterscheidbarer Würfel. Sei A das Ereignis, dass die Augensumme beider Würfel ungerade

Mehr

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Multivariate Verteilungen. Gerhard Tutz LMU München

Multivariate Verteilungen. Gerhard Tutz LMU München Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS

Mehr

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch LS-Schätzer Sei µ = Xβ mit rg(x) = p und β = (β 1,..., β p ) t SSE(β) = (y µ) t (y µ) Minimiere SSE(β) bzgl. β: = y t y 2β t X t y + β t X t Xβ β SSE(β) = 2Xt y + 2X t Xβ. Minimum definiert durch X t X

Mehr

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood Hauptseminar - Methoden der experimentellen Teilchenphysik WS 2011/2012 Fabian Hoffmann 2. Dezember 2011 Inhaltsverzeichnis 1 Einleitung

Mehr

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0 8 Lineare Modelle In diesem Abschnitt betrachten wir eine spezielle Klasse von statistischen Modellen, in denen die Parameter linear auftauchen Wir beginnen mit zwei Beispielen Beispiel 8 (lineare Regression)

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

2 Zufallsvariable und Verteilungsfunktionen

2 Zufallsvariable und Verteilungsfunktionen 8 2 Zufallsvariable und Verteilungsfunktionen Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer

Mehr

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1 FRAGESTUNDE Dr. Christian Schwarz 1 #2 - Allgemein Q: Müssen wir den Standard Error händisch berechnen können? R: Nein. Q: Hat das Monte Carlo Experiment irgendeine Bedeutung für uns im Hinblick auf die

Mehr

Vorlesung 8a. Kovarianz und Korrelation

Vorlesung 8a. Kovarianz und Korrelation Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere

Mehr