So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta
|
|
- Sigrid Steinmann
- vor 3 Jahren
- Abrufe
Transkript
1 Multivariate Lineare Regression Christian Herta Oktober, von 34 Christian Herta Multivariate Lineare Regression
2 Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion (cost function) Gradientenabstiegsverfahren (gradient descent) Umskalieren der Input-Daten 2 von 34 Christian Herta Multivariate Lineare Regression
3 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 3 von 34 Christian Herta Multivariate Lineare Regression
4 Multivariare Regression Überwachtes Lernen (supervised learning): m Beobachtungen (Trainingsbeispiele) mit n Merkmale (Features): 1 j n (bisher n = 1): Input-Features x (i) des i-ten Trainingsbeispiels: x (i) = x (i) 1, x (i) 2,..., x (i) n i-ten Zielwert y (i) x (i) : Wert des Features j für das i-te Trainingsbeispiel j Ziel: Vorhersage eines Wertes y für einen neuen Wert für x. 4 von 34 Christian Herta Multivariate Lineare Regression
5 Beispiel: Boston-Dataset zur Vorhersage der Hauspreise #l o a d d a t a from s k l e a r n. d a t a s e t s import load_boston b o s t o n = load_boston ( ) p r i n t b o s t o n. DESCR # f e a t u r e names b o s t o n. feature_names # f e a t u r e s b o s t o n. data # h o u s e p r i c e : b o s t o n. t a r g e t 5 von 34 Christian Herta Multivariate Lineare Regression
6 Multiple Features 6 von 34 Christian Herta Multivariate Lineare Regression
7 7 von 34 Christian Herta Multivariate Lineare Regression
8 Multivariare Lineare Regression Lineares Modell, d.h. linear bezüglich der Parameter Θ j auch (erstmal) linear bezüglich der x j n h Θ (x 1,..., x n ) = Θ 0 + Θ 1 x Θ n x n = Θ 0 + Θ j x j j=1 8 von 34 Christian Herta Multivariate Lineare Regression
9 Beispielplot Datenpunkte und beste Hypothese(Ebene). 9 von 34 Christian Herta Multivariate Lineare Regression
10 Vektor-Darstellung h Θ ( x) = Θ 0 + Θ 1 x 1 + Θ 2 x Θ n x n = Θ T x = x T Θ mit x = x 0 = 1 x 1 x 2... x n Θ = Θ 0 Θ 1 Θ 2... Θ n 10 von 34 Christian Herta Multivariate Lineare Regression
11 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 11 von 34 Christian Herta Multivariate Lineare Regression
12 Problemstellung Hypothese: h Θ ( x) = Θ T x = Θ 0 x 0 + Θ 1 x Θ n x n mit x 0 = 1 n + 1 Parameter: Θ T = (Θ 0, Θ 1,..., Θ n ) Minimierung der Kostenfunktion J: J( Θ) = 1 m (h Θ ( x (i) ) y (i) ) 2 2m i=1 12 von 34 Christian Herta Multivariate Lineare Regression
13 Gradient Descent Wiederhole bis Konvergenz erreicht ist: Θ j Θ j α Θ j J(Θ) Beachte bei Implementierung: Simultanes Update für alle Θ j 13 von 34 Christian Herta Multivariate Lineare Regression
14 Vektorform: Gradient Descent Mit der Denition des Gradienten: grad(j(θ)) = J(Θ) = J(Θ) Θ 0 J(Θ) Θ 1... J(Θ) Θ n Θ neu Θ alt α grad(j(θ alt )) 14 von 34 Christian Herta Multivariate Lineare Regression
15 Update Rule Θ j J(Θ) = Θ j 1 2m = Θ j 1 2m m (h Θ ( x (i) ) y (i) ) 2 i=1 m ( Θ T x (i) y (i) ) 2 Ergibt folgende Update Rules für alle n + 1 Θ j mit 0 j n: i=1 Θ j Θ j α 1 m m i=1 ( Θ T x (i) y (i) )x (i) j 15 von 34 Christian Herta Multivariate Lineare Regression
16 Vektorform der Update Rule Θ neu Θ alt α 1 m m ( Θ T x (i) y (i) ) x (i) i=1 16 von 34 Christian Herta Multivariate Lineare Regression
17 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 17 von 34 Christian Herta Multivariate Lineare Regression
18 Feature-Scaling: Skalieren der x-werte Idee: Werte aller Features (Merkmale), d.h. alle x j, sollen etwa im Bereich 1 x j 1 liegen. Wie könnte dies erreicht werden?? 18 von 34 Christian Herta Multivariate Lineare Regression
19 Feature-Scaling: Skalieren der Features Berechnen der umskalierten Features x j mittels Standardisierung (z-transformation): mit x j = x j µ j std(x j ) µ j = x j = i x (i) /m: Mittelwert für x j j std(x j ) = var(x j ): Standardabweichung von x j var(x j ) = (x j µ j ) 2 = x 2 j µ 2 j : Varianz von x j Für die transformierten Daten x ist der Mittelwert 0 und die Standardabweichung von 34 Christian Herta Multivariate Lineare Regression
20 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 20 von 34 Christian Herta Multivariate Lineare Regression
21 Implementierung mit Vektoren und Matrizen Daten als Matrix X mit X ij x (i) j Zeilen i: einzelnen Datensätze x (i) Spalten j: für die einzelnen Features mit x (i) 0 = 1 Vorhersagen für alle Datensätze in Matrix X : h(x) = X Θ z.b: bei 3 Features und 700 Trainingsdaten mit numpy: I n [ 9 ] : X. s h a p e Out [ 9 ] : ( 7 0 0, 4) I n [ 1 0 ] : t h e t a. s h a p e Out [ 1 0 ] : ( 4, ) I n [ 1 1 ] : h = X. dot ( t h e t a ) Out [ 1 1 ] : a r r a y ( [ 1. 3,... I n [ 1 2 ] : h. s h a p e Out [ 1 2 ] : ( 7 0 0, ) 21 von 34 Christian Herta Multivariate Lineare Regression
22 Vektorisierte Form der Update Rule mit Daten-Matrix X aus der vektorisierten Form der Update Rule Θ neu Θ alt α 1 m m (h( x (i) ) y (i) ) x (i) i=1 ergibt sich mit der Daten-Matrix X Θ neu Θ alt α 1 m XT ( h(x) y) in Python: theta = theta alpha ( 1. 0 / m) X.T. dot ( h y ) 22 von 34 Christian Herta Multivariate Lineare Regression
23 Oene Fragen Update Rules: Θ j Θ j α Θ j J(Θ) Debuggen: Wie kann man überprüfen, ob die Gradient Descent Implementierung funktioniert? Wie soll man die Lernrate α wählen? 23 von 34 Christian Herta Multivariate Lineare Regression
24 Funktioniert Gradient Descent? Ziel: min Θ J(Θ) Auftragen von J(Θ) über den Interationen (Epochen): J(Θ) muss in jeder Iteration kleiner werden. 24 von 34 Christian Herta Multivariate Lineare Regression
25 Lernrate α - zu kleine Werte Beispieldatensatz: Boston house-price data 25 von 34 Christian Herta Multivariate Lineare Regression
26 Lernrate α - zu groÿe Werte Beispieldatensatz: Boston house-price data 26 von 34 Christian Herta Multivariate Lineare Regression
27 Wahl von α Wenn α zu klein ist langsame Konvergenz Wenn α zu groÿ ist, eventuell keine Konvergenz: J wächst (oder oszilliert) Versuche mit verschiedenen α, z.b.: 0.001, 0.003, 0.01, 0.03, 0.1, 27 von 34 Christian Herta Multivariate Lineare Regression
28 Feature-Scaling: Θ für unskalierte Features x x = x mean(x) std(x) = x µ σ x Lernen ergibt modizierte Parameter : Θ 0 und Θ 1 d.h. h(x) = Θ 0 + Θ 1 x = Θ 0 + Θ 1 x µ = (Θ 0 Θ 1 µ ) + Θ 1 σ x σ x Θ 0 = Θ 0 Θ 1 µ σ x Θ 1 = Θ 1 σ x σ x x 28 von 34 Christian Herta Multivariate Lineare Regression
29 Outline 1 Problemstellung 2 Gradient Descent 3 Feature Scaling 4 Praxis 5 Basis Funktionen 29 von 34 Christian Herta Multivariate Lineare Regression
30 Multivariare Lineare Regression Bisher: Linearität bezüglich der Inputs x i (starke Einschränkung) n h Θ ( x) = Θ 0 + Θ j x j j=1 Erweiterung: Ersetzen der x j mit Basisfunktionen φ j ( x): n h Θ ( x) = Θ 0 + Θ j φ j ( x) Immer noch lineares Modell, da linear bezüglich der Parameter Θ j j=1 30 von 34 Christian Herta Multivariate Lineare Regression
31 Beispiele für Basisfunktionen Polynome: φ j ( x) = x 2 1 φ j ( x) = x 1 x 3 Gaussian Basis Funktion φ j ( x) = exp{ (x µ j) 2 } 2σ 2 j 31 von 34 Christian Herta Multivariate Lineare Regression
32 Features Transformation der Rohdaten x i in Features φ( x i ) Beispiel: Vorhersage des Preises von rechteckigen Grundstücken: Rohdaten: Länge x 1 und Breite x 2. statt: h θ = Θ 0 + Θ 1 laenge + Θ 2 breite mit der Fläche als Feature φ 1 : aeche = laenge breite h θ = Θ 0 + Θ 1 aeche 32 von 34 Christian Herta Multivariate Lineare Regression
33 Polynominale Regression siehe Bild Lsf.gif 33 von 34 Christian Herta Multivariate Lineare Regression
34 Literaturangabe Andrew Ng: Machine Learning (Stanford OpenClassroom) Weiterführende Literatur: C. Bishop: Pattern recognition and Machine Learning, Springer Verlag von 34 Christian Herta Multivariate Lineare Regression
Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion
MehrLogistische Regression
Logistische Regression Christian Herta August, 2013 1 von 45 Christian Herta Logistische Regression Lernziele Logistische Regression Konzepte des maschinellen Lernens (insb. der Klassikation) Entscheidungsgrenze,
MehrModell Komplexität und Generalisierung
Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung
MehrValidation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation
Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation
MehrPräsentation: Vorname, Nachname. Lizenz:
Machine Learning: Lineare Regression Präsentation: Vorname, Nachname Lizenz: HTW Berlin Informatik und Wirtschaft Aktuelle Trends der Informations- und Kommunikationstechnik Machine Learning: Lineare Regression
MehrGrundlagen zu neuronalen Netzen. Kristina Tesch
Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen
MehrRidge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel
Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrD-CHAB Frühlingssemester 2017 T =
D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrMustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines
Mustererkennung R. Neubecker, WS 018 / 019 (SVM) kommen aus der statistischen Lerntheorie gehören zu den optimalen Klassifikatoren = SVMs minimieren nicht nur den Trainingsfehler, sondern auch den (voraussichtlichen)
MehrKapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017
10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion
Mehr2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion.
2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion. 2.1 Allgemeine Behandlung Definition der χ 2 -Funktion. Hier definieren wir
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrMotivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus
3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges 02.05.2017 1 von 15 Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical
MehrR 3 und U := [e 2, e 3 ] der von e 2, e 3 erzeugte
Aufgabe ( Es seien e =, e = Untervektorraum (, e = ( R und U := [e, e ] der von e, e erzeugte Weiter sei G := {A GL(, R A e = e und A U U} (a Zeigen Sie, dass G eine Untergruppe von GL(, R ist (b Geben
MehrMatrix. Unter einer (m n)-matrix (m, n N) über einem Körper K versteht man ein Rechteckschema. a m,1 a m,2 a m,n. A = (a i,j ) = Matrix 1-1
Matrix Unter einer (m n)-matrix (m, n N) über einem Körper K versteht man ein Rechteckschema a 1,1 a 1,2 a 1,n a 2,1 a 2,2 a 2,n A = (a i,j ) =.... a m,1 a m,2 a m,n Matrix 1-1 Matrix Unter einer (m n)-matrix
MehrTraining von RBF-Netzen. Rudolf Kruse Neuronale Netze 134
Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrLineare Algebra: Determinanten und Eigenwerte
: und Eigenwerte 16. Dezember 2011 der Ordnung 2 I Im Folgenden: quadratische Matrizen Sei ( a b A = c d eine 2 2-Matrix. Die Determinante D(A (bzw. det(a oder Det(A von A ist gleich ad bc. Det(A = a b
MehrOptimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
Mehr2.4 Gradientenabstiegsverfahren
2.4 Gradientenabstiegsverfahren Optimale Parameter lassen sich bei linearer Regression analytisch bestimmen, dennoch verwendet man in der Regel das sogenannte Gradientenabstiegsverfahren, um diese (näherungsweise)
MehrStatistical Learning
Statistical Learning M. Gruber KW 42 Rev.1 1 Neuronale Netze Wir folgen [1], Lec 10. Beginnen wir mit einem Beispiel. Beispiel 1 Wir konstruieren einen Klassifikator auf der Menge, dessen Wirkung man in
MehrMathematische Werkzeuge R. Neubecker, WS 2016 / 2017
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum
MehrLineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
MehrKlausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min
Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
MehrData Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 8: Recommendation Systems Johannes Zschache Wintersemester 08/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 8- 8- Data Mining Übersicht Hochdimension.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen. Tobias Scheffer Michael Brückner
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Tobias Scheffer Michael Brückner Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Mo 10:00-11:30
Mehr2. Übung: Lineare dynamische Systeme
2. Übung: Lineare dynamische Systeme Aufgabe 2.. Gegeben sind die beiden autonomen Systeme und x (2.) {{ A 2 2 x. (2.2) {{ A 2 Berechnen Sie die regulären Zustandstransformationen x = V z und x = V 2 z,
MehrKernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung
Kernel, Perceptron, Regression Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-07-20 KDD Übung Kernel-Fukctionen Kernel kann mehrdeutig sein! Unterscheidet zwischen: Kernel function
MehrFinite Elemente Methoden (aus der Sicht des Mathematikers) Alfred Schmidt
Finite Elemente Methoden (aus der Sicht des Mathematikers) Alfred Schmidt Übersicht Partielle Differentialgleichungen, Approximation der Lösung Finite Elemente, lineare und höhere Ansatzfunktionen Dünn
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrData Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
Mehr1 (2π) m/2 det (Σ) exp 1 ]
Multivariate Normalverteilung: m=1: Y N(µ; σ 2 ) Erwartungswert: µ Varianz: σ 2 f Y (y) = f Y1 Y 2...Y m (y 1,y 2,...,y m ) = [ 1 exp 1 ] 2πσ 2 2 (y µ)2 /σ 2 Σ: m m-matrix, symmetrisch, positiv definit.
MehrMultivariate Verteilungen. Gerhard Tutz LMU München
Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS
Mehr6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrNutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
Mehr6. f : Abb(R, R) R mit ϕ f(ϕ) := ϕ(1) Hinweis:f :V W über K bedeutet Abbildung f zwischen den Vektorräumen V und W über demselben
Aufgabe 74. Untersuchen Sie die folgenden Abbildungen auf Linearität. 1. f : R 2 R 2 mit (x, y) f(x, y) := (3x + 2y, x) 2. f : R R mit x f(x) := ϑx + ζ für feste ϑ, ζ R 3. f : Q 2 R mit (x, y) f(x, y)
MehrMathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 018 / 019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen 1 Optimierung Optimierungsprobleme Suche nach dem Maximum oder Minimum
MehrReduced-Rank Least Squares Modelle
16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A
MehrWeitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff
Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization
MehrData Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling
Web Science & Technologies University of Koblenz Landau, Germany Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling Mündliche Prüfung Welche Methoden gibt es? Wie sind die Annahmen für die
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler
MehrAlgorithmen für geographische Informationssysteme. 6. Vorlesung: 14. Mai 2014
Algorithmen für geographische Informationssysteme 6. Vorlesung: 14. Mai 2014 Ausgleichung bei linearem funktionalen Modell Beispiel 2: Ausgleichung von Höhendifferenzen P 2 Δh 2,3 = 7.0 m P 3 Δh 1,2 =
MehrHochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann. 8. Übungsblatt zur Vorlesung Ökonometrie
Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann 8. Übungsblatt zur Vorlesung Ökonometrie Aufgabe 1: In der Vorlesung haben wir das lineare Regressionsproblem als statistisches Problem formuliert:
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrNichtlineare Ausgleichsrechnung
10. Großübung Nichtlineare Ausgleichsrechnung Allgemeines Problem: Wir betrachten ein nichtlineares System F : R n R m mit (m > n, d.h. das System ist überbestimmt und F i (x g(t i ; x g i! 0 i 1,.., m.
MehrKalman-Filter und Target Tracking
Kalman-Filter und Target Tracking Peter Poschmann Hochschule für Technik und Wirtschaft Dresden Fakultät Informatik/Mathematik 23. März 2016 Inhalt 1 Kalman-Filter Einleitung Eindimensionaler Kalman-Filter
MehrDas Perzeptron. Volker Tresp
Das Perzeptron Volker Tresp 1 Einführung Das Perzeptron war eines der ersten ernstzunehmenden Lernmaschinen Die wichtigsten Elemente Sammlung und Vorverarbeitung der Trainingsdaten Wahl einer Klasse von
Mehra 1 a 1 A = a n . det = λ det a i
49 Determinanten Für gegebene Vektoren a 1,,a n K n, betrachte die Matrix deren Zeilenvektoren a 1,,a n sind, also A = Ab sofort benutzen wir diese bequeme Schreibweise Definition Sei M : K n K }{{ n K
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
MehrMLAN1 1 MATRIZEN 1 0 = A T =
MLAN1 1 MATRIZEN 1 1 Matrizen Eine m n Matrix ein rechteckiges Zahlenschema a 11 a 12 a 13 a 1n a 21 a 22 a 23 a 2n a m1 a m2 a m3 amn mit m Zeilen und n Spalten bestehend aus m n Zahlen Die Matrixelemente
MehrStatistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536
fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung
Mehr6.2 Feed-Forward Netze
6.2 Feed-Forward Netze Wir haben gesehen, dass wir mit neuronalen Netzen bestehend aus einer oder mehreren Schichten von Perzeptren beispielsweise logische Funktionen darstellen können Nun betrachten wir
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrMaschinelles Lernen Vorlesung
Maschinelles Lernen Vorlesung SVM Kernfunktionen, Regularisierung Katharina Morik 15.11.2011 1 von 39 Gliederung 1 Weich trennende SVM 2 Kernfunktionen 3 Bias und Varianz bei SVM 2 von 39 SVM mit Ausnahmen
Mehr2.2 Lineare Gleichungssysteme (LGS)
2.2 Lineare Gleichungssysteme (LGS) Definition 2.2.. Ein LGS über einem Körper K von m Gleichungen in n Unbekannten x,..., x n ist ein Gleichungssystem der Form a x + a 2 x 2 +... + a n x n = b a 2 x +
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
Mehr51 Numerische Berechnung von Eigenwerten und Eigenvektoren
5 Numerische Berechnung von Eigenwerten und Eigenvektoren 5. Motivation Die Berechnung der Eigenwerte einer Matrix A IR n n als Lösungen der charakteristischen Gleichung (vgl. Kapitel 45) ist für n 5 unpraktikabel,
MehrNeuronale Netze. Christian Böhm.
Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch
Mehrα i e i. v = α i σ(e i )+µ
Beweis: Der Einfachheit halber wollen wir annehmen, dass V ein endlich-dimensionaler Vektorraum mit Dimension n ist. Wir nehmen als Basis B {e 1,e 2,...e n }. Für beliebige Elemente v V gilt dann v α i
MehrHauptdierentialanalyse
Hauptdierentialanalyse Jan Ditscheid TU Dortmund Seminar funktionale Datenanalyse 19.11.2015 1 / 40 1 Wozu HDA? 2 Denition des Problems 3 HDA am Beispiel 4 Techniken zur HDA 5 Beurteilung der Anpassung
MehrEinführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
MehrStochastik-Praktikum
Stochastik-Praktikum Deskriptive Statistik Peter Frentrup Humboldt-Universität zu Berlin 7. November 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 1 / 27 Übersicht
MehrStatistical Learning
Statistical Learning M Gruber KW 45 Rev 1 1 Support Vector Machines Definition 1 (Lineare Trennbarkeit) Eine Menge Ü µ Ý µ Ü Æµ Ý Æµ R ist linear trennbar, wenn mindestens ein Wertepaar Û R µ existiert
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische
MehrC orthogonal und haben die Länge 1). Dann ist die Länge von w = x u + y v gegeben durch w 2 Def. = w,w =
1 v Die Länge Def. Sei (V,, ) ein Euklidscher Vektorraum. Für jeden Vektor v V heißt die Zahl v,v die Länge von v und wird v bezeichnet. Bemerkung. Die Länge des Vektors ist wohldefiniert, da nach Definition
MehrLineare Algebra I (WS 12/13)
Lineare Algebra I (WS 2/3) Bernhard Hanke Universität Augsburg 20..202 Bernhard Hanke / 3 Matrizen und Lineare Abbildungen Es seien lineare Abbildungen, d.h. Matrizen gegeben. B = (b jk ) : R r R n, A
MehrGauß-Prozess-Regression
Bayessche Regression und Gaußprozesse Dr. rer. nat. Johannes Riesterer Motivation Kriging Der südafrikanische Bergbauingenieur Danie Krige versuchte 1951, eine optimale Interpolationsmethode für den Bergbau
MehrVorlesung Digitale Bildverarbeitung Sommersemester 2013
Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches
MehrKlasse WI06b MLAN2 zweite-klausur 13. Juni 2007
Klasse WI6b MLAN zweite-klausur 3. Juni 7 Name: Aufgabe Gegeben sind die beiden harmonischen Schwingungen ( y = f (t) = +3 sin ωt + π ) (), ( 4 y = f (t) = 8 cos ωt + π ) (). 4 a) Bestimmen Sie mit Hilfe
MehrDeskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
MehrSupport Vector Machines, Kernels
Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen
MehrInhalt. Einleitung... XIII
Inhalt Einleitung................................................. XIII 1 Vektoren, Matrizen und Arrays.................................. 1 1.0 Einführung.......................................... 1 1.1
MehrML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.
Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die
MehrKlausurenkurs zum Staatsexamen (WS 2016/17): Lineare Algebra und analytische Geometrie 4
Dr. Erwin Schörner Klausurenkurs zum Staatsexamen (WS 26/7): Lineare Algebra und analytische Geometrie 4 4. (Frühjahr 27, Thema, Aufgabe ) Zeigen Sie, dass die beiden folgenden Unterräume des R 3 übereinstimmen:
MehrIntuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?
2. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:
MehrEinführung in Softwaretools zur Nichtlinearen Optimierung
Einführung in Softwaretools zur Nichtlinearen Optimierung 3. April 2017 5. April 2017 Sebastian Garreis, M. Sc. (hons) Johannes Haubner, M. Sc. Technische Universität München Fakultät für Mathematik Lehrstuhl
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, 4. Mai 2017 Dr. Michael O. Distler
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg
für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Einstichproben-t-Test und approximativer Gaußtest
MehrLineare Klassifikatoren. Volker Tresp
Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare
MehrAnhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen
Kapitel 9 Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen 9 Definitionen, Eigenschaften Wir betrachten jetzt p Zufallsvariablen X, X 2,, X p Alle Definitionen, Notationen und Eigenschaften
MehrSkipgram (Word2Vec): Praktische Implementierung
Skipgram (Word2Vec): Praktische Implementierung Benjamin Roth Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München beroth@cis.uni-muenchen.de Benjamin Roth (CIS) Skipgram
MehrGeometrische Deutung linearer Abbildungen
Geometrische Deutung linearer Abbildungen Betrachten f : R n R n, f(x) = Ax. Projektionen z.b. A = 1 0 0 0 1 0 0 0 0 die senkrechte Projektion auf die xy-ebene in R 3. Projektionen sind weder injektiv
MehrWir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)
6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese
MehrAufgabe 1. Signal Processing and Speech Communication Lab. Graz University of Technology
Signal Processing and Speech Communication Lab. Graz University of Technology Aufgabe 1 Senden Sie die Hausübung bis spätestens 26.4.2017 per Email an hw1.spsc@tugraz.at. Verwenden Sie MatrikelNummer1
Mehr1 Multivariate Zufallsvariablen
1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)
MehrScheinklausur zur Linearen Algebra I, WS 05/06, 2. Teil
14.2.2006 Scheinklausur zur Linearen Algebra I, WS 05/06, 2. Teil Prof. Dr. G. Hiß Tragen Sie bitte auf diesem Deckblatt leserlich und in Blockbuchstaben Ihren Namen und Ihre Matrikelnummer ein und unterschreiben
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
Mehr