Modell Komplexität und Generalisierung
|
|
- Alexandra Lieselotte Schneider
- vor 5 Jahren
- Abrufe
Transkript
1 Modell Komplexität und Generalisierung Christian Herta November, von 41 Christian Herta Bias-Variance
2 Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung Out-of-sample error und Testdaten Modell-Komplexität (model complexität) 2 von 41 Christian Herta Bias-Variance
3 Outline 1 Tagetfunktion und Rauschen 2 Overtting-Undertting 3 Testdaten 4 Bias-Varianz Analyse 5 Lern Kurven 3 von 41 Christian Herta Bias-Variance
4 Targetfunktion Es soll eine unbekannte Funktion, die sogenannte Targetfunktion t( x), angenähert werden. Erhält man die Datentargets y deterministisch aus den x Werten, so kann man y als Funktion, der sogenannten Targetfunktion t, schreiben: y = t( x) 4 von 41 Christian Herta Bias-Variance
5 Verrauschte Targets Die unbekannte Targetfunktion t( x) entspricht in der Regel für ein x (i) nicht (direkt) dem y (i). Die Daten sind typischerweise verrauscht. Dies kann man folgenderweise modellieren: y (i) = t( x (i) ) + ɛ mit einer Zufallsvariable ɛ (= stochastisches Rauschen) Somit erhält man statt einer Funktion eine Wahrscheinlichkeitsverteilung p(y x) Die Wahrscheinlichkeitsverteilung des Rauschens kann dabei auch von x abhängen p(ɛ x). 5 von 41 Christian Herta Bias-Variance
6 Ziel des Lernens und Trainingsdaten Ziel des Lernens: Finden einer geeigneten Hypothese h( x) t( x) für alle interessanten x, d.h. x für die eine Vorhersage gemacht werden soll. p( x) hinreichend groÿ. Die Traingsdaten sind verrauscht: y (i) = t( x (i) ) + ɛ Welche Muster liegen der Targetfunktion zu Grunde und welche kommen zufällig aus der Auswahl der Trainingsdaten (sampling error). Die Werte der Hypothese h( x (i) ) sollte nicht perfekt den y (i) der Trainingsdaten entsprechen. Aber wie weit soll die Übereinstimmung sein? 6 von 41 Christian Herta Bias-Variance
7 Lern-Diagramm nur Training nach [Abu] 7 von 41 Christian Herta Bias-Variance
8 Outline 1 Tagetfunktion und Rauschen 2 Overtting-Undertting 3 Testdaten 4 Bias-Varianz Analyse 5 Lern Kurven 8 von 41 Christian Herta Bias-Variance
9 Beispiel: Undertting-Overtting: Polynominal Regression 9 von 41 Christian Herta Bias-Variance
10 Logistic Regression: Undertting 10 von 41 Christian Herta Bias-Variance
11 Logistic Regression: Overtting Logistische Regression mit hochgradigem Polynom: h Θ ( x) = g(θ 0 + Θ 1 x1 + Θ 2 x1x2 + Θ 3 x Θ 4x Θ 5x 2 1 x ) 11 von 41 Christian Herta Bias-Variance
12 Logistic Regression: Passend 12 von 41 Christian Herta Bias-Variance
13 Ziel des Lernens - Hypothesenmenge H Ziel des Lernens: Finden einer geeigneten Hypothese h( x) t( x) h wird aus einer Menge von Hypothesen H durch die Trainingsprozedur bestimmt. Univariate Lineare Regression als Beispiel zur Verdeutlichung der Bedeutung von H: H ist die Menge aller (unendlich vielen) Hypothesen h Θ (x) = Θ 0 + Θ 1 x, die sich durch Variation der Θ ergeben. Aus der Menge von möglichen Hypothesen H wird durch Lernen der Parameter Θ mittels den Trainingsdaten eine bestimmte Hypothese h Θnal (x) erhalten. Diese zeichnet sich durch das Minimum der Kostenfunktion aus, d.h. Θ : J(Θ nal ) J(Θ) 13 von 41 Christian Herta Bias-Variance
14 Undertting Ziel: h( x) t( x) Was passiert beim Undertting? 14 von 41 Christian Herta Bias-Variance
15 Undertting Ziel: h( x) t( x) Was passiert beim Undertting? Das Ziel kann im Undertting-Fall nicht (ausreichend) erreicht werden, da keine der Hypothesen aus H ähnlich der Targetfunktion ist. d.h.: H ist zu wenig mächtig (komplex). 14 von 41 Christian Herta Bias-Variance
16 Overtting Ziel: Was passiert beim Overtting? h( x) t( x) 15 von 41 Christian Herta Bias-Variance
17 Overtting Ziel: Was passiert beim Overtting? h( x) t( x) Die durch das Lernen gefundene Hypothese h aus H passt sich zu sehr an die spezielle Ausprägung der Trainingsdaten an. Da H sehr mächtig (komplex) ist. 15 von 41 Christian Herta Bias-Variance
18 Outline 1 Tagetfunktion und Rauschen 2 Overtting-Undertting 3 Testdaten 4 Bias-Varianz Analyse 5 Lern Kurven 16 von 41 Christian Herta Bias-Variance
19 Trainingsfehler Bisher nur Trainingsmenge D und Berechung des (durchschnittlichen) Loss der Traingsdaten (bisher genannt Kostenfunktion): Trainingsfehler (train error, in-sample error) trainingsfehler = E in (h) = 1 m m loss(h( x (i) ), y (i) ) i=0 Der Trainingsfehler wurde bisher als Funktion der Parameter J(Θ) für ein spezisches Modell (Hypothesenmenge) benutzt, um die Parameter Θ aus den Daten zu lernen. Jetzt E in (h) als Funktion der Hypothesen h, da verschiedene Modelle benutzt werden können. 17 von 41 Christian Herta Bias-Variance
20 Trainingsfehler als Kriterium nicht ausreichend Ein niedriger Trainingsfehler impliziert nicht automatisch ein gutes Modell (Overtting!), d.h. h( x) t( x) ist nicht garantiert. h( x) kann eine schlechte Prognose abgeben für x-werte, die in der Trainingsmenge nicht enthalten sind. 18 von 41 Christian Herta Bias-Variance
21 Out-of-sample error / expected risk Der out-of-sample error ist der durchschnittliche Loss, der sich auf typischen weiteren Daten (p(x, y ) hinreichend groÿ) ergeben würde, die nicht zum Training verwendet worden sind: E out (h) = E x,y [loss(h(x), y)] = loss(h(x), y)dp(x, y) X Y 19 von 41 Christian Herta Bias-Variance
22 Generaliserungsfehler Der Generalisierungsfehler einer Hypothese h kann folgendermaÿen deniert werden (nach [Abu]): E out (h) E in (h) Also der Fehler, die sich durch die Anpassung von h mittels Trainings an die spezielle Ausprägung der Trainingsdaten D train ergibt, im Vergleich zu dem zu erwarteten Vorhersage-Fehler. Zwei Gründe für die Dierenz: auch ohne Rauschen sind zu wenig Daten in D, so dass der Lernalgorithmus A eine wenig generalisierende Hypothese h ndet. zu wenig Trainingsdaten, so dass auch das Rauschen gelernt wird. 20 von 41 Christian Herta Bias-Variance
23 Generaliserungsfehler (cont.) In der Literatur ndet man unter dem Begri Generalisierungsfehler verschiedene Denitionen, wie z.b.: Der Generalisierungsfehler einer Hypothese h gelernt mit einem Algorithmus A und den Trainingsdaten D train ist R(A, D train ) = E out (h) inf E out (h ) h H Also die Abweichung in E out von h vom besten h. oder manchmal wird auch nur E out (h) als Generalisierungsfehler bezeichnet. 21 von 41 Christian Herta Bias-Variance
24 Testdaten Out-of-sample error E out ist nicht direkt zugänglich. Einführung von m test gelabelte Testdaten, um zu überprüfen, ob das Modell h( x) auch Werte gut vorhersagt, die nicht beim Training verwendet wurden: testdaten = D test = {( x (0), y (0) ), ( x (1), y (1) ),..., ( x (mtest), y (m test) )} 22 von 41 Christian Herta Bias-Variance
25 Testfehler Der Testfehler ist der durchschnittlicher Loss der Testdaten: testfehler = 1 m test m i=0 loss(h( x (i) ), y (i) ) Testfehler dient als Schätzung des out-of-sample error E out (h) testfehler E X,Y [loss(h(x), y)] = E out (h) 23 von 41 Christian Herta Bias-Variance
26 Modell Komplexität (model complexity, capacity) Informell: Die Komplexität von H (des Modells) beschreibt wieviele unterschiedlich komplizierte Funktionen durch H abgedeckt werden. Maÿe um die Modell Komplexität zu beschreiben: VC-Dimension d vc (VapnikChervonenkis Dimension) Rademacher Komplexität 24 von 41 Christian Herta Bias-Variance
27 Einuss der Komplexität Komplexeres Hypothesenset H gröÿere Wahrscheinlichkeit die Targetfunktion darstellen zu können, d.h. die Targetfunktion ist in H oder nahe H. Weniger komplexes Hypothesenset H gröÿere Wahrscheinlichkeit, dass der Generaliserungsfehler niedriger ist. 25 von 41 Christian Herta Bias-Variance
28 Schranke für Generalisierung aus der Theorie ergibt sich mit Wahrscheinlichkeit 1 δ: E out (h) E in (h) + Ω(m, H, δ) mit der VC-Dimension d VC als Maÿ für die Komplexität Ω(m, H, δ) 8 ln 4((2m)d VC + 1) m δ d.h. Lernen (Generalisierung) ist möglich, wenn die Modell-Komplexität nicht zu hoch ist und genügend Trainingsdaten vorhanden sind. 26 von 41 Christian Herta Bias-Variance
29 Komplexität und erwartete Fehler Quelle: [Abu] 27 von 41 Christian Herta Bias-Variance
30 Outline 1 Tagetfunktion und Rauschen 2 Overtting-Undertting 3 Testdaten 4 Bias-Varianz Analyse 5 Lern Kurven 28 von 41 Christian Herta Bias-Variance
31 Trainingsmenge, Hypothesenmenge und Hypothese Für quadratischem Loss und Regression ist die Bias-Variance Dekomposition einfach. Analoges gilt aber auch für Klassikation und andere Loss-Funktionen. Lernen der Hypothesenmenge (Modell) H mit den Trainingsdaten D führt zu Hypothese h (D) (hochgestelltes D zeigt die Abhängigkeit von den Traingsdaten D). 29 von 41 Christian Herta Bias-Variance
32 Erwartungswert des out-of-sample errors Ausgangspunkt der Bias-Varianz Analyse ist der Erwartungswert des out-of-sample errors: E D [ E out (h D (x)) ] mit h D : gelernte Hypothese mit den Traingsdaten D E out (h D ): out-of-sample error für die gelernete Hypothese E D : Erwartungswert bezüglich der Trainingsdaten. 30 von 41 Christian Herta Bias-Variance
33 Bias-Varianz Analyse ohne Rauschen in den Daten und quadratischem Fehler: [ E D E out (h D ) ] [ [ ( = E D E X h D (x) t(x) ) ]] 2 = E X [ E D [ ( h D (x) t(x) ) 2 ]] mit der durchschnittlichen Hypothese h(x) = E D [ h D (x) ] ergibt sich: [ E D E out (h D (x)) ] [ ( = E X [E D h D (x) h(x) ) ]] 2 +E X [ ( h(x) t(x) ) 2 ] = variance +bias 2 Falls die Daten verrauscht sind kommt ein dritter Term, der irreduzierbare Fehler E X [ɛ 2 ], hinzu. (siehe z.b. [Has]) 31 von 41 Christian Herta Bias-Variance
34 Interpretation: Bias 2 E x [ ( h(x) t(x) ) 2 ] Quadratische Abweichung der durchschnittlichen Hypothese h von der Targetfunktion t Undertting 32 von 41 Christian Herta Bias-Variance
35 Interpretation: Varianz [ ( E x [E D h D (x) h(x) ) ]] 2 Durchschnittliche quadratische Abweichung der gelernten Hypothesen {h D } von der durchschnittlichen Hypothese h Overtting 33 von 41 Christian Herta Bias-Variance
36 Interpretation: Varianz Veranschaulichung am Beispiel: 2 Datenpunkte und Fitten von Sinus mit Konstanter und Geraden. siehe Folien Seite 10. Quelle:[Abu] 34 von 41 Christian Herta Bias-Variance
37 Outline 1 Tagetfunktion und Rauschen 2 Overtting-Undertting 3 Testdaten 4 Bias-Varianz Analyse 5 Lern Kurven 35 von 41 Christian Herta Bias-Variance
38 Ziel Ziel: h( x) t( x) gegeben wenn E out bzw der testfehler klein ist. Erfüllt, falls folgende beide Bedingungen erfüllt sind: E in (Trainingsfehler) klein, d.h. kein Undertting. E out E in klein bzw. testfehler trainingsfehler, d.h. kein Overtting. 36 von 41 Christian Herta Bias-Variance
39 Lern Kurve Wie kann man erkennen, dass das Model passend ist? Beachte passend bezieht sich auf die Einussgröÿen: Anzahl der Datenpunkte m der Trainingsdaten D train Komplexität der Hypothesenmenge (Modell) H Stärke des stochastischen Rauschen ɛ im Vergleich zur Targetfunktion t, d.h. das Signal-Rausch Verhältnis. 37 von 41 Christian Herta Bias-Variance
40 Lern Kurve: Einfaches Modell 38 von 41 Christian Herta Bias-Variance
41 Lern Kurve: Komplexes Modell 39 von 41 Christian Herta Bias-Variance
42 Lern-Diagramm für überwachtes Lernen nach [Abu] 40 von 41 Christian Herta Bias-Variance
43 Literaturangabe Andrew Ng: Machine Learning (Cousera Online Kurs), 2013 [Has] Trevor Hastie,Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning, insb.: Kapitel 7, Springer Verlag 2009 [Abu] Yaser Abu-Mostafa: Learning from Data, Caltech Machine Learning bzw. Yaser Abu-Mostafa et all.: Learning from Data, AMLBook von 41 Christian Herta Bias-Variance
Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation
Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation
MehrLineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion
MehrSo lösen Sie das multivariate lineare Regressionsproblem von Christian Herta
Multivariate Lineare Regression Christian Herta Oktober, 2013 1 von 34 Christian Herta Multivariate Lineare Regression Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion
MehrLogistische Regression
Logistische Regression Christian Herta August, 2013 1 von 45 Christian Herta Logistische Regression Lernziele Logistische Regression Konzepte des maschinellen Lernens (insb. der Klassikation) Entscheidungsgrenze,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrÜbersicht. Definition Daten Problemklassen Fehlerfunktionen
Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges 02.05.2017 1 von 15 Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrVorlesung Wissensentdeckung in Datenbanken
Vorlesung Wissensentdeckung in Datenbanken Bias und Varianz Kristian Kersting, (Katharina Morik), Claus Weihs LS 8 Informatik Computergestützte Statistik Technische Universität Dortmund 22.05.2014 1 von
MehrTheoretische Informatik 1
Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition
MehrStatistical Learning
Statistical Learning M. Gruber KW 42 Rev.1 1 Neuronale Netze Wir folgen [1], Lec 10. Beginnen wir mit einem Beispiel. Beispiel 1 Wir konstruieren einen Klassifikator auf der Menge, dessen Wirkung man in
MehrRidge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel
Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate
MehrGrundlagen zu neuronalen Netzen. Kristina Tesch
Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken, Häufige Mengen Nico Piatkowski und Uwe Ligges 09.05.2017 1 von 15 Überblick Was bisher geschah... Heute Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
MehrEine zweidimensionale Stichprobe
Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,
MehrMarina Sedinkina Folien von Benjamin Roth Planen (CIS LMU andmünchen) Evaluieren von Machine Learning Experimenten 1 / 38
Planen and Evaluieren von Machine Learning Eperimenten Marina Sedinkina Folien von Benjamin Roth CIS LMU München Evaluieren von Machine Learning Eperimenten 1 / 38 Übersicht 1 Entwickeln von maschinellen
MehrVorlesung 2. Maschinenlernen: Klassische Ansätze I
Vorlesung 2 Maschinenlernen: Klassische Ansätze I Martin Giese Martin.giese@tuebingen.mpg.de Übersicht! Statistische Formulierung des überwachten Lernproblems! Einfache Klassifikatoren! Regression I. Statistiche
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
Mehr13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrLineare Regression 2: Gute Vorhersagen
Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.
Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;
MehrZusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen
Zusammenfassung: e und e Verteilungen Woche 4: Gemeinsame Verteilungen Wahrscheinlichkeitsverteilung p() Wahrscheinlichkeitsdichte f () WBL 15/17, 11.05.2015 Alain Hauser P(X = k
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrDOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING
DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data
MehrWie können Computer lernen?
Wie können Computer lernen? Ringvorlesung Perspektiven der Informatik, 18.2.2008 Prof. Jun. Matthias Hein Department of Computer Science, Saarland University, Saarbrücken, Germany Inferenz I Wie lernen
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
Mehri =1 i =2 i =3 x i y i 4 0 1
Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:
MehrLernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier
Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation
MehrStatistik, Geostatistik
Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.
MehrWoche 2: Zufallsvariablen
Woche 2: Zufallsvariablen Patric Müller ETHZ WBL 17/19, 24.04.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Teil III Zufallsvariablen Wahrscheinlichkeit
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrBrownsche Bewegung. M. Gruber. 19. März Zusammenfassung
Brownsche Bewegung M. Gruber 19. März 2014 Zusammenfassung Stochastische Prozesse, Pfade; Brownsche Bewegung; Eigenschaften der Brownschen Bewegung: Kovarianz, Stationarität, Selbstähnlichkeit, quadratische
MehrMan kann also nicht erwarten, dass man immer den richtigen Wert trifft.
2.2.2 Gütekriterien Beurteile die Schätzfunktionen, also das Verfahren an sich, nicht den einzelnen Schätzwert. Besonders bei komplexeren Schätzproblemen sind klar festgelegte Güteeigenschaften wichtig.
MehrGrundlagen des Maschinellen Lernens Kapitel 4: PAC Lernen
Kapitel 4:. Motivation 2. Lernmodelle Teil I 2.. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume
MehrLernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier
Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Tobias Scheffer Michael Brückner Hypothesenbewertung Ziel: gute Vorhersagen treffen. Bayesian model averaging,
MehrGewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h
5. Die partielle Autokorrelationsfunktion 5.1 Definition, Berechnung, Schätzung Bisher: Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h ρ X (h) = Corr(X t, X
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrPunktschätzer Optimalitätskonzepte
Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra
MehrGoethe-Universität Frankfurt
Goethe-Universität Frankfurt Fachbereich Wirtschaftswissenschaft PD Dr. Martin Biewen Dr. Ralf Wilke Sommersemester 2006 Klausur Statistik II 1. Alle Aufgaben sind zu beantworten. 2. Bitte runden Sie Ihre
MehrOptimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
MehrKapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017
10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrZusammenfassung 11. Sara dos Reis.
Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der
MehrDie Probabilistische Methode
Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen.
MehrKapitel 3 Schließende Statistik
Motivation Grundgesamtheit mit unbekannter Verteilung F Stichprobe X 1,...,X n mit Verteilung F Realisation x 1,...,x n der Stichprobe Rückschluss auf F Dr. Karsten Webel 160 Motivation (Fortsetzung) Kapitel
MehrNichtlineare Klassifikatoren
Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrFlussdiagramm der ökonometrischen Methode
Flussdiagramm der ökonometrischen Methode z.b Sättigungs modell Parameter schätzung Daten Sach verhalt oder Spezifikation des ökonometrischen Modells geschätztes Modell phäno menologische Modellierung
MehrStatistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II
Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte
MehrLineare Methoden zur Klassifizierung
Lineare Methoden zur Klassifizierung Kapitel 3 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrTextklassifikation, Informationsextraktion
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation, Informationsextraktion Tobias Scheffer Thomas Vanck Textklassifikation, Informationsextraktion 2 Textklassifikation,
MehrLinear nichtseparable Probleme
Linear nichtseparable Probleme Mustererkennung und Klassifikation, Vorlesung No. 10 1 M. O. Franz 20.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
MehrTeil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung
Zusammenfassung: diskrete und stetige Verteilungen Woche 4: Verteilungen Patric Müller diskret Wahrscheinlichkeitsverteilung p() stetig Wahrscheinlichkeitsdichte f ()
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrStatistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II
Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen
Mehr5. Klassifikation. 5.6 Support Vector Maschines (SVM)
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrStatistik I für Betriebswirte Vorlesung 3
Statistik I für Betriebswirte Vorlesung 3 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 15. April 2019 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 3 Version: 1. April
MehrDecision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrKonvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.
Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,
MehrKlassische Klassifikationsalgorithmen
Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at
MehrEnsemble Models - Boosting, Bagging and Stacking
Ensemble Models - Boosting, Bagging and Stacking Maximilian Schwinger 3. Februar 2004 1 Inhaltsverzeichnis 1 Einführung 3 1.1 Überblick............................... 3 2 Boosting 4 2.1 Beispiel................................
MehrStatistik II für Betriebswirte Vorlesung 11
Statistik II für Betriebswirte Vorlesung 11 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 07. Januar 2019 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 11 Version:
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Organisation und Überblick Nico Piatkowski und Uwe Ligges 8.0.07 von Fakten Team Vorlesung: Uwe Ligges, Nico Piatkowski Übung: Sarah Schnackenberg, Sebastian Buschjäger
MehrÜberblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrStatistisches Lernen
Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28
MehrWoche 2: Zufallsvariablen
Woche 2: Zufallsvariablen Patric Müller ETHZ WBL 19/21, 29.04.2019 Wahrscheinlichkeit und Statistik Patric Müller WBL 2019 Teil III Zufallsvariablen Wahrscheinlichkeit
MehrStochastik in den Ingenieu rwissenschaften
---_..,.'"--.---------- Christine Müller Liesa Denecke Stochastik in den Ingenieu rwissenschaften Eine Einführung mit R ~ Springer Vieweg 1 Fragestellungen........................................... Teil
MehrSchweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
MehrStatistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik
Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)
MehrStochastik-Praktikum
Stochastik-Praktikum Markov Chain Monte Carlo Peter Frentrup Humboldt-Universität zu Berlin 16. Januar 2018 (Humboldt-Universität zu Berlin) Markov Chain Monte Carlo 16. Januar 2018 1 / 17 Übersicht 1
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2
MehrWahrscheinlichkeiten
Wahrscheinlichkeiten August, 2013 1 von 21 Wahrscheinlichkeiten Outline 1 Wahrscheinlichkeiten 2 von 21 Wahrscheinlichkeiten Zufallsexperimente Die möglichen Ergebnisse (outcome) i eines Zufallsexperimentes
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
Mehr1 Einleitung. 1.1 Was ist Ökonometrie und warum sollte man etwas darüber lernen?
1 Einleitung 1.1 Was ist Ökonometrie und warum sollte man etwas darüber lernen? Idee der Ökonometrie: Mithilfe von Daten und statistischen Methoden Zusammenhänge zwischen verschiedenen Größen messen. Lehrstuhl
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 13. Juli 2011 Ziel der Vorlesung Vermittlung von Grundkenntnissen der Statistik, Simulationstechnik und numerischen Methoden (Algorithmen) Aufgabe:
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
Mehr