Von schwachen zu starken Lernern
|
|
- Valentin Fürst
- vor 6 Jahren
- Abrufe
Transkript
1 Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von L signifikant senken, ohne dass neue Beispiele angefordert werden? Allgemeine Lernverfahren lassen sich nicht mit Garantie verbessern, PAC-Algorithmen aber lassen sich stets verbessern. - Wir besprechen zwei Verfahren Bagging and Boosting, die durch Neugewichtung der Beispiele neue Hypothesen h 1,..., h k erzeugen. - Eine endgültige Hypothese wird dann nach Mehrheitsbildung ausgegeben. Boosting 1 / 15
2 Bagging Eingabe: Ein Lernalgorithmus L und eine Menge B von s klassifizierten Beispielen. k sei eine ungerade Zahl. (1) For t = 1 to k do (1a) Wähle s klassifizierte Beispiele, mit Ersetzung, aus der Menge B. /* Ein gewähltes Beispiel ist zurückzulegen. Es können also Beispiele mehrfach gezogen werden. Im Durchschnitt werden 63.2% der Beispiele aus B gewählt. */ (1b) Wende den Algorithmus L auf die gewählten Beispiele an, um die Hypothese h t zu erhalten. (2) Gib die Mehrheitshypothese h aus: Es ist h(x) = 1 (bzw h(x) = 0) genau dann, wenn eine Mehrheit der Hypothesen h 1,... h k auf x die Klassifizierung 1 (bzw. 0) liefert. Boosting Bagging 2 / 15
3 Verbesserungsleistung von Bagging (1) Bagging hilft, wenn der Lernalgorithmus instabil ist, also auf kleine Änderungen in der Beispielsmenge mit stark modifizierten Hypothesen reagiert: Entscheidungsbaum-Algorithmen und neuronale Netzwerke sind Beispiele solch instabiler Lernverfahren. (2) Überraschende Erkenntnis: Oft droht sogar für grosse Werte von k kein Overfitting. Wir werden dasselbe Phänomen auch für Boosting antreffen und dort erklären. Boosting Bagging 3 / 15
4 Das Setup - Ein PAC-Algorithmus L löst ein binäres Klassifikationsproblem mit der nur sehr schwachen Fehlerschranke ε = 1 2 θ. - Die Hypothesen von L klassifizieren die Beispiele mit 1 und 1. (1) Zuerst wird eine entsprechend große Menge S = {(x 1, b 1 ),..., (x s, b s )} klassifizierter Beispiele angefordert. (2) Wenn L eine konsistente Hypothese h 1 bestimmt, sind wir fertig. Sonst: Wir erhöhen das Gewicht falsch klassifizierter Beispiele auf 50% und fordern L auf, eine neue Hypothese h 2 zu liefern. Ist h2 inkonsistent, setze Beispielgewichte neu: Falsch klassifizierter Beispiele erhalten wiederum das Gewicht 50%. Wir wiederholen dieses Vorgehen genügend oft. (3) Wir geben so etwas wie eine Mehrheitshypothese aus. Boosting AdaBoost 4 / 15
5 AdaBoost: Adaptive Boosting Eingabe: Ein Lernalgorithmus L und s klassifizierte Beispiele (x 1, b 1 ),..., (x s, b s ). (1) Sei D 1 die Gleichverteilung: Setze w i = 1 für i = 1,..., s. (2) For t = 1 to T do (2a) L bestimmt eine Hypothese h t mit Trainingsfehler ε t = prob Dt [ h t (x i ) b i ]. (2b) Setze β t = εt 1 ε t und aktualisiere w i = w i β t für alle durch h t richtig klassifizierten Beispiele (x i, b i ). /* Das Gewicht richtig klassifizierten Beispiele ist (1 ε t ) β t = ε t und gleich dem Gewicht falsch klassifizierten Beispiele. */ (2c) Die neue Verteilung D t+1 wird durch prob[x i ] = w i definiert. s i=1 w i (3) Setze α t = ln( 1 β t ) und gib die Hypothese sign( T t=1 α th t ) aus. /* Je größer α t, je kleiner ist der Trainingsfehler ε t von h t. */ Boosting AdaBoost 5 / 15
6 Experimentelle Ergebnisse In typischen Anwendungen liegen aber keine PAC-Algorithmen vor! (1) Wie Bagging erreicht AdaBoost häufig eine Verbesserung, wenn das Lernverfahren auf relativ kleine Veränderungen der Beispielmenge mit einer stark veränderten Hypothese reagiert. (2) Overfitting tritt nicht auf: Es gibt sogar Fälle, in denen der Verallgemeinerungsfehler weiter fällt, obwohl der Trainingsfehler bereits auf Null gesenkt wurde. (3) AdaBoost scheint durchweg bessere Ergebnisse als Bagging zu liefern. Boosting AdaBoost 6 / 15
7 Boosting für neuronale Netzwerke: LeNet4 LeNet3 ist ein neuronales Netz zur Ziffernerkennung mit einer Fehlerrate von 1%. LeNet4 führt eine Boosting Variante mit T = 3 durch. (1) Ein erstes neuronales Netz wird konventionell trainiert. (2) Ein zweites Netz erhält zur Hälfte vom ersten Netz falsch klassifizierte und zur anderen Hälfte richtig klassifizierte Ziffern. (3) Das dritte Netz erhält als Trainingsmenge alle von den ersten beiden Netzen falsch klassifizierten Ziffern. (4) Das erste Netz ist sehr gut: Um genügend viele falsch klassifizierte Beispiele zu erhalten, vergrößere die Trainingsmenge durch affine Transformationen und Änderungen der Schriftbreite. Das 3-er Ensemble erreichte eine Fehlerrate von ungefähr 0.7%. Boosting AdaBoost 7 / 15
8 Analyse von AdaBoost: Ein Überblick Die Analyse wird in zwei Schritten durchgeführt: (1) Zuerst zeigen wir, dass die Mehrheits-Hypothese sign(h) einen sehr kleinen Trainingsfehler besitzt, wenn der von AdaBoost benutzte Lernalgorithmus L auf jeder Verteilung D t einen nicht zu grossen Fehler ε t besitzt. (2) Dann weisen wir nach, dass ein kleiner Trainingsfehler zu einem kleinen Verallgemeinerungsfehler führt. Insbesondere erhalten wir, dass Overfitting selbst für eine relativ große Zahl T von Hypothesen nicht eintritt. Boosting AdaBoost 8 / 15
9 AdaBoost und Weighted Majority AdaBoost kann als eine randomisierte Version von Weighted Majority angesehen werden: - Die Beispiele x i übernehmen die Rolle der Experten. - Die Gewichtssetzung favorisiert informative Beispiele, also Beispiele, die häufig falsch klassifiziert werden. Wir übernehmen deshalb auch Ideen aus der Analyse von Weighted Majority: Wir bestimmen untere und obere Schranken für das Gesamtgewicht W t zum Zeitpunkt t. W 1 = s. Nach jedem Zeitpunkt t: Das Gesamtgewicht richtig klassifizierten Beispiele ist gleich ε t W t und stimmt mit dem Gewicht falsch klassifizierten Beispiele überein. Als Konsequenz: W t+1 = 2ε t W t. Boosting AdaBoost 9 / 15
10 AdaBoost: Der Trainingserfolg I Wann klassifiziert AdaBoost das Beispiel x i falsch? - x i werde zu Zeitpunkten in I r {1,..., T } richtig und zu Zeitpunkten in I f {1,..., T } falsch klassifiziert. - Es gilt für β t = ε t 1 ε t : - Wir exponentieren beide Seiten ln( 1 ) ln( 1 ) β t β t t I r t I f 1 Π t Ir = e t Ir ln( 1 ) β t e t I ln( 1 ) 1 f β t = Πt If. β t β t Wenn AdaBoost x i falsch klassifiziert, dann ist Π t If β t Π t Ir β t, bzw. Π T t=1 βt Π t Ir β t. Boosting AdaBoost 10 / 15
11 AdaBoost: Der Trainingserfolg II Als Konsequenz einer falschen Klassifizierung folgt Π T t=1 βt Π t Ir β t. (1) Das endgültige Gewicht w T +1 i von x i stimmt mit Π t Ir β t überein, da wir mit β t multiplizieren, wenn Hypothese h t richtig klassifiziert. (2) Wenn AdaBoost das Beispiel x i falsch klassifiziert, dann muss das endgültige Gewicht w T +1 i groß sein, denn w T +1 i = Π t Ir β t Π T t=1 βt. Wenn AdaBoost einen Fehler µ auf der Trainingsmenge S hat, dann folgt s i=1 w T +1 i w T +1 i µs Πt=1 T βt i,adaboost irrt auf x i Boosting AdaBoost 11 / 15
12 AdaBoost: Der Trainingserfolg III Je größer der Fehler µ auf der Trainingsmenge, umso größer ist die Gewichtssume W T +1 am Ende der Berechnung. Aber wie groß kann die Gewichtssumme W T +1 werden? (1) Wir haben bereits festgestellt, dass W t+1 = 2ε t W t gilt. Also folgt W T +1 = s Π T t=1 (2ε t), denn W 1 = s. (2) Bei einem großen Fehler µ auf der Trainingsmenge folgt: denn β t = µs Πt=1 T βt s Π T t=1 (2ε t), bzw. µ Π T 2ε t t=1 = Π T t=1 2 ε t (1 ε t ), βt ε t 1 ε t. Boosting AdaBoost 12 / 15
13 Der Trainingserfolg: Zusammenfassung Die Hypothesen h 1,..., h T mögen die Fehler ε 1,..., ε T haben. Dann hat AdaBoost einen Fehler von höchstens 2 T Π T t=1 εt (1 ε t ). (1) Falls ε t ε = 1/2 θ ist 2 T Π T t=1 εt (1 ε t ) 2 T ε (1 ε) T = 2 T [(1/2 θ) (1/2 + θ)] T /2 = [1 4 θ 2 ] T /2. (2) Der Fehler von AdaBoost konvergiert schnell gegen Null. (1) Nur richtig klassifizierte Beispiele werden herabgesetzt: W T +1 ist groß, wenn der endgültige Trainingsfehler groß ist. (2) Bei nicht zu großen individuellen Fehlern ε t ist W T +1 aber klein. Boosting AdaBoost 13 / 15
14 AdaBoost: Der Verallgemeinerungsfehler I Wir können bei genügend großem T sogar Konsistenz garantieren, aber unsere Hypothesenklasse ist komplexer geworden: Statt mit der ursprünglichen Hypothesenklasse H arbeiten wir jetzt mit H T = {sign( T α i h i ) h 1,..., h T H, α 0}. i=1 (1) Die VC-Dimension kann signifikant ansteigen! Warum gutartiges Verhalten in der Praxis? (2) Der Margin steigt mit wachsendem T! Boosting AdaBoost 14 / 15
15 AdaBoost: Der Verallgemeinerungsfehler II Die Klassifizierung f sei zu lernen. Für Beispiel x und Hypothese h=sign(g) definieren wir den Margin von x durch f (x) g(x). L liefere Hypothesen h 1,..., h T mit Fehlern ε 1,..., ε T. AdaBoost bestimme die Hypothese h = sign( T t=1 α t h t ). Dann gilt für jedes γ R und für die Gleichverteilung G auf der Beispielsmenge: h(x) prob G [ f (x) T t=1 α γ ] 2 T Π T t=1 ε 1 γ t (1 ε t ) 1+γ. t - Der Beweis ist sehr ähnlich zur Analyse des Trainingsfehlers. - Solange 0 γ < θ 1 2 ist 2T Π T t=1 ε 1 γ t (1 ε i ) 1+γ ( ) (1 2 θ) 1 γ (1 + 2 θ) 1+γ < 1. Π T t=1 - Hochwahrscheinlich Margin höchstens γ ( T t=1 α t). Boosting AdaBoost 15 / 15
Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10
Computer Vision: AdaBoost D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Idee Gegeben sei eine Menge schwacher (einfacher, schlechter) Klassifikatoren Man bilde einen guten durch eine geschickte Kombination
MehrHerzlich willkommen!!!
Computational Learning Theory Sommersemester 2017 Prof. Dr. Georg Schnitger AG Theoretische Informatik Goethe-Universität Frankfurt am Main Herzlich willkommen!!! 1 / 159 Einführung Einführung 2 / 159
MehrAlle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)).
8. Untere Schranken für Sortieren Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)). Werden nun gemeinsame Eigenschaften dieser Algorithmen untersuchen. Fassen gemeinsame
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
MehrRandomisierte Algorithmen 2. Erste Beispiele
Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
Mehr4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum
4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrExkurs Modelle und Algorithmen
Exkurs Modelle und Algorithmen Ansatz künstlich neuronaler Netze (KNN) Versuch, die Wirkungsweise menschlicher Gehirnzellen nachzubilden dabei wird auf formale mathematische Beschreibungen und Algorithmen
Mehr1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben?
Die Themen 1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben? Er sollte von wirklichen Zufallsgeneratoren nicht unterscheidbar sein?! Eine viel zu starke Forderung: Stattdessen sollte ein
MehrR. Brinkmann Seite
R. Brinkmann http://brinkmann-du.de Seite 1 24.2.214 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit
MehrEinführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
MehrAllgemeines zu Tests. Statistische Hypothesentests
Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer
MehrZahlentheorie I - Tipps & Lösungen. Aktualisiert: 15. Oktober 2016 vers Teilbarkeit
Schweizer Mathematik-Olympiade smo osm Zahlentheorie I - Tipps & Lösungen Aktualisiert: 15. Oktober 2016 vers. 1.2.0 1 Teilbarkeit Einstieg 1.1 Zeige, dass 900 ein Teiler von 10! ist. Tipp: Schreibe 900
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
Mehr(a)... ein Spieler eine Entscheidung treffen muss... (b)... der andere Spieler (Experte) über private...
1 KAP 19. Expertenberatung Wir betrachten eine Modell, in dem... (a)... ein Spieler eine Entscheidung treffen muss... (b)... der andere Spieler (Experte) über private...... entscheidungsrelevante Information
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrSeminar: Multi-Core Architectures and Programming. Viola-Jones Gesichtsdetektor
Seminar: Multi-Core Architectures and Programming Viola-Jones Gesichtsdetektor Hardware-Software-Co-Design Universität Erlangen-Nürnberg 1 Übersicht Einleitung Viola-Jones Gesichtsdetektor Aufbau Blockmerkmale
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
Mehr7. Die Brownsche Bewegung
7. DIE BROWNSCHE BEWEGUNG 7 5 5 50 00 50 200 250 0 5 20 Abbildung 7.: Pfad einer Brownschen Bewegung 7. Die Brownsche Bewegung Definition 7.. Ein cadlag stochastischer Prozess {W t } mit W 0 = 0, unabhängigen
MehrAnalysis 1, Woche 2. Reelle Zahlen. 2.1 Anordnung. Definition 2.1 Man nennt eine Anordnung für K, wenn: 1. Für jeden a K gilt a a (Reflexivität).
Analysis 1, Woche 2 Reelle Zahlen 2.1 Anordnung Definition 2.1 Man nennt eine Anordnung für K, wenn: 1. Für jeden a K gilt a a (Reflexivität). 2. Für jeden a, b K mit a b und b a gilt a = b (Antisymmetrie).
MehrScheinklausur Stochastik 1 für Studierende des Lehramts und der Diplom-Pädagogik
Universität Karlsruhe (TH) Institut für Stochastik Dr. Bernhard Klar Dipl.-Math. oec. Volker Baumstark Name Vorname Matr.-Nr.: Scheinklausur Stochastik für Studierende des Lehramts und der Diplom-Pädagogik
MehrMögliche Fehler beim Testen
Mögliche Fehler beim Testen Fehler. Art (Irrtumswahrscheinlichkeit α), Zusammenfassung: Die Nullhypothese wird verworfen, obwohl sie zutrifft. Wir haben uns blamiert, weil wir etwas Wahres abgelehnt haben.
MehrFerienkurs Analysis 1, SoSe Unendliche Reihen. Florian Beye August 15, 2008
Ferienkurs Analysis 1, SoSe 2008 Unendliche Reihen Florian Beye August 15, 2008 1 Reihen und deren Konvergenz Definition 1.1. Eine reelle bzw. komplexe Reihe ist eine unendliche Summe über die Glieder
MehrPhillips Kurve. Einführung in die Makroökonomie. 10. Mai 2012 SS Einführung in die Makroökonomie (SS 2012) Phillips Kurve 10.
Phillips Kurve Einführung in die Makroökonomie SS 2012 10. Mai 2012 Einführung in die Makroökonomie (SS 2012) Phillips Kurve 10. Mai 2012 1 / 23 Hintergrund 1958 stellte A. W. Phillips die Inflationsrate
Mehrκ Κα π Κ α α Κ Α
κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ
MehrObject recognition with Boosting
Object recognition with Boosting Hauptseminar Lernverfahren der Neuroinformatik und Robotik, Universität Ulm, Abteilung Neuroinformatik, SS 2007, Betreuer Friedhelm Schwenker Zusammenfassung Diese Ausarbeitung
MehrDer Primzahlsatz. Es gibt eine Konstante A, so daß f(x) g(x) Ah(x) für alle genügend großen x.
Der Primzahlsatz Zusammenfassung Im Jahr 896 wurde von Hadamard und de la Vallée Poussin der Primzahlsatz bewiesen: Die Anzahl der Primzahlen kleiner gleich verhält sich asymptotisch wie / log. Für ihren
MehrBeispiel: Bestimmung des Werts 3 2 ( 2 1, 4142) Es gilt 3 1,41 = 3 141/100 = , 707. Es gilt 3 1,42 = 3 142/100 = , 759.
(4) Exponential- und Logarithmusfunktionen Satz Für jedes b > 1 gibt es eine eindeutig bestimmte Funktion exp b : R R + mit folgenden Eigenschaften. exp b (r) = b r für alle r Q Die Funktion exp b ist
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei
Mehrx 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen
5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrLösung 04 Klassische Theoretische Physik I WS 15/16. c n = 1 T. c n,u e inωt + c n,u e inωt] c n e inωt = c 0 +
Karlsruher Institut für Technologie Institut für theoretische Festkörperphysik www.tfp.kit.edu Lösung 4 Klassische Theoretische Physik I WS 5/6 Prof. Dr. G. Schön 2 Punkte Sebastian Zanker, Daniel Mendler
MehrProjekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
MehrKapitel 5: Ensemble Techniken
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Sommersemester 2009 Kapitel 5:
MehrProbabilistische Primzahltests
23.01.2006 Motivation und Überblick Grundsätzliches Vorgehen Motivation und Überblick Als Primzahltest bezeichnet man ein mathematisches Verfahren, mit dem ermittelt wird, ob eine gegebene Zahl eine Primzahl
MehrLernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier
Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation
MehrTrennende Markov Ketten
Trennende Markov Ketten (in Zusammenarbeit mit A. Martinsson) Timo Hirscher Chalmers Tekniska Högskola Seminarvortrag KIT 8. Mai 206 Übersicht Der Seminarvortrag ist wie folgt gegliedert: Einleitung Denitionen
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
Mehr4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln.
4.4 Perfektes Hashing Das Ziel des perfekten Hashings ist es, für eine Schlüsselmenge eine Hashfunktion zu finden, so dass keine Kollisionen auftreten. Die Größe der Hashtabelle soll dabei natürlich möglichst
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
Mehr2 Aufgaben aus [Teschl, Band 2]
20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:
MehrÜbersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)
Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen
MehrSuchen und Sortieren
Ideen und Konzepte der Informatik Suchen und Sortieren [Ordnung muss sein ] Kurt Mehlhorn (viele Folien von Kostas Panagiotou) Suchen Welche Telefonnummer hat Kurt Mehlhorn? Wie schreibt man das Wort Equivalenz?
MehrDie Hamming-Distanz definiert eine Metrik.
Die Hamming-Distanz definiert eine Metrik. Satz Metrik Hamming-Distanz Die Hamming-Distanz ist eine Metrik auf {0, 1} n, d.h. für alle x, y, z {0, 1} n gilt: 1 Positivität: d(x, y) 0, Gleichheit gdw x
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
MehrIm Falle einer zweimal differenzierbaren Funktion lässt sich das Krümmungsverhalten anhand der zweiten Ableitung feststellen.
Konvex, Konkav, Wendepunkt: Sei f : D R eine Funktion und sei I D ein Intervall. Gilt für alle x 1,x 2 I f ( x1 +x ) 2 2 f(x 1)+f(x 2 ), 2 dann heißt f konvex (linksgekrümmt) in I. Gilt für alle x 1,x
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
MehrEffiziente Algorithmen. Sommersemester Welcome, Herzlich willkommen!
Effiziente Algorithmen Sommersemester 2012 Welcome, Herzlich willkommen! 1 / 38 Worum gehts? Der Entwurf und die Analyse randomisierter Algorithmen: Was können würfelnde Algorithmen? Der Entwurf und die
MehrAlgorithms for Regression and Classification
Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik
MehrMathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015
und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015 4. April 2016 Zu der Vorlesung wird ein Skript erstellt, welches auf meiner Homepage veröffentlicht wird: http://www.math.uni-hamburg.de/home/geschke/lehre.html
MehrStochastik I. Vorlesungsmitschrift
Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................
MehrDem Anschein nach werden diese Zahlen kleiner und kleiner und streben gegen Null. Was sollen sie sonst auch tun? Aber der Begriff
47 5 Irrationales 5.1 Folgen, Konvergenz und Vollständigkeit Eine Abbildung a : N R definiert eine Folge von reellen Werten a 1 = a(1), a 2 = a(2), a 3 = a(3),... Solche Zahlenfolgen werden uns dazu dienen,
MehrHöhere Mathematik I für die Fachrichtung Informatik. Lösungsvorschläge zum 10. Übungsblatt. < 0 für alle t > 1. tan(x) tan(0) x 0
KARLSRUHER INSTITUT FÜR TECHNOLOGIE INSTITUT FÜR ANALYSIS Dr. Christoph Schmoeger Heiko Hoffmann WS 03/4 Höhere Mathematik I für die Fachrichtung Informatik Lösungsvorschläge zum 0. Übungsblatt Aufgabe
MehrErinnerung Blockchiffre
Erinnerung Blockchiffre Definition schlüsselabhängige Permutation Seien F, F 1 pt Algorithmen. F heißt schlüsselabhängige Permutation auf l Bits falls 1 F berechnet eine Funktion {0, 1} n {0, 1} l {0,
MehrDas Postsche Korrespondenzproblem
Das Postsche Korrespondenzproblem Eine Instanz des PKP ist eine Liste von Paaren aus Σ Σ : (v 1, w 1 ),..., (v n, w n ) Eine Lösung ist eine Folge i 1,..., i k von Indizes 1 i j n mit v i1... v ik = w
Mehrn=1 a n mit reellen Zahlen a n einen
4 Unendliche Reihen 4. Definition und Beispiele Ein altes Problem der Analysis ist es, einer Reihe mit reellen Zahlen einen Wert zuzuordnen. Ein typisches Beispiel ist die unendliche Reihe + +..., die
MehrDie (Un-)Sicherheit von DES
Die (Un-)Sicherheit von DES Sicherheit von DES: Bester praktischer Angriff ist noch immer die Brute-Force Suche. Die folgende Tabelle gibt eine Übersicht über DES Kryptanalysen. Jahr Projekt Zeit 1997
MehrK8 Stetige Zufallsvariablen Theorie und Praxis
K8 Stetige Zufallsvariablen Theorie und Praxis 8.1 Theoretischer Hintergrund Wir haben (nicht abzählbare) Wahrscheinlichkeitsräume Meßbare Funktionen Zufallsvariablen Verteilungsfunktionen Dichten in R
MehrKapitel VIII - Tests zum Niveau α
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VIII - Tests zum Niveau α Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh Testsituationen
MehrLösungen zu Übungsblatt 9
Analysis : Camillo de Lellis HS 007 Lösungen zu Übungsblatt 9 Lösung zu Aufgabe 1. Wir müssen einfach das Integral 16 (x + y d(x, y x +y 4 ausrechnen. Dies kann man einfach mittels Polarkoordinaten, da
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am 24.01.2013 Online Algorithmen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
MehrKAPITEL 4 FLÜSSE IN NETZWERKEN
KAPITEL 4 FLÜSSE IN NETZWERKEN F. VALLENTIN, A. GUNDERT 1. Das Max-Flow-Min-Cut Theorem Es sei D = (V, A) ein gerichteter Graph, s, t V zwei Knoten. Wir nennen s Quelle und t Senke. Definition 1.1. Eine
MehrLösung zur Übung für Analysis einer Variablen WS 2016/17
Blatt Nr. 3 Prof. F. Merkl Lösung zur Übung für Analysis einer Variablen WS 206/7 Aufgabe Das Guthaben G setzt sich zusammen aus der Summe aller bisherigen Einzahlungen multipliziert mit ( + p) k, wobei
MehrÜbungen zu Partielle Differentialgleichungen, WS 2016
Übungen zu Partielle Differentialgleichungen, WS 2016 Ulisse Stefanelli 16. Januar 2017 1 Beispiele 1. Betrachten Sie die Beispiele von nichtlinearen PDG und Systemen, die wir im Kurs diskutiert haben,
MehrLernen von Entscheidungsbäumen. Volker Tresp Summer 2014
Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis
Mehr14. Rot-Schwarz-Bäume
Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr31 Polynomringe Motivation Definition: Polynomringe
31 Polynomringe 31.1 Motivation Polynome spielen eine wichtige Rolle in vielen Berechnungen, einerseits weil oftmals funktionale Zusammenhänge durch Polynome beschrieben werden, andererseits weil Polynome
MehrÜberblick Hypothesentests bei Binomialverteilungen (Ac)
Überblick Hypothesentests bei Binomialverteilungen (Ac) Beim Testen will man mit einer Stichprobe vom Umfang n eine Hypothese H o (z.b.p o =70%) widerlegen! Man geht dabei aus von einer Binomialverteilung
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrGrundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II
1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume
Mehr3: Zahlentheorie / Primzahlen
Stefan Lucks Diskrete Strukturen (WS 2009/10) 96 3: Zahlentheorie / Primzahlen 3: Zahlentheorie / Primzahlen Stefan Lucks Diskrete Strukturen (WS 2009/10) 97 Definition 37 (Teiler, Vielfache, Primzahlen,
MehrÜbung zu Grundbegriffe der Informatik. Simon Wacker. 15. November 2013
Übung zu Grundbegriffe der Informatik Simon Wacker 15. November 2013 Vollständige Induktion über die Wortlänge Es sei B ein Alphabet. Dann ist B = n N 0 B n. Für jedes Wort w B sei A w eine Aussage, die
MehrLernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier
Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrDie allgemeine Sinusfunktion
Die allgemeine Sinusfunktion 1. Die Tageslänge(Zeitdauer zwischen Sonnenaufgang und Sonnenuntergang) an einem festen Ort verändert sich im Lauf eines Jahres. Die Graphik zeigt diese Veränderung für München.
Mehr3 Markov-Eigenschaft der Brownschen Bewegung
Man verifiziert 2.) für P n = Q n, und somit gilt: jede Teilfolge von (P n ) n N besitzt eine konvergente Teilfolge. Betrachte nun die endlich-dimensionalen Randverteilungen der Maße P n. Dazu sei π t1,...,t
Mehrε δ Definition der Stetigkeit.
ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x
MehrUm zu entscheiden, welchen Inhalt die Urne hat, werden der Urne nacheinander 5 Kugeln mit Zurücklegen entnommen und ihre Farben notiert.
7. Testen von Hypothesen ================================================================== 15.1 Alternativtest -----------------------------------------------------------------------------------------------------------------
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende
MehrÜbungen zu Oberflächenintegralen Lösungen zu Übung 17
Übungen zu Oberflächenintegralen Lösungen zu Übung 17 17.1 Sei die Oberfläche der Einheitskugel : {(x, y, z) IR 3 : x + y + z 1.} Berechnen Sie für f(x, y, z) : a, a IR, a const. das Oberflächenintegral
MehrÜbersicht über Informatik und Softwaresystemtechnik WS 99/00, Prof. Dr. Andreas Schwill
Konvexe Hülle Hierbei handelt es sich um ein klassisches Problem aus der Algorithmischen Geometrie, dem Teilgebiet der Informatik, in dem man für geometrische Probleme effiziente Algorithmen bestimmt.
Mehr1 Grundlagen der Numerik
1 Grundlagen der Numerik 1.1 Gleitpunkt-Arithmetik Es gibt nur endlich viele Zahlen auf dem Computer. Gleitpunktzahl: x = σmb E σ: Vorzeichen B: Basis (feste Zahl >1); M: Mantisse E: Exponent B = 2 : Dualzahl
MehrFunktionen mehrerer Variabler
Funktionen mehrerer Variabler Fakultät Grundlagen Juli 2015 Fakultät Grundlagen Funktionen mehrerer Variabler Übersicht Funktionsbegriff 1 Funktionsbegriff Beispiele Darstellung Schnitte 2 Partielle Ableitungen
Mehrkurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer
MehrKapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation
Kaptel 7: Ensemble Methoden 133 Komtees Mehrere Netze haben bessere Performanz als enzelne Enfachstes Bespel: Komtee von Netzen aus der n-fachen Kreuzvalderung (verrngert Varanz) De Computatonal Learnng
Mehr7.2 Moment und Varianz
7.2 Moment und Varianz Def. 21 Es sei X eine zufällige Variable. Falls der Erwartungswert E( X p ) existiert, heißt der Erwartungswert EX p p tes Moment der zufälligen Variablen X. Es gilt dann: + x p
Mehr18.4 Das Newton-Verfahren
18.4 Das Newton-Verfahren Ziel: Wir suchen die Nullstellen einer Funktion f : D R n, D R n : f(x) = 0 Wir kennen bereits die Fixpunktiteration x k+1 := Φ(x k ) mit Startwert x 0 und Iterationsvorschrift
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
Mehrkontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung
Theoretische Informatik Rainer Schrader Zentrum für Angewandte Informatik Köln 14. Juli 2009 1 / 40 2 / 40 Beispiele: Aus den bisher gemachten Überlegungen ergibt sich: aus der Chomsky-Hierarchie bleiben
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
MehrOnline-Algorithmen. Proseminar von Prof. Dr. Rolf Klein, Dr. Elmar Langetepe, Dipl. Inform. Thomas Kamphans im Wintersemester 00/01
Online-Algorithmen Proseminar von Prof. Dr. Rolf Klein, Dr. Elmar Langetepe, Dipl. Inform. Thomas Kamphans im Wintersemester 00/01 Vortrag Bin Packing von Thilo Geertzen 25. Oktober 2000 Online Algorithmen
MehrDie Gamma-Funktion, das Produkt von Wallis und die Stirling sche Formel. dt = lim. = lim = Weiters erhalten wir durch partielle Integration, dass
Die Gamma-Funktion, das Produkt von Wallis und die Stirling sche Formel Zuerst wollen wir die Gamma-Funktion definieren, die eine Verallgemeinerung von n! ist. Dazu benötigen wir einige Resultate. Lemma.
Mehr5. Vorlesung Wintersemester
5. Vorlesung Wintersemester 1 Bewegung mit Stokes scher Reibung Ein dritter Weg, die Bewegungsgleichung bei Stokes scher Reibung zu lösen, ist die 1.1 Separation der Variablen m v = αv (1) Diese Methode
Mehr