Kapitel 5: Ensemble Techniken
|
|
|
- Calvin Dressler
- vor 9 Jahren
- Abrufe
Transkript
1 Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Sommersemester 2009 Kapitel 5: Ensemble Techniken Skript KDD II 2009 Arthur Zimek Übersicht. Einleitung und Grundlagen 2. Aspekte der Diversität 3. Methoden der Konstruktion von Ensembles 278
2 Einleitung und Grundlagen Annahme: Elemente x aus einem Raum D gehören zu einer Klasse c i aus einer Menge von möglichen Klassen C. Es gibt eine Funktion f: D C, die einen eindeutigen Zusammenhang zwischen einem gegebenen Element x und seiner Klasse c i beschreibt. Aufgabe eines Lern-Algorithmus ist es, diesen Zusammenhang zu lernen. Im Allgemeinen stellt ein Klassifikator (das Ergebnis eines Lern- Algorithmus ) eine Approximation der Funktion f dar, auch eine Hypothese genannt. 279 Einleitung und Grundlagen Die wahre Funktion f ist unbekannt. Es gibt nur eine Menge von Beispielen: Tupel (x, c i ) f D C, die Trainingsdaten. Ein konkreter Lernalgorithmus sucht diejenige Hypothese h i als Klassifikator aus einem Raum H D C möglicher Hypothesen, die optimal zu den Trainingsdaten passt. f h H Achtung: die Zielfunktion f ist nicht zwangsläufig Element von H! 280
3 Einleitung und Grundlagen Ein Klassifikator (eine erlernte Hypothese h) kann auf Elemente x D angewendet werden, um die Klasse c i =f(x) vorherzusagen. Die Genauigkeit eines Klassifikators ist die Wahrscheinlichkeit (oder statistisch gemessen: die Häufigkeit), mit der seine Vorhersage korrekt ist. Acc(h) = P(h(x)=f(x)) Entsprechend ist die Fehlerrate das Komplement: Err(h) = P(h(x) f(x))=-acc(h) 28 Einleitung und Grundlagen Idee der Ensemble-Technik: Reduktion der Häufigkeit von Fehlurteilen durch Bilden einer Jury von Experten und Abstimmung über die richtige Vorhersage. mathematisch: bessere Approximation von f durch Mittelung über mehrere Hypothesen h 7 h 4 h 2 f h 6 h 5 h 3 h 8 h H 282
4 Einleitung und Grundlagen Einfacher Abstimmungsmodus für ein Zwei-Klassen-Problem mit C={-,}: Bilde Menge von Hypothesen {h,...,h k } mit Gewichten {w,...,w k }. Ensemble-Klassifikator ĥ ist gegeben durch ˆ wh (x) + K+ wk h h(x) = wh (x) + K+ wk hk 0 < 0 Häufigw =...=w k = (bzw. ungewichtete Abstimmung). Gewichte können aber auch auf der (gemessenen) Zuverlässigkeit der einzelnen Klassifikatoren (Hypothesen) basieren. Komplexeres Abstimmungsverhalten möglich (und bei mehr als zwei Klassen auch nötig) verschiedene Ensemble-Methoden k 283 Einleitung und Grundlagen ˆ wh (x) + K+ wk h h(x) = wh (x) + K+ wk hk Error-Rate eines Ensembles abhängig von der Error-Rate der Base- Classifier und ihrer Anzahl: die Häufigkeit, mit der mindestens die Hälfte der Ensemble- Mitglieder falsch abstimmt: Err( hˆ) k i= 2 (Annahme: Err(h )=...=Err(h k )=e) = k k e i i k < 0 ( e) 0 k i 284
5 Einleitung und Grundlagen Abhängigkeit der Gesamt-Error-Rate von der Anzahl der Base- Classifier (bei Fehlerrate der Base-Classifier von 0,3): 285 Einleitung und Grundlagen Error-Rate für ein einfaches Abstimmungs-Ensemble mit 25 Basis- Klassifikatoren: (aus: Tan, Steinbach, Kumar: Introduction to Data Mining) 286
6 Einleitung und Grundlagen Notwendige Annahme für diese Verbesserung: Unabhängigkeit der Fehler der einzelnen Base-Classifier Err( hˆ) = k k i= 2 k e i i ( e) k i f h 5 h 6 h 8 h 7 einseitige Fehler: keine oder nur wenig Verbesserung durch Ensemble h 4 h h 2 H h Einleitung und Grundlagen Schlussfolgerung: Notwendige Bedingungen für Verbesserung der Gesamt-Fehlerrate:. Alle Base-Classifier sind genau (accurate). 2. Die einzelnen Base-Classifier sind unterschiedlich (diverse). Genauigkeit: milde Bedingung (besser als Zufall) Diversität: keine (oder wenigstens keine starke) Korrelation der Vorhersagen Ist gleichzeitige Optimierung von Genauigkeit und Diversität möglich? 288
7 Übersicht. Einleitung und Grundlagen 2. Aspekte der Diversität 3. Methoden der Konstruktion von Ensembles 289 Aspekte der Diversität Gründe für die Diversität von Classifiern für das selbe Klassifikationsproblem: Statistische Varianz Berechnungs-Varianz Darstellungsproblem 290
8 Aspekte der Diversität Statistische Varianz: Der Raum möglicher Hypothesen ist zu groß, um anhand der begrenzten Trainingsdaten eine beste Hypothese zu bestimmen. h 4 h f h 3 h 2 H Kombination mehrerer Hypothesen reduziert das Risiko, sehr stark daneben zu liegen. 29 Aspekte der Diversität Berechnungs-Varianz: Manche Lern-Algorithmen können nicht garantieren, die beste Hypothese aus dem Raum möglicher Hypothesen zu finden, da dies zu Berechnungsaufwändig wäre. Z.B. werden beim Lernen Heuristiken verwendet, die in lokalen Optima gefangen bleiben können. h 4 f h 3 h h 2 H Kombination mehrerer Hypothesen reduziert das Risiko, das falsche (lokale) Optimum gewählt zu haben. 292
9 Aspekte der Diversität Darstellungsproblem: Der Hypothesenraum enthält gar keine guten Approximationen an die wahre Funktion f. h 4 h 3 f h h 2 Kombination mehrerer Hypothesen kann den Raum darstellbarer Hypothesen erweitern. H 293 Aspekte der Diversität Unscharfe Zielfunktion: Die Lernbeispiele (Trainingsdaten) erlauben keine eindeutigen Rückschlüsse auf die Zielfunktion (z.b. wegen widersprüchlicher Beispiele oder nichtdeterministischer Klassenzugehörigkeit). f? f? h 4 f? h h 3 h 2 H Kombination mehrerer Hypothesen reduziert das Risiko, eine fehlerhafte Zielfunktion zu approximieren. 294
10 Aspekte der Diversität Begriffe Varianz, Bias, Noise: Veranschaulichung: Beispiel aus der Ballistik (nach: Tan, Steinbach, Kumar: Introduction to Data Mining) Varianz, Bias und Noise sind verschiedene Komponenten des Fehlers err = Biasα + Variance f + Noise t Varianz: abhängig von der aufgewendeten Kraft f Noise: Unschärfe des Ziels Bias: abhängig vom Abschusswinkel 295 Aspekte der Diversität Begriffe Varianz, Bias, Noise in der Klassifikation: Varianz: Abhängig von Variationen in den Trainingsdaten oder der Parametrisierung des Klassifikators werden unterschiedliche Hypothesen gebildet. Noise: Klassenzugehörigkeit ist nicht deterministisch oder anderweitig uneindeutig (z.b. widersprüchliche Trainingsbeispiele). Bias: Ein bestimmter Lernalgorithmus hat immer auch bestimmte Annahmen über das zu erlernende Konzept (z.b. Annahme der Möglichkeit linearer Trennbarkeit verschiedener Klassen). Ein Lernen ohne jede konzeptionelle Annahme wäre nur ein Auswendiglernen Bias-free learning is futile. 296
11 Aspekte der Diversität (aus: Tan, Steinbach, Kumar: Introduction to Data Mining) 297 Aspekte der Diversität Bias am Beispiel von Decision Trees: T und T 2 wurden auf den gleichen Daten trainiert T 2 wurde durch Pruning auf maximale Tiefe 2 aus T erzeugt T 2 hat stärkere Annahmen bezüglich der Trennbarkeit der Klassen, also stärkeren Bias 298
12 Aspekte der Diversität relativer Beitrag von Bias und Variance zum Error ist unterschiedlich für verschiedene Klassifikationsmethoden (aus: Tan, Steinbach, Kumar: Introduction to Data Mining) 299 Aspekte der Diversität Beispiel: Durchschnittliche Entscheidungsgrenzen über 00 Klassifikatoren, trainiert auf 00 unterschiedlichen Trainingsdatensätzen mit jeweils 00 Beispielen. gestrichelt: wahre Entscheidungsgrenze, die zur Erzeugung der Daten benutzt wurde Beobachtung: - geringerer Abstand der gemittelten Entscheidungsgrenze von der wahren Entscheidungsgrenze bei -NN Klassifikatoren niedrigerer Bias - größere Variabilität der einzelnen Entscheidungsgrenzen innerhalb der 00 -NN Klassifikatoren höhere Varianz 300
13 Übersicht. Einleitung und Grundlagen 2. Aspekte der Diversität 3. Methoden der Konstruktion von Ensembles 30 Methoden der Konstruktion von Ensembles Wie kann man Unterschiedlichkeit von Klassifikatoren erreichen? Variieren des Training Sets - Methoden: Bagging und Boosting Manipulieren der Input-Features - Lernen auf unterschiedlichen Unterräumen - Verwendung verschiedener Repräsentationen (MR-learning: nächstes Kapitel) Manipulieren der Klassenlabel - Verschiedene Arten von Abbildungen auf Zwei-Klassen-Probleme Manipulieren des Lernalgorithmus - Einführen von Zufallselementen - Unterschiedliche Startkonfigurationen 302
14 Variieren der Trainings-Menge Eine wichtige Eigenschaft von Lernalgorithmen ist die Stabilität. Ein Lernalgorithmus ist umso stabiler, je weniger sich die auf unterschiedlichen Trainingsdaten (für das gleiche Klassifikationsproble) erzeugten Klassifikatoren unterscheiden. Bei einem instabilen Lernalgorithmus haben kleine Änderungen in der Trainingsmenge starke Änderungen der gelernten Hypothese zur Folge. Um Ensembles basierend auf Variationen der Trainingsmenge zu bilden, sind instabile Lernalgorithmen vorteilhaft, z.b.: Decision Trees Neuronale Netze Regel-Lerner 303 Variieren der Trainings-Menge Bootstrap: bilden einer Trainingsmenge aus einer gegebenen Datenmenge durch Ziehen mit Zurücklegen. jedes Sample hat die gleiche Größe wie die ursprüngliche Trainingsmenge ein Sample enthält durchschnittlich 63% der Ausgangsbeispiele (einige mehrfach, etwa 37% gar nicht): - ein einzelnes Beispiel in einem Datensatz mit n Beispielen hat bei jedem Ziehen die Chance /n gezogen zu werden, wird also mit Wahrscheinlichkeit -/n nicht gezogen - nach n-mal Ziehen ist ein bestimmtes Element mit Wahrscheinlichkeit n nicht gezogen worden n n - für große n ist e n daher auch der Name bootstrap für diese Sampling-Methode (als solche auch eine Alternative zur Kreuzvalidierung) 304
15 Variieren der Trainings-Menge Bagging (Bootstrap Aggregating): bilden unterschiedlicher Trainingsmengen durch wiederholtes bootstrapping Bagging aggregiert mehrere Bootstraps (Samples nach obigem Muster) und trainiert auf jedem Bootstrap einen eigenen Classifier. Bei instabilen Lernalgorithmen werden hinreichend unterschiedliche Hypothesen erlernt. Ein neuer Datensatz wird durch einfache Abstimmung über alle erlernten Hypothesen klassifiziert. Original Data Bagging (Round ) Bagging (Round 2) Bagging (Round 3) Variieren der Trainings-Menge Während der Bootstrap unter Gleichverteilung gezogen wird, weist Boosting jedem Datensatz ein Gewicht zu. Datensätze, die schwierig zu klassifizieren sind, erhalten ein höheres Gewicht. Verwendung der Gewichte: Angabe der Ziehungswahrscheinlichkeit im bootstrap sample der nächsten Runde schwierige Beispiele sind in der nächsten Runde häufiger in der Trainingsmenge und erhalten daher automatisch ein höheres Gewicht beim Training des Klassifikators Original Data Boosting (Round ) Boosting (Round 2) Boosting (Round 3) Manche Lernalgorithmen können Gewichte von Datensätzen direkt benutzen Bias der erlernten Hypothese auf die höher gewichteten Beispiele hin 306
16 Manipulation der Input-Feature Manipulieren der Input-Features: Lernen auf unterschiedlichen Unterräumen oder kombinierten Features - Beispiel: Random Forests Menge von Decision Trees, deren Training durch Zufallsvektoren bestimmt wird, z.b.: a) zufällige Auswahl von Features für den Split an jedem Knoten des Baumes b) an jedem Knoten Erzeugen eines neuen Features als Linearkombination einer zufällig ausgewählten Teilmenge der Features c) an jedem Knoten zufällige Auswahl aus den F besten Splits Kombination von Klassifiern, die auf unterschiedlichen Repräsentationen der Daten trainiert wurden: siehe nächstes Kapitel 307 Manipulieren der Klassenlabel Zahlreiche Methoden bilden ein Multi-Klassen-Problem auf mehrere Zwei-Klassen-Probleme ab. Bild aus: Fürnkranz
17 Manipulieren der Klassenlabel Die Entscheidungen der auf den einzelnen Zwei-Klassen- Problemen trainierten Klassifikatoren werden geeignet kombiniert, um auf die ursprüngliche Klasse zurückzuschließen. Dies entspricht dem Einführen von Unterschiedlichkeit in Klassifikatoren durch Manipulieren der Klassenlabel. Gängige Methoden: one-versus-rest all-pairs error correcting output codes 309 Manipulieren der Klassenlabel one-versus-rest (auch: one-versus-all, one-per-class): Bei n Klassen, werden n Klassifikatoren trainiert, die jeweils eine Klasse von allen anderen unterscheiden sollen. Bild aus: Fürnkranz
18 Manipulieren der Klassenlabel all-pairs (auch: all-versus-all, one-versus-one, round robin, pairwise): Für jedes Paar von Klassen wird ein Klassifikator trainiert, der diese beiden Klassen unterscheiden soll. Bild aus: Fürnkranz Manipulieren der Klassenlabel Error Correcting Output Codes (ECOC): Die Menge C der Klassen wird k-mal zufällig in zwei Teilmengen A+B aufgeteilt. Datensätze, die zu Klasse A gehören, erhalten das neue Label -, die anderen (Klasse B) das neue Label. Auf den entstehenden k Zwei-Klassen-Problemen werden k Klassifikatoren trainiert. Stimmt Klassifikator i für Klasse A, erhalten alle Klassen aus C, die zu A gehören, eine Stimme. Die Klasse c C, die die meisten Stimmen erhalten hat, ist die Klassifikationsentscheidung des Ensembles. 32
19 Manipulieren der Klassenlabel Beispiel: C={c,c 2,c 3,c 4 }, 7-bit Kodierung Klasse Code-Wort c c c c Für jedes Bit der Code-Wörter wird ein Klassifikator trainiert, hier also 7 Klassifikatoren. Angenommen, ein Klassifikationsergebnis ist (0,,,,,,) für welche Klasse entscheidet das Ensemble? 33 Manipulieren der Klassenlabel Der Name Error Correcting Output Codes steht für die Idee, dass beim Lernen eine gewisse Redundanz der Klassengrenzen eingeführt wird. Die Code-Wörter, die die Zugehörigkeit zu den Klassen binär codieren, können zufällig gewählt werden. Für eine gute Diversität sollten die Code-Wörter aber gut separieren: Row-Separation: Jedes Paar von Code-Wörtern sollte eine große Hamming- Distanz (=Anzahl der unterschiedlichen Bits) aufweisen. Column-Separation: Die einzelnen Binär-Klassifikatoren sollten unkorreliert sein. 34
20 Manipulieren der Klassenlabel Klasse Code-Wort c c c c Große Hamming-Distanz zwischen den Zeilen erlaubt möglichst eindeutige Klassifikationsentscheidung des Ensembles. Welche Hamming-Distanz weist das Klassifikationsergebnis (0,,,,,,) zu den Codes für c, c 2, c 3 und c 4 jeweils auf? 35 Manipulieren des Lernalgorithmus Manipulieren des Lernalgorithmus durch Zufallselemente: Starten von unterschiedlichen Konfigurationen aus (z.b. Start-Gewichte für Backpropagation) Randomisierte Entscheidungen in Decision Trees beim Split-Kriterum (vgl. Random Forests) 36
21 Literatur T. G. Dietterich: Ensemble methods in machine learning. In: Multiple Classier Systems, First International Workshop, MCS 2000, Cagliari, Italy, T. G. Dietterich: Ensemble learning. In: M. A. Arbib, editor, The Handbook of Brain Theory and Neural Networks. MIT Press J. Fürnkranz: Round robin classification. In: Journal of Machine Learning Research, 2:72-747, P.-N.Tan, M. Steinbach, and V. Kumar: Introduction to Data Mining, Addison-Wesley, 2006, Kapitel G. Valentini and F. Masulli: Ensembles of learning machines. In: Neural Nets WIRN Vietri
Kapitel 4: Ensemble Learning und Multi Repräsentierte Daten
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Wintersemester 2013/14 Kapitel
Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading
Kapitel V V. Ensemble Methods Einführung Bagging Boosting Cascading V-1 Ensemble Methods c Lettmann 2005 Einführung Bewertung der Generalisierungsfähigkeit von Klassifikatoren R (c) wahre Missklassifikationsrate
Entscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
Semiüberwachte Paarweise Klassifikation
Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren
Von schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
Neuronale Netze. Christian Böhm.
Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch
Pareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
Decision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
Methoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
k-nächste-nachbarn-schätzung
k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
Projekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
Bayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
Neuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
Bayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
Data Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
Theoretische Informatik 1
Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs
Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.
Modellierung Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest Wolfgang Konen Fachhochschule Köln Oktober 2007 W. Konen DMC WS2007 Seite - 1 W. Konen DMC WS2007 Seite - 2 Inhalt Typen der Modellierung
Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart [email protected] Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
Support Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze [email protected] (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer
Wissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
Data Mining und Maschinelles Lernen
Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und
Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
Theoretische Informatik 1
Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition
Neuronale Netze Aufgaben 3
Neuronale Netze Aufgaben 3 [email protected] (0721) 608 45944 MLNN IN FLOOD3 2 Multi Layer Neural Network (MLNN) Netzaufbau: mehrere versteckte (innere) Schichten Lernverfahren: Backpropagation-Algorithmus
Entscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
Maschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny
3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:
Seminar: Multi-Core Architectures and Programming. Viola-Jones Gesichtsdetektor
Seminar: Multi-Core Architectures and Programming Viola-Jones Gesichtsdetektor Hardware-Software-Co-Design Universität Erlangen-Nürnberg 1 Übersicht Einleitung Viola-Jones Gesichtsdetektor Aufbau Blockmerkmale
Text Mining 4. Seminar Klassifikation
Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)
Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation
Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation
Moderne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2009 1. Einführung: Definitionen Grundbegriffe Lernsysteme Maschinelles Lernen Lernen: Grundbegriffe
Hauptseminar Repräsentationen für Optimierungsalgorithmen
Stefan Bens Hauptseminar Dresden, 03.07.2008 Inhalt 1. Motivation 2. Einleitung 3. Repräsentationsarten und Eigenschaften 4. Beispiel 5. Zusammenfassung Folie 2 Als Repräsentation bezeichnet man die Kodierung
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber ([email protected]) S. Nguyen ([email protected]) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
Prädiktion und Klassifikation mit
Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri [email protected] Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation
Support Vector Machines (SVM)
Seminar Statistische Lerntheorie und ihre Anwendungen Support Vector Machines (SVM) Jasmin Fischer 12. Juni 2007 Inhaltsverzeichnis Seite 1 Inhaltsverzeichnis 1 Grundlagen 2 2 Lineare Trennung 3 2.1 Aufstellung
Principal Component Analysis (PCA)
Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen
Konzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: [email protected] Was sind Neuronale
Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Data Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
Die Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
Data Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen
Mustererkennung und Klassifikation
Mustererkennung und Klassifikation WS 2007/2008 Fakultät Informatik Technische Informatik Prof. Dr. Matthias Franz [email protected] www-home.htwg-konstanz.de/~mfranz/heim.html Grundlagen Überblick
Fortgeschrittene Netzwerk- und Graph-Algorithmen
Fortgeschrittene Netzwerk- und Graph-Algorithmen Dr. Hanjo Täubig Lehrstuhl für Eziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester 2007/08
Industrie Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen
Industrie 4.0 - Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen Industrielle Revolution, Version 4.0 Der Kongress im Jahr 2015: Worum geht es überhaupt? Kongress
Modellierung mit künstlicher Intelligenz
Samuel Kost [email protected] Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.
Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung
Aufgabe 1 Probabilistische Inferenz
Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei
Schriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel [email protected] Überblick I Einführung Problemstellung
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
Klassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1
Klassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Kapitel 2. Mathematische Grundlagen. Skript zur Vorlesung Einführung in die Programmierung
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 2 Mathematische Grundlagen Skript zur Vorlesung Einführung in die Programmierung im Wintersemester 2012/13 Ludwig-Maximilians-Universität
Algorithmische Modelle als neues Paradigma
Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN
Kapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
Frequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
Analytics Entscheidungsbäume
Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering
Maschinelles Lernen: Neuronale Netze. Ideen der Informatik
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale
Heuristische Verfahren
Heuristische Verfahren Bei heuristischen Verfahren geht es darum in polynomieller Zeit eine Näherungslösung zu bekommen. Diese kann sehr gut oder sogar optimal sein, jedoch gibt es keine Garantie dafür.
Maschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
Hannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
INTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.
Einführung in die Computerlinguistik
Einführung in die Computerlinguistik Neuronale Netze WS 2014/2015 Vera Demberg Neuronale Netze Was ist das? Einer der größten Fortschritte in der Sprachverarbeitung und Bildverarbeitung der letzten Jahre:
Signalverarbeitung 2. Volker Stahl - 1 -
- 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend
Neuronale Netze, Fuzzy Control, Genetische Algorithmen. Prof. Jürgen Sauer. 5. Aufgabenblatt: Neural Network Toolbox 1
Neuronale Netze, Fuzzy Control, Genetische Algorithmen Prof. Jürgen Sauer 5. Aufgabenblatt: Neural Network Toolbox 1 A. Mit Hilfe der GUI vom Neural Network erstelle die in den folgenden Aufgaben geforderten
(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.
(hoffentlich kurze) Einführung: [email protected] (0721) 608 45944 Überblick Einführung Perzeptron Multi-layer Feedforward Neural Network MLNN in der Anwendung 2 EINFÜHRUNG 3 Gehirn des Menschen Vorbild
Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)
Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen
1 Predictive Analytics mit Random Forest
Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.
Datenorientierte SA. Aufbau und Grundlagen. Aufbau und Grundlagen. Aufbau und Grundlagen. Was sind neuronale Netze?
Datenorientierte SA Was sind neuronale Netze? Neuronale Netze: Grundlagen und Anwendungen Neuronale Netze bilden die Struktur eines Gehirns oder eines Nervensystems ab Andreas Rauscher 0651993 Damir Dudakovic
Künstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes
Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014
Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis
Diskrete Strukturen Kapitel 4: Graphentheorie (Bäume)
WS 2016/17 Diskrete Strukturen Kapitel 4: Graphentheorie (Bäume) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_16
Kapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn
Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-
1 Einleitung. 2 Clustering
Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 [email protected] 1 Einleitung Im Folgenden soll zum einen ein Überblick
Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume
Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Grundseminar HAW Master Informatik 18.04.2017 Inhaltsübersicht Data Mining & Begriffswelt des Data Mining Klassifikation & Klassifikatoren
3.5 Entscheidungsbäume
3.5 Entscheidungsbäume Entscheidungsbäume (decision trees) sind diskriminative Verfahren zur Klassifikation in zwei oder mehr Klassen; unabhängige Merkmale der Datenpunkte können nominal, ordinal oder
Eine kleine Einführung in neuronale Netze
Eine kleine Einführung in neuronale Netze Tobias Knuth November 2013 1.2 Mensch und Maschine 1 Inhaltsverzeichnis 1 Grundlagen neuronaler Netze 1 1.1 Kopieren vom biologischen Vorbild...... 1 1.2 Mensch
Aufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
