Fragen aus dem Wissensquiz
|
|
- Waldemar Ritter
- vor 5 Jahren
- Abrufe
Transkript
1 und Data-Mining Prof. Dr. Tobias Scheffer SS 2004 Fragen aus dem Wissensquiz Marko Pilop pilop (v Juli 2004) Humboldt-Universität zu Berlin Institut für Informatik Zusammenstellung der Fragen aus den beiden Wissensquiz (wie ist der Plural von Quiz?) der Vorlesung und Data-Mining von Prof. Dr. Tobias Scheffer im SS 2004 zur Prüfungsvorbereitung in Form von Beantwortungsversuchen. Ergänzt von einigen Fragen aus der Probeklausur. 1
2 I. Wissensquiz vom Was ist der Vorteil von ID3 gegenüber Candidate Elimination? Hypothesenraum größer (Der induktive Bias von Candidate Elimination reduziert schließt Disjunktionen von Hypothesen aus, mit ID3 können solche Hypothesen jedoch formuliert werden) Candidate Elimination: Workspace ID3: 1 Hypothese 2. Was ist der Induktive Bias von Candidate Elimination, was der von ID3? Candidate Elimination: Language Bias ( viel nicht darstellbar) ID3: einfache Hypothese (Entscheidungsbaum von geringer, aber nicht notwendigerweise minimaler Größe) 3. Warum ist die Annahme, dass einfachere Hypothesen besser sind, problematisch? Was heißt einfach? Codierungsabhängig nicht eindeutig definiert 4. Bei welchem einfachen Beispiel versagt der Roccio-Klassifikator? senkrecht bzw. parallel zu den Attributachsen 5. Unter welchen Umständen ist ein Rocchio-Klassifikator besser geeignet als ein linearer Perzeptron? Wenn Klassen gut seperierbar sind und Roccio richtig klassifiziert, dann ist der Roccio- Klassifikator einfacher zu berechnen. 6. Wie sieht die Entscheidungsgrenze von C4.5 grafisch aus? Merkmalsraum wird in Teilräume rekursiv gesplittet und die Entscheidunggrenze ist die Grenze zwischen den Teilräumen. Die jeweiligen Trennfunktionen sind Geraden. 7. Welchen Vorteil hat SLIQ gegenüber dem einfachen C4.5 Algorithmus? expandiert in einem Schritt alle Knoten einer Ebene weniger über Beispiele (???) Durch das Aufbauen von Histogrammen in jedem Knoten muss weniger oft über die Datenbank mit den Trainingsinstanzen iteriert werden. ADD Prof. Dr. Tobias Scheffer SS 2004 Seite 2 von 12
3 8. Wie viel unterschiedliche Entscheidungsbäume gibt es, wenn unsere Zielklasse binär ist und wir k binäre Eingabeattribute haben? 2 2k 9. Was ist die Entropie eines Münzwurfs, wenn die Münze nicht verbogen ist? Was verbirgt sich hinter dem Begriff GainRatio beim Entscheidungsbaumlernen? InformationGain SplitRatio Entropie des neuen aufgesplitteten Attibuts korrigiert InformationGain (über die Anzahl) (hohe Anzahl ist schlecht (z.b. ID s)) 11. Welche Idee steht hinter dem Reduced Error Pruning? Generalisierungsfähigkeit des Baumes erhöhen ( Pruning) Generalisierungsfehler vermindern 12. Warum ist eine Fehlerschätzung mit einmaligem Aufteilen in Trainings- und Testdaten pessimistisch und ungenau? Gibt es Alternativen? Welche? Fehler ist gar nicht so groß, wie angegeben (da Fehlerschätzung über Testdaten) Durch das Aufteilen der bekannten Instanzen verringert sich die Trainingsmenge, und der Klassifikator kann weniger genau gelernt werden. Insgesamt zählt es aber über Trainings- und Testdaten 13. Welche zwei Verfahren gibt es, um mit binären Klassifikatoren ein Mehrklassenproblem zu lösen? All against all - Es wird ein Klassifikator für jedes Paar von Klassen gelernt, der jeweils genau diese zwei Klassen gegeneinander abgrenzt. One against all - Es wird ein Klassifikator für jede Klasse gelernt, der sie von allen anderen Klassen abgrenzt. Prof. Dr. Tobias Scheffer SS 2004 Seite 3 von 12
4 14. Was ist der Unterschied zwischen einem primalen und dualen Perzeptron? primal / dual bezieht sich auf die Repräsentation der Perzeptrons!!! Perceptron findet nur eine Trennebene, wenn Beispiele linear trennbar sind Bei der dualen Repräsentation kann der linearer Kernel durch einen anderen (z.b. rbfkernel) ersetzt werden. D.h. das es nicht mehr eine lineare Trennebene gibt, sondern eine Trennebene, welche an vielen Stellen durch den Kernel verbogen, bzw. ausgebeult ist. 15. Was ist ein Large-margin Klassifikator? Welchen Vorteil hat ein Large-margin Klassifikator gegenüber dem Perzeptron-Algorithmus? Ziel eines Large-margin Klassifikators ist es, die Trennebene zwischen Klassen so zu drehen, dass der Abstand aller Instanzen zur Trennebene maximal wird. Der Perzeptron- Algorithmus findet nur eine Trennlinie, die beide Klassen trennt. 16. Was versteht man unter einer Soft-Margin-Maschine? manchmal kann man nicht alles linear separieren dann gehen auch die negativen Abstände (der Falschklassifizierten Beispiele) mit in die Bewertung (Optimierung) ein ( Minimierung) Insgesamt wird nach zwei Kriterien optimiert: 1. (positive) Margin maximieren 2. negative Abstände minimieren (zusätzlich bei Soft-Margin-Maschine) 17. Welche Idee steht hinter dem Backpropagation-Algorithmus? 18. Welchen Nachteil haben Neuronale-Netze im Vergleich zu Support-Vektor-Maschinen-Klassifikatoren? Prof. Dr. Tobias Scheffer SS 2004 Seite 4 von 12
5 19. Wie kann ich das Bayes-Theorem einsetzen, wenn ich eine bedingte Wahrscheinlichkeit wissen möchte, diese aber nicht direkt bestimmen kann? 20. Was ist der Unterschied zwischen einer Hypothese und einer Zielklasse? Eine Hypothese ist ein Konstrukt in der verwendeten Hypothesensprache (eine Funktion in der Hypothesensprache), die jeder Instanz eine Zielklasse zuordnen kann. Eine Zielklasse ist das Ergebnis des Anwendens einer Hypothese auf eine Instanz. Die Zielklasse ist das Ergebnis der Klassifikation, die mit Hilfe der Hypothese durchgeführt wird. 21. Warum minimiert die MAP-Hypothese nicht die Fehlerwahrscheinlichkeit, auch wenn es die Hypothese ist mit dem maximalen P(h D)? 22. Was versteht man unter der Gibbs-Hypothese? Welchen Vorteil hat sie gegenüber der MAP-Hypothese? 23. Was ist die naive Annahme beim Naive-Bayes Klassifikator? 24. Beschreiben Sie informell den EM-Algorithmus! Prof. Dr. Tobias Scheffer SS 2004 Seite 5 von 12
6 25. Was ist der Unterschied zwischen Assoziationsregel-Entdeckung und Klassifikation bezüglich der gegebenen Daten und dem Lernergebnis? Prof. Dr. Tobias Scheffer SS 2004 Seite 6 von 12
7 II. Wissensquiz vom Wie groß sind Support und Confidence (genau, höchstens oder mindestes) von AB CD wenn s(ab) = 2, s(bc) = 3 und s(cd) = 4 ist? Support: kann höchstens 2 sein Confidence: kann höchstens 1 sein, da von den 2 Transaktionen, die die Attribute der rechten Seite (AB) beinhalten, max. die beiden Transaktionen auch die Attribute der linken Seite (CD) beinhalten können. Nicht mehr - höchstens für weniger Transaktionen trifft das zu, da die beiden nicht unbedingt zwangsläufig auch CD supporten müssen. 27. Wieviel Verzweigungen kann ein Dendrogramm maximal haben, wenn es durch ein agglomeratives Clusterverfahren über N Datenpunkte erzeugt wurde? N 1 (sooft wird gemerged) 28. Was ist der Vorteil von k-medoids gegenüber k-means? keine Vektorrepräsentation notwendig Abstandsmaß reicht Mittelwert nicht benötigt (@Torsten: Ein Median ist auch ein Mittelwert auch wenn es in den Folien anders behauptet wird. Aber in Prinzip wissen wir ja was gemeint ist. ;-)) Bei komplexen Gebilden im Merkmalsraum kann es schwierig oder unmöglich sein, ein Durchschnittsobjekt zu berechnen. (Was wäre der Durchschnitt aus einem Cluster von Fahrzeugen?) 29. Warum ist der Matrix-Update-Algorithmus für große Datenmengen weniger gut geeignet? Welches Clusterverfahren würden Sie stattdessen verwenden? Quadratisch große Matrix paßt für große Daten nicht in Speicher Laufzeit (um Matrix zu füllen) ist quadratisch besser: partitionierendes Verfahren (k-means / k-medoids) 30. Welches Clusterverfahren hat eine niedrigere Laufzeitkomplexität, k-means oder BIRCH? k-means: O(n k) (???) Birch hat Verzweigungsfaktor, statt k ( nicht direkt vergleichbar) Birch muß aber nur einmal über die Daten ( schneller) Prof. Dr. Tobias Scheffer SS 2004 Seite 7 von 12
8 31. Beschreiben Sie informell den EM-Algorithmus! 1. Modell raten 2. Erwartungswert für verdeckte Variablen berechnen 3. welches ist bestes Modell? (Schleife zu mein Vorschlag 1. mit zufälligen Modell beginnen 2. Wahrscheinlichkeiten für alle Samples dafür berechnen, dass sie zu einem Cluster j gehören 3. Neue Modellparameter aufgrund von 2. berechen, fertig falls sich nichts mehr ändert, ansonsten weiter mit 2. Man rät ja nicht in jeden Schritt ein neues Modell, sondern bestimmt nur die Parameter aufgrund der erwarteten Zugehörigkeiten. 32. Wie sehen der E- und M-Schritt bei k-means aus? 1. k Zentren zufällig verteilt initialisieren 2. unsichtbare Variablen sind Erwartungswerte für Clusterzugehörigkeiten 33. Wenn man zwei Knoten im BIRCH-Baum zusammenfasst, wie kann man dann die Cluster-Features des zusammengefassten Knotens aus den beiden einzelnen Knoten bestimmen? durch Adition zusammenfassen 34. Was können Sie über die Form der Cluster aussagen, die k-means und die GDBSCAN findet? k-means: bienenwabenförmig (potentiell Kreisförmig) GdbScan: alle möglichen Clusterformen 35. Geben Sie eine intuitive Beschreibung für Precision und Recall! 1. Precision: wieviele von positiven Vorhersagen sind wirklich positiv? 2. Recall: wieviele wirklich positive Beispiele waren richtig? 36. Kann man Precision und Recall auch verwenden, wenn man zwischen zwei gleichwertigen Klassen unterscheiden möchte? ja, aber Precision/Recall für eine Kategorie angeben Prof. Dr. Tobias Scheffer SS 2004 Seite 8 von 12
9 37. Welche intuitive Bedeutung hat der AUC-Wert eines Klassifikators? Wahrscheinlichkeit dafür, daß positives einen höheren Entscheidungswert hat, als negatives (???) 38. Was ist der F-Measure und welche intuitive Bedeutung hat er? harmonisches Mittel zwischen Precision und Recall 39. Was ist der Unterschied zwischen einer Entscheidungsfunktion und einem Klassifikator? Entscheidungsfunktion ist Skalar vom Klassifikator braucht noch Schwellwert, zum einteilen ( Klassifikator) 40. Warum ist die Fehlerschätzung bei Training-and-Test pessimistisch und warum ungenau? Was kann man verbessern? nur auf Testmenge genau Pessimistisch Weniger Samples für das Training werden genutzt, dementsprechend wurde schlechter Klassifiziert als eigentlich möglich Ungenau Zu wenige Testbeispiele stehen zur Verfügung Verbessern N-Fold Cross Validation nutzen 41. Wie groß ist die Wahrscheinlichkeit höchstens, dass sich unter den Hypothesen, die auf m Trainingsbeispielen keinen Fehler machen mindestens eine befindet, die einen wirklichen Fehler größer als e hat? H e ǫ m 42. Was ist die Aussage des 2. No-Free-Lunch-Theorems? 43. Warum sollten die Einzelklassifikatoren beim Bagging unabhängig sein? damit Abstimmung etwas richtiges ergibt und nicht verfälscht wird Prof. Dr. Tobias Scheffer SS 2004 Seite 9 von 12
10 44. Wir haben für eine Hypothese einen Fehler geschätzt und möchten nun mit Konfidenzintervallen Fehlerschranken festlegen. Der wirkliche Fehler soll mit einer Wahrscheinlichkeit von 95% unterhalb (einseitig) bzw. innerhalb (zweiseitig) dieser Schranken liegen. Ist dann die Schranke des einseitigen Konfidenzintervalls größer/kleiner/gleich der höheren Schranke des zweiseitigen Intervalls? kleiner gleich (???) 45. Was sind die Bestandteile einer TFIDF-Vektorraumrepräsentation? Wie werden sie üblicherweise kombiniert? 46. Wozu gibt es in der Zeitreihenanalyse das Konzept der Stationarität? Prof. Dr. Tobias Scheffer SS 2004 Seite 10 von 12
11 III. Probeklausur Aufgabe 1: Anmerkung: einige Fragen sind redundant mit dem Wissensquiz und wurden entfernt. 47. Was ist die Entropie eines 6-seitigen Würfels? 6 1 H = 6 log 2( 1 6 ) = 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) = Was hat der Version Space mit dem Inductive Bias zu tun? 49. Welche Wirkung hat eine Veranderung des γ-parameters eines RBF-Kernels? Breite der Kernel-Funktion ändert sich. Somit werden breitere Peaks aus der Klassifikatorfläche gezupft. 50. Welche Eigenschaft sollte ein guter Schätzer aufweisen? Ein Schätzer sollte erwartungstreu sein, das heißt: Der Bias (E( ˆp) p, Differenz zwischen dem erwarteten, geschätzten Parameter und theoretischen Parameter) sollte so klein wie möglich sein. 51. Welche intuitive Bedeutung hat der AUC-Wert eines Klassifikators? Der AUC-Wert (Fläche unter der Kurve, normiert auf 0...1) einer ROC-Kurve gibt an, wieviele der positiven Instanzen vom Klassifikator tatsächlich als positiv eingeordnet werden, und ist damit ein Gütemaß des Klassifikators. Der AUC-Wert, die Fläche unter der ROC-Kurve, gibt die Wahrscheinlichkeit dafür an, dass ein positives Beispiel einen höheren Wert als ein negatives Beispiel von der Zugehörigkeitsfunktion f zugeordnet bekommt. Idealerweise erhalten alle positiven Instanzen einen hohen Funktionswert, und alle negativen einen niedrigen, dann können positive und negative Instanzen optimal getrennt werden. 52. Was ist die naive Annahme beim Naive-Bayes Klassifikator und welches Problem tritt auf, wenn man verschieden lange Texte klassifizieren mochte? Prof. Dr. Tobias Scheffer SS 2004 Seite 11 von 12
12 53. Wie gros ist die Wahrscheinlichkeit höchstens, dass sich unter den Hypothesen, die auf m Trainingsbeispielen keinen Fehler machen mindestens eine befindet, die einen wirklichen Fehler groser als ǫ hat? 54. Wie lautet die allgemeine Formel eines ARMA(2,3)-Prozesses? X t = β 1 X t 1 + β 2 X t 2 α 1 ǫ t 1 α 2 ǫ t 2 α 3 ǫ t 3 Prof. Dr. Tobias Scheffer SS 2004 Seite 12 von 12
Maschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Tobias Scheffer Michael Brückner Hypothesenbewertung Ziel: gute Vorhersagen treffen. Bayesian model averaging,
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
MehrDecision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
MehrKlassische Klassifikationsalgorithmen
Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrMaschinelles Lernen: Symbolische Ansätze
Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrÜberblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrTextklassifikation, Informationsextraktion
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation, Informationsextraktion Tobias Scheffer Thomas Vanck Textklassifikation, Informationsextraktion 2 Textklassifikation,
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
MehrKapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation
Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c
Mehr5. Klassifikation. 5.6 Support Vector Maschines (SVM)
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen
MehrErstes Mathe-Tutorium am Themen können gewählt werden unter:
Mathe-Tutorium Erstes Mathe-Tutorium am 07.05. Themen können gewählt werden unter: https://docs.google.com/forms/d/1lyfgke7skvql cgzspjt4mkirnrgnrfpkkn3j2vqos/iewform 1 Uniersität Potsdam Institut für
MehrKlassische Klassifikationsalgorithmen
Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und
MehrLinear nichtseparable Probleme
Linear nichtseparable Probleme Mustererkennung und Klassifikation, Vorlesung No. 10 1 M. O. Franz 20.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrNeuronale Netze. Prof. Dr. Rudolf Kruse
Neuronale Netze Prof. Dr. Rudolf Kruse Computational Intelligence Institut für Intelligente Kooperierende Systeme Fakultät für Informatik rudolf.kruse@ovgu.de Rudolf Kruse Neuronale Netze 1 Überwachtes
MehrData Mining und Maschinelles Lernen
Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und
MehrMaschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity
MehrWenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces
EFME-Zusammenfassusng WS11 Kurze Fragen: Wenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces Unter welcher Bedingung konvergiert der Online Perceptron Algorithmus?
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 10.6.2010 1 von 40 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 2 von
MehrLineare Klassifikatoren. Volker Tresp
Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Stützvektormethode 1 Hinführungen zur SVM Katharina Morik, Claus Weihs 26.5.2009 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 1 von 40 2 von
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrGlobale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten
Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten M. Siebers 1 U. Schmid 2 1 Otto-Friedrich-Universität Bamberg 2 Fakultät für Wirtschaftsinformatik und Angewandte Informatik
MehrEinführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38 Gliederung 1 2 Lagrange-Optimierung 2 von 38 Übersicht über die Stützvektormethode (SVM) Eigenschaften
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrData Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrOptimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:
MehrÜbungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 05/06. Musterlösung 11
ALBERT-LUDWIGS-UNIVERSITÄT FREIBURG INSTITUT FÜR INFORMATIK Lehrstuhl für Mustererkennung und Bildverarbeitung Prof. Dr.-Ing. Hans Burkhardt Georges-Köhler-Allee Geb. 05, Zi 0-09 D-790 Freiburg Tel. 076-03
MehrVorlesung Digitale Bildverarbeitung Sommersemester 2013
Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches
MehrMaschinelles Lernen Vorlesung
Maschinelles Lernen Vorlesung SVM Kernfunktionen, Regularisierung Katharina Morik 15.11.2011 1 von 39 Gliederung 1 Weich trennende SVM 2 Kernfunktionen 3 Bias und Varianz bei SVM 2 von 39 SVM mit Ausnahmen
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrKapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017
10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:
MehrLineare Klassifikatoren
Universität Potsdam Institut für Informatik Lehrstuhl Lineare Klassifikatoren Christoph Sawade, Blaine Nelson, Tobias Scheffer Inhalt Klassifikationsproblem Bayes sche Klassenentscheidung Lineare Klassifikator,
Mehr11. Übung Knowledge Discovery
Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den
MehrMustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines
Mustererkennung R. Neubecker, WS 018 / 019 (SVM) kommen aus der statistischen Lerntheorie gehören zu den optimalen Klassifikatoren = SVMs minimieren nicht nur den Trainingsfehler, sondern auch den (voraussichtlichen)
MehrNichtlineare Klassifikatoren
Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrKlassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
MehrProjekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrTheoretische Informatik 1
Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition
MehrSupport Vector Machines, Kernels
Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrKLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM
KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik, Magister
Mehrfuzzy-entscheidungsbäume
fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
Mehrk-nächste-nachbarn-schätzung
k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrNaive Bayes für Regressionsprobleme
Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 23.5.2013 1 von 48 Gliederung 1 Geometrie linearer Modelle: Hyperebenen Einführung von Schölkopf/Smola 2 Lagrange-Optimierung
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrModell Komplexität und Generalisierung
Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung
MehrStatistical Learning
Statistical Learning M Gruber KW 45 Rev 1 1 Support Vector Machines Definition 1 (Lineare Trennbarkeit) Eine Menge Ü µ Ý µ Ü Æµ Ý Æµ R ist linear trennbar, wenn mindestens ein Wertepaar Û R µ existiert
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende
Mehrx 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen
5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrPraktikum Data Warehousing und Data Mining
Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger
MehrMaschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
Mehr4. Lernen von Entscheidungsbäumen
4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrPairwise Naive Bayes Classifier
Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer
Mehr