Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
|
|
- Gottlob Hofmann
- vor 5 Jahren
- Abrufe
Transkript
1 6. Data Mining
2 Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2
3 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable insights) aus verfügbaren Daten zu gewinnen Überlappung mit dem Gebiet des maschinellen Lernens (machine learning), wo jedoch die Vorhersagekraft, anstelle von Einsichten, im Vordergrund steht Begriff Data Mining kam in den frühen 1990er Jahren auf, verwendete Verfahren sind teilweise älter 3
4 Aufgaben (tasks) Drei gängige Aufgaben (tasks) im Data Mining sind: Klassifikation, d.h. Datenpunkte (z.b. Dokumente) und ihre Klassen (z.b. Themen) sind bekannt; finde heraus, was Datenpunkte einer bestimmten Klasse auszeichnet, um so neue Datenpunkte klassifizieren zu können Clusteranalyse, d.h. Datenpunkte (z.b. Dokumente) sind bekannt; teile die Datenpunkte in (eine bestimmte Anzahl) von homogenen Gruppen (cluster) ein Mustererkennung, d.h. Daten (z.b. Einkäufe) sind bekannt; finde darin Muster (z.b. häufig zusammen gekaufte Artikel) 4
5 6.2 Klassifikation Datenpunkte (z.b. Dokumente) mit ihren Klassen (z.b. Themen) sind gegeben; finde für neue Datenpunkte die passende Klasse heraus Drei Arten von Verfahren zur Klassifikation distanzbasierte (z.b. k-nächste-nachbarn) probabilistische (z.b. Naïve Bayes) diskriminative (z.b. Entscheidungsbäume) Verfahren unterscheiden sich u.a. darin, ob sie erklären können, was eine bestimmte Klasse auszeichnet 5
6 Anwendungsbeispiele Klassifikation von Zeitungsartikeln oder Blogposts in Politik, Sport, Kultur, Reise und Auto Klassifikation von s in Spam und Nicht-Spam Segmentierung von Kunden in Schnäppchenjäger, Normalos und Luxusliebhaber Produktempfehlungen für bestimmten Kunden durch Klassifikation in Interessant und Nicht-Interessant Handschrifterkennung auf Überweisungsträgern durch Klassifikation der gescannten Zeichen in Klassen 0-9 6
7 6.2.1 k-nächste Nachbarn Klassifikation anhand der k nächsten Nachbarn ist ein distanzbasiertes Verfahren, welches mehr als zwei Klassen unterstützt Idee: Neuer Datenpunkt wird klassifiziert, indem die k nächsten Datenpunkte mit bekannter Klasse gemäß geeignetem Distanzmaß bestimmt werden die häufigste aus deren Klassen ausgewählt wird Typische Werte für k sind {5, 10, 15, 25}; im Fall binärer Klassifikation ist Wahl eines ungeraden Werts sinnvoll 7
8 Euklidische Distanz Datenpunkte als Vektoren in m-dimensionalen Vektorraum Euklidische Distanz (L2-Distanz) als Distanzmaß zwischen zwei Vektoren x i und x j ˆ ıÿ d(x i, x j )= Ù m! " 2 x(i,k) x (j,k) k=1 x i d(x i, x j ) x j 8
9 Euklidische Distanz Euklidische Distanz ist eine Metrik, d.h. es gelten positive Definitheit d(x i, x j ) Ø 0 Symmetrie d(x i, x j )=d(x j, x i ) Dreiecksungleichung d(x i, x k ) Æ d(x i, x j )+d(x j, x k ) 9
10 k-nächste Nachbarn Beispiel: Autos mit Merkmalen Gewicht und Hubraum sowie Merkmal Herkunft Auto mit Gewicht 1000 kg und Hubraum 3L ist zu klassifizieren Hubraum U.S.A. Europa Japan Gewicht 10
11 k-nächste Nachbarn k =3 Auto wird als Herkunft U.S.A. klassifiziert Hubraum U.S.A. Europa Japan Gewicht 11
12 k-nächste Nachbarn Die drei nächsten Nachbarn sind x 1 = (1080, 3.2) x 2 = (1190, 2.8) x 3 = (900, 1.8) Distanzen zu x = (1000, 3) d(x, x 1 ) 180 d(x, x 2 ) 190 d(x, x 3 ) 100 Hubraum U.S.A. Europa Japan x x 3 x 1 x Gewicht 12
13 k-nächste Nachbarn k-nächste Nachbarn ist ein einfaches, aber robustes Klassifikationsverfahren, das immer anwendbar ist, wenn zwischen Datenpunkten ein sinnvolles Distanzmaß definiert werden kann Nachteile: naïve Implementierung, d.h. Distanzberechnung zu allen Datenpunkten aus den Trainingsdaten, ist rechenintensiv (bessere Implementierungen verwenden Indexstrukturen) geringe Interpretierbarkeit, d.h. keine Erkenntnisse darüber, welche Eigenschaften die Datenpunkte einer Klasse auszeichnen (z.b. viel Hubraum für U.S.A.) 13
14 6.2.2 Naïve Bayes Naïve Bayes ist eine Familie von Klassifikationsverfahren, die insbesondere zur Klassifikation von Textdokumenten (z.b. s in Spam/Nicht-Spam) eingesetzt wird Der Name Naïve Bayes rührt daher, dass die Verfahren den Satz von Bayes für bedingte Wahrscheinlichkeiten verwenden und eine (naïve) Unabhängigkeitsannahme über die Verteilung der verwendeten Merkmale machen 14
15 Bedingte Wahrscheinlichkeit Betrachte zwei Ereignisse A und B, z.b. A ist das Ereignis, dass Objekt ein Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]=5/9 P[B ]=4/9 A B ist das Ereignis, dass ein grünes Kreis gezogen wird P[A B ]=3/9 15
16 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P[ B A ] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist P[B A ]= P[A B ] P[A ] hier: P[B A ]=3/5 P[A B ]=3/4 16
17 Stochastische Unabhängigkeit Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A] P[B ] Bemerkung: Die beiden Ereignisse A und B im vorigen Beispiel sind nicht (stochastisch) unabhängig 17
18 Satz von Bayes Thomas Bayes ( ) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ] P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt das Umkehren der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten 18
19 Satz von Bayes Beispiel: Untersuchung von Wildtieren Ereignis A soll sein, dass Wildtier ein Fuchs ist Ereignis B soll sein, dass Wildtier an Tollwut erkrankt ist Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= =
20 Naïve Bayes zur Klassifikation von Dokumenten Dokumente (z.b. s oder Zeitungsartikel) werden vorverarbeitet, z.b. indem Groß- und Kleinschreibung entfernt wird und die Dokumente an Leerzeichen in Wörter aufgeteilt werden Jedes Dokument wird so in eine Multimenge von Wörtern (bag of words) überführt, d.h. Reihenfolge der Wörter geht verloren, ihre Häufigkeit bleibt jedoch erhalten The green politician Peter Green { green, green, peter, politician, the } 20
21 Naïve Bayes zur Klassifikation von Dokumenten Trainingsdaten stehen uns in Form von Dokumenten d zur Verfügung, wobei wir für jedes die zugehörige Klasse c (z.b. Spam / Nicht-Spam) kennen Zur Klassifikation eines vorher unbekannten Dokuments d bestimmt man die bedingten Wahrscheinlichkeiten P[c d ] und ordnet das Dokument in die Klasse mit der höchsten bedingten Wahrscheinlichkeit ein 21
22 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeiten der einzelnen Klassen lassen sich auf Grundlage der Trainingsdaten schätzen als P[c ]= # Dokumente in Klasse c # Dokumente Wahrscheinlichkeit, dass ein Wort w in einem Dokument aus einer bestimmten Klasse c vorkommt, geschätzt als P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c # Wortvorkommen in Dokumenten in Klasse c 22
23 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass vorher unbekanntes Dokument d zur Klasse c gehört, geschätzt als P[c d ]= P[d c ] P[c ] P[d ] dies kann vereinfacht werden, da nur die Klasse mit maximaler bedingter Wahrscheinlichkeit bestimmt werden muss, der Faktor P[d] jedoch für alle Klassen gleich ist P[c d ] Ã P[d c ] P[c ] 23
24 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass Dokument d aus der Klasse c stammt, schätzt man anhand der Wortvorkommen als P[d c ] Ã Ÿ P[w c ] f(w,d) wœd hierbei sei f(w, d) die Zahl der Vorkommen des Worts w im Dokument d Intuition: Dies entspricht der Wahrscheinlichkeit, dass das Dokument d durch zufälliges Ziehen von Wörtern gemäß der Wahrscheinlichkeiten P[w c] zustande kommt 24
25 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Klassen N und S P[N ]=3/5 P[S ]=2/5 25
26 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Wörter a, b, x und y je Klasse P[a N ]=5/10 P[a S ]=1/10 P[b N ]=3/10 P[x N ]=1/10 P[y N ]=1/10 P[b S ]=1/10 P[x S ]=4/10 P[y S ]=4/10 26
27 Beispiel Naïve Bayes Klassifikation des vorher unbekannten Dokuments d 6 a b x y d ? P[N d 6 ]= P[d 6 N ] P[N ] 3 5 = P[S d 6 ]= P[d 6 S ] P[S ] 3 1 = =6.4/106 Das Dokument wird in die Klasse N eingeordnet 3 5 = 135/106 27
28 Rechnen mit kleinen Wahrscheinlichkeiten Wie am Beispiel zu erkennen, werden die betrachteten Wahrscheinlichkeiten sehr klein, was zu numerischen Problemen (z.b. Abrunden zu Null) führen kann Für eine Implementierung ist es daher ratsam, eine Log-Transformation vorzunehmen log P [ c d ] Ã log P [ d c ] + log P [ c ] log P [ d c ] Ã ÿ wœd f(w, d) log P [ w c ] 28
29 Rechnen mit kleinen Wahrscheinlichkeiten Die Logarithmus-Funktion ist monoton; da es nur gilt, die maximale bedingte Wahrscheinlichkeit P[c d] zu ermitteln, ihr genauer Wert jedoch irrelevant ist, ist eine solche Transformation zulässig 29
30 Zusammenfassung Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von Trainingsdaten bestimmt wurden k-nächste Nachbarn als Klassifikationsverfahren basierend auf der Distanz zwischen Datenpunkten Naïve Bayes als probabilistisches Klassifikationsverfahren, welches häufig zur Klassifikation von Texten eingesetzt wird 30
31 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 (Kapitel 14 & 16) [2] M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 18) 31
Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar
Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrRückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation
Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn
MehrMotivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus
3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos
MehrMotivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus
3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrDatenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
Mehrhtw saar 1 KAPITEL 4 BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE UNABHÄNGIGKEIT Hans-Peter Hafner WS 2016/2017
htw saar 1 KAPITEL 4 BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE UNABHÄNGIGKEIT htw saar 2 Gliederung 25.01. Bedingte Wahrscheinlichkeit: Motivation und Definition Multiplikationssatz Stochastische Unabhängigkeit:
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrKapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente
Mehrstufige Zufallsexperimente Inhalt 6.1 6.1 Mehrstufige Experimente 6.2 6.2 Bedingte Wahrscheinlichkeiten Seite 2 6.1 Mehrstufige Experimente Grundvorstellung: Viele Viele Experimente werden der der
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
Mehrk-nächste-nachbarn-schätzung
k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrSprechstunde zur Klausurvorbereitung
htw saar 1 Sprechstunde zur Klausurvorbereitung Mittwoch, 15.02., 10 12 + 13.30 16.30 Uhr, Raum 2413 Bei Interesse in Liste eintragen: Max. 20 Minuten Einzeln oder Kleingruppen (z. B. bei gemeinsamer Klausurvorbereitung)
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrStatistik für Ingenieure Vorlesung 2
Statistik für Ingenieure Vorlesung 2 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 24. Oktober 2016 2.4 Bedingte Wahrscheinlichkeiten Häufig ist es nützlich, Bedingungen
MehrWahrscheinlichkeitsrechnung und Statistik. 8. Vorlesung
Wahrscheinlichkeitsrechnung und Statistik 8. Vorlesung - 208 ) Monte Carlo Methode für numerische Integration Sei g : [0, ] R stetige Funktion; man möchte numerisch approximieren mit Hilfe von Zufallszahlen:
MehrStatistik I für Betriebswirte Vorlesung 2
Statistik I für Betriebswirte Vorlesung 2 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. April 2018 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 2 Version: 9. April
MehrAufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /
Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =
MehrData Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen
Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrInhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
MehrGrundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt
Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum
MehrWahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)
Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26 Ein Wahrscheinlichkeitsraum (Ω, P ist eine Menge Ω (Menge aller möglichen Ausgänge eines Zufallsexperiments: Ergebnismenge versehen mit einer Abbildung
MehrSatz von der totalen Wahrscheinlichkeit
htw saar 1 Satz von der totalen Wahrscheinlichkeit Sei (Ω, P) ein Wahrscheinlichkeitsraum, und B 1,, B n seien paarweise disjunkte Ereignisse mit B i = Ω. Für jedes Ereignis A gilt dann: P(A) = P(A B 1
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrEinführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
Mehr= 7! = 6! = 0, 00612,
Die Wahrscheinlichkeit, dass Prof. L. die Wette verliert, lässt sich wie folgt berechnen: Ω = {(i 1,..., i 7 ) : i j {1... 7}, j = 1... 7}, wobei i, j für den Wochentag steht, an dem die Person j geboren
Mehr10.5 Maximum-Likelihood Klassifikation (I)
Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem
MehrEinführung in die Wahrscheinlichkeitsrechnung
Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrKapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen
Kapitel ML:IV IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-1 Statistical Learning c STEIN 2005-2011 Definition 1 (Zufallsexperiment,
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrStatistik I für Betriebswirte Vorlesung 2
Statistik I für Betriebswirte Vorlesung 2 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. April 2017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 2 Version: 11.
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
MehrWerkzeuge der empirischen Forschung
Wolfgang Kössler Institut für Informatik, Humboldt-Universität zu Berlin SS2008 18. April 2008 Übersicht 1 2 Dateneingabe und Transformation Allgemeine Eingabe über die Eingabe durch externes File Wichtige
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrChapter 1 : þÿ b e t a t h o m e g u t s c h e i n c h a p t e r
Chapter 1 : þÿ b e t a t h o m e g u t s c h e i n 2 0 1 6 c h a p t e r þÿ S i e k ö n n e n s i c h a u f b e t - a t - h o m e. c o m ü b e r a l l w e t t e n! D i e g r ö ß t e S h o w d i r. Z a
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrKapitel ML:IV (Fortsetzung)
Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrÜbungen Abgabetermin: Freitag, , 10 Uhr
Universität Münster Institut für Mathematische Statistik Stochastik für Lehramtskandidaten SoSe 015, Blatt 1 Löwe/Heusel Übungen Abgabetermin: Freitag, 10.7.015, 10 Uhr Hinweis: Dies ist nur eine Beispiellösung.
MehrWahrscheinlichkeit (Teschl/Teschl 2, Kap. 26)
Wahrscheinlichkeit (Teschl/Teschl 2, Kap. 26) Gegeben Menge Ω (Wahscheinlichkeitsraum, Menge aller möglichen Ausgänge eines Zufallsexperiments), Abbildung P : P(Ω) [0, 1] (Wahrscheinlichkeit): Jeder Teilmenge
MehrBayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator
MehrText-Mining: Klassifikation I - Naive Bayes vs. Rocchio
Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio
MehrData Science (WS 2018/2019) Klaus Berberich
1 Data Science (WS 2018/2019) Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisation Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Assoziationsanalyse 6. Neuronale Netze
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
MehrWahrscheinlichkeitstheorie
Kapitel 2 Wahrscheinlichkeitstheorie Josef Leydold c 2006 Mathematische Methoden II Wahrscheinlichkeitstheorie 1 / 24 Lernziele Experimente, Ereignisse und Ereignisraum Wahrscheinlichkeit Rechnen mit Wahrscheinlichkeiten
MehrEvidenzpropagation in Bayes-Netzen und Markov-Netzen
Einleitung in Bayes-Netzen und Markov-Netzen Thomas Thüm 20. Juni 2006 1/26 Thomas Thüm in Bayes-Netzen und Markov-Netzen Übersicht Einleitung Motivation Einordnung der Begriffe 1 Einleitung Motivation
MehrBedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten Bei der Betrachtung der Ereignisse A und B eines Zufallsexperiments muss man die beiden im folgendem beschrieben zwei Situationen unterscheiden. 1. Das Ereignis A und B tritt
MehrData Science (WS 2017/2018) Klaus Berberich
1 Data Science (WS 2017/2018) Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisation Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Neuronale Netze 6. Assoziationsanalyse
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrVorlesung Statistik WING ASW Melanie Kaspar, Prof. Dr. B. Grabowski 1
Melanie Kaspar, Prof. Dr. B. Grabowski 1 Aus diesen Eigenschaften lassen sich alle weiteren Eigenschaften ableiten: Beweis zu 1) Melanie Kaspar, Prof. Dr. B. Grabowski 2 Aufgabe Die Wahrscheinlichkeit
MehrChapter 1 : þÿ b e t a t h o m e P r e m i e r L e a g u e A b s t i e g s c h a p t e r
Chapter 1 : þÿ b e t a t h o m e P r e m i e r L e a g u e A b s t i e g s c h a p t e r þÿ B e s t U k a s h B i n g o S i t e s b e s t e c a s i n o s p i e l a l l e r z e i t e n p c O n l i n e c
MehrKapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen
Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (32 Punkte) In einer medizinischen Studie werden zwei Tests zur Diagnose von Leberschäden verglichen. Dabei wurde folgendes festgestellt: Test 1 erkennt
Mehr3 Wahrscheinlichkeitstheorie
Einige mathematische Konzepte 3 Wahrscheinlichkeitstheorie 3.1 Wahrscheinlichkeit Die Wahrscheinlichkeitstheorie modelliert Situationen, in denen Unsicherheit über bestimmte Aspekte der Umwelt vorherrscht.
MehrBiostatistik, Winter 2011/12
Biostatistik, Winter 2011/12 Wahrscheinlichkeitstheorie:, Unabhängigkeit Prof. Dr. Achim Klenke http://www.aklenke.de 6. Vorlesung: 02.12.2011 1/30 Inhalt 1 Wahrscheinlichkeit 2 2/30 Wahrscheinlichkeit
MehrChapter 1 : þÿ b e t a t h o m e a n d r o i d a p p h e r u n t e r l a d e n a p k c h a p t e r
Chapter 1 : þÿ b e t a t h o m e a n d r o i d a p p h e r u n t e r l a d e n a p k c h a p t e r þÿ d o c h a u c h. M ö c h t e a u s l ö s e n i n g e l d u m w a n d e l n d a s s s i c h e i n, t
MehrErich Schubert, Arthur Zimek KDD Übung
Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen
MehrProjekt-INF Folie 1
Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrKapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit
Kapitel 17 Unabhängigkeit und Homogenität 17.1 Unabhängigkeit Im Rahmen der Wahrscheinlichkeitsrechnung ist das Konzept der Unabhängigkeit von zentraler Bedeutung. Die Ereignisse A und B sind genau dann
MehrDokument Klassifikation. Thomas Uhrig: Data-Mining SS10
Agenda: 1: Klassifizierung allgemein 2: der naive Bayes-Klassifizierer 3: Beispiel 4: Probleme 5: Fazit 6: Quellen 1: Klassifizierung allgemein: 1: Klassifizierung allgemein: - Einordnung von Objekten
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrWahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen
Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter hoechstoetter@statistik.uni-karlsruhe.de
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische
MehrEinführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Unabhängigkeit von Ereignissen A, B unabhängig:
MehrUnabhängigkeit KAPITEL 4
KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht
Mehr3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen
3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen 3.1 Einführung Bsp. 19 (3-maliges Werfen einer Münze) Menge der Elementarereignisse: Ω {zzz,zzw,zwz,wzz,zww,wzw,wwz,www}. Ω 2 3 8 N Wir definieren
MehrChapter 1 : þÿ b e t a t h o m e T e l e f o n n u m m e r u k c h a p t e r
Chapter 1 : þÿ b e t a t h o m e T e l e f o n n u m m e r u k c h a p t e r þÿ 3 1. D e z. 2 0 1 1 M a r c e l o B i e l s a n å e d e a l d r i g a t i n d l e d e t r æ n i n g e n i L a z i o, f ø
MehrData Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 2- WS 28/9 2-2 Data Mining WS 28/9 Übersicht
MehrPairwise Naive Bayes Classifier
Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrZusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen
Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind
Mehr13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
MehrBinomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.
Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung
MehrMathe-Camp 2017 Stochastik: Geometrische Wahrscheinlichkeiten
Mathe-Camp 2017 Stochastik: Geometrische Wahrscheinlichkeiten Jo rn Saß, sass@mathematik.uni-kl.de Fachbereich Mathematik, TU Kaiserslautern Arbeitsgruppe Stochastische Steuerung und Finanzmathematik Kaiserslautern
MehrKapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation
Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c
MehrLösungsskizzen zur Präsenzübung 07
Lösungsskizzen zur Präsenzübung 07 Hilfestellung zur Vorlesung Anwendungen der Mathematik im Wintersemester 2015/2016 Fakultät für Mathematik Universität Bielefeld Veröffentlicht am 14. Dezember 2015 von:
Mehr