Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Größe: px
Ab Seite anzeigen:

Download "Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining"

Transkript

1 6. Data Mining

2 Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2

3 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable insights) aus verfügbaren Daten zu gewinnen Überlappung mit dem Gebiet des maschinellen Lernens (machine learning), wo jedoch die Vorhersagekraft, anstelle von Einsichten, im Vordergrund steht Begriff Data Mining kam in den frühen 1990er Jahren auf, verwendete Verfahren sind teilweise älter 3

4 Aufgaben (tasks) Drei gängige Aufgaben (tasks) im Data Mining sind: Klassifikation, d.h. Datenpunkte (z.b. Dokumente) und ihre Klassen (z.b. Themen) sind bekannt; finde heraus, was Datenpunkte einer bestimmten Klasse auszeichnet, um so neue Datenpunkte klassifizieren zu können Clusteranalyse, d.h. Datenpunkte (z.b. Dokumente) sind bekannt; teile die Datenpunkte in (eine bestimmte Anzahl) von homogenen Gruppen (cluster) ein Mustererkennung, d.h. Daten (z.b. Einkäufe) sind bekannt; finde darin Muster (z.b. häufig zusammen gekaufte Artikel) 4

5 6.2 Klassifikation Datenpunkte (z.b. Dokumente) mit ihren Klassen (z.b. Themen) sind gegeben; finde für neue Datenpunkte die passende Klasse heraus Drei Arten von Verfahren zur Klassifikation distanzbasierte (z.b. k-nächste-nachbarn) probabilistische (z.b. Naïve Bayes) diskriminative (z.b. Entscheidungsbäume) Verfahren unterscheiden sich u.a. darin, ob sie erklären können, was eine bestimmte Klasse auszeichnet 5

6 Anwendungsbeispiele Klassifikation von Zeitungsartikeln oder Blogposts in Politik, Sport, Kultur, Reise und Auto Klassifikation von s in Spam und Nicht-Spam Segmentierung von Kunden in Schnäppchenjäger, Normalos und Luxusliebhaber Produktempfehlungen für bestimmten Kunden durch Klassifikation in Interessant und Nicht-Interessant Handschrifterkennung auf Überweisungsträgern durch Klassifikation der gescannten Zeichen in Klassen 0-9 6

7 6.2.1 k-nächste Nachbarn Klassifikation anhand der k nächsten Nachbarn ist ein distanzbasiertes Verfahren, welches mehr als zwei Klassen unterstützt Idee: Neuer Datenpunkt wird klassifiziert, indem die k nächsten Datenpunkte mit bekannter Klasse gemäß geeignetem Distanzmaß bestimmt werden die häufigste aus deren Klassen ausgewählt wird Typische Werte für k sind {5, 10, 15, 25}; im Fall binärer Klassifikation ist Wahl eines ungeraden Werts sinnvoll 7

8 Euklidische Distanz Datenpunkte als Vektoren in m-dimensionalen Vektorraum Euklidische Distanz (L2-Distanz) als Distanzmaß zwischen zwei Vektoren x i und x j ˆ ıÿ d(x i, x j )= Ù m! " 2 x(i,k) x (j,k) k=1 x i d(x i, x j ) x j 8

9 Euklidische Distanz Euklidische Distanz ist eine Metrik, d.h. es gelten positive Definitheit d(x i, x j ) Ø 0 Symmetrie d(x i, x j )=d(x j, x i ) Dreiecksungleichung d(x i, x k ) Æ d(x i, x j )+d(x j, x k ) 9

10 k-nächste Nachbarn Beispiel: Autos mit Merkmalen Gewicht und Hubraum sowie Merkmal Herkunft Auto mit Gewicht 1000 kg und Hubraum 3L ist zu klassifizieren Hubraum U.S.A. Europa Japan Gewicht 10

11 k-nächste Nachbarn k =3 Auto wird als Herkunft U.S.A. klassifiziert Hubraum U.S.A. Europa Japan Gewicht 11

12 k-nächste Nachbarn Die drei nächsten Nachbarn sind x 1 = (1080, 3.2) x 2 = (1190, 2.8) x 3 = (900, 1.8) Distanzen zu x = (1000, 3) d(x, x 1 ) 180 d(x, x 2 ) 190 d(x, x 3 ) 100 Hubraum U.S.A. Europa Japan x x 3 x 1 x Gewicht 12

13 k-nächste Nachbarn k-nächste Nachbarn ist ein einfaches, aber robustes Klassifikationsverfahren, das immer anwendbar ist, wenn zwischen Datenpunkten ein sinnvolles Distanzmaß definiert werden kann Nachteile: naïve Implementierung, d.h. Distanzberechnung zu allen Datenpunkten aus den Trainingsdaten, ist rechenintensiv (bessere Implementierungen verwenden Indexstrukturen) geringe Interpretierbarkeit, d.h. keine Erkenntnisse darüber, welche Eigenschaften die Datenpunkte einer Klasse auszeichnen (z.b. viel Hubraum für U.S.A.) 13

14 6.2.2 Naïve Bayes Naïve Bayes ist eine Familie von Klassifikationsverfahren, die insbesondere zur Klassifikation von Textdokumenten (z.b. s in Spam/Nicht-Spam) eingesetzt wird Der Name Naïve Bayes rührt daher, dass die Verfahren den Satz von Bayes für bedingte Wahrscheinlichkeiten verwenden und eine (naïve) Unabhängigkeitsannahme über die Verteilung der verwendeten Merkmale machen 14

15 Bedingte Wahrscheinlichkeit Betrachte zwei Ereignisse A und B, z.b. A ist das Ereignis, dass Objekt ein Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]=5/9 P[B ]=4/9 A B ist das Ereignis, dass ein grünes Kreis gezogen wird P[A B ]=3/9 15

16 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P[ B A ] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist P[B A ]= P[A B ] P[A ] hier: P[B A ]=3/5 P[A B ]=3/4 16

17 Stochastische Unabhängigkeit Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A] P[B ] Bemerkung: Die beiden Ereignisse A und B im vorigen Beispiel sind nicht (stochastisch) unabhängig 17

18 Satz von Bayes Thomas Bayes ( ) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ] P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt das Umkehren der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten 18

19 Satz von Bayes Beispiel: Untersuchung von Wildtieren Ereignis A soll sein, dass Wildtier ein Fuchs ist Ereignis B soll sein, dass Wildtier an Tollwut erkrankt ist Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= =

20 Naïve Bayes zur Klassifikation von Dokumenten Dokumente (z.b. s oder Zeitungsartikel) werden vorverarbeitet, z.b. indem Groß- und Kleinschreibung entfernt wird und die Dokumente an Leerzeichen in Wörter aufgeteilt werden Jedes Dokument wird so in eine Multimenge von Wörtern (bag of words) überführt, d.h. Reihenfolge der Wörter geht verloren, ihre Häufigkeit bleibt jedoch erhalten The green politician Peter Green { green, green, peter, politician, the } 20

21 Naïve Bayes zur Klassifikation von Dokumenten Trainingsdaten stehen uns in Form von Dokumenten d zur Verfügung, wobei wir für jedes die zugehörige Klasse c (z.b. Spam / Nicht-Spam) kennen Zur Klassifikation eines vorher unbekannten Dokuments d bestimmt man die bedingten Wahrscheinlichkeiten P[c d ] und ordnet das Dokument in die Klasse mit der höchsten bedingten Wahrscheinlichkeit ein 21

22 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeiten der einzelnen Klassen lassen sich auf Grundlage der Trainingsdaten schätzen als P[c ]= # Dokumente in Klasse c # Dokumente Wahrscheinlichkeit, dass ein Wort w in einem Dokument aus einer bestimmten Klasse c vorkommt, geschätzt als P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c # Wortvorkommen in Dokumenten in Klasse c 22

23 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass vorher unbekanntes Dokument d zur Klasse c gehört, geschätzt als P[c d ]= P[d c ] P[c ] P[d ] dies kann vereinfacht werden, da nur die Klasse mit maximaler bedingter Wahrscheinlichkeit bestimmt werden muss, der Faktor P[d] jedoch für alle Klassen gleich ist P[c d ] Ã P[d c ] P[c ] 23

24 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass Dokument d aus der Klasse c stammt, schätzt man anhand der Wortvorkommen als P[d c ] Ã Ÿ P[w c ] f(w,d) wœd hierbei sei f(w, d) die Zahl der Vorkommen des Worts w im Dokument d Intuition: Dies entspricht der Wahrscheinlichkeit, dass das Dokument d durch zufälliges Ziehen von Wörtern gemäß der Wahrscheinlichkeiten P[w c] zustande kommt 24

25 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Klassen N und S P[N ]=3/5 P[S ]=2/5 25

26 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Wörter a, b, x und y je Klasse P[a N ]=5/10 P[a S ]=1/10 P[b N ]=3/10 P[x N ]=1/10 P[y N ]=1/10 P[b S ]=1/10 P[x S ]=4/10 P[y S ]=4/10 26

27 Beispiel Naïve Bayes Klassifikation des vorher unbekannten Dokuments d 6 a b x y d ? P[N d 6 ]= P[d 6 N ] P[N ] 3 5 = P[S d 6 ]= P[d 6 S ] P[S ] 3 1 = =6.4/106 Das Dokument wird in die Klasse N eingeordnet 3 5 = 135/106 27

28 Rechnen mit kleinen Wahrscheinlichkeiten Wie am Beispiel zu erkennen, werden die betrachteten Wahrscheinlichkeiten sehr klein, was zu numerischen Problemen (z.b. Abrunden zu Null) führen kann Für eine Implementierung ist es daher ratsam, eine Log-Transformation vorzunehmen log P [ c d ] Ã log P [ d c ] + log P [ c ] log P [ d c ] Ã ÿ wœd f(w, d) log P [ w c ] 28

29 Rechnen mit kleinen Wahrscheinlichkeiten Die Logarithmus-Funktion ist monoton; da es nur gilt, die maximale bedingte Wahrscheinlichkeit P[c d] zu ermitteln, ihr genauer Wert jedoch irrelevant ist, ist eine solche Transformation zulässig 29

30 Zusammenfassung Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von Trainingsdaten bestimmt wurden k-nächste Nachbarn als Klassifikationsverfahren basierend auf der Distanz zwischen Datenpunkten Naïve Bayes als probabilistisches Klassifikationsverfahren, welches häufig zur Klassifikation von Texten eingesetzt wird 30

31 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 (Kapitel 14 & 16) [2] M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 18) 31

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

htw saar 1 KAPITEL 4 BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE UNABHÄNGIGKEIT Hans-Peter Hafner WS 2016/2017

htw saar 1 KAPITEL 4 BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE UNABHÄNGIGKEIT Hans-Peter Hafner WS 2016/2017 htw saar 1 KAPITEL 4 BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE UNABHÄNGIGKEIT htw saar 2 Gliederung 25.01. Bedingte Wahrscheinlichkeit: Motivation und Definition Multiplikationssatz Stochastische Unabhängigkeit:

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente Mehrstufige Zufallsexperimente Inhalt 6.1 6.1 Mehrstufige Experimente 6.2 6.2 Bedingte Wahrscheinlichkeiten Seite 2 6.1 Mehrstufige Experimente Grundvorstellung: Viele Viele Experimente werden der der

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Sprechstunde zur Klausurvorbereitung

Sprechstunde zur Klausurvorbereitung htw saar 1 Sprechstunde zur Klausurvorbereitung Mittwoch, 15.02., 10 12 + 13.30 16.30 Uhr, Raum 2413 Bei Interesse in Liste eintragen: Max. 20 Minuten Einzeln oder Kleingruppen (z. B. bei gemeinsamer Klausurvorbereitung)

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

Statistik für Ingenieure Vorlesung 2

Statistik für Ingenieure Vorlesung 2 Statistik für Ingenieure Vorlesung 2 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 24. Oktober 2016 2.4 Bedingte Wahrscheinlichkeiten Häufig ist es nützlich, Bedingungen

Mehr

Wahrscheinlichkeitsrechnung und Statistik. 8. Vorlesung

Wahrscheinlichkeitsrechnung und Statistik. 8. Vorlesung Wahrscheinlichkeitsrechnung und Statistik 8. Vorlesung - 208 ) Monte Carlo Methode für numerische Integration Sei g : [0, ] R stetige Funktion; man möchte numerisch approximieren mit Hilfe von Zufallszahlen:

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. April 2018 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 2 Version: 9. April

Mehr

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 / Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =

Mehr

Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen

Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum

Mehr

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26) Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26 Ein Wahrscheinlichkeitsraum (Ω, P ist eine Menge Ω (Menge aller möglichen Ausgänge eines Zufallsexperiments: Ergebnismenge versehen mit einer Abbildung

Mehr

Satz von der totalen Wahrscheinlichkeit

Satz von der totalen Wahrscheinlichkeit htw saar 1 Satz von der totalen Wahrscheinlichkeit Sei (Ω, P) ein Wahrscheinlichkeitsraum, und B 1,, B n seien paarweise disjunkte Ereignisse mit B i = Ω. Für jedes Ereignis A gilt dann: P(A) = P(A B 1

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

= 7! = 6! = 0, 00612,

= 7! = 6! = 0, 00612, Die Wahrscheinlichkeit, dass Prof. L. die Wette verliert, lässt sich wie folgt berechnen: Ω = {(i 1,..., i 7 ) : i j {1... 7}, j = 1... 7}, wobei i, j für den Wochentag steht, an dem die Person j geboren

Mehr

10.5 Maximum-Likelihood Klassifikation (I)

10.5 Maximum-Likelihood Klassifikation (I) Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen Kapitel ML:IV IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-1 Statistical Learning c STEIN 2005-2011 Definition 1 (Zufallsexperiment,

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. April 2017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 2 Version: 11.

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Werkzeuge der empirischen Forschung

Werkzeuge der empirischen Forschung Wolfgang Kössler Institut für Informatik, Humboldt-Universität zu Berlin SS2008 18. April 2008 Übersicht 1 2 Dateneingabe und Transformation Allgemeine Eingabe über die Eingabe durch externes File Wichtige

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Chapter 1 : þÿ b e t a t h o m e g u t s c h e i n c h a p t e r

Chapter 1 : þÿ b e t a t h o m e g u t s c h e i n c h a p t e r Chapter 1 : þÿ b e t a t h o m e g u t s c h e i n 2 0 1 6 c h a p t e r þÿ S i e k ö n n e n s i c h a u f b e t - a t - h o m e. c o m ü b e r a l l w e t t e n! D i e g r ö ß t e S h o w d i r. Z a

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Übungen Abgabetermin: Freitag, , 10 Uhr

Übungen Abgabetermin: Freitag, , 10 Uhr Universität Münster Institut für Mathematische Statistik Stochastik für Lehramtskandidaten SoSe 015, Blatt 1 Löwe/Heusel Übungen Abgabetermin: Freitag, 10.7.015, 10 Uhr Hinweis: Dies ist nur eine Beispiellösung.

Mehr

Wahrscheinlichkeit (Teschl/Teschl 2, Kap. 26)

Wahrscheinlichkeit (Teschl/Teschl 2, Kap. 26) Wahrscheinlichkeit (Teschl/Teschl 2, Kap. 26) Gegeben Menge Ω (Wahscheinlichkeitsraum, Menge aller möglichen Ausgänge eines Zufallsexperiments), Abbildung P : P(Ω) [0, 1] (Wahrscheinlichkeit): Jeder Teilmenge

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio

Mehr

Data Science (WS 2018/2019) Klaus Berberich

Data Science (WS 2018/2019) Klaus Berberich 1 Data Science (WS 2018/2019) Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisation Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Assoziationsanalyse 6. Neuronale Netze

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie Kapitel 2 Wahrscheinlichkeitstheorie Josef Leydold c 2006 Mathematische Methoden II Wahrscheinlichkeitstheorie 1 / 24 Lernziele Experimente, Ereignisse und Ereignisraum Wahrscheinlichkeit Rechnen mit Wahrscheinlichkeiten

Mehr

Evidenzpropagation in Bayes-Netzen und Markov-Netzen

Evidenzpropagation in Bayes-Netzen und Markov-Netzen Einleitung in Bayes-Netzen und Markov-Netzen Thomas Thüm 20. Juni 2006 1/26 Thomas Thüm in Bayes-Netzen und Markov-Netzen Übersicht Einleitung Motivation Einordnung der Begriffe 1 Einleitung Motivation

Mehr

Bedingte Wahrscheinlichkeiten

Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten Bei der Betrachtung der Ereignisse A und B eines Zufallsexperiments muss man die beiden im folgendem beschrieben zwei Situationen unterscheiden. 1. Das Ereignis A und B tritt

Mehr

Data Science (WS 2017/2018) Klaus Berberich

Data Science (WS 2017/2018) Klaus Berberich 1 Data Science (WS 2017/2018) Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisation Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Neuronale Netze 6. Assoziationsanalyse

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Vorlesung Statistik WING ASW Melanie Kaspar, Prof. Dr. B. Grabowski 1

Vorlesung Statistik WING ASW Melanie Kaspar, Prof. Dr. B. Grabowski 1 Melanie Kaspar, Prof. Dr. B. Grabowski 1 Aus diesen Eigenschaften lassen sich alle weiteren Eigenschaften ableiten: Beweis zu 1) Melanie Kaspar, Prof. Dr. B. Grabowski 2 Aufgabe Die Wahrscheinlichkeit

Mehr

Chapter 1 : þÿ b e t a t h o m e P r e m i e r L e a g u e A b s t i e g s c h a p t e r

Chapter 1 : þÿ b e t a t h o m e P r e m i e r L e a g u e A b s t i e g s c h a p t e r Chapter 1 : þÿ b e t a t h o m e P r e m i e r L e a g u e A b s t i e g s c h a p t e r þÿ B e s t U k a s h B i n g o S i t e s b e s t e c a s i n o s p i e l a l l e r z e i t e n p c O n l i n e c

Mehr

Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen

Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (32 Punkte) In einer medizinischen Studie werden zwei Tests zur Diagnose von Leberschäden verglichen. Dabei wurde folgendes festgestellt: Test 1 erkennt

Mehr

3 Wahrscheinlichkeitstheorie

3 Wahrscheinlichkeitstheorie Einige mathematische Konzepte 3 Wahrscheinlichkeitstheorie 3.1 Wahrscheinlichkeit Die Wahrscheinlichkeitstheorie modelliert Situationen, in denen Unsicherheit über bestimmte Aspekte der Umwelt vorherrscht.

Mehr

Biostatistik, Winter 2011/12

Biostatistik, Winter 2011/12 Biostatistik, Winter 2011/12 Wahrscheinlichkeitstheorie:, Unabhängigkeit Prof. Dr. Achim Klenke http://www.aklenke.de 6. Vorlesung: 02.12.2011 1/30 Inhalt 1 Wahrscheinlichkeit 2 2/30 Wahrscheinlichkeit

Mehr

Chapter 1 : þÿ b e t a t h o m e a n d r o i d a p p h e r u n t e r l a d e n a p k c h a p t e r

Chapter 1 : þÿ b e t a t h o m e a n d r o i d a p p h e r u n t e r l a d e n a p k c h a p t e r Chapter 1 : þÿ b e t a t h o m e a n d r o i d a p p h e r u n t e r l a d e n a p k c h a p t e r þÿ d o c h a u c h. M ö c h t e a u s l ö s e n i n g e l d u m w a n d e l n d a s s s i c h e i n, t

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit Kapitel 17 Unabhängigkeit und Homogenität 17.1 Unabhängigkeit Im Rahmen der Wahrscheinlichkeitsrechnung ist das Konzept der Unabhängigkeit von zentraler Bedeutung. Die Ereignisse A und B sind genau dann

Mehr

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10 Agenda: 1: Klassifizierung allgemein 2: der naive Bayes-Klassifizierer 3: Beispiel 4: Probleme 5: Fazit 6: Quellen 1: Klassifizierung allgemein: 1: Klassifizierung allgemein: - Einordnung von Objekten

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung

Mehr

Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen

Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter hoechstoetter@statistik.uni-karlsruhe.de

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Unabhängigkeit von Ereignissen A, B unabhängig:

Mehr

Unabhängigkeit KAPITEL 4

Unabhängigkeit KAPITEL 4 KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht

Mehr

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen 3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen 3.1 Einführung Bsp. 19 (3-maliges Werfen einer Münze) Menge der Elementarereignisse: Ω {zzz,zzw,zwz,wzz,zww,wzw,wwz,www}. Ω 2 3 8 N Wir definieren

Mehr

Chapter 1 : þÿ b e t a t h o m e T e l e f o n n u m m e r u k c h a p t e r

Chapter 1 : þÿ b e t a t h o m e T e l e f o n n u m m e r u k c h a p t e r Chapter 1 : þÿ b e t a t h o m e T e l e f o n n u m m e r u k c h a p t e r þÿ 3 1. D e z. 2 0 1 1 M a r c e l o B i e l s a n å e d e a l d r i g a t i n d l e d e t r æ n i n g e n i L a z i o, f ø

Mehr

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 2- WS 28/9 2-2 Data Mining WS 28/9 Übersicht

Mehr

Pairwise Naive Bayes Classifier

Pairwise Naive Bayes Classifier Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}. Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung

Mehr

Mathe-Camp 2017 Stochastik: Geometrische Wahrscheinlichkeiten

Mathe-Camp 2017 Stochastik: Geometrische Wahrscheinlichkeiten Mathe-Camp 2017 Stochastik: Geometrische Wahrscheinlichkeiten Jo rn Saß, sass@mathematik.uni-kl.de Fachbereich Mathematik, TU Kaiserslautern Arbeitsgruppe Stochastische Steuerung und Finanzmathematik Kaiserslautern

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Lösungsskizzen zur Präsenzübung 07

Lösungsskizzen zur Präsenzübung 07 Lösungsskizzen zur Präsenzübung 07 Hilfestellung zur Vorlesung Anwendungen der Mathematik im Wintersemester 2015/2016 Fakultät für Mathematik Universität Bielefeld Veröffentlicht am 14. Dezember 2015 von:

Mehr