Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Größe: px
Ab Seite anzeigen:

Download "Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus"

Transkript

1 3. Klassifikation

2 Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos anhand seiner Leistung und Gewicht 2

3 Motivation 3

4 Anwendungsbeispiele Klassifikation Klassifikation von eingehenden s anhand ihres Inhalts in die beiden Klassen Spam und Nicht-Spam Bestimmen des Sentiments (positiv, neutral, negativ) eines Satzes anhand der darin enthaltenen Wörter Produktempfehlungen durch Vorhersage, ob ein Artikel interessant oder uninteressant für einen Kunden ist Handschrifterkennung durch Klassifikation von gescannten Ziffern in die Klassen 0,,9 4

5 Binäre Klassifikation vs. Mehrklassenklassifikation Klassifikationsverfahren lassen sich danach unterscheiden, ob sie nur zwei Klassen (binär) oder beliebig viele Klassen unterscheiden können Binäres Klassifikationsverfahren lässt sich mittels folgender Strategien zur Mehrklassenklassifikation verwenden One-vs-All: Trainiere für jede der n Klassen ein Modell, das die Klasse von den anderen Klassen unterscheidet; ordne einen Datenpunkt der Klasse mit höchster Konfidenz zu One-vs-One: Trainiere für jedes Paar von Klassen ein Modell, das die beiden unterscheidet; ordnet Datenpunkt der am häufigsten vorhergesagten Klasse zu 5

6 Überwachtes Lernen vs. unüberwachtes Lernen Klassifikationsverfahren sind wie Regressionverfahren typische Beispiele für überwachtes Lernen (supervised learning) anhand von Trainingsdaten (d.h. Datenpunkte mit bekanntem Wert des abhängigen Merkmals) Unüberwachtes Lernen (unsupervised learning) mit Clusteringverfahren als typischen Beispielen benötigt hingegen keine Trainingsdaten Teilüberwachtes Lernen (semi-supervised learning) lernt anhand von Trainingsdaten und anderen Daten 6

7 Inhalt 3.1 Evaluation 3.2 Logistische Regression 3.3 k-nächste Nachbarn 3.4 Naïve Bayes 3.5 Entscheidungsbäume 3.6 Ensemble Learning 3.7 Support Vector Machines 3.8 Label Propagation 7

8 3.1 Evaluation Wie können wir die Güte, d.h. Vorhersagekraft, eines Klassifikationsverfahren systematisch evaluieren? Aufteilung in Trainings-, Validierungs- und Testdaten (z.b. mittels k-facher Kreuzvalidierung) ist wie bei Regressionsverfahren gute Praxis Zunächst betrachten wir den Fall binärer Klassifikation und erweitern die Gütemaße dann für den Fall der Mehrklassenklassifikation 8

9 Konfusionsmatrix Die Vorhersagen eines binären Klassifikators lassen sich in einer Konfusionsmatrix darstellen Die beiden Klassen werden hierbei allgemein als 0 (Negative) und 1 (Positive) bezeichnet Einteilung klassifizierter Datenpunkte in vier Kategorien Richtig Negative (true negatives) Falsch Positive (false positives) Falsch Negative (false negatives) Richtig Positive (true positives) 9

10 Konfusionsmatrix Vorhersage 0 (Nein) 1 (Ja) Daten 0 (Nein) Richtig Negative (RN) Falsch Positive (FP) 1 (Ja) Falsch Negative (FN) Richtig Positive (RP) Basierend auf solch einer Konfusionsmatrix lassen sich nun Gütemaße definieren, welche verschiedene Eigenschaften des Klassifikators bewerten 10

11 Korrektklassifizierungsrate und Fehlerquote Korrektklassifizierungsrate (accuracy) misst die Fähigkeit des Klassifikators, Datenpunkte der richtigen Klasse zuzuordnen KKR = RP+RN FP+FN +RP+RN Fehlerquote (error rate) misst die Tendenz des Klassifikators, Datenpunkte der falschen Klasse zuzuordnen FQ = FP+FN FP+FN +RP+RN =1 KKR 11

12 Richtig-Positiv-Rate und Falsch-Positiv-Rate Richtig-Positiv-Rate (true positive rate) misst die Fähigkeit des Klassifikators, Datenpunkte der positiven Klasse richtig zu klassifizieren RPR = RP FN +RP Falsch-Positiv-Rate (false positive rate) misst die Tendenz des Klassifikators, Datenpunkte der negativen Klasse falsch zu klassifizieren FPR = FP FP+RN 12

13 Präzision und Ausbeute Präzision (auch: Genauigkeit) (precision) misst die Fähigkeit des Klassifikators, Datenpunkte richtig der positiven Klasse zuzuordnen P = RP RP+FP Ausbeute (auch: Trefferquote) (recall) misst die Fähigkeit des Klassifikators, Datenpunkte der positiven Klasse richtig zu klassifizieren R = RP FN +RP 13

14 F1-Maß F1-Maß (f1 measure) als harmonisches Mittel von Präzision und Ausbeute wird in der Praxis viel verwendet F1 =2 P R P+R 14

15 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Korrektklassifizierungsrate Fehlerquote KKR = = FQ = =

16 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Richtig-Positiv-Rate RPR = = Falsch-Positiv-Rate FPR = =

17 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Präzision P = = Ausbeute R = =

18 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 F1-Maß F1 =

19 Gütemaße für Mehrklassenklassifikation Konfusionsmatrix enthält bei Mehrklassenklassifikation eine Zeile und eine Spalte pro Klasse, z.b. bei drei Klassen: Vorhersage A B C Daten A B C Grundlegende Idee ist nun, dass wir jede Klasse einmal als positive und die anderen als negative Klasse betrachten und die resultierenden Gütemaße aggregieren 19

20 Beispiel Mehrklassenklassifikation Daten Vorhersage A B C A B C A B C V V V D D D

21 Mikro- und Makro-Mittelwertbildung Es gibt zwei Möglichkeiten zur Mittelwertbildung über das gewünschte Gütemaß je Klasse Mikro-Mittelwertbildung (micro average) summiert jede der vier Kategorien (RN, FN, RP, FP) über die Klassen und setzt diese Summen in die Definition ein P = R = RP A + RP B + RP C RP A + RP B + RP C + FP A + FP B + FP C RP A + RP B + RP C FN A + FN B + FN C + RP A + RP B + RP C 21

22 Beispiel Mikro-Mittelwertbildung A B C V V V D D D P = R = = =

23 Mikro- und Makro-Mittelwertbildung Makro-Mittelwertbildung (macro average) berechnet das Gütemaß pro Klasse und bildet den Mittelwert P = 1 3 (P A + P B + P C ) R = 1 3 (R A + R B + R C ) 23

24 Beispiel Makro-Mittelwertbildung A B C V V V D D D P A = = R A = = P B = = R B = = P C = = 5 16 R C = = 5 30 P = R =

25 3.2 Logistische Regression Logistische Regression ist ein einfaches aber weit verbreitetes binäres Klassifikationsverfahren, welches auf linearer Regression aufbaut Logistische Regression betrachtet Datenpunkte, (x (i,1),x (i,2),...,x (i,m),y i ) wobei das abhängige nominale Merkmal die Werte 0 und 1 annehmen kann, d.h,. y i {0, 1} 25

26 Logistische Regression Logistische Regression sagt die Wahrscheinlichkeit ŷ i = P [x i gehört zu Klasse 1] 1 ŷ i = P [x i gehört zu Klasse 0] voraus, und wir können die Klasse durch Runden ( 0 : ŷ i < 0.5 c(ŷ i )= 1 : ŷ i 0.5 bestimmen 26

27 Logistische Regression Logistische Regression nimmt als Model an, dass sich das logarithmische Chancenverhältnis (log odds ratio) als Linearkombination der unabhängigen metrischen Merkmale erklären lässt log ŷ i (1 ŷ i ) = w 0 + w 1 x i, w m x i,m Löst man dies nach der Vorhersage auf, erhält man 1 ŷ i = 1+e (w 0+w 1 x i, w m x i,m ) 27

28 Logistische Funktion Die logistische Funktion (auch: Sigmoidfunktion) (z) = 1 1+e z bildet Werte aus (-,+ ) nach [0, 1] ab 28

29 Logistische Regression? Logistische Regression bestimmt eine Gerade (allgemein: Hyperebene), welche die Datenpunkte der Klassen möglichst gut separiert, d.h. voneinander trennt 29

30 Logistische Regression Logistische Regression maximiert Wahrscheinlichkeit (likelihood), dass das Modell die beobachteten Werte y i korrekt klassifiziert nÿ (ŷ i ) y i (1 ŷ i ) 1 y i i=1 Intuition: niedrige Wahrscheinlichkeit für Werte in Klasse 0 (d.h. y i = 0) hohe Wahrscheinlichkeit für Werte in Klasse 1 (d.h. y i = 1) 30

31 Logistische Regression Straffunktion betrachtet negative logarithmisch transformierte Wahrscheinlichkeit (log likelihood) A n B Ÿ L(w) = log (ŷ i ) y i (1 ŷ i ) 1 y i i=1 nÿ = y i log(ŷ i )+(1 y i ) log(1 ŷ i ) i=1 Die optimalen Parameter w lassen sich mit Hilfe des Gradientenabstiegsverfahrens bestimmen 31

32 Logistische Regression in Python import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split # Modell schätzen ## Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix X extrahieren X = cars.iloc[:, [3,4]].values ## Herkunft (U.S. vs. Non-U.S.) als binäres Merkmal extrahieren y = [1 if o == 1 else 0 for o in cars.iloc[:, 7].values] ## Zufällige Aufteilung in 80% Trainingsdaten und 20% Testdaten X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) ## Logistische Regression lr = LogisticRegression() lr.fit(x_train, y_train) Vollständiges Jupyter-Notebook unter:

33 Logistische Regression in Python 33

34 Zusammenfassung Klassifikation sagt abhängiges nominales Merkmal anhand unabhängiger metrischer Merkmale voraus Konfusionsmatrix als Basis verschiedener Gütemaße Mikro- und Makro-Mittelwertbildung zur Berechnung der Gütemaße im Fall von mehr als zwei Klassen Logistische Regression als Klassifikationsverfahren, welches auf der multiplen lineare Regression aufbaut 34

35 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3 und 6) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 18 und 22) 35

36 3.3 k-nächste Nachbarn Klassifikation anhand der k nächsten Nachbarn ist ein distanzbasiertes Verfahren, das mehr als zwei Klassen unterstützt Idee: Neuer Datenpunkt wird klassifiziert, indem die k nächsten Datenpunkte mit bekannter Klasse gemäß geeignetem Distanzmaß bestimmt werden die häufigste aus deren Klassen ausgewählt wird Typische Werte für k sind {5, 10, 15, 25}; im Fall binärer Klassifikation ist Wahl eines ungeraden Werts sinnvoll 36

37 k-nächste Nachbarn k-nächste Nachbarn (k nearest neighbors, knn) ist ein faules Lernverfahren (lazy learner), da kein Modell bestimmt wird 37

38 k-nächste Nachbarn? k =3 Vorhersage: 38

39 Minkowski-Distanz Minkowski-Distanz als Familie geeigneter Distanzmaße A m B 1/p ÿ d(x, x Õ )= x i x Õ i p mit Parameter p i=1 39

40 Minkowski-Distanz als Metrik Minkowski-Distanz ist eine Metrik, d.h. es gelten positive Definitheit x, x Õ : d(x, x Õ ) Ø 0 Symmetrie x, x Õ : d(x, x Õ )=d(x Õ,x) Dreiecksungleichung x, x Õ,x ÕÕ : d(x, x ÕÕ ) Æ d(x, x Õ )+d(x Õ,x ÕÕ ) 40

41 Manhattan-Distanz Manhattan-Distanz als Minkowski-Distanz für p = 1 mÿ d(x, x Õ )= x i x Õ i i=1 (2,7) Distanz: 5 Blöcke (z.b. für ein Taxi) (1,3) 41

42 Euklidische Distanz Euklidische Distanz als Minkowski-Distanz für p = 2 ˆ ıÿ d(x, x Õ )= Ù m (x i x Õ i )2 i=1 (2,7) (1,3) Distanz: 4.12 Blocks (z.b. für einen Vogel) 42

43 Probleme bei der Berechnung von Distanzen Betrachten wir Leistung und Gewicht konkreter Autos Leistung [hp] Gewicht [lbs] Die Merkmale haben unterschiedliche Wertebereiche Unterschiede im Gewicht sind tendenziell größer und dominieren die berechneten Distanzen Wir müssen die Wertebereiche der Merkmale anpassen 43

44 Min-Max-Normalisierung Min-Max-Normalisierung bildet Merkmale auf den Wertebereich [0,1] ab es seien z 1,, z n die beobachteten Werte des Merkmals der normalisierte Wert einer Beobachtung ist dann z Õ i = z i min j (z j ) max j (z j ) min j (z j ) Minimum wird auf 0 und Maximum wird auf 1 abgebildet Normalisierung reagiert sensibel auf Ausreißer (outliers) in den Daten (z.b. Messfehler, fehlerhafte Eingaben) 44

45 Standardisierung Standardisierung bildet Merkmale auf den Wertebereich (-,+ ) ab und die standardisierten Werte geben an, um wie viele Standardabweichungen der ursprüngliche Wert vom Mittelwert abweicht es seien z 1,, z n die beobachteten Werte des Merkmals der standardisierte Wert einer Beobachtung ist dann z Õ i = z i µ mit Mittelwert und Standardabweichung als ˆ µ = 1 nÿ ı z i = Ù 1 nÿ (z n i µ) 2 n i=1 i=1 45

46 k-nächste Nachbarn k-nächste Nachbarn ist ein einfaches, aber robustes Klassifikationsverfahren, das immer anwendbar ist, wenn zwischen Datenpunkten ein sinnvolles Distanzmaß definiert werden kann Nachteile: naïve Implementierung, d.h. Distanzberechnung zu allen Datenpunkten aus den Trainingsdaten, ist rechenintensiv (bessere Implementierungen verwenden Indexstrukturen) geringe Interpretierbarkeit, d.h. keine Erkenntnisse darüber, welche Eigenschaften die Datenpunkte einer Klasse auszeichnen (z.b. viel Hubraum für U.S.) 46

47 k-nächste Nachbarn in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score ## Autodaten laden cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix X extrahieren X = cars.iloc[:, [3,4]].values ## Herkunft als binäres Merkmal extrahieren y = [1 if o==1 else 0 for o in cars.iloc[:, 7].values] ## Aufteilung in Trainings- und Testdaten X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) ## knn mit k = 7 anwenden knn = KNeighborsClassifier(n_neighbors=7) knn.fit(x_train, y_train) y_predicted = knn.predict(x_test) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision:\n", precision_score(y_true=y_test, y_pred=y_predicted)) print("ausbeute:\n", recall_score(y_true=y_test, y_pred=y_predicted)) print("f1:\n", f1_score(y_true=y_test, y_pred=y_predicted)) 47

48 Normalisierung und Standardisierung in Python from sklearn.preprocessing import MinMaxScaler ## Normalisierung der Daten min_max_scaler = MinMaxScaler() min_max_scaler.fit(x_train) # determine min and max X_train_normalized = min_max_scaler.transform(x_train) X_test_normalized = min_max_scaler.transform(x_test) from sklearn.preprocessing import StandardScaler ## Standardisierung der Daten scaler = StandardScaler() scaler.fit(x_train) # determine mean and standard deviation X_train_standardized = scaler.transform(x_train) X_test_standardized = scaler.transform(x_test) Vollständiges Jupyter-Notebook unter:

49 3.4 Naïve Bayes Naïve Bayes ist eine Familie von Klassifikationsverfahren, die insbesondere zur Klassifikation von Textdokumenten (z.b. s in Spam/Nicht-Spam) eingesetzt wird Der Name Naïve Bayes rührt daher, dass die Verfahren den Satz von Bayes für bedingte Wahrscheinlichkeiten verwenden und eine (naïve) Unabhängigkeitsannahme über die Verteilung der verwendeten Merkmale machen 49

50 Bedingte Wahrscheinlichkeit Betrachte zwei Ereignisse A und B, z.b. A ist das Ereignis, dass Objekt ein Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]=5/9 P[B ]=4/9 A B ist das Ereignis, dass ein grünes Kreis gezogen wird P[A B ]=3/9 50

51 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P[ B A ] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist P[B A ]= P[A B ] P[A ] hier: P[B A ]=3/5 P[A B ]=3/4 51

52 Stochastische Unabhängigkeit Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A] P[B ] Bemerkung: Die beiden Ereignisse A und B im vorigen Beispiel sind nicht (stochastisch) unabhängig 52

53 Satz von Bayes Thomas Bayes ( ) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ] P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt das Umkehren der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten 53

54 Satz von Bayes Beispiel: Untersuchung von Wildtieren Ereignis A soll sein, dass Wildtier ein Fuchs ist Ereignis B soll sein, dass Wildtier an Tollwut erkrankt ist Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= =

55 Naïve Bayes zur Klassifikation von Dokumenten Dokumente (z.b. s oder Zeitungsartikel) werden vorverarbeitet, z.b. indem Groß- und Kleinschreibung entfernt wird und die Dokumente an Leerzeichen in Wörter aufgeteilt werden Jedes Dokument wird so in eine Multimenge von Wörtern (bag of words) überführt, d.h. Reihenfolge der Wörter geht verloren, ihre Häufigkeit bleibt jedoch erhalten The green politician Peter Green { green, green, peter, politician, the } 55

56 Naïve Bayes zur Klassifikation von Dokumenten Trainingsdaten stehen uns in Form von Dokumenten d zur Verfügung, wobei wir für jedes die zugehörige Klasse c (z.b. Spam / Nicht-Spam) kennen Zur Klassifikation eines vorher unbekannten Dokuments d bestimmt man die bedingten Wahrscheinlichkeiten P[c d ] und ordnet das Dokument in die Klasse mit der höchsten bedingten Wahrscheinlichkeit ein 56

57 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeiten der einzelnen Klassen lassen sich auf Grundlage der Trainingsdaten schätzen als P[c ]= # Dokumente in Klasse c # Dokumente Wahrscheinlichkeit, dass ein Wort w in einem Dokument aus einer bestimmten Klasse c vorkommt, geschätzt als P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c # Wortvorkommen in Dokumenten in Klasse c 57

58 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass vorher unbekanntes Dokument d zur Klasse c gehört, geschätzt als P[c d ]= P[d c ] P[c ] P[d ] dies kann vereinfacht werden, da nur die Klasse mit maximaler bedingter Wahrscheinlichkeit bestimmt werden muss, der Faktor P[d] jedoch für alle Klassen gleich ist P[c d ] Ã P[d c ] P[c ] 58

59 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass Dokument d aus der Klasse c stammt, schätzt man anhand der Wortvorkommen als P[d c ] Ã Ÿ P[w c ] f(w,d) wœd hierbei sei f(w, d) die Zahl der Vorkommen des Worts w im Dokument d Intuition: Dies entspricht der Wahrscheinlichkeit, dass das Dokument d durch zufälliges Ziehen von Wörtern gemäß der Wahrscheinlichkeiten P[w c] zustande kommt 59

60 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Klassen N und S P[N ]=3/5 P[S ]=2/5 60

61 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Wörter a, b, x und y je Klasse P[a N ]=5/10 P[a S ]=1/10 P[b N ]=3/10 P[x N ]=1/10 P[y N ]=1/10 P[b S ]=1/10 P[x S ]=4/10 P[y S ]=4/10 61

62 Beispiel Naïve Bayes Klassifikation des vorher unbekannten Dokuments d 6 a b x y d ? P[N d 6 ]= P[d 6 N ] P[N ] 3 5 = P[S d 6 ]= P[d 6 S ] P[S ] 3 1 = =6.4/106 Das Dokument wird in die Klasse N eingeordnet 3 5 = 135/106 62

63 Umgang mit Nullwahrscheinlichkeiten Kommt ein Wort w in keinem Dokument einer Klasse c vor, so schätzen wir P[w c ]=0 Für ein Dokument, welches w enthält, schätzen wir dann P[c d ]=0 Solche Nullwahrscheinlichkeiten können durch Verfahren zur statistischen Glättung (smoothing) vermieden werden 63

64 Umgang mit Nullwahrscheinlichkeiten Additive Glättung (add-one smoothing) ist ein einfaches Glättungsverfahren, bei dem jede Worthäufigkeit je Klasse um eins erhöht wird, dies entspricht P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c +1 # Wortvorkommen in Dokumenten in Klasse c + # Wörter 64

65 Rechnen mit kleinen Wahrscheinlichkeiten Wie am Beispiel zu erkennen, werden die betrachteten Wahrscheinlichkeiten sehr klein, was zu numerischen Problemen (z.b. Abrunden zu Null) führen kann Für eine Implementierung ist es daher ratsam, eine Log-Transformation vorzunehmen log P [ c d ] Ã log P [ d c ] + log P [ c ] log P [ d c ] Ã ÿ wœd f(w, d) log P [ w c ] 65

66 Rechnen mit kleinen Wahrscheinlichkeiten Die Logarithmus-Funktion ist monoton; da es nur gilt, die maximale bedingte Wahrscheinlichkeit P[c d] zu ermitteln, ihr genauer Wert jedoch irrelevant ist, ist eine solche Transformation zulässig 66

67 Naïve Bayes mit metrischen Merkmalen Naïve Bayes kann zur Klassifikation von Datenpunkten x i anhand von metrischen Merkmalen eingesetzt werden P[c x i ] Ã P[x i c ] P[c ] Wahrscheinlichkeiten der einzelnen Klassen c werden anhand ihrer Anzahl in den Trainingsdaten geschätzt P[c ]= # Datenpunkte in Trainingsdaten in Klasse c # Datenpunkte in Trainingsdaten 67

68 Naïve Bayes mit metrischen Merkmalen Wahrscheinlichkeit, dass Datenpunkt x aus der Klasse c stammt, schätzt man anhand seiner Merkmale als P[x i c ]= mÿ P[x i,j c ] j=1 mit Unabhängigkeitsannahme bezüglich Verteilung der unabhängigen Merkmale Zudem wird angenommen, dass das j-te unabhängige Merkmal in der Klasse c normalverteilt ist und Parameter µ c,j und σ c,j anhand der Trainingsdaten geschätzt (analog zur Standardisierung) 68

69 Naïve Bayes mit metrischen Merkmalen Wahrscheinlichkeit, dass beobachteter Wert x i,j des j-ten Merkmals in Klasse c auftritt, wird geschätzt als P[x i,j c ]= 1 c,j Ô 2fi exp (x i,j µ c,j ) c,j 69

70 Naïve Bayes in Python Um Naïve Bayes auf Textdokumenten zu demonstrieren, verwenden wir eine Sammlung von 400,000 Bewertungen von amazon.com zu Mobiltelefonen """CLEAR CLEAN ESN"" Sprint EPIC 4G Galaxy SPH- D700*FRONT CAMERA*ANDROID*SLIDER*QWERTY KEYBOARD*TOUCH SCREEN",Samsung,199.99,4,"nice phone, nice up grade from my pantach revue. Very clean set up and easy set up. never had an android phone but they are fantastic to say the least. perfect size for surfing and social media. great phone samsung",0 Ziel ist die Vorhersage der Anzahl von Sternen (1-5) (hier: 4) anhand des Inhalts der Bewertung 70

71 Naïve Bayes in Python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score # Bewertungen einlesen reviews = pd.read_csv("../data/amazon-unlocked-mobile/amazon-unlocked-mobile.csv", encoding='utf-8') # Daten bereinigen (Bewertungen mit NULL-Werten werden entfernt) X = reviews.iloc[:,4].values X_clean = X[pd.notnull(X)] y = reviews.iloc[:,3].values y_clean = y[pd.notnull(x)] ## Dokumente in Multimengen von Wörtern (bag of words) umwandeln vectorizer = CountVectorizer() X_cnt = vectorizer.fit_transform(x_clean) ## Zufällige Aufteilung in Trainingsdaten (80%) und Testdaten (20%) X_train, X_test, y_train, y_test = train_test_split(x_cnt, y_clean, test_size=0.2, random_state=0) ## Naive Bayes mit additiver Glättung trainieren nb = MultinomialNB(alpha=1.0) nb.fit(x_train, y_train) 71

72 Naïve Bayes in Python ## Konfusionsmatrix ausgeben print("kofusionsmatrix:\n", confusion_matrix(y_true=y_test, y_pred=y_predicted)) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision (mikro):\n", precision_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("ausbeute (mikro):\n", recall_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("f1 (mikro):\n", f1_score(y_true=y_test, y_pred=y_predicted, average='micro')) Vollständiges Jupyter-Notebook unter:

73 Zusammenfassung k-nächste Nachbarn als distanzbasiertes Verfahren, welches kein Modell berechnet Normalisierung und Standardisierung zur Angleichung der Wertebereiche verschiedener Merkmale Naïve Bayes als probabilistisches Verfahren wendet den Satz von Bayes an, um bedingte Wahrscheinlichkeiten zu schätzen, und macht eine Unabhängigkeitsannahme bezüglich der Verteilung der Merkmale innerhalb einer Klasse 73

74 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3 und 6) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 2, 18 und 22) 74

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

3.5 Entscheidungsbäume

3.5 Entscheidungsbäume 3.5 Entscheidungsbäume Entscheidungsbäume (decision trees) sind diskriminative Verfahren zur Klassifikation in zwei oder mehr Klassen; unabhängige Merkmale der Datenpunkte können nominal, ordinal oder

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

6.2 Feed-Forward Netze

6.2 Feed-Forward Netze 6.2 Feed-Forward Netze Wir haben gesehen, dass wir mit neuronalen Netzen bestehend aus einer oder mehreren Schichten von Perzeptren beispielsweise logische Funktionen darstellen können Nun betrachten wir

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären? 2. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:

Mehr

2.4 Gradientenabstiegsverfahren

2.4 Gradientenabstiegsverfahren 2.4 Gradientenabstiegsverfahren Optimale Parameter lassen sich bei linearer Regression analytisch bestimmen, dennoch verwendet man in der Regel das sogenannte Gradientenabstiegsverfahren, um diese (näherungsweise)

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

A linear-regression analysis resulted in the following coefficients for the available training data

A linear-regression analysis resulted in the following coefficients for the available training data Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients

Mehr

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta Multivariate Lineare Regression Christian Herta Oktober, 2013 1 von 34 Christian Herta Multivariate Lineare Regression Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Semiüberwachte Paarweise Klassifikation

Semiüberwachte Paarweise Klassifikation Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Logistische Regression

Logistische Regression Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Optimaler Parametervektor β lässt sich durch Lösen eines linearen Gleichungssystems bestimmen

Optimaler Parametervektor β lässt sich durch Lösen eines linearen Gleichungssystems bestimmen Rückblick Optimaler Parametervektor β lässt sich durch Lösen eines linearen Gleichungssystems bestimmen Datenpunkte werden durch eine Hyperebene im (m+1)-dimensionalen Raum angenähert Verbrauch 5 10 15

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}. Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Sprechstunde zur Klausurvorbereitung

Sprechstunde zur Klausurvorbereitung htw saar 1 Sprechstunde zur Klausurvorbereitung Mittwoch, 15.02., 10 12 + 13.30 16.30 Uhr, Raum 2413 Bei Interesse in Liste eintragen: Max. 20 Minuten Einzeln oder Kleingruppen (z. B. bei gemeinsamer Klausurvorbereitung)

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule

Mehr

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches

Mehr

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017 10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion

Mehr

10.5 Maximum-Likelihood Klassifikation (I)

10.5 Maximum-Likelihood Klassifikation (I) Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 29. Oktober 2007 1. Statistik 1.1 Wahrscheinlichkeit Pragmatisch: p(e) = n(e) N für N sehr groß Kombination von Wahrscheinlichkeiten p(a oder B) =

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung

Mehr

Musterlösung der Klausur vom 29. Juli 2003

Musterlösung der Klausur vom 29. Juli 2003 Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.

Mehr

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9. 7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik, Magister

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2010 Karlsruher Institut für Technologie Priv.-Doz. Dr. D. Kadelka Klausur Wahrscheinlichkeitstheorie und Statistik vom 14.9.2010 Musterlösungen Aufgabe 1: Gegeben sei eine Urliste

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/52 Biostatistik, Sommer 2017 Prof. Dr. Achim Klenke http://www.aklenke.de 7. Vorlesung: 02.06.2017 2/52 Inhalt 1 Wahrscheinlichkeit Bayes sche Formel 2 Diskrete Stetige 3/52 Wahrscheinlichkeit Bayes

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Lineare Klassifikationsmethoden

Lineare Klassifikationsmethoden Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

i =1 i =2 i =3 x i y i 4 0 1

i =1 i =2 i =3 x i y i 4 0 1 Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 / Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25 Mathematische Grundlagen III Evaluation 16 Juli 2011 1/25 Training Set und Test Set Ein fairer Test gibt an, wie gut das Modell im Einsatz ist Resubstitution: Evaluation auf den Trainingsdaten Resubstitution

Mehr

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind

Mehr

Pairwise Naive Bayes Classifier

Pairwise Naive Bayes Classifier Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer

Mehr

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme Binomialverteilung Wahrscheinlichkeitsfunktion Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Statistik für Ingenieure Vorlesung 2

Statistik für Ingenieure Vorlesung 2 Statistik für Ingenieure Vorlesung 2 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 24. Oktober 2016 2.4 Bedingte Wahrscheinlichkeiten Häufig ist es nützlich, Bedingungen

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Wie liest man Konfidenzintervalle? Teil I. Premiu m Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr