Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen

Größe: px
Ab Seite anzeigen:

Download "Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen"

Transkript

1 Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von Trainingsdaten bestimmt wurden k-nächste Nachbarn als Klassifikationsverfahren basierend auf der Distanz zwischen Datenpunkten Naïve Bayes als probabilistisches Klassifikationsverfahren, welches häufig zur Klassifikation von Texten eingesetzt wird 32

2 63 Clusteranalyse Datenpunkte (zb Dokumente) sind in homogene Gruppen (cluster) einzuordnen, dabei gilt Datenpunkte der gleichen Gruppe sollen möglichst kleine Distanz zueinander haben Datenpunkt in verschiedenen Gruppen sollen möglichst große Distanz zueinander haben y y x x 33

3 Clusteranalyse Drei Arten von Verfahren zur Clusteranalyse repräsentantenbasierte (zb k-means, k-medoids) hierarchische (zb HAC, HDC) dichtebasierte (zb DBScan) Verfahren unterscheiden sich auch darin, ob jeder Datenpunkt einem oder mehreren Clustern mit Gewichtung zugeordnet wird (Soft-Clustering) jeder Datenpunkt einem Cluster zugeordnet werden muss oder auch als Rauschen markiert werden darf 34

4 631 k-means C i Jeder Cluster wird durch Punkt repräsentiert zb µ i Zentroid (bei k-means) µ i = 1 C i ÿ x j œc i x j Medoid (bei k-medoids) µ i = arg min x j œc i Clustering soll die Distanz zwischen Datenpunkten und dem Repräsentanten ihres Clusters minimieren L(C) = kÿ i=1 ÿ x l œc i d(x j, x l ) ÿ x j œc i d(x j, µ i ) 35

5 k-means Bestimmen des optimalen Clusterings nicht möglich C ú C ú = arg min C L(C) k-means als randomisierter iterativer Algorithmus beruht auf einer Greedy-Strategie und findet evtl nur ein lokales Minimum; je Iteration: weise Datenpunkte Cluster mit nächstem Repräsentanten zu berechne Repräsentanten neu basierend auf Datenpunkten Wiederholte Anwendung unter Beibehaltung des besten ermittelten Clusterings in der Praxis empfehlenswert 36

6 k-means 1 // Reprä sentanten zufä llig initialisieren 2 int t = 0; 3 for( int j=1; j <= k; j++) { 4 µ t j = random(m); 5 } 6 7 do { 8 t++; 9 10 // Cluster zurücksetzen 11 for( int j=1; j <= k; j++) { 12 C j = ÿ; 13 } // Datenpunkte nä chstem Cluster zuweisen 16 for (x i œ D) { 17 j ú = arg min d(x i, µ (t 1) j ); j 18 C j ú = C j ú fi {x i }; 19 } // Repräsentanten neu berechnen 22 for( int j=1; j <= k; j++) { 23 µ t j = 1 q C j x i œc j x i ; 24 } } while 1 qk 2 j=1 d(µ(t 1) j µ t j ) > 37

7 Beispiel k-means in R Quelle: Zaki and Meira [4] 38

8 Beispiel k-means im R 2 Quelle: Zaki and Meira [4] 39

9 Beispiel k-means im R 2 Quelle: Zaki and Meira [4] 40

10 Beispiel k-means im R 2 Quelle: Zaki and Meira [4] 41

11 k-means k-means erzeugt konvexe Cluster, dh alle Punkte auf der Geraden zwischen zwei Datenpunkten innerhalb eines Clusters würden ebenfalls zum Cluster gehören Repräsentanten können alternativ unter Berücksichtigung der Datenpunkte initialisiert werden, zb als zufällige Auswahl von k Datenpunkten Alternatives Konvergenzkriterium überprüft, ob sich die Zusammensetzung der Cluster geändert hat, dh ob mindestens ein Datenpunkt Cluster gewechselt hat 42

12 64 Assoziationsanalyse Assoziationsregeln (association rules) beschreiben Zusammenhänge zwischen gemeinsam auftretenden Merkmalen Warenkorbanalyse als typische Anwendung; Assoziationsregeln dann zb {Chips, Windeln} {Bier} {Salsa, Guacamole} {Nachos} ÈStar Wars 1, Star Wars 2 Í ÈStar Wars 3 Í 43

13 641 Häufige Artikelmengen (frequent itemsets) Betrachte eine Menge von bekannten Artikeln (items) I = { x 1,x 2,,x m } Transaktionsdatenbank D ist eine Menge von Transaktionen der Form (t, X ) mit t œ N als eindeutige Transaktions-ID X I als Menge enthaltener Artikel (itemset) Beispiel: I = ; Brezeln, Bier, Chips, Cola, Wurst, Kaese, Brot, Birnen, < D = Y _] _[ (1, {Bier, Cola}), (2, {Wurst, Chips, Birnen}), (3, {Bier, Cola}), (4, {Kaese, Bier, Cola}), (6, {Brot, Wurst, Kaese}), (7, {Brot, Wurst, Birnen}), (8, {Birnen, Brot}), Z _^ _\ 44

14 Support einer Artikelmenge Betrachten wir eine Artikelmenge C, so bezeichnet ihr (absoluter) Support die Anzahl von Transaktionen, in deren Artikelmengen C enthalten ist sup(c, D) = {(t, X) œ D : C X } sup({bier},d)=3 sup({cola},d)=3 sup({cola, Bier}, D)=3 sup({brot, Wurst}, D)=2 sup({birnen, Bier}, D)=0 D = Y _] _[ (1, {Bier, Cola}), (2, {Wurst, Chips, Birnen}), (3, {Bier, Cola}), (4, {Kaese, Bier, Cola}), (6, {Brot, Wurst, Kaese}), (7, {Brot, Wurst, Birnen}), (8, {Birnen, Brot}), Z _^ _\ 45

15 Bestimmen häufiger Artikelmengen Bestimmen häufiger Artikelmengen (frequent itemset mining) nutzt Anti-Monotonie des Supports aus; für zwei beliebige Artikelmengen X und Y gilt X Y sup(x) Ø sup(y ) Beispiel: Betrachten wir die beiden Artikelmengen X = {Bier} Y = {Bier, Cola} so wissen wir, dass die Artikelmenge Y höchstens so häufig vorkommen kann wie die Artikelmenge X 46

16 Bestimmen häufiger Artikelmengen Anti-Monotonie erlaubt die betrachteten Artikelmengen stark einzuschränken (pruning); wissen wir, dass die Artikelmenge X weniger häufig als minsup vorkommt, so wissen wir dass alle Obermengen Y X auch weniger häufig vorkommen 47

17 A-Priori Algorithmus A-Priori Algorithmus findet alle Artikelmengen (frequent itemsets) in einer Transaktionsdatenbank, die häufiger als minsup vorkommen iterativer Algorithmus, der sich in der i-ten Iteration Artikelmengen der Kardinalität i anschaut jede Iteration besteht aus zwei Phasen Generierung von Kandidaten-Artikelmengen der Größe i aus häufigen Artikelmengen der Größe (i-1) Ausputzen (pruning) der Kandidaten-Artikelmengen mittels Durchlaufs durch die Transaktionsdatenbank; nur jene mit Support größer gleich minsup bleiben erhalten stoppt, wenn in einer Iteration keine häufigen Artikelmengen gefunden wurden 48

18 A-Priori Algorithmus 1 // Hä ufige Artikelmengen mit einem Element bestimmen 2 F 1 = {{i} : i œ I sup({i},d) Ø minsup}; 3 4 // Artikelmengen steigender Kardinalität betrachten 5 int k = 2; 6 while(f k 1 = ÿ) { 7 8 // Generiere Kandidaten - Artikelmengen der Größe k 9 C k = {a fi b : a œ F k 1 b œ F k 1 a fl b =(k 2)}; // Ausputzen der Kandidaten - Artikelmengen 12 F k = {a œ C k : sup(a, D) Ø minsup}; k = k + 1; 15 } return F = t k 1 i=1 F i 49

19 Beispiel A-Priori Algorithmus Die folgende Transaktionsdatenbank sei gegeben Y Z (1, {A, B, C}), (2, {B,C}), _] (3, {A, C}), (4, {A, D}), _^ D = (5, {C, D}), (6, {A, C, D}), (7, {A, C, D}), (8, {A, B, D}), _[ _\ (9, {A, B}), (10, {B,C,E}) es sollen Artikelmengen für minsup = 2 bestimmt werden F 1 = {{A}, {B}, {C}, {D}} 50

20 Beispiel A-Priori Algorithmus Erste Iteration (k=2) C 2 = {{A, B}, {A, C}, {A, D}, {B,C}, {B,D}, {C, D}} F 2 = {{A, B}, {A, C}, {A, D}, {B,C}, {C, D}} Zweite Iteration (k=3) C 3 = {{A, B, C}, {A, B, D}, {A, C, D}, {B,C,D}} F 3 = {{A, C, D}} Dritte Iteration (k=4) C 4 = ÿ F 4 = ÿ 51

21 642 Assoziationsregeln Assoziationsregeln erfassen starke Zusammenhänge zwischen dem Auftreten einer Artikelmenge A und einer Artikelmenge B in Transaktionen A B Nur solche Assoziationsregeln sollen gefunden werden, die häufig genug beobachtet wurden (support) eine hohe Vorhersagekraft haben (confidence) überraschend oder unerwartet sind (lift) 52

22 Support einer Assoziationsregel Betrachten wir eine Assoziationsregel A B mit Artikelmengen A und B, so ist ihr Support definiert als sup(a B) =sup(a fi B,D) sup({bier} {Cola}) =3 sup({bier, Cola} {Kaese}) =1 D = Y _] _[ (1, {Bier, Cola}), (2, {Wurst, Chips, Birnen}), (3, {Bier, Cola}), (4, {Kaese, Bier, Cola}), (6, {Brot, Wurst, Kaese}), (7, {Brot, Wurst, Birnen}), (8, {Birnen, Brot}), Z _^ _\ 53

23 Konfidenz einer Assoziationsregel Betrachten wir eine Assoziationsregel A B mit Artikelmengen A und B, so ist ihre Konfidenz (confidence) definiert als conf (A B) = sup(a fi B,D) sup(a, D) conf ({Bier} {Cola}) = 3 3 conf ({Bier, Cola} {Kaese}) = 1 3 D = Y _] _[ (1, {Bier, Cola}), (2, {Wurst, Chips, Birnen}), (3, {Bier, Cola}), (4, {Kaese, Bier, Cola}), (6, {Brot, Wurst, Kaese}), (7, {Brot, Wurst, Birnen}), (8, {Birnen, Brot}), Z _^ _\ 54

24 Bestimmen von Assoziationsregeln Man möchte nun für eine Transaktionsdatenbank D alle Assoziationsregeln A B bestimmen, so dass gilt sup(a B) Ø minsup, dh man ist an Assoziationsregeln, die häufiger als der Parameter minsup beobachtet wurden conf (A B) Ø minconf, dh nur Assoziationsregeln mit Konfidenz höher als Parameter minconf zu bestimmen Vorgehensweise: 1 Bestimme häufige Artikelmengen C mit sup(c) Ø minsup 2 Leite aus häufigen Artikelmengen Assoziationsregeln ab 55

25 Ableiten von Assoziationsregeln Assoziationsregeln lassen sich aus den gefundenen häufigen Artikelmengen wie folgt ableiten betrachte jede häufige Artikelmenge X für jede echte Teilmenge Y X, überprüfe die Konfidenz der Assoziationsregel Y => (X \ Y), dh berechne den Wert sup(x, D) / sup(y, D), und behalte die Assoziationsregel, wenn der Wert größer gleich minconf ist Jede so aus einer häufigen Artikelmengen X generierte Assoziationsregel ist ebenfalls häufig, dh es gilt sup(y => (X \ Y)) minsup 56

26 Ableiten von Assoziationsregeln 1 // Menge gefundener Assoziationsregeln 2 AR = ÿ; 3 4 // Betrachte hä ufige Artikelmengen 5 for (X œ F : X Ø 2) { 6 7 // Betrachte echte Teilmengen 8 for(y µ X ) { 9 10 // Bestimme Konfidenz der Regel Y => (Y \ X) 11 c = sup(x, D)/sup(Y,D); // Konfidenz größer gleich minconf? 14 if (c >= minconf ) { 15 AR = AR fi { Y (X \ Y ) } 16 } 17 } 18 } return AR; 57

27 Beispiel Ableiten von Assoziationsregeln Die folgende Transaktionsdatenbank sei gegeben Y Z (1, {A, B, C}), (2, {B,C}), _] (3, {A, C}), (4, {A, D}), _^ D = (5, {C, D}), (6, {A, C, D}), (7, {A, C, D}), (8, {A, B, D}), _[ _\ (9, {A, B}), (10, {B,C,E}) es sollen Assoziationsregeln für minsup = 2 und minconf = 06 bestimmt werden 58

28 Beispiel Ableiten von Assoziationsregeln Folgende häufige Artikelmengen wurden bestimmt F = Y _] _[ {A} : 7, {B} : 5, {C} : 7, {D} : 5, {A, B} : 3, {A, C} : 5, {A, D} : 4, {B,C} : 3, {C, D} : 3 {A, C, D} : 2 Z _^ _\ Daraus lassen sich die folgenden Assoziationsregeln mit Konfidenz größer gleich minconf = 06 ableiten {B} {A} : 3/5 {A} {C} : 5/7 {C} {A} : 5/7 {D} {A} : 4/5 {B} {C} : 3/5 {D} {C} : 3/5 {C, D} {A} : 2/3 59

29 Assoziationsregeln mit Generalisierungen Artikel lassen sich häufig in Kategorien einteilen, beispielsweise Produkte (zb Chips) in Produktkategorien (zb Snacks) Lebensmittel Artikel können in einer Taxonomie eingeordnet sein und es kann mehrere Ebenen allgemeinerer Produktkategorien geben Chips Snacks Flips Assoziationsregeln mit Generalisierungen zb {Cola, Bier} {Snacks} {Thinkpad X1 } {Drucker} 60

30 Assoziationsregeln mit Generalisierungen Assoziationsregeln mit Generalisierungen lassen sich mit bekannten Verfahren wie A-Priori oder FP-Growth bestimmen, sofern die Transaktionsdatenbank vorab erweitert wird Zu einem Artikel x i seien cat(x i ) seine Produktkategorien; wir definieren eine erweiterte Transaktionsdatenbank als I D Õ = (t, X Õ ) (t, X) œ D X Õ = X fi J cat(x) xœx 61

31 Assoziationsregeln mit Generalisierungen Beispiel: {Cola, Flips, Chips} wird zu {Cola, Flips, Chips, Snacks, Drinks, Lebensmittel} Lebensmittel Snacks Drinks Chips Flips Cola 62

32 643 Häufige Sequenzen (frequent sequences) In vielen Anwendungen spielt die Reihenfolge, in der Elemente (zb Artikel) auftreten, eine Rolle zb Filme in Online-Videothek werden von Kunden geschaut URLs innerhalb einer Website von Besuchern aufgerufen Wörter in natürlichsprachlichen Texten organische Basen (A, T, G, C) in einer DNA Zustände (zb Fehler) in einem System Man kann häufig auftretende Sequenzen in solchen Daten identifizieren, um beispielsweise wiederum Assoziationsregeln zu bestimmen 63

33 Sequenzen Mögliche Anwendungen solcher Assoziationsregeln sind Produktempfehlungen (zb Online-Videothek) Unterstützung des Benutzers bei der Texteingabe (zb auf Smartphone oder in Suchmaschinen) Vorhersage des nächsten Zustands eines Systems 64

34 Alphabet, Sequenz, Teilsequenz Betrachte ein Alphabet Σ von Symbolen (zb Zeichen) und Σ * bezeichne die Menge aller Folgen über diesem Alphabet es sei s eine Sequenz über dem Alphabet Σ s = n ist die Länge der Sequenz s s[i:j] ist eine zusammenhängende Teilsequenz von s s[1:i] ist eine Präfix der Länge i von s s[i:n] ist eine Suffix der Länge (n i + 1) von s Betrachte Alphabet Σ = {a, b, c} und s = <a b b a c>, dann s = 5, s[2:4] = <b b a>, s[1:3] = <a b b> und s[4:n] = <a c> 65

35 Alphabet, Sequenz, Teilsequenz Sequenz r heißt Teilsequenz von s, r s, wenn es eine Abbildung :[1, r ] æ [1, s ] gibt, so dass gilt 1 Æ i Æ r : r[i] =s[ (i)] 1 Æ i, j Æ r : i<j (i) < (j) Beispiel: r = <a b a c> ist Teilsequenz von s = <a b a a b c> r = <a a b c> ist keine Teilsequenz von s = <a b a a c c> Sequenzdatenbank D Σ * ist eine Menge von Folgen 66

36 Support Support einer Sequenz r ist definiert als sup(r, D) = {s œ D : r s} Anti-Monotonie des Supports auch für Sequenzen, dh: r s sup(r) Ø sup(s) Verfahren zum Bestimmen häufiger Sequenzen nutzen diese Eigenschaft aus, um in einer gegebenen Sequenzdatenbank D alle Sequenzen zu finden, die Support von mindestens minsup haben 67

37 GSP GSP ist wie A-Priori eine Algorithmus, der auf einer Generierung und Ausputzen von Kandidaten beruht i-te Iteration betrachtet Sequenzen der Länge i jede Iteration besteht aus zwei Phasen Generierung von Kandidaten-Sequenzen der Länge i aus häufigen Sequenzen der Länge (i-1) Ausputzen (pruning) der Kandidaten-Sequenzen mittels Durchlaufs durch die Sequenzdatenbank; nur jene mit Support größer gleich minsup bleiben erhalten 68

38 GSP 1 // Hä ufige Sequenzen aus einem Symbol bestimmen 2 F 1 = {ÈiÍ : i œ sup(èií,d) Ø minsup}; 3 4 // Artikelmengen steigender Kardinalität betrachten 5 int k = 2; 6 while(f k 1 = ÿ) { 7 8 // Generiere Kandidaten - Sequenzen der Lä nge k 9 C k = {r + s[k 1] : r œ F k 1 s œ F k 1 r[1 : k 2] = s[1 : k 2]}; // Ausputzen der Kandidaten - Sequenzen 12 F k = {r œ C k : sup(r, D) Ø minsup}; k = k + 1; 15 } return F = t k 1 i=1 F i 69

39 Beispiel GSP Die folgende Sequenzdatenbank sei gegeben Y Z Èa abí ÈbcdÍ _] Èb abí ÈcaÍ _^ D = Èd aí ÈbdaÍ Èb cbí ÈbaÍ _[ _\ Èc cí ÈaceÍ und es sollen häufige Sequenzen für minsup = 2 bestimmt werden F 1 = {ÈaÍ, ÈbÍ, ÈcÍ, ÈdÍ} 70

40 Beispiel GSP Erste Iteration (k=2) ; ÈaaÍ, Èa bí, Èa cí, Èa dí, Èb aí, Èb bí, Èb cí, Èb dí, C 2 = Èc aí, Èc bí, Èc cí, Èc dí, Èd aí, Èd bí, Èd cí, Èd dí F 2 = ) ÈabÍ, Èb aí, Èb bí, Èb cí, Èb dí, Èd aí * < Zweite Iteration (k=3) Y Èa bbí, _] Èb abí, Èb aaí, Èb abí, Èb ací, Èb adí, C 3 = Èb baí, Èb bbí, Èb bcí, Èb bdí, Èb caí, Èb cbí, Èb ccí, Èb cdí, _[ Èb daí, Èb dbí, Èb dcí, Èb ddí Z _^ _\ F 3 = ÿ 71

41 72 GSP GSP kann als Breitensuche (breadth-first search) auf dem Präfixbaum aller Sequenzen interpretiert werden F 1 F 2 ÿ a a b c d e b a b c d e c a b c d e d a b c d e e a b c d e

42 Zusammenfassung Clustering gruppiert Datenpunkte in Gruppen, so dass Datenpunkte innerhalb einer Gruppe homogen, über Gruppen hinweg jedoch heterogen sind Assoziationsregeln decken Zusammenhänge in Daten auf (zb Warenkörbe) für Produktempfehlungen oä A-Priori zum Finden häufiger Artikelmengen sowie GSP zum Finden häufiger Sequenzen betrachten Kandidaten aufsteigender Größe und nutzen die Anti-Monotonie des Supports aus, um deren Anzahl zu reduzieren 73

43 Literatur [1] C D Manning, P Raghavan, H Schütze: Information Retrieval, Cambridge University Press, 2008 (Kapitel 14 & 16) [2] M J Zaki und W Meira Jr: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 8-10 & 13) 74

5.2 Assoziationsregeln

5.2 Assoziationsregeln 52 Assoziationsregeln Assoziationsregeln erfassen starke usammenhänge zwischen dem Auftreten einer Artikelmenge A und einer Artikelmenge B in Transaktionen A B Nur solche Assoziationsregeln sollen gefunden

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Data Mining. Informationssysteme, Sommersemester 2017

Data Mining. Informationssysteme, Sommersemester 2017 Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Lernen von Assoziationsregeln

Lernen von Assoziationsregeln Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:

Mehr

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung 8. Optimierung Inhalt 8.1 Motivation 8.2 Optimierung ohne Nebenbedingungen 8.3 Optimierung unter Nebenbedingungen 8.4 Lineare Programmierung 8.5 Kombinatorische Optimierung 2 8.1 Motivation Viele Anwendungen

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren? Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

Maschinelles Lernen in der Bioinformatik

Maschinelles Lernen in der Bioinformatik Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut

Mehr

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.

Mehr

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten - XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel

Mehr

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Frequent Itemset Mining und FP-Tree

Frequent Itemset Mining und FP-Tree Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Effiziente Algorithmen 2

Effiziente Algorithmen 2 Effiziente Algorithmen 2 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln

Mehr

Erkennung Sequenzieller Muster Algorithmen und Anwendungen

Erkennung Sequenzieller Muster Algorithmen und Anwendungen Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

6. Algorithmen auf Zeichenketten

6. Algorithmen auf Zeichenketten 6. Algorithmen auf Zeichenketten Motivation Wir lernen nun Algorithmen zur Lösung verschiedener elementarer Probleme auf Zeichenketten zu lösen Zeichenketten spielen eine wichtige Rolle in diversen Gebieten

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

4. Assoziationsregeln

4. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

6. Überblick zu Data Mining-Verfahren Einführung

6. Überblick zu Data Mining-Verfahren Einführung 6. Überblick zu Data Mining-Verfahren Einführung Data Mining-Prozeß Anwendungsbeispiele Assoziationsregeln / Warenkorbanalyse Support und Konfidenz A Priori-Algorithmus Frequent Pattern (FP)-Trees Graph

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

String - Matching. Kapitel Definition

String - Matching. Kapitel Definition Kapitel 1 String - Matching 1.1 Definition String - Matching ( übersetzt in etwa Zeichenkettenanpassung ) ist die Suche eines Musters ( Pattern ) in einem Text. Es findet beispielsweise Anwendung bei der

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

2.2 Der Algorithmus von Knuth, Morris und Pratt

2.2 Der Algorithmus von Knuth, Morris und Pratt Suchen in Texten 2.1 Grundlagen Ein Alphabet ist eine endliche Menge von Symbolen. Bsp.: Σ a, b, c,..., z, Σ 0, 1, Σ A, C, G, T. Wörter über Σ sind endliche Folgen von Symbolen aus Σ. Wörter werden manchmal

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 - Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 2011 Übungsblatt 1 16. September 2011 Grundlagen: Algorithmen und

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

DBS5 Kap. 4. Data Mining

DBS5 Kap. 4. Data Mining DBS5 Kap. 4 Data Mining Klassifikationen und Cluster-Bildung: Auffinden von Regeln zur Partitionierung von Daten in disjunkte Teilmengen (Anwendungsbeispiel: Risikoabschätzung) bzw. Herstellen von Gruppierungen

Mehr

6. Überblick Data Mining/ML-Verfahren Einführung Data Mining / maschinelles Lernen

6. Überblick Data Mining/ML-Verfahren Einführung Data Mining / maschinelles Lernen 6. Überblick Data Mining/ML-Verfahren Einführung Data Mining / maschinelles Lernen KDD-Prozess Anwendungsbeispiele Assoziationsregeln / Warenkorbanalyse Support und Konfidenz A Priori-Algorithmus Frequent

Mehr

VII.3 Assoziationsregeln

VII.3 Assoziationsregeln VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung 1 2 16.7.2009 Lernen von Assoziationsregeln Binäre Datenbanken Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge von

Mehr

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 ETH Zürich Institut für Theoretische Informatik Prof. Dr. Angelika Steger Florian Meier, Ralph Keusch HS 2017 Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 Lösungsvorschlag zu Aufgabe 1

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval

Mehr

Proseminar String Matching

Proseminar String Matching Proseminar Textsuche Proseminar String Matching PD Dr. habil. Hanjo Täubig Lehrstuhl für Theoretische Informatik (Prof. Dr. Susanne Albers) Institut für Informatik Technische Universität München Wintersemester

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Matchings in Graphen. Praktikum Diskrete Optimierung (Teil 5)

Matchings in Graphen. Praktikum Diskrete Optimierung (Teil 5) Praktikum Diskrete Optimierung (Teil 5) 6.05.009 Matchings in Graphen Es sei ein ungerichteter Graph G = (V, E) gegeben. Ein Matching in G ist eine Teilmenge M E, so dass keine zwei Kanten aus M einen

Mehr

Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz

Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Suchen in Texten Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Textsuche Gegeben ist ein Zeichensatz (Alphabet) Σ. Für einen Text T Σ n und

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Kapitel 5. Textalgorithmen. 5.1 Grundbegriffe

Kapitel 5. Textalgorithmen. 5.1 Grundbegriffe Kapitel 5 Textalgorithmen 5.1 Grundbegriffe Wir beschäftigen uns hauptsächlich mit Textsuche (und Varianten). Gegeben: Alphabet Σ (mindestens zwei Buchstaben). Text S = s 1... s n Σ in Array S[1..n]. Muster

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

2.4 Entscheidung bei Risiko

2.4 Entscheidung bei Risiko 2.4 Entscheidung bei Risiko Entscheidung bei Risiko nimmt an, dass für jeden Zustand S j seine Eintrittswahrscheinlichkeit P(S j ) bekannt ist Eintrittswahrscheinlichkeiten bestimmbar als statistische

Mehr

Rückblick: Längste gemeinsame Zeichenkette

Rückblick: Längste gemeinsame Zeichenkette aaadg3icdvjdb9mwfhuwbin8bcablxytanngm5rjbjogkvhcc9kq6dapjirhvu3donfmoxvbyn/gff4z/wyngrib48pjjs/98m25tgrbtqndx96kf2f17r21+8gdh48ep1nfehqizakyjjguup0lvipgoywmnwlocgu0swscjsspjf/0aptmmv9iqglijky5n3fgjammg55pforwywsw0xxqcvwkvtoomgxe20edkiyaucqsygsiy1m9pcehpn4148nfvi2pmbewm8qgjigu57bnry0bwnje0ulh+65zhyt4neyupstkagavokg6fneb3zfbs5imgpwyv4lithi4x2a8adg5vrhna1tx3228g6p/fju6qhqqcl/zdrkqxdo56u3wn8pe4ga/fhua/wvrl2xtc/gctxbszevjvliyg9wwqbuer2fhylfwccbafs41fjqtaqpjgha0abxbfgqgrlxx3q7mnamd23aanx7lmcmesewe3ocw/tvd0kzrkktczkoivulryft9izrlqxn97xxr+pjbxzri8errvtucyut9o1mz248tz4vsqm66rmelwebi5mrhkvfajkgcoexxjwvmc6oom+4cbqrntp2rdrv+mghlfu9/qvqtwhfott0x1mdxfuaype45wadunh/0x/8hj4nefpaiz3ubw/1urmgnvuav0rak0ds0rb/rmroh5i28794p76e/6u/4a3+vc13xrnkeowvmh/0gfb8bjw==

Mehr

Wann sind Codes eindeutig entschlüsselbar?

Wann sind Codes eindeutig entschlüsselbar? Wann sind Codes eindeutig entschlüsselbar? Definition Suffix Sei C ein Code. Ein Folge s {0, 1} heißt Suffix in C falls 1 c i, c j C : c i = c j s oder 2 c C und einen Suffix s in C: s = cs oder 3 c C

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Regelbasiertes Tiling für Collaborative Filtering

Regelbasiertes Tiling für Collaborative Filtering Regelbasiertes Tiling für Collaborative Filtering Diplomarbeit Simone Daum 17.11.2005 Betreuer: Prof. Johannes Fürnkranz Überblick Einführung Algorithmus zum Regelbasierten Tiling Ergebnisse Überblick

Mehr