5. Assoziationsregeln
|
|
|
- Kornelius Linden
- vor 9 Jahren
- Abrufe
Transkript
1 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines Warenhauses. Die Zusammenhänge sind allgemeiner Art und nicht notwendigerweise kausal bedingt. Man unterstellt aber, daß implizite strukturelle Abhängigkeiten vorliegen. Diese möchte man erkennen. Typischer Anwendungsbereich: Verkaufsdatenanalyse Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 213
2 5. Generieren von Assoziationsregeln Grundbegriffe Itemmenge, Transaktion und Datenbasis Definition 5.1. Die Dinge, deren Beziehungen zueinander analysiert werden sollen, werden als Items bezeichnet. Es sei I = {i 1,...,i n } eine endliche Menge von Items. Eine Teilmenge X I heißt Itemmenge. Eine k-itemmenge ist eine Itemmenge mit k Elementen. Eine Transaktion t I ist eine Itemmenge. Die Datenbasis D = {d 1,...,d m } ist eine Menge von Transaktionen. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 214
3 5. Generieren von Assoziationsregeln Grundbegriffe Support Definition 5.2. Es sei X I eine Itemmenge. Der Support von X ist der Anteil aller Transaktionen aus D, die X enthalten: support(x) := {t D X t} D Beispiel 5.1. Bei der Verkaufsdatenanalyse eines Supermarktes sind Items die Artikel aus dem Sortiment. Die Transaktionen entsprechen den Einkäufen von Kunden. Die Datenbasis besteht aus den Einkäufen der Kunden eines bestimmten Zeitraums. Der Support der Itemmenge {Milch} ist dann der Anteil der Einkäufe, bei denen u.a. Milch gekauft wurde. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 215
4 5. Generieren von Assoziationsregeln Grundbegriffe Assoziationsregel Definition 5.3. Gegeben seien zwei disjunkte Itemmengen X, Y, also X,Y I und X Y =. Eine Assoziationsregel hat die Form X Y. Eine Transaktion erfüllt die Regel X Y gdw. X Y t gilt, d.h. t enthält alle Items der Assoziationsregel. Der Support von X Y ist der Support der Itemmenge X Y support(x Y) := support(x Y) Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 216
5 5. Generieren von Assoziationsregeln Grundbegriffe Konfidenz Definition 5.4. Gegeben sei die Assoziationsregel X Y. Die Konfidenz von X Y confidence(x Y) ist definiert durch confidence(x Y) := = {t D X Y t} {t D X t} support(x Y) support(x) Bemerkung 5.1. Die Konfidenz ist eine bedingte relative Häufigkeit bzw. bedingte Wahrscheinlichkeit. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 217
6 5. Generieren von Assoziationsregeln Grundbegriffe Beispiel 5.2. Transaktion Items 1 Brot, Kaffee, Milch, Kuchen 2 Kaffee, Milch, Kuchen 3 Brot, Butter, Kaffee, Milch 4 Milch, Kuchen 5 Brot, Kuchen 6 Brot support({kaffee, Milch}) = 0.5 = 50% support({kaffee, Kuchen, Milch}) = 0.33 = 33% support({milch, Kaffee} {Kuchen}) = 0.33 = 33% confidence({milch, Kaffee} {Kuchen}) = 0.67 = 67% Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 218
7 5. Generieren von Assoziationsregeln Apriori-Algorithmus Suche nach Assoziationsregeln Support und Konfidenz sind Parameter mit denen die Relevanz einer Regel beurteilt wird. Beide Maßzahlen sollten möglichst groß sein. Finde alle Assoziationsregeln, die in der betrachteten Datenbasis einen Support minsupp und eine Konfidenz minconf haben. Die Werte minsupp und minconf sind dabei benutzerdefiniert. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 219
8 5. Generieren von Assoziationsregeln Apriori-Algorithmus Das Problem wird in zwei Teilprobleme zerlegt: 1. Finde alle Itemmengen, deren Support minsupp ist. Diese Itemmengen heißen häufige Itemmengen (frequent itemsets). 2. Finde in jeder häufigen Itemmenge I alle Assoziationsregeln I I \ I mit I I und mit Konfidenz minconf. Die wesentliche Schwierigkeit besteht in der Lösung des ersten Teilproblems. Enthält die Menge I insgesamt n Items, so sind prinzipiell 2 n Itemmengen auf ihren Support hin zu untersuchen. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 220
9 5. Generieren von Assoziationsregeln Apriori-Algorithmus Apriori-Algorithmus Der sogenannte Apriori-Algorithmus nutzt folgendes bei der Suche nach häufigen Itemmengen aus: Für zwei Itemmengen I 1, I 2 mit I 1 I 2 gilt Somit folgt: support(i 2 ) support(i 1 ) Alle Teilmengen einer häufigen Itemmenge sind ebenfalls häufige Itemmengen. Alle Obermengen einer nicht häufigen Itemmenge sind ebenfalls nicht häufig. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 221
10 5. Generieren von Assoziationsregeln Apriori-Algorithmus Grober Ablauf des Apriori-Algorithmus: Der Apriori-Algorithmus bestimmt zunächst die einelementigen häufigen Itemmengen. In jedem weiteren Durchlauf werden die Obermengen mit k + 1 Elementen von häufigen k-itemmengen darauf untersucht, ob sie ebenfalls häufig sind. Die Obermengen der häufigen k-itemmengen werden mit dem Algorithmus AprioriGen ermittelt. Werden keine häufigen k+1-itemmengen mehr gefunden, bricht der Algorithmus ab. Voraussetzung: Itemmengen sind lexikographisch geordnet. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 222
11 5. Generieren von Assoziationsregeln Apriori-Algorithmus Algorithmus 5.1. [Apriori-Algorithmus] L 1 := { häufige 1-Itemmengen } k := 2 while L k 1 do C k := AprioriGen(L k 1 ) for all Transaktionen t D do C t := {c C k c t} for all Kandidaten c C t do c.count := c.count + 1 end end L k := {c C k c.count D minsupp} k := k + 1 end return k L k Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 223
12 5. Generieren von Assoziationsregeln Apriori-Algorithmus Algorithmus 5.2. [AprioriGen] C k := for all p,q L k 1 mit p q do if p q = k 2 and p = {e 1,...,e k 2, e p } and q = {e 1,...,e k 2,e q } then C k := C k {e 1,...,e k 2, e p,e q } end for all c C k do for all (k 1)-Teilmengen s von c do if s / L k 1 then C k := C k \ {c} end end return C k Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 224
13 5. Generieren von Assoziationsregeln Apriori-Algorithmus Beispiel 5.3. minsupp = 40% Transaktion Items 1 A C D 2 B C E 3 A B C E 4 B E C 1 Itemm. Support {A} 50% {B} 75% {C} 75% {D} 25% {E} 75% L 1 Itemm. Support {A} 50% {B} 75% {C} 75% {E} 75% Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 225
14 5. Generieren von Assoziationsregeln Apriori-Algorithmus Itemm. {A,B} {A,C} {A,E} {B,C} {B,E} {C,E} C 2 Support C 2 Itemm. Support {A,B} 25% {A,C} 50% {A,E} 25% {B,C} 50% {B,E} 75% {C,E} 50% L 2 Itemm. Support {A,C} 50% {B,C} 50% {B,E} 75% {C,E} 50% Itemm. {B,C,E} C 3 Support C 3 Itemm. Support {B,C,E} 50% L 3 Itemm. Support {B,C,E} 50% Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 226
15 5. Generieren von Assoziationsregeln Datenstrukturen für die Teilmengenoperation Unterstützung der Teilmengenoperation Im Apriori- und im AprioriGen-Algorithmus werden sehr häufig Teilmengen überprüft. Um diese Tests effizient durchführen zu können, werden die Kandidatenmengen in einem Hash-Baum verwaltet. Struktur eines Hash-Baums: Innerer Knoten: Hashtabelle bezüglich Hashfunktion h; Buckets der Hashtabelle verweisen auf die Sohnknoten. Blattknoten: enthält Liste von Itemmengen Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 227
16 5. Generieren von Assoziationsregeln Datenstrukturen für die Teilmengenoperation Suchen einer Itemmenge X = {i 1,...,i k }: Innerer Knoten auf Ebene d: Anwendung der Hashfunktion h auf i d Das Ergebnis von h legt den Zweig fest, der weiter verfolgt wird. Blatt: Suche in der Liste der Itemmengen Einfügen einer Itemmenge X = {i 1,...,i k }: Zunächst erfolgt eine Suche für X bis zu einem Blatt, in das die Itemmenge eingefügt werden soll. Ist in dem Blatt Platz für eine weitere Itemmenge vorhanden, dann wird X dort eingefügt. Kann das Blatt keine Itemmenge mehr aufnehmen, dann wird es zu einem inneren Knoten und die Einträge werden gemäß h auf neue Blätter verteilt. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 228
17 5. Generieren von Assoziationsregeln Datenstrukturen für die Teilmengenoperation Kapazität der Blätter = h(k) = K mod {3,6,7} {3,5,7} {7,9,12} {1,4,11} {7,8,9} {2,3,8} {3,5,11} {1,6,11} {1,7,9} {1,8,11} {5,6,7} {2,5,6} {2,5,7} {5,8,11} {3,4,15} {3,7,11} {3,4,11} {3,4,8} {2,4,6} {2,4,7} {2,7,9} {5,7,10} Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 229
18 5. Generieren von Assoziationsregeln Datenstrukturen für die Teilmengenoperation Suchen aller Itemmengen X, die von einer Transaktion t = {t 1,...,t m } erfüllt werden: Wurzel: Für jedes t i t wird h(t i ) bestimmt und in den resultierenden Söhnen wird weitergesucht. Innerer Knoten: Hat man den Knoten durch h(t i ) erreicht, dann wird h(t j ) für jedes t j mit j > i bestimmt. Auf die so resultierenden Söhne wird das Verfahren in gleicher Weise fortgesetzt, bis ein Blatt erreicht wird. Blatt: Prüfung, welche der in dem Blatt enthaltenen Itemmengen die Transaktion t erfüllen. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 230
19 5. Generieren von Assoziationsregeln Datenstrukturen für die Teilmengenoperation t = {1, 3, 7, 9, 12} h(k) = K mod {3,6,7} {3,5,7} {7,9,12} {1,4,11} {7,8,9} {2,3,8} {2,5,6} {3,5,11} {1,6,11} {1,7,9} {1,8,11} {5,6,7} {2,5,7} {5,8,11} {3,4,15} {3,7,11} {3,4,11} {3,4,8} {2,4,6} {2,4,7} {2,7,9} {5,7,10} Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 231
20 5. Generieren von Assoziationsregeln Ermittlung der Assoziationsregeln Bestimmung der Assoziationsregeln Nach der Bestimmung der häufigen Itemmengen müssen noch die Assoziationsregeln mit einer Konfidenz minconf bestimmt werden. Diese werden aus den häufigen Itemmengen generiert. Gegeben seien Itemmengen X, Y mit Y X. Dann gilt: confidence((x \ Y) Y) minconf = confidence((x \ Y ) Y ) minconf für alle Y Y Bei der Regelgenerierung nutzt man wiederum die Umkehrung aus. Man beginnt mit einer möglichst kleinen Menge Y und schließt alle Obermengen von Y aus, falls gilt: confidence((x \ Y ) Y ) < minconf Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 232
21 5. Generieren von Assoziationsregeln Ermittlung der Assoziationsregeln Man erzeugt aus einer häufigen Itemmenge X zunächst alle Assoziationsregeln mit einelementiger Konklusion (rechter Seite). Alle Regeln mit Konfidenz minconf werden ausgegeben. Sei H m die Menge der Konklusionen häufiger Itemmengen mit m Elementen. Wir setzen H m+1 := AprioriGen(H m ). Für alle Konklusionen h m+1 H m+1 überprüft man nun, ob confidence((x \ h m+1 ) h m+1 ) minconf gilt. Falls ja, dann wird die Regel ausgegeben, ansonsten wird h m+1 aus H m+1 entfernt. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 233
22 5. Generieren von Assoziationsregeln Ermittlung der Assoziationsregeln Warenkorbanalyse Beispiel 5.4. [Warenkorbanalyse] ID Artikel t 1 t 2 t 3 t 4 t 5 t 6 t 7 t 8 t 9 t 10 support A Seife x x x x 0.4 B Shampoo x x x x x x x x 0.8 C Haarspülung x x x x x x 0.6 D Duschgel x x x x x x 0.6 E Zahnpasta x x x x 0.4 F Zahnbürste x x 0.2 G Haarfärbung x x x 0.3 H Haargel x 0.1 J Deodorant x x x x x x 0.6 K Parfüm x x 0.2 L Kosmetikartikel x x x x x 0.5 Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 234
23 5. Generieren von Assoziationsregeln Ermittlung der Assoziationsregeln Wir setzen: minsupp = 0.4,minconf = 0.7 L 1 = {{A}, {B},{C}, {D},{E}, {J}, {L}} C 2 Tafel. L 2 = {{B, C},{B, D},{B,J}, {B, L}, {C,J}, {C, L}} C 3 vor Teilmengencheck: {{B, C,D},{B, C,J}, {B, C,L}, {B, D,J}, {B,D,L}, {B, J,L}, {C, J, L}} C 3 nach Teilmengencheck: {{B,C, J}, {B,C, L}} L 3 = {{B, C,J}, {B, C,L}} C 4 = L 4 = Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 235
24 5. Generieren von Assoziationsregeln Ermittlung der Assoziationsregeln Für die Generierung der Assoziationsregeln beginnen wir mit L 2. Wir erhalten: B C,C B,D B,L B, L C Aus {B, C,J} aus L 3 ergeben sich die Regeln (Konfidenz in Klammern): BC J[0.67],BJ C[1.00],CJ B[1.00] und H 1 = {{B}, {C}} H 2 = AprioriGen(H 1 ) = {{B,C}}, aber J BC[0.67] erfüllt nicht das Konfidenzkriterium. Aus {B, C,L} ergeben sich die Regeln: BC L[0.67],BL C[0.8],CL B[1.00] Mit H 2 = {{B, C}} ergibt sich L BC[0.8] Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 236
25 5. Generieren von Assoziationsregeln Ermittlung der Assoziationsregeln Regel Support Konfidenz Shampoo Haarspülung Haarspülung Shampoo Duschgel Shampoo Kosmetik Shampoo Kosmetik Haarspülung Shampoo, Deodorant Haarspülung Haarspülung, Deodorant Shampoo Shampoo, Kosmetik Haarspülung Haarspülung, Kosmetik Shampoo Kosmetik Shampoo, Haarspülung Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 237
26 5. Generieren von Assoziationsregeln Zusammenfassung Zusammenfassung Entscheidungsbäume Aufbau einer Klassifikationshierarchie für eine Trainingsmenge top-down, rekursives Verfahren Wesentlich ist die Attributauswahl ID3-Algorithmus: Attributauswahl auf Basis der Entropie Assoziationsregeln Wesentlich: Berechnung häufiger Itemmengen Apriori-Algorithmus zur Berechnung häufiger Itemmengen Unterstützung des Apriori-Algorithmus durch Hash-Trees Aus den häufigen Itemmengen werden unter Einsatz von Apriori- Gen die Assoziationsregeln generiert. Maschinelles Lernen und unsicheres Wissen FH Bonn-Rhein-Sieg, WS 08/09 238
6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
Kapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
Kapitel 7: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel
Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel
Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
Intelligente Systeme
Intelligente Systeme Maschinelles Lernen Prof. Dr. R. Kruse C. Moewes G. Ruß {kruse,cmoewes,russ}@iws.cs.uni-magdeburg.de Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke
Kapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln
Kapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
Lernen von Assoziationsregeln
Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]
Maschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
Data Mining. Informationssysteme, Sommersemester 2017
Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter
4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues [email protected] 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus
FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der
4.2 Constraints für Assoziationsregeln
4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln
INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
4. Lernen von Entscheidungsbäumen
4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig
Kapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
Frequent Itemset Mining und FP-Tree
Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset
VII.3 Assoziationsregeln
VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln
Maschinelles Lernen in der Bioinformatik
Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut
Lemma Für jede monotone Grammatik G gibt es eine kontextsensitive
Lemma Für jede monotone Grammatik G gibt es eine kontextsensitive Grammatik G mit L(G) = L(G ). Beweis im Beispiel (2.): G = (V,Σ, P, S) : P = {S asbc, S abc, CB BC, ab ab, bb bb, bc bc, cc cc}. (i) G
5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung
Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.
Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.
4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum
4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.
Kapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
{0,1} rekursive Aufteilung des Datenraums in die Quadranten NW, NE, SW und SE feste Auflösung des Datenraums in 2 p 2 p Gitterzellen
4.4 MX-Quadtrees (I) MatriX Quadtree Verwaltung 2-dimensionaler Punkte Punkte als 1-Elemente in einer quadratischen Matrix mit Wertebereich {0,1} rekursive Aufteilung des Datenraums in die Quadranten NW,
Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
Algorithmische Kryptographie
Algorithmische Kryptographie Walter Unger Lehrstuhl für Informatik I 16. Februar 2007 Public-Key-Systeme: Rabin 1 Das System nach Rabin 2 Grundlagen Körper Endliche Körper F(q) Definitionen Quadratwurzel
4 Induktion von Regeln
4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung
Erkennung Sequenzieller Muster Algorithmen und Anwendungen
Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster
Maschinelles Lernen: Symbolische Ansätze
Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:
3.2. Divide-and-Conquer-Methoden
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE 3.2. Divide-and-Conquer-Methoden Divide-and-Conquer-Methoden Einfache Sortieralgorithmen reduzieren die Größe des noch
Fortgeschrittene Netzwerk- und Graph-Algorithmen
Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester
Algorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil 10 Suche in Graphen Version vom 13. Dezember 2016 1 / 2 Vorlesung 2016 / 2017 2 /
11.1 Grundlagen - Denitionen
11 Binärbäume 11.1 Grundlagen - Denitionen Denition: Ein Baum ist eine Menge, die durch eine sog. Nachfolgerrelation strukturiert ist. In einem Baum gilt: (I) (II) 1 Knoten w ohne VATER(w), das ist die
Induktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
Frequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
Algorithmen und Datenstrukturen 1 VL Übungstest WS Januar 2011
Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 2. Übungstest WS 2010 14. Januar
Inhalt. 7.1 Motivation. 7.2 Artikelmengen. 7.3 Assoziationsregeln. 7.4 Sequenzen. Entscheidungsunterstützende Systeme / Kapitel 7: Mustererkennung
7. Mustererkennung Inhalt 7.1 Motivation 7.2 Artikelmengen 7.3 Assoziationsregeln 7.4 Sequenzen 2 7.1 Motivation Mustererkennung (pattern mining) sucht in oft großen Datenmengen nach häufig auftretenden
ID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
Stud.-Nummer: Datenstrukturen & Algorithmen Seite 1
Stud.-Nummer: Datenstrukturen & Algorithmen Seite 1 Aufgabe 1. / 16 P Instruktionen: 1) In dieser Aufgabe sollen Sie nur die Ergebnisse angeben. Diese können Sie direkt bei den Aufgaben notieren. 2) Sofern
Humboldt-Universität zu Berlin Berlin, den Institut für Informatik
Humboldt-Universität zu Berlin Berlin, den 15.06.2015 Institut für Informatik Prof. Dr. Ulf Leser Übungen zur Vorlesung M. Bux, B. Grußien, J. Sürmeli, S. Wandelt Algorithmen und Datenstrukturen Übungsblatt
Data Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
Datenstrukturen Teil 2. Bäume. Definition. Definition. Definition. Bäume sind verallgemeinerte Listen. Sie sind weiter spezielle Graphen
Bäume sind verallgemeinerte Listen Datenstrukturen Teil 2 Bäume Jeder Knoten kann mehrere Nachfolger haben Sie sind weiter spezielle Graphen Graphen bestehen aus Knoten und Kanten Kanten können gerichtet
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
Vorlesung Informatik 2 Algorithmen und Datenstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (12 Hashverfahren: Verkettung der Überläufer) Prof. Dr. Susanne Albers Möglichkeiten der Kollisionsbehandlung Kollisionsbehandlung: Die Behandlung
Aufgabe (Schreibtischtest, Algorithmenanalyse)
Aufgabe (Schreibtischtest, Algorithmenanalyse) Führen Sie einen Schreibtischtest für den Algorithmus Positionsort für das folgende Eingabe-Array durch. Geben Sie nach jedem Durchlauf der for-schleife mit
6. Flüsse in Netzwerken Berechnung maximaler Flüsse. dann berechnet der Markierungsalgorithmus für beliebige Kapazitätsfunktionen
6. Flüsse in Netzwerken Berechnung maximaler Flüsse Satz 6.4. Ersetzt man in Algorithmus 6.1 den Schritt 2 durch 2a. Wähle den Knoten, der zuerst in eingefügt wurde. Setze. dann berechnet der arkierungsalgorithmus
5 Bäume. 5.1 Suchbäume. ein geordneter binärer Wurzelbaum. geordnete Schlüsselwertmenge. heißt (schwach) sortiert, g.d.w. gilt:
5 Bäume 5.1 Suchbäume Sei ein geordneter binärer Wurzelbaum. Sei Abbildung der Knotenmenge eine in eine vollständig geordnete Schlüsselwertmenge. heißt (schwach) sortiert, g.d.w. gilt: Falls sortiert ist,
Maschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
Lösungen von Übungsblatt 12
Lösungen von Übungsblatt 12 Algorithmen (WS 2018, Ulrike von Luxburg) Lösungen zu Aufgabe 1 Eine (kanonische) Möglichkeit, die Branch-Schritte auszuführen ergibt sich wie folgt: Das ursprüngliche Problem
12. Hashing. Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete.
Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete. Worst-case Zeit für Search: Θ(n). In der Praxis jedoch sehr gut. Unter gewissen
4.4 Quadtrees. Literatur
4.4 Quadtrees Überblick Klasse räumlicher Indexstrukturen, die den Datenraum rekursiv in 4 gleich große Zellen unterteilen (Quadranten NW, NE, SW, SE) Verwaltung von Punkten, Kurven, Flächen usw., häufig
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken
Diplomarbeit Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken Irina Alesker Diplomarbeit am Fachbereich Informatik der Universität Dortmund 23. Juni 2005 Betreuer: Prof.
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
