Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Größe: px

Ab Seite anzeigen:

Download "Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold"

Irma Fischer
vor 7 Jahren
Abrufe

1 Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold

2 Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung

3 Einleitung 3 Entwickelt duch Rakesh Agrawal und Ramakrishnan Srikant IBM Almaden Research Center Algorithmus zum Auffinden von Assoziationsregeln

4 Support / Confidence 4 Support (einer Itemmenge I) In wie viel % der Transaktionen kommen alle Elemente der Menge I vor? minsup Alle Transaktionen Support A B Confidence (einer Regel) In wie viel % der Transaktionsen in denen der linke Teil der Regel vorkommt, kommt auch der Rechte Teil vor? minconf Apriori Felix Leupold 12. Oktober 2009

5 Fallbeispiel 5 Sortiment: I={Shrek, Spiderman, LoR, MIB, SAW, MI2, Blade} Transaktionen T1 bis T9 mit: T1={Spiderman, Shrek, LoR} T2={Spiderman, Shrek, MIB} T3={Spiderman, SAW} T4={Spiderman, Shrek, LoR, MIB} T5={SAW} T6={MI2, Shrek, Chips} T7={Shrek, LoR} T8={MI2, Conan, Blade} T9={Blade, LoR}

6 Grundgedanke 6 1. Finden aller Itemsets mit minsup 2. Daraus Assoziationsregeln bilden, die minconf überschreiten Problem: Es werden viele Kandidaten erzeugt Vergleich mit der Datenbank ist extrem teuer(möglichst wenig Kandidaten)

7 Apriori Überlegung 7 Support ist mit steigender Anzahl von Elementen monoton fallend! à Wenn eine Teilmenge einer Menge M klein ist, dann ist die Menge M auch auf jeden Fall klein Erzeuge Kandidaten mit Hilfe von bereits gefundenen Mengen Lösche alle Kandidaten, die Teilmengen enthalten, die nicht groß sind

8 Apriori Kandidatengenerierung 8 Besteht aus 2 Schritten: 1. Join 2. Prune p und q sind in den ersten k-2 Einträgen identisch Lösche alle Kandidaten, deren Teilmenge nicht in L k 1

9 Fortsetzung Fallbeispiel 9 T1={Spiderman, Shrek, LoR} T2={Spiderman, Shrek, MIB} T3={Spiderman, SAW} T4={Spiderman, Shrek, LoR, MIB} T5={SAW} T6={MI2, Shrek, Chips} T7={Shrek, LoR} T8={MI2, Conan, Blade} T9={Blade, LoR} Sei L2= {{Shrek,Spiderman}, {Shrek,LoR}, {Shrek,MIB}, {Spiderman,LoR}, {Spiderman,MIB}} Join ergibt: {Shrek,Spiderman,LoR},{Shrek,Spiderman,MIB}, {Shrek,LoR,MIB},{Spiderman,LoR,MIB} Prune löscht {Shrek,LoR,MIB} und {Spiderman,LoR,MIB}

10 Apriori - Problem 10 In jeder Iteration wird die gesamte Datenbank durchsucht!

11 Fortsetzung Fallbeispiel 11 L 2 Itemset {Shrek,Spider man} {Shrek,LoR} {Shrek,MIB} {Spiderman,Lo R} {Spiderman,M IB} C 3 Itemset {Shrek,Spiderman, LoR} {Shrek,Spiderman, MIB} C 2 TID Set-of-Itemsets {{Shrek,Spiderman},{Shrek,LoR}, {Spiderman,LoR}} {{Shrek,Spiderman}, {Shrek,MIB},{Spiderman,MIB}} {{Shrek,LoR}} {{Shrek,Spiderman},{Shrek,LoR}, {Shrek,MIB},{Spiderman,LoR}, {Spiderman,MIB}} TID C 3 Set-of-Itemsets {{Shrek,Spiderman,LoR}} {{Shrek,Spiderman,MIB}} {{Shrek,Spiderman,LoR}, {Shrek,Spiderman,MIB}}

12 Apriori vs. AprioriTID 12 Vorteile von AprioriTID: Kein Zugriff auf Datenbank Relevante Datensätze werden mit der Zeit immer kleiner Nachteile von AprioriTID Relevante Datensätze sind zu Beginn sehr groß Im worst case bedeutend schlechter als Apriori Hauptspeicher wird immer preiswerter à AprioriTID relevanter Falls Hauptspeicher zu klein, Apriori Hybrid.

13 Erzeugung von Regeln 13 Sei L ein large Itemset und A L A sup( L) ( L A) > sup( A) minconf Überlegung: Wenn XY à Z nicht hält, dann auch nicht Xà YZ Da sup(xy) sup(x) Wieder induktiv (Anzahl der Elemente rechts der Regel) A B Prüfe alle Regeln mit einem Element rechts Generiere daraus 2-elementige rechte Seiten und prüfe diese

14 Erzeugung von Regeln 14 sup( L) A ( L A) > sup( A) minconf L2 = {{Shrek,Spiderman}, {Shrek,LoR}, {Shrek,MIB}, {Spiderman,LoR}, {Spiderman,MIB}} L3 = {{Shrek,Spiderman,LoR}, {Shrek,Spiderman,MIB}} Prüfe zuerst alle Regeln mit einem Item rechts Spiderman à Shrek; LoR à Shrek; MIB à Shrek; MIB à Spiderman; MIB, Shrek à Spiderman; MIB, Spiderman à Shrek Generiere Regeln mit 2 Items rechts

15 Datensatz 15 Netflix Filmbewertungen von : NutzerID, Bewertung, Datum der Bewertung, FilmID Transaktion: Alle Filme, die von einem einzelnen Nutzer als sehr gut (5/5) bewertet wurden Statistiken: D = Transaktionen Avg( T ) = 49,97 Avg( I ) = 2,04 (minsup=10%, minconf=75%) 17 Regeln (minsup=10%, minconf=75%) Bewertungen

16 Implementierung 16 Programmiersprache Python 130 LOC Alle Daten im Hauptspeicher, keine Datenbankanbindung Vorteil: Sehr schnelle Zugriffzeiten auf Itemsets Nachteil: Langsames einlesen aller Daten bei jedem Start Transaktionen, Items und Rules sind Objekte

17 Performance I 17 D = Avg( T ) = 51.6 N = Dauer der Berechnung für k=x minsup = 0.05 minconf = 0.75 Zeit (sec) sec k

18 Performance II 18 D = netflix D =88k Netflix: Avg( T ) = 51.6 N = Zeit (sec) netflix D =88k Minimum Support Warenkorb: Avg( T ) = N = Zeit (sec) Warenkorb D =88k Einkaufswagen D =88k Minimum Support

19 Performance III - Vergleich 19 Vergleich netflix D =88k Einkaufswagen D =88k Zeit (sec) Minimum Support

20 Performance III - Profiling 20

21 Erweiterung: Parallellisierung 21 Bottleneck Supportberechnung: Schleifen mit sehr vielen Durchläufen Bei unserem Datensatz: 1.5 Mio. Durchläufe (minsup=10%) Parallelisierung Vorteil: Transaktionen voneinander unabhängig Nachteil: Große Datenmengen (Transactions & Itemsets) müssen kopiert werden

22 Ergebnisse I SW: A New Hope -> SW: The Empire Strikes Back support: 0.10, confidence: 0.83 Monsters Inc. + Shrek -> Finding Nemo support: 0.058, confidence: 0.77 Pirates of the C. + LoR III -> LoR II support: 0.08, confidence: 0.87

23 Ergebnisse II Anzahl an Bewertungen pro Film Anzahl an Bewertungen Film ID

24 Nächste Schritte 24 Laufzeitoptimierung Datenbankanbindung Vergleich mit Ergebnis von Netflix-Challenge Analyse von Regeln Warum fand der Kunde die Filme gut Korrelationen zwischen Filmen aus bestimmten Genre/Jahren? Erweiterung von Apriori durch weitere Attribute an Items?

25 Quellen 25 R. Agrawal, R. Srikant: "Fast Algorithms for Mining Association Rules", Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sept [Stand ] [Stand ] Knowledge and Data Engineering, Vorlesung SoSe2004 Uni Kassel, VII.3 Assoziationsregeln Zoulfa El Jerroudi, Seminarvortrag Apriori-Algorithmus zur Entdeckung von Assoziationsregeln, Uni Dortmund Oktober Artikel zu Data Mining [Stand ] Apriori algorithm [Stand ]

Ähnliche Dokumente

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung