6.6 Vorlesung: Von OLAP zu Mining

Größe: px

Ab Seite anzeigen:

Download "6.6 Vorlesung: Von OLAP zu Mining"

Hansi Rothbauer
vor 7 Jahren
Abrufe

1 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum Erkennen bisher unbekannter, interessanter Zusammenhänge in grossen Datenbanken, interessant heisst bezogen auf die anderen Zusammenhänge, die gerade entdeckt werden Information Mining anstatt Data Mining. OHO - 2 1

OHO - 1 Definition Data Mining Menge von Techniken zum Erkennen bisher unbekannter, interessanter

2 Data Mining ist für grosse Datenbestände. Es eistieren schon relativ lange vielfältige statistische Verfahren. Problem mit grossem Datenbestand: Hauptspeicher eines Rechners reicht nicht aus. Zugriffslücke : Zugriff auf Disk ist um Grössenordnungen teurer als Zugriff auf Hauptspeicher. Data Mining-Verfahren zielen darauf ab, mit möglichst wenig Disk-Zugriffen auszukommen. OHO - 3 Wichtige Data Mining- Problemstellungen Die wichtigen Problemstellungen sind recht einfach: Finden von Association Rules, Teilproblem: Finden von Frequent, zahlreiche Verfeinerungen, z.b. Quantitative Association Rules, Zeitreihenanalyse, Clustering, Classification. OHO - 4 2

Zugriffslücke : Zugriff auf Disk ist um Grössenordnungen teurer als Zugriff auf Hauptspeicher.

3 Association Rules Transaktion z.b. Menge der Waren, die ein Kunde kauft (oder Menge von Symptomen im Bereich Krankenhaus ) Milch, Eier, Zucker, Brot Milch, Eier, Cornflakes, Brot Eier, Zucker Transaktion1 Transaktion2 Transaktion3 Frequent Itemset Menge von Waren, die in vielen Transaktionen vorkommt (d.h. häufiger als ein Schwellenwert) Beispiel: {Milch, Brot}, wenn Schwellenwert=2. Finden aller Frequent ist Grundlage für die Ermittlung von Association Rules. Association Rules sind Zusammenhänge der Form Wer Bier kauft, kauft auch Chips (mit relativ hoher Wahrscheinlichkeit). oder Patienten mit Pipapo-Syndrom haben oft auch Krämpfe. OHO - 5 Clustering Identifizieren von Gruppen von Items, die nahe beieinanderliegen; Beispiel: Kundengruppen. Bier 0 Wein OHO - 6 3

Transaktion3 Frequent Itemset Menge von Waren, die in vielen Transaktionen vorkommt (d.h. häufiger als ein Schwellenwert) Beispiel: {Milch, Brot}, wenn Schwellenwert=2.

4 Classification Ziel: Item hat mehrere Attribute, man will anhand der Werte von n Attributen den (n+1)-ten vorhersagen. Grundlage für Voraussage: Menge von Tupeln (Trainingsmenge), für die alle n+1 Werte bekannt sind. Beispiel: Attribute 1,, n: Alter, Einkommen, Beruf, Attribut n+1: Kreditwürdigkeit Information, die i.d.r. erst zu spaeterem Zeitpunkt bekannt wird Ein mögliches Vorgehen: Entscheidungsbaum aufbauen mit Hilfe einer möglichst grossen Trainingsmenge. OHO - 7 Zusammenhang zu Data Warehousing 1. Data Warehousing als Plattform für Data Mining (s.b. vorige Folie), Data Warehousing beinhaltet Technologie zum Zusammenführen und Konsolidieren der Daten. 2. Gleiche Motivation: Zusammenhänge erkennen, die Grundlage für strategische Entscheidungen sein könnten. Data Warehousing - bestimmte, relativ klar definierte Anfragen, Data Mining - Analysetechniken, vagere Anfragen. OHO - 8 4

d.r. erst zu spaeterem Zeitpunkt bekannt wird Ein mögliches Vorgehen: Entscheidungsbaum aufbauen mit Hilfe einer möglichst grossen Trainingsmenge. OHO - 7 Zusammenhang zu Data Warehousing 1.

5 Zugrundeliegende Definitionen, Übersicht, Finden von Frequent, Finden von Association Rules, gegeben die Frequent. OHO - 9 Association Rules - zugrundeliegende Definitionen Transaktion T - Menge von Items, z.b. Warenangebot im Supermarkt Association Rule - Ausdruck der Form X Y, (X, Y sind Mengen von Items, und X Y =.) Beispiele: {Bier} {Chips} Wer Bier kauft, kauft auch Chips (mit relativ hoher Wahrscheinlichkeit). Diese Association Rule ist aussagekräftiger als Aussage der Form Bier und Chips werden oft zusammen gekauft. {Bier, Korn, Wodka} {Aspirin, Wasser} OHO

Warenangebot im Supermarkt Association Rule - Ausdruck der Form X Y, (X, Y sind Mengen von Items, und X Y =.

6 Association Rules - zugrundeliegende Definitionen Wir sind nur an Regeln mit einer gewissen Aussagekraft interessiert, deswegen die folgenden Definitionen: Support eines X andere Bezeichnung für relative Häufigkeit; minsup untere Schranke für Support, mit Support grösser als minsup: large itemsets; Regel X Y hat Support s gdw. s % der Transaktionen X und Y enthalten; Regel X Y hat Confidence c gdw. c % der Transaktionen, die X enthalten, enthalten auch Y; minconf - untere Schranke für Algorithmus; high confidence ; Regel X Y ist interessant gdw. Confidence deutlich höher ist als die erwartete WS, wenn Items zufällig gekauft werden. wird im folgenden nicht eplizit betrachtet OHO - 11 Beispiel T1 T2 T3 T4 T5 {Zahnpasta, Schokolade, Milch} {Schokolade, Milch} {Brot, Käse} {Zahnpasta, Milch, Käse} {Milch, Brot, Käse} Confidence Support Brot Käse 100% 40% Käse Milch 66.6% 40% Zahnpasta Schokolade 50% 20% OHO

s % der Transaktionen X und Y enthalten; Regel X Y hat Confidence c gdw.

7 Identifizieren aller Association Rules Identifizieren aller Association Rules in zwei Teilprobleme unterteilbar: Finden aller mit ausreichendem Support - Algorithmus ; Ermitteln der Association Rules aus diesen. Der erste Schritt ist i.a. der aufwendigere; Prinzip: Large der Grösse k Candidate Itemset der Grösse k+1 OHO Identifizieren von Finden aller mit ausreichendem Support: Beginn mit einelementigen Sets (1-Sets) - einfaches Abzählen Berechnung der k-sets aus den (k-1)-sets: Join-Step: Ermittlung von Kandidaten; -Trick: alle (k-1)-elementigen Teilmengen eines k-sets sind (k-1)-sets, Prune-Step: Löschen aller Kandidaten, die eine unzulässige (k-1)-elementige Teilmenge haben. Verkleinert die Menge der Kandidaten, man muss aber noch einmal durch die Daten gehen. Abzählen über die Daten. (darauffolgende Folie) Generierung der Kandidaten (nächste zwei Folien) OHO

einelementigen Sets (1-Sets) - einfaches Abzählen Berechnung der k-sets aus den (k-1)-sets: Join-Step: Ermittlung von Kandidaten; -Trick: alle (k-1)-elementigen Teilmengen eines k-sets sind

8 Beispiel für Candidate Generation Berechnung der Kandidaten besteht aus zwei Schritten, wie auf Folie zuvor angegeben. 3-Sets {1 2 3} {1 2 4} {1 3 4} {1 3 5} {2 3 4} Join Kandidaten für 4-Sets 4-Sets { } { } { } Prune OHO - 15 Algorithmus L 1 = {large 1-itemsets}; for (k=2; L k-1 ; k++) do begin C k =apriori-gen(l k-1 ); // Generierung neuer Kandidaten // gemäss voriger Folie forall transactions t D do begin C t = subset(c k, t); // candidates contained in t forall candidates c C t do c.count++; end L k ={c C k c.count minsup} end Answer = k L k ; Abzählen für alle Transaktionen OHO

1-itemsets}; for (k=2; L k-1 ; k++) do begin C k =apriori-gen(l k-1 ); // Generierung neuer Kandidaten // gemäss voriger Folie forall transactions t D do

9 Ist Candidate Itemset in t enthalten? Wie führt man diese Überprüfung effizient für viele t durch? Verwendung eines Hash-Trees - Beispiel: Kandidaten: {1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {1 3 9}, {2 3 4} t = { } 1, {2 3 4} 1, , 9 {1 2 3} {1 2 4} {1 3 4} {1 3 5}, {1 3 9} Eplizit sagen: Was sind die gruenen Kanten? Hash-Baum: mehrere Werte fuer eine Kante Einfuegen neuer von oben. Blaetter haben Kapazitaet. Fuer jedes Element von t eine Ebene nach unten steigen. Ein Blatt mit mehreren Kandidaten OHO - 17 Ermitteln der Association Rules aus den Betrachtung aller Subsets a eines I. Noch einmal zur Erinnerung Regel X Y hat Support s gdw. s % der Transaktionen X und Y enthalten; Regel X Y hat Confidence c gdw. c % der Transaktionen, die X enthalten, enthalten auch Y; (bzw. enthalten auch X Y, ist egal) a (I - a) ist Association Rule, wenn Support(I) Support(a) >= minconf OHO

Eplizit sagen: Was sind die gruenen Kanten? Hash-Baum: mehrere Werte fuer eine Kante Einfuegen neuer von oben. Blaetter haben Kapazitaet. Fuer jedes Element von t eine Ebene nach unten steigen.

10 I={2,3,4} [40% Support] Subsets: minconf=75% {2,3} {4} Support(I) = 40% Support(a)= 50% {2} {3,4} Support(I) = 40% Support(a) = 80% Beispiel {2,3} {2,4} {3,4} {2} {3} {4} 50% 70% 60% 80% 60% 70% Confidence = 80 % OK! Confidence = 50 % NO! OHO

Ähnliche Dokumente

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden