FernUniversität in Hagen. Seminar Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema Der Apriori-Algorithmus

Größe: px
Ab Seite anzeigen:

Download "FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus"

Transkript

1 FernUniversität in Hagen Seminar Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema Der Apriori-Algorithmus Referentin: Olga Riener

2 Olga Riener. Thema Der Apriori-Algorithmus Seite 2 1. Einführung Formale Notationen Def: Assoziationsproblem Basisalgorithmen zur Entdeckung von Assoziationsregeln Apriori-Algorithmus Apriori-Erweiterungen Sonstige Ansätze zur Effizienzsteigerung von Apriori Fazit...41

3 Olga Riener. Thema Der Apriori-Algorithmus Seite 3 1. Einführung

4 Olga Riener. Thema Der Apriori-Algorithmus Seite 4 Was ist Data Mining? Erfolgsrezept in vielen Bereichen = Information + richtige Auswertung dieser Information. Datenbanken nehmen große Datenbestände auf. (Lagerbestände, Auftragsdaten, Verkaufs- und Umsatzdaten, Personendaten, usw.) Der KDD-Einsatz ( Knowledge Discovery in Databases ) entdeckt und interpretiert das nützliche Wissen aus diesen Daten. Data Mining ist das Herzstück des KDD-Prozesses. Unter Data Mining versteht man das systematische (in der Regel automatisierte oder halbautomatische) Entdecken und Extrahieren von Strukturen und Beziehungen in großen Datenmengen.

5 Olga Riener. Thema Der Apriori-Algorithmus Seite 5 Anwendungsbeispiel des Data Mining Die Warenkorbanalyse ist einer der geläufigsten Anwendungsbeispiele des Data Mining. Hier geht es um die Frage: Welche Produkte werden häufig zusammen gekauft? Hm-m-m, welche Produkte werden bei uns häufig zusammen gekauft? Kunde 1: Brot, Milch, Butter Kunde 2: Brot, Zucker, Milch Kunde 3: Brot, Milch, Butter, Mehl Kunde 4: Zucker, Sahne Erkenntnisse: Kauft ein Kunde Milch und Butter, besteht eine große Wahrscheinlichkeit, dass er sich auch noch für Brot entscheidet.

6 Olga Riener. Thema Der Apriori-Algorithmus Seite 6 Aufgabenbereiche und Methoden des Data Mining Aufgabe Aufgabenstellung Wesentliche Methoden Segmentierung Bildung von Klassen aufgrund von Ähnlichkeiten der Objekte. - Clusteranalyse - Neuronale Netze Klassifikation Vorhersage Identifikation der Klassenzugehörigkeit von Objekten auf der Basis gegebener Merkmale. Prognose der Werte einer abhängigen kontinuierlichen Variable auf Basis einer funktionalen Beziehung. - Diskriminanzanalyse - Neuronale Netze - Entscheidungsbäume - Regressionsanalyse - Neuronale Netze - Entscheidungsbäume Assoziation Aufdecken von strukturellen Zusammenhängen in Datenbasen mit Hilfe von Regeln. - Assoziationsanalyse

7 Olga Riener. Thema Der Apriori-Algorithmus Seite 7 Einsatzgebiete des Data Mining Marketing Kundensegmentierung Responseanalyse von Werbemitteln Warenkorbanalyse Storno-/Reklamations-/Kündigungsanalyse Beschaffung/Produktion Materialbedarfsplanung Qualitätssicherung und Kontrolle Finanzdienstleistungen Kreditrisikobewertung Prävention des Kreditkartenmissbrauchs Bildung von Versicherungsrisikoklassen Controlling Ergebnisabweichungsanalyse Entdecken von Controlling-Mustern

8 Olga Riener. Thema Der Apriori-Algorithmus Seite 8 2. Formale Notationen

9 Olga Riener. Thema Der Apriori-Algorithmus Seite 9 Gegeben: Definition Beispiel F: Menge von eindeutigen Transaktionsbezeichnern ID-Nummern der Kaufvorgänge O: Menge von Objektbezeichnern (items) Alle zum Verkauf stehenden Waren T = (TID, I): Transaktion, wo TID F und I O Kaufvorgang eines Kunden I = {i 1, i 2,..., i k }: Elemente (items) einer Transaktion Gekaufte Waren bei einem Einkauf D = T : Menge aller Transaktionen Verkaufsdatenbank Assoziationsregel eine Aussage der Form: Wenn ein Ereignis X eingetreten ist, dann besteht eine hohe Wahrscheinlichkeit, dass auch Ereignis Y eintritt. Für X,Y O, X Y= ist X Y eine Assoziationsregel. Eine Transaktion T=(TID,I) erfüllt eine Transaktionsregel R: X Y gdw. (X Y). Notation: T R. Arten der Assoziationsregeln: - nützliche Assoziationsregeln - syntaktisch triviale Assoziationsregeln - semantisch triviale Assoziationsregeln - unerklärliche Assoziationsregeln

10 Olga Riener. Thema Der Apriori-Algorithmus Seite 10 Unterstützungsgrad (Support) Seien F, O und D wie oben definiert. Für ein itemset X O ist der Unterstützungsgrad (support) von X in D wie folgt definiert: { T D T=(TID,I), X I } support D (X) = D Somit misst support D (X) den (prozentualen) Anteil der Transaktionen mit X in der Menge aller Transaktionen D an. Der Unterstützungsgrad (support) einer Assoziationsregel R: (A B) in D ist wie folgt definiert: {T D T=(TID,I), (A ) I } support D (A = = support D (A D Offensichtlich misst support D (A die statistische Signifikanz der Regel R und wird als der (prozentuale) Anteil der Transaktionen mit (A B) in der Menge aller Transaktionen D berechnet.

11 Olga Riener. Thema Der Apriori-Algorithmus Seite 11 Vertrauensgrad (confidence) Die Konfidenz misst die Sicherheit der entdeckten Assoziationsregel und präsentiert somit die Stärke bzw. den Vertrauensgrad für dieser Regel. Die Konfidenz ist der (prozentuale) Anteil der Transaktionen mit (X Y) in der Menge der Transaktionen D, deren Itemsets X enthalten : {T D T=(TID,I), (X Y) I } support D (X Y) confidence D (X Y) = = {T D T=(TID,I), X I } support D (X) Attributwertmenge (itemset) Eine Menge aus einem oder mehreren items einer Transaktion wird als Muster oder als Attributwertmenge (itemset) bezeichnet Z.B. Muster ({Milch, Brot}) in einer Kauftransaktion.

12 Olga Riener. Thema Der Apriori-Algorithmus Seite 12 k-attributwertmenge (k-itemset) Eine aus k items bestehende Attributwertmenge Häufiges Muster Ein häufiges Muster ist eine Attributwertmenge M O mit einem Unterstützungsgrad größer als eine vorgegebene minimale Unterstützung min_sup. D.h. der Anteil der Transaktionen in D mit dieser Attributwertmenge muss mindestens min_sup sein: support D (X) min_sup

13 Olga Riener. Thema Der Apriori-Algorithmus Seite 13 Beispiel: Formale Notationen Assoziationsregel Kauft ein Kunde Brot und Butter, so kauft er auch Milch Regel: {Brot, Butter } {Milch} Unterstützunggrad (support) support({brot}) = 5/6 = 83.3% support({milch},{butter}) = 3/6 = 50% support({brot},{milch}) = 4/6 = 66,6 % Einkaufstransaktionen TID Attribute 100 Brot, Milch, Butter 200 Brot, Milch, Käse 300 Brot, Marmelade 400 Milch, Butter, Brot 500 Brot, Milch, Butter, Käse 600 Marmelade Vertrauensgrad (confidence) support({brot} {Milch}) 2/3 confidence(brot Milch) = = = 80% support({brot}) 5/6 Häufige Muster (min_sup=45%) Die Attributwertmengen ({Brot}), ({Milch},{Butter}), ({Brot},{Milch}) sind häufige Muster. Die Attributwertmengen ({Butter, Käse}),(Marmelade}) sind keine häufigen Muster.

14 Olga Riener. Thema Der Apriori-Algorithmus Seite Def: Assoziationsproblem

15 Olga Riener. Thema Der Apriori-Algorithmus Seite 15 Die Entdeckung interessanter Zusammenhänge in größeren Datenbeständen erfolgt durch die Suche nach allen Assoziationsregeln. Gegeben: Menge D der Transaktionen ein minimaler Unterstützungsgrad (support) min_sup; ein minimaler Vertrauensgrad (confidence) min_conf. Gesucht: alle Assoziationsregel X Y, so dass support(x Y) min_sup confidence(x Y) min_conf

16 Olga Riener. Thema Der Apriori-Algorithmus Seite Basisalgorithmen zur Entdeckung von Assoziationsregeln

17 Olga Riener. Thema Der Apriori-Algorithmus Seite 17 AIS-Algorithmus (Agrawal, Imielinski and Swami, 1993) Der erste Algorithmus zur Generierung von einfachen Assoziationsregeln. Die potentiellen häufigen Attributwertmengen werden beim Scannen der Datenbank on the fly" generiert und gezählt (sehr rechenintensiv). SETM-Algorithmus (Houtsma und Swami, 1993) Motivation: SQL-Nutzung für die Suche nach Assoziationsregeln. Die potentiellen häufigen Attributwertmengen (analog dem AIS-Algorithmus) werden basierend auf Transformationen der Datenbank sozusagen on the fly" generiert. Die Aufzählung der Kandidaten ist ein separater Schritt. Nachteile von AIS und SETM Das überflüssige Generieren und Aufzählen der Kandidaten, die sich später als nicht häufig erweisen.

18 Olga Riener. Thema Der Apriori-Algorithmus Seite Apriori-Algorithmus

19 Olga Riener. Thema Der Apriori-Algorithmus Seite 19 Apriori-Vorgehen (Rakesh Agrawal und Ramakrishnan Srikant, 1994) Erste Phase: Die Suche nach häufigen Mustern (Attributwertmengen) mit dem eigentlichen Apriori- Algorithmus. Zweite Phase: In der zweiten Phase werden aus diesen häufigen Mustern Regeln gebildet.

20 Olga Riener. Thema Der Apriori-Algorithmus Seite 20 Apriori- Grundidee Bei der Ermittlung der häufigen Muster (Attributwertmengen) wird a priori gesetztes Wissen (vorausgesetztes Wissen) verwendet: Jede nichtleere Teilmenge einer häufigen Attributwertmenge muss auch eine häufige Attributwertmenge sein. Dieses a priori -Wissen wird als nicht-monotone Eigenschaft des Unterstützungsgrads aufgefasst: X,Y : ( X Y ) support(x) support(y) Diese Eigenschaft hilft im Apriori-Algorithmus den Suchraum zu verkleinern und alle Obermengen der aussichtslosen k-elementigen Attributwertmengen für weitere Iteration zu ignorieren.

21 Olga Riener. Thema Der Apriori-Algorithmus Seite 21 Konventionen C k (k 1) - die Menge aller k-elementigen potentiell häufigen Attributwertmengen. L k (k 1) - die Menge aller k-elementigen häufigen Attributwertmengen.

22 Olga Riener. Thema Der Apriori-Algorithmus Seite 22 Apriori-Algorithmus: Aufbau Initialisiere die Menge der häufigen 1-elementigen Attributwertmengen 1. Join-Phase, die C k Menge wird erzeugt, indem die (k-1)-attributwertmenge L k-1 mit sich selbst vereinigt wird. 2. Pruning-Phase, aus C k Menge werden alle k-elementigen Attributwertmengen entfernt, die eine Teilmenge enthalten, welche nicht häufig ist. (Apriori-Eigenschaft) 3. Die übrig gebliebenen Kandidaten aus C k werden an Hand der Datenbasis überprüft, ob diese wiederum häufig sind. Die Kandidaten, die diesen Test bestehen, werden in die Menge L k aufgenommen. Wiederhole 1-3 so oft, bis keine weitere häufige Attributwertmenge gefunden werden kann.

23 Olga Riener. Thema Der Apriori-Algorithmus Seite 23 Der Apriori-Algorithmus: Pseudo-Code ( 1) L 1 = {häufige 1-Attributenwertmenge}; ( 2) for ( k=2 ; L k-1 { } ; k++ ) do begin ( 3) C k = apriori-gen(l k-1 ); // Berechnung neuer Kandidaten ( 4) for all Transaktionen t D do begin ( 5) C t = subset(c k,t) ; // Berechnung aller in t enthaltene Kandidaten ( 6) for all Kandidaten c C t do ( 7) c.count++; // ( 8) end ( 9) L k = {c C k c.count >= minsup} (10) end (11) return: k L k

24 Olga Riener. Thema Der Apriori-Algorithmus Seite 24 Prozedur Apriori-gen: Kandidat-Generierung Berechnet k-elementigen potentiell häufigen Attributwertmengen procedure apriori-gen(l k-1 : (k-1)-attributenwertmenge) //Join-Schritt ( 1) insert into C k ( 2) select p.item 1, p.item 2, p.item k-1, q.item k-1 ( 3) from L k-1 p, L k-1 q ( 4) where p.item 1 =q.item 1,.,.p.item k-2=q. item k-2, p.item k-1<q. item k-1 // Prune-Schritt ( 5) for all itemsets c C k do ( 6) for all (k-1) subset s of c do ( 7) if ( s L k-1 ) then ( 8) delete c from C k end procedure

25 Olga Riener. Thema Der Apriori-Algorithmus Seite 25 Subroutine subset Testet ob die übrig gebliebenen Kandidaten aus C k Unterstützungsgrad min_sup besitzen. auch den vorgegebenen Erfordert einen kompletten DB-Durchlauf. Effiziente Implementierung ist sehr wichtig. Hierfür wird ein Hashverfahren angewendet und die k-elementigen Kandidatmengen C k in einem Hash-Tree gespeichert.

26 Olga Riener. Thema Der Apriori-Algorithmus Seite 26 Der Apriori-Algorithmus: Beispiel Geforderte minimale Unterstützungsgrad für eine häufige Attributwertmenge ist min_sup=50% Transaktionen 1. Iteration TID Gekaufte Artikel C 1 Menge 100 {a, b, c} Itemset Support 200 {a, b, d} {a} 5/6 = 83,3 % L 1 Menge 300 {a, e} {b} 4/6 = 66,6 % Itemset Support 400 {a, b, c} {c} 3/6 = 50 % {a} 5/6 = 83,3 % 500 {a, b, c, d} {d} 2/6 = 33,3 % {b} 4/6 = 66,6 % 600 {e} {e} 2/6 = 33,3 % {c} 3/6 = 50 % 2. Iteration 3. Iteration C 2 Menge L 2 Menge Itemset Support Itemset Support {a, b} 4/6 = 66,6 % {a, b} 4/6 = 66,6 % C 3 Menge L 3 Menge {a, c} 3/6 = 50 % {a, c} 3/6 = 50 % Itemset Support Itemset Support {b, c} 3/6 = 50 % {b, c} 3/6 = 50 % {a, b, c} 3/6 = 50 % {a, b, c} 3/6 = 50 % C 4 Menge L 4 Menge Itemset Support Itemset Support {} {} 4. Iteration

27 Olga Riener. Thema Der Apriori-Algorithmus Seite 27 Erkennung der Assoziationsregeln Gegebenen (II Phase des Apriori-Verfahrens): sämtliche häufige Muster (X Y) eines Datenbestandes, wo support(x Y) min_sup Gesucht: die Regeln (X Y) mit confidence(x Y) min_conf Vorgehen: Für jede häufige Attributwertmenge l werden nicht leere Teilmengen von l gebildet Für jede nicht leere Teilmenge s von l wird die Regel s (l-s) generiert, falls support(l) min_conf support(s)

28 Olga Riener. Thema Der Apriori-Algorithmus Seite 28 Erkennung der Assoziationsregeln: Beispiel (Fortführung des Apriori- Beispiels) Als Ergebnis des Gesamtverfahrens werden nur diejenigen Assoziationsregeln ausgegeben, welche mindestens den vorgegebenen Vertrauensgrad min_conf=75 % besitzen. Regeln mit Support Erfüllende Transaktionen Unterstützungsgrad (support) Vertrauensgrad (confidence) {a} {b} 100, 200, 400, % 80 % {b} {a} 100, 200, 400, % 100 % {b} {c} 100, 400, % 75 % {c} {b} 100, 400, % 100 % {a} {c} 100, 400, % 60 % {c} {a} 100, 400, % 100 % {a, c} {b} 100, 400, % 100 % {b, a} {c} 100, 400, % 75 % {c,b} {a} 100, 400, % 100 % {b} {a, c} 100, 400, % 75 % {c} {b, a} 100, 400, % 100 % {a} {b, c} 100, 400, % 60 %

29 Olga Riener. Thema Der Apriori-Algorithmus Seite Apriori-Erweiterungen

30 Olga Riener. Thema Der Apriori-Algorithmus Seite 30 Laufzeitverhalten des Apriori: gut bei kleinen und mittleren Datenmengen schlecht bei sehr großen Datenmengen Abhilfe durch die Apriori-Modifikationen: AprioriTID AprioriHybrid

31 Olga Riener. Thema Der Apriori-Algorithmus Seite 31 AprioriTID Die Datenbank D wird nach dem ersten Durchlauf nicht mehr für die Berechnung der Unterstützung benutzt. Die Kandidaten werden als Hilfsmenge C k kodiert. Jeder Kandidat ist als Eintrag der Form <TID, {X k }> kodiert, wo X k eine potentiell häufige k- Attributwertmenge in Transaktion TID ist. Bei k=1 wird die gesamte Datenbank als C 1 aufgefasst. Jede weitere Iteration k+1 nutzt dann nicht die Datenbank, sondern die Hilfsmenge C k Der Vorteil: die Anzahl der Datenbankzugriffe wird gesenkt. Der Nachteil: bei der ersten Iterationen wird viel Speicherplatz benötigt.

32 Olga Riener. Thema Der Apriori-Algorithmus Seite 32 AprioriTID-Algorithmus: Beispiel (min_sup=50%) Datenbank C 1 L 1 TID Attributen TID Hilfsmenge der Itemsets Itemset Support 100 a, c, d 100 {{a},{c},{d}} {a} 2/4 = 50% 200 b, c, e 200 {{b},{c},{e}} {b} 3/4 = 75% 300 a, b, c, e 300 {{a},{b},{c},{e}} {c} 3/4 = 75% 400 b, e 400 {{b},{e}} {e} 3/4 = 75% C 2 Itemset C 2 {a b} TID Hilfsmenge der Itemsets L 2 {a c} 100 {{a c}} Itemset Support {a e} 200 {{b c},{b e}, {c e}} {a c} 2/4 = 50% {b c} 300 {{a b},{a c},{a e},{b c}, {b e},{c e}} {b c} 2/4 = 50% {b e} {b e} 3/4 = 75% {c e} 400 {{b e}} {c e} 2/4 = 50% C 3 C 3 Itemset TID Hilfsmenge der Itemsets L 3 {b c e} 200 {{ b c e }} Itemset Support 300 {{ b c e }} { b c e } 2/4 = 50%

33 Olga Riener. Thema Der Apriori-Algorithmus Seite 33 AprioriHybrid kombiniert die besten Eigenschaften von Apriori und AprioriTID in einem Verfahren. Apriori-Algorithmus wird in früheren Iterationen verwendet. Wechsel zum AprioriTID-Algorithmus in späteren Iterationen. Wechsel zum AprioriTID-Algorithmus wenn die Hilfsmenge C k für die kodierten Kandidaten in den operativen Speicher passt. Nachteil beim Wechsel: Verbrauch zusätzlicher Ressourcen

34 Olga Riener. Thema Der Apriori-Algorithmus Seite Sonstige Ansätze zur Effizienzsteigerung von Apriori

35 Olga Riener. Thema Der Apriori-Algorithmus Seite 35 Hauptansätze für die Effizienzsteigerung des Apriori-Verfahrens: Reduktion der Anzahl der Datenbankzugriffe/Datenbankscans Reduktion der Anzahl der Kandidaten Beschleunigung der Berechnung des Unterstützungsgrads für die Kandidaten Algorithmen für die Effizienzsteigerung des Apriori-Verfahrens: Hashbasierte Techniken (DHP) Reduzierung der Transaktionen Partitionierung Sampling Dynamische Aufzählung der Attributwertmenge (DIC)

36 Olga Riener. Thema Der Apriori-Algorithmus Seite 36 Hashbasierte Techniken (DHP - direkt hashing and pruning ) Autoren: J. Park, M. Chen and P. Yu, 1995 Reduzierung der potentiell häufigen k-attributwertmenge C k für k>1. Verfahren: - Jede k-attributwertmenge X C k für k>1 kommt zusätzlich in den Hash-Behälter HB X ; - Zähler (HB X ) < min_sup X kann nicht häufig sein und wird aus C k entfernt.

37 Olga Riener. Thema Der Apriori-Algorithmus Seite 37 Reduzierung der Transaktionen Reduzierung der Anzahl der Transaktionen, die in den künftigen Iterationen gescannt werden. Verfahren: - Eine Transaktion T ohne häufigen k-attributwertmengen kann auch keine häufigen k+1- Attributwertmengen beinhalten und wird besonders gekennzeichnet. - Bei den nachfolgenden DB-Durchläufe für j-attributwertmengen bei j>k werden alle besonders gekennzeichneten Transaktion ignoriert.

38 Olga Riener. Thema Der Apriori-Algorithmus Seite 38 Partitionierung Autoren: A. Savasere, E. Omiecinski and S. Navathe, Jede häufige Attributwertmenge in D soll mindestens in einer der Partitionen von D als häufig vorkommen. Benötigt nur 2 DB-Durchläufe. Verfahren (2 Phasen) : - 1. Phase: verteilt die Transaktionen von D in n disjunkte Partitionen und sucht nach lokalen häufigen Attributwertmengen in jeder Partition. Bei der Bestimmung der lokalen häufigen Attributwertmengen wird für jede Partition X die folgende angepasste Grösse vom minimal geforderten Unterstützungsgrad min_sup verwendet: min_sup (Partition X) = min_sup * ( X / D ) - 2. Phase: berechnet die tatsächliche Unterstützung aller lokalen häufigen Attributwertmengen in D und leitet daraus die Menge der globalen häufigen Attributwertmengen.

39 Olga Riener. Thema Der Apriori-Algorithmus Seite 39 Sampling Autor: H. Toivonen, 1996 Erhöhung der Effizienz auf Kosten der Genauigkeit. Verfahren: - Bildung einer Teilmenge S der gegebenen Daten D durch die Stichproben. - Recherchen auf S und Ermittlung aller häufigen Attributwertmengen L S mit einem geringeren Unterstützungsgrad als der ursprünglich geforderte minimale Unterstützungsgrad min_sup. - DB-Durchlauf zur Berechnung der tatsächlichen Häufigkeit jeder Attributwertmenge aus L S.

40 Olga Riener. Thema Der Apriori-Algorithmus Seite 40 Dynamische Aufzählung der Attributwertmenge (DIC) Autoren: S. Brin, R. Motwani, J. Ullman und S. Tsur, 1997 DIC= dynamic itemset counting Die Berechnung des Unterstützungsgrads in der Kandidatengenerierungsphase wird gestoppt, sobald eine Attributwertmenge eine Unterstützung größer als den vorgegebenen Unterstützungsgrad min_sup besitzt.

41 Olga Riener. Thema Der Apriori-Algorithmus Seite Fazit

42 Olga Riener. Thema Der Apriori-Algorithmus Seite 42 Die Assoziationsregeln stellen eine wichtige Analysemöglichkeit für Datenbestände dar. Wir haben diverse Ansätze zur Entdeckung der Assoziationsregeln kenngelernt. Der Apriori-Algorithmus ist eine gut anwendbare und verständliche Methode zur Entdeckung von Assoziationsregeln, die in Vergleich zur früheren Ansätzen (AIS, SETM) mit hoher Performanz arbeitet. Auch der Apriori ist noch nicht optimal. Hierfür existieren diverse Erweiterungen des Apriori Algorithmus wie AprioriTID und AprioriHybrid, sowie weitere Ansätze zur Reduzierung der Anzahl der Datenbankzugriffe, Reduzierung der Kandidatengenerierung, usw.

43 Olga Riener. Thema Der Apriori-Algorithmus Seite 43 Diskussion

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Data Mining. Lehrgebiet Datenbanksysteme für neue Anwendungen. Seminarband zu Kurs 1912 im SS 2008. Vorträge der Präsenzphase am 4. und 5.

Data Mining. Lehrgebiet Datenbanksysteme für neue Anwendungen. Seminarband zu Kurs 1912 im SS 2008. Vorträge der Präsenzphase am 4. und 5. Lehrgebiet Datenbanksysteme für neue Anwendungen Seminarband zu Kurs 1912 im SS 2008 Data Mining Vorträge der Präsenzphase am 4. und 5. Juli 2008 Betreuer: Prof. Dr. Ralf Hartmut Güting Dipl.-Inform. Christian

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

VII.3 Assoziationsregeln

VII.3 Assoziationsregeln VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln

Mehr

Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken

Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken Diplomarbeit Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken Irina Alesker Diplomarbeit am Fachbereich Informatik der Universität Dortmund 23. Juni 2005 Betreuer: Prof.

Mehr

WIRTSCHAFTSUNIVERSITÄT WIEN DIPLOMARBEIT

WIRTSCHAFTSUNIVERSITÄT WIEN DIPLOMARBEIT WIRTSCHAFTSUNIVERSITÄT WIEN DIPLOMARBEIT Titel der Diplomarbeit: Visualisierung von Assoziationsregeln mit R Verfasserin/Verfasser: Martin Vodenicharov Matrikel-Nr.: 0253795 Studienrichtung: Betriebswirtschaft

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Assoziationsanalyse und Konzeptbeschreibung

Assoziationsanalyse und Konzeptbeschreibung Assoziationsanalyse und Konzeptbeschreibung Helge Saathoff 7. März 2003 ABSTRACT Wir leben im Informationszeitalter. Fortschritte in der Hard- und Softwaretechnologie haben es ermöglicht, daß heutzutage

Mehr

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh?

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? best-reactions GmbH Hirschberger Straße 33 D 90559 Burgthann Alle Rechte vorbehalten HRB 23679, Amtsgericht Nürnberg Geschäftsführer Alexander P.

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Teil X Business Intelligence Anwendungen

Teil X Business Intelligence Anwendungen Teil X Business Intelligence Anwendungen Business Intelligence Anwendungen 1 Begriffsklärung 2 3 Report & BSC c Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 20.01.2012 10 1 Begriffsklärung

Mehr

Teil X Business Intelligence Anwendungen

Teil X Business Intelligence Anwendungen Teil X Business Intelligence Anwendungen Business Intelligence Anwendungen 1 Begriffsklärung c Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 19.09.2012 10 1 Business Intelligence

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Mining top-k frequent itemsets from data streams

Mining top-k frequent itemsets from data streams Seminar: Maschinelles Lernen Mining top-k frequent itemsets from data streams R.C.-W. Wong A.W.-C. Fu 1 Gliederung 1. Einleitung 2. Chernoff-basierter Algorithmus 3. top-k lossy counting Algorithmus 4.

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Einführung in die Informatik I

Einführung in die Informatik I Einführung in die Informatik I Algorithmen und deren Programmierung Prof. Dr. Nikolaus Wulff Definition Algorithmus Ein Algorithmus ist eine präzise formulierte Handlungsanweisung zur Lösung einer gleichartigen

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,

Mehr

Anwendung der Business Analytics

Anwendung der Business Analytics Anwendung der Business Analytics TDWI 2013 München Prof. Dr. Carsten Felden Dipl.-Wirt.-Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg (Sachsen) Institut für Wirtschaftsinformatik

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Kapitel 17: Date Warehouse

Kapitel 17: Date Warehouse Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock. Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.de 1 Informationsflut Amazon: Alle lieferbaren Bücher (930.000 Titeln

Mehr

Parallelisierung von Data Mining - Algorithmen

Parallelisierung von Data Mining - Algorithmen Fakultät für Elektrotechnik und Informatik Institut für Praktische Informatik Fachgebiet Datenbanken und Informationssysteme Parallelisierung von Data Mining - Algorithmen Masterarbeit im Studiengang Informatik

Mehr

Praxisorientierte. Weiterbildung KURSE 2014. dynelytics AG SCHNECKENMANNSTRASSE 25 CH-8044 ZÜRICH

Praxisorientierte. Weiterbildung KURSE 2014. dynelytics AG SCHNECKENMANNSTRASSE 25 CH-8044 ZÜRICH KURSE 2014 Praxisorientierte Weiterbildung dynelytics AG SCHNECKENMANNSTRASSE 25 CH-8044 ZÜRICH TELEFON (+41) 44 266 90 30 FAX (+41) 44 266 90 39 E-MAIL INFO@DYNELYTICS.COM Dynelytics IBM SPSS-Kurse 2014

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Überblick. Seminar Beauty is our Business Tipps zur Ausarbeitung. 12.7.2007 Felix Naumann

Überblick. Seminar Beauty is our Business Tipps zur Ausarbeitung. 12.7.2007 Felix Naumann Seminar Beauty is our Business Tipps zur Ausarbeitung 12.7.2007 Felix Naumann Überblick 2 Organisatorisches Tipps zur Ausarbeitung Literatur Ihre Gliederungen 1 Organisatorisches 3 Heute letzter Termin

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik Grundlagen der Informatik II Teil I: Formale Modelle der Informatik 1 Einführung GdInfoII 1-2 Ziele/Fragestellungen der Theoretischen Informatik 1. Einführung abstrakter Modelle für informationsverarbeitende

Mehr

Oracle-Statistiken im Data Warehouse effizient nutzen

Oracle-Statistiken im Data Warehouse effizient nutzen Oracle-Statistiken im Data Warehouse effizient nutzen Reinhard Mense ARETO Consulting Köln Schlüsselworte: DWH, Data Warehouse, Statistiken, Optimizer, Performance, Laufzeiten Einleitung Für die performante

Mehr

Ermittlung charakteristischer Datensätze durch Data Mining

Ermittlung charakteristischer Datensätze durch Data Mining Ermittlung charakteristischer Datensätze durch Data Mining Diplomarbeit im Fach Informatik vorgelegt von Mathias Ruoss Winterthur Matrikelnummer 00-917-575 Angefertigt am Institut für Informatik der Universität

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 22. Constraint-Satisfaction-Probleme: Kantenkonsistenz Malte Helmert Universität Basel 14. April 2014 Constraint-Satisfaction-Probleme: Überblick Kapitelüberblick

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Bachelorarbeit. Jörn Slotta. Vergleich von Algorithmen zur Assoziationsanalyse basierend auf Webserver Logfiles

Bachelorarbeit. Jörn Slotta. Vergleich von Algorithmen zur Assoziationsanalyse basierend auf Webserver Logfiles Bachelorarbeit Jörn Slotta Vergleich von Algorithmen zur Assoziationsanalyse basierend auf Webserver Logfiles Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

2. Automatische Codegenerierung mittels dynamischer Spezialisierung

2. Automatische Codegenerierung mittels dynamischer Spezialisierung 2 Automatische Codegenerierung mittels dynamischer Spezialisierung 1/16 Quelle: Vicente Pelechano, Oscar Pastor, Emilio Insfran Automated code generation of dynamic specializations: An approach based on

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

Alles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein

Alles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein Alles für den Kunden Analyse von Kundendaten Katrin Plickert, Heiko Hartenstein Zum Verständnis 9. Februar 2007 Heiko Hartenstein, Katrin Plickert 2 Quelle: Heilmann, Kempner, Baars: Business and Competitive

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Visualisierung der Imperfektion in multidimensionalen Daten

Visualisierung der Imperfektion in multidimensionalen Daten Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Faktorisierung ganzer Zahlen mittels Pollards ρ-methode (1975)

Faktorisierung ganzer Zahlen mittels Pollards ρ-methode (1975) Dass das Problem, die Primzahlen von den zusammengesetzten zu unterscheiden und letztere in ihre Primfaktoren zu zerlegen zu den wichtigsten und nützlichsten der ganzen Arithmetik gehört und den Fleiss

Mehr

On-Line Analytical Processing

On-Line Analytical Processing OLAP und Data Mining ƒ OLAP Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen ƒ Data Mining Begriff und Prozeß Verfahren Vorlesung Data-Warehouse-Technologien 9-1 On-Line Analytical Processing

Mehr

OLAP und Data Mining. On-Line Analytical Processing. Coddsche Regeln OLAP. Data Mining. Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen

OLAP und Data Mining. On-Line Analytical Processing. Coddsche Regeln OLAP. Data Mining. Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen OLAP und Data Mining OLAP Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen Data Mining Begriff und Prozeß Verfahren Vorlesung Data-Warehouse-Technologien 9-1 On-Line Analytical Processing

Mehr

Web Mining und Farming

Web Mining und Farming Web Mining und Farming Shenwei Song Gliederung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme

Mehr

WS 2008/09. Diskrete Strukturen

WS 2008/09. Diskrete Strukturen WS 2008/09 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0809

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems

13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems 13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems 13.1 Modellierung des Rucksackproblems 13.2 Lösung mit Greedy-Algorithmus 13.3 Lösung mit Backtracking 13.4 Lösung mit Dynamischer Programmierung

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

Algorithmentheorie. 13 - Maximale Flüsse

Algorithmentheorie. 13 - Maximale Flüsse Algorithmentheorie 3 - Maximale Flüsse Prof. Dr. S. Albers Prof. Dr. Th. Ottmann . Maximale Flüsse in Netzwerken 5 3 4 7 s 0 5 9 5 9 4 3 4 5 0 3 5 5 t 8 8 Netzwerke und Flüsse N = (V,E,c) gerichtetes Netzwerk

Mehr

Oracle 10g Einführung

Oracle 10g Einführung Kurs Oracle 10g Einführung Teil 7 Einige interessante SQL und PL/SQL Erweiterungen für Administratoren Timo Meyer Administration von Oracle-Datenbanken Timo Meyer Sommersemester 2006 Seite 1 von 19 Seite

Mehr

Kapitel 7: Formaler Datenbankentwurf

Kapitel 7: Formaler Datenbankentwurf 7. Formaler Datenbankentwurf Seite 1 Kapitel 7: Formaler Datenbankentwurf Die Schwierigkeiten der konzeptuellen Modellierung sind zu einem großen Teil dadurch begründet, dass sich die relevanten Strukturen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny Grundlagen der Informatik Prof. Dr. Stefan Enderle NTA Isny 2 Datenstrukturen 2.1 Einführung Syntax: Definition einer formalen Grammatik, um Regeln einer formalen Sprache (Programmiersprache) festzulegen.

Mehr

Präsentation zur Diplomprüfung. Thema der Diplomarbeit:

Präsentation zur Diplomprüfung. Thema der Diplomarbeit: Präsentation zur Diplomprüfung Thema der Diplomarbeit: Analyse der Einsatzmöglichkeiten von Data Mining- Verfahren innerhalb einer Unternehmens - Balanced Scorecard und Entwicklung eines Empfehlungskatalogs.

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Funktionale Programmierung. Funktionale Programmierung: Vorlesungsüberblick. Eigenschaften rein funktionaler Programmierung

Funktionale Programmierung. Funktionale Programmierung: Vorlesungsüberblick. Eigenschaften rein funktionaler Programmierung Funktionale Programmierung 1 Funktionale Programmierung: Vorlesungsüberblick 1. Funktionale Programmierung Prinzipien funktionaler Programmierung Funktionale Programmierung in prozeduralen Sprachen Rekursive

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder Programmieren in PASCAL Bäume 1 1. Baumstrukturen Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder 1. die leere Struktur oder 2. ein Knoten vom Typ Element

Mehr

DV-Organisation und Anwendungsentwicklung. 4. Klausur

DV-Organisation und Anwendungsentwicklung. 4. Klausur MUSTERLÖSUNG WADV 1b 29.04.2005 120 Min. 1 DV-Organisation und Anwendungsentwicklung 4. Klausur A1 A2 A3 SUMME Maximale Punktzahl 20 15 25 60 Erreichte Punktzahl NOTE: MUSTERLÖSUNG WADV 1b 29.04.2005 120

Mehr

6. Modellierung von Informationssystemen. 6.1 Einleitung 6.2 Konzeptuelles Modell 6.3 OASIS Spezifikation 6.4 Execution Model 6.

6. Modellierung von Informationssystemen. 6.1 Einleitung 6.2 Konzeptuelles Modell 6.3 OASIS Spezifikation 6.4 Execution Model 6. 6. Modellierung von Informationssystemen Spezialseminar Matr. FS 2000 1/10 Volker Dobrowolny FIN- ITI Quellen: Oscar Pastor, Jaime Gomez, Emilio Insfran, Vicente Pelechano The OO-Method approach for information

Mehr

Meeting the Challenges of Integrating Large and Diverse Geographic Databases

Meeting the Challenges of Integrating Large and Diverse Geographic Databases Meeting the Challenges of Integrating Large and Diverse Geographic Databases M. Sc. Michael Schäfers schaefers@dbs.uni-hannover.de 04. März 2014 Agenda: 1 Motivation: Räumliche Datenintegration 2 3 Take-Home-Message:

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Quantitatives Frequent-Pattern Mining über Datenströmen

Quantitatives Frequent-Pattern Mining über Datenströmen Quantitatives Frequent-Pattern Mining über Datenströmen Daniel Klan, Thomas Rohe Department of Computer Science & Automation TU Ilmenau, Germany {first.last}@tu-ilmenau.de Abstract Das Aufdecken unbekannter

Mehr