Kapitel 13: Pattern Mining unter Constraints

Größe: px
Ab Seite anzeigen:

Download "Kapitel 13: Pattern Mining unter Constraints"

Transkript

1 Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher (Mengen von Transaktionen, Warenkörbe ). Data Warehousing und Mining 1 Data Warehousing und Mining Association Rules unter Unterschiedliche Arten des Prunings Mining, wie bisher vorgestellt, bietet keine Möglichkeit der Fokusierung. Man will für die zu findenden Association Rules angeben, z. B. Association Rules nur mit Items, die mehr als EUR 100,-- kosten. Motivation: licheres Resultat. Chance: Kürzere Laufzeit entsprechender Algorithmen? Support-basiert Kandidat wird eliminiert (candidate is pruned), wenn eine seiner Teilmengen nicht frequent ist. Constraint-basiert Kandidat wird eliminiert, wenn er ein aus den vorgegebenen abgeleitetes Constraint nicht erfüllt. Data Warehousing und Mining 3 Data Warehousing und Mining 4

2 Was für? (1) Was für? () Data, Data : Rule. Einschränkung auf konkrete Werte Beispiel: Finde alle Produkte, die in Basel im Dezember 98 oft zusammen verkauft wurden. (Auch Intervall-Angaben möglich.) Einschränkung auf bestimmte Attribute (z. B. Dimensionen/Levels) des Raums. Beispiel: Einschränkung auf region, price, brand, customer category. Data Warehousing und Mining 5 Data Warehousing und Mining 6 Was für? (3) Unterschiedliche Ansätze Rule : Unterschiedliche Ansätze: Spezifikation der Struktur oder von Eigenschaften der zu ermittelnden Regeln. Constraint-basierte Association Rules Beispiel: Nur Frequent Itemsets der Größe 3. Meta-Rule Guided Mining, und -var. Meta-Rule Guided Mining: Zugrundeliegende relationale Datenbank mit Schema. und -var : Zugrundeliegende Struktur Menge von Items mit Attributen. Ansätze kombinierbar. (Wird hier nicht explizit dargestellt.) Data Warehousing und Mining 7 Data Warehousing und Mining 8

3 Meta-Rule Guided Mining (1) Meta-Rule Guided Mining (1) - Introduction - Overview - Idea - - Succinct ness Beispiel: Zugrundeliegende Relationen: student(name, sno, status, major, gpa, birth_date, birth_place, address) course(cno, title, dept) grading(sno, cno, instructor, semester, grade) Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address - Introduction - Overview - Idea - - Succinct ness Beispiel: Zugrundeliegende Relationen: student(name, sno, status, major, gpa, birth_date, birth_place, address) course(cno, title, dept) grading(sno, cno, instructor, semester, grade) Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address Data Warehousing und Mining 9 Data Warehousing und Mining 10 Meta-Rule Guided Mining () Meta-Rule Guided Mining (3) - Introduction - Overview - Idea - - Succinct ness Beispiel (Forts.): Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address Erklärung: Zweite Zeile: meta-rule, Q, R Variable für Prädikate, mit Attributen instanziierbar, z. B. gpa, status, birth_place, address Beispiel für Regel, die gefunden wird: major(s, "Science") & gpa(s, "Excellent") status(s, "Graduate") (60%) - Introduction - Overview - Idea - - Succinct ness Meta-Rule Guided Mining: Sowohl Data als auch Rule birth_place = "Canada" Zwei Prädikate auf der linken Seite der Regel. Data Warehousing und Mining 11 Data Warehousing und Mining 1

4 , -var (1), -var () I. d. R. Aggregation über Werte/Belegungen mehrerer/aller Items Beispiel: Left-Hand Side sum(lhs) < 100 min(lhs) > 0 count(lhs) > 3 sum(rhs) > 1000 iable vs. -variable : : Constraint, das nur eine Seite der Regel (L oder R) einschränkt, wie im Beispiel oben. -var: Constraint bezüglich beider Seiten (L und R). Beispiel: sum(lhs) < min(rhs) max(rhs) < 5 sum(lhs) Hier: Regel als Tupel, mit zwei Komponenten (LHS, RHS). Verallgemeinerung möglich: Suche nach Tupeln mit n Komponenten (S 1,, S n ) (S i Itemset) D. h. S 1 =LHS, S =RHS. Data Warehousing und Mining 13 Data Warehousing und Mining 14 Weitere Beispiele für und -var (1) Weitere Beispiele für und -var () {(S 1, S ) S 1 Item & S Item & count(s 1 )=1 & count(s ) = 1 & freq(s 1 ) & freq(s )} spezifiziert Frequency. (Item- und Frequency- werden im folgenden weggelassen.) {(S 1, S ) agg 1 (S 1.Price) 100 & agg (S.Price) 1000} agg 1, agg irgendwelche Aggregationsfunktionen, S 1.Price Menge der Werte des Price-Attributs der Elemente von S 1. {(S 1, S ) count(s 1.Type)=1 & count(s.type)=1 & S 1.Type S.Type} Paare von Mengen von Items unterschiedlichen Typs (Type ist hier ein Attribut.) Data Warehousing und Mining 15 Data Warehousing und Mining 16

5 (1) Illustration Auflistung der Single-Variable ( ), die wir im Folgenden betrachten: Domain : Sθv θ {=,, <,, >, } Jedes Item s aus S muß das Constraint sθv erfüllen. Beispiel: Price 100 vθs θ {, } Beispiel: Snack Type SθV, VθS θ {=,,,, } Data Warehousing und Mining 17 SθV, VθS {Food, Drink} Type Association Rules: Burger, Pommes Cola Benzin, Frostschutzmittel Schokoriegel Zugrundeliegende Relation Item Type Burger Food Pommes Food Cola Drink Benzin Non-Food Frostschutz Non-Food Schokoriegel Non-Food Wenn Constraint für LHS, dann zweite Regel nicht. Wenn Constraint für RHS, ebenfalls nicht. Data Warehousing und Mining 18 () Single-Variable (Fortsetzung): Class : S A S ist Mengenvariable, A ist Attribut. S ist Menge von Werten aus dem Definitionsbereich von A. Beispiel: S 1 Item Aggregate : agg(s)θv agg ist min, max, sum, count, oder avg, θ {=,, <,, >, } Beschleunigung des Data Mining Prozesses Rigideres Pruning möglich ( Monotonizität ), Explizites Erzeugen des Itemsets ( ). z Data Warehousing und Mining 19 Data Warehousing und Mining 0

6 Mining von Association Rules unter (1) Postprocessing Naive Lösung: Finde alle Frequent Itemsets mit Apriori, und überprüfe dann für jede dieser Mengen, ob sie die erfüllt. Optimierung umfassende Analyse der Eigenschaften der mit dem Ziel, sie möglichst tief in den Algorithmus hizudrücken. Mining von Association Rules unter () Relevante Eigenschaften der : Monotonizität Ziel: Constraint möglichst früh überprüfen und Pruning so früh wie möglich stattfinden lassen, Ziel: Kandidaten, die Constraint nicht erfüllen, werden gar nicht erst erzeugt. Data Warehousing und Mining 1 Data Warehousing und Mining Monotonizität (1) Monotonizität () Definition: Ein single-variable Constraint ist anti-monoton gdw. für alle Mengen S, S gilt: S S & S erfüllt C S erfüllt C. D.h. jede Teilmenge erfüllt das Constraint. Beispiel: min(s) v ist anti-monoton. Was ist mit den folgenden? max(s) v size(s) v size(s) v Warum ist Monotonizität interessant? Wenn S Bedingung nicht erfüllt, brauchen wir Obermengen von S nicht mehr betrachten. Constraint Sθv, θ {=,, } v S S V S V S=V min(s) v min(s) v min(s) =v max(s) v max(s) v max(s) =v count(s) v count(s) v count(s) =v sum(s) v sum(s) v sum(s) =v avg(s)θv, θ {=,, } <frequency constraint> anti-monoton ja ja teilweise ja teilweise ja teilweise ja teilweise ja teilweise <ja> teilweise je nachdem, wie die Menge das Constraint verletzt. Beispiel für teilweise max(s)=v. Sei S S. Wenn max(s )>v: Man braucht S nicht mehr betrachten. Wenn max(s )<v: Das gilt nicht. Data Warehousing und Mining 3 Data Warehousing und Mining 4

7 Beispiel succinct = kurz und bündig, kurz und knapp, Eigenschaft von Constraint ist succinct, wenn man alle Itemsets, die das Constraint erfüllen, explizit in kurzer Art und Weise hinschreiben kann. - Introduction - Overview - Idea - Constraint C S.Type=Nonfood Nur drei Produkte mit 'Type=Nonfood'im Sortiment. Wieviele Frequent Itemsets gibt es maximal, die o. g. Constraint erfüllen? Anstelle von Apriori die Itemsets mit den drei Produkten erzeugen, ein Mal Support Counting. - Succinct ness z Data Warehousing und Mining 5 Data Warehousing und Mining 6 Motivation (1) Motivation () Motivation am Beispiel des Einzelhandels: Logisch zusammengehörige Einkäufe (z. B. CD-Brenner und CD-Rohlinge; Korn und Aspirin) oft nicht in einer Transaktion, sondern nacheinander. Annahme: Wir können Einkäufe dem Kunden eindeutig zuordnen, z. B. anhand von Treuekarte. Kundenverhalten nicht Menge, sondern Folge von Waren. (Folge von Mengen von Waren wäre präziser, hier zunächst aber nur Folge von Waren.) Alternativen: 1. Zeitpunkt/absoluter Zeitabstand zwischen Käufen interessiert nicht/ nicht verfügbar.. Jedem Einkauf entspricht expliziter Zeitpunkt. In diesem Kapitel erste Alternative. Ziel der Analyse: Subsequenzen mit bestimmter Mindesthäufigkeit. Sequential Patterns. Subsequenz wird gleich erklärt. Data Warehousing und Mining 7 Data Warehousing und Mining 8

8 Constraint-basiertes Mining von Sequenzen (1) Finden häufiger Sequenzen ohne Im folgenden: Finden häufiger Subsequenzen in Mengen von Sequenzen Beispiel: <1,3> und <1,,4> sind Subsequenzen von <1,,3,4>. Support einer Sequenz Beispiel: <1 3>, <1 4>, <4 >; minsup=50%: <1 > ist frequent, < 4> dagegen nicht. Geht wie Apriori, Kandidatenerzeugung ist wiederum Self-Join von F k-1, die Join-Attribute sind die letzten k- Elemente der ersten und die ersten k- Elemente der zweiten Sequenz. Illustration: <1 3 4>, < 3 4 5> < > Data Warehousing und Mining 9 Data Warehousing und Mining 30 Constraint-basiertes Mining von Sequenzen () Constraint-basiertes Mining von Sequenzen (3) : Reguläre Ausdrücke Beispiel: (ab)* Diese Art von ist nicht anti-monoton. Warum nicht? Beispiel für Constraint, das nicht anti-monoton ist: (ab)* abababab hat Subsequenz aaaa. Bisheriges Vorgehen funktioniert nicht. Data Warehousing und Mining 31 Data Warehousing und Mining 3

9 Wiederholung wichtiger Eigenschaften regulärer Ausdrücke und deterministischer endlicher Automaten: Regulärer Ausdruck R deterministischer Automat M R Sequenz s ist zulässig bezüglich Zustand b, wenn es ausgehend von b eine Folge von Transitionen für die Elemente von s gibt. Sequenz s ist gültig bezüglich Zustand b, wenn s zulässig ist, und Zustand nach den Transitionen ist Endzustand. Illustration. Support-basiertes Pruning Sei Kandidat c der Länge k gegeben. c wird eliminiert, wenn (k-1)-elementige Teilfolge, die R erfüllt, nicht frequent ist. Data Warehousing und Mining 33 Data Warehousing und Mining 34 Beispiel Constraint-basiertes Pruning (1) Constraint R, abgebildet auf Automat: > 1 a b 3 4 c d 4 <1,,3,4> ist Folge, die Constraint erfüllt. Diese Folge hat diverse Teilfolgen der Größe 3, z. B. <1,,3>, <1,,4>, <1,3,4>, <,3,4>. Aber nur eine dieser Teilfolgen erfüllt das Constraint: <,3,4> Algorithmus: Schritt k generiert F k. Constraintbasiertes Pruning F k Menge der frequent k-sequences, die Constraint R erfüllen. Es scheint: Je selektiver Constraint R, desto besser. Nicht wirklich: Angenommen, R ist extrem selektiv (und nicht anti-monoton). Dann funktioniert Constraint-basiertes Pruning offensichtlich gut. Support-basiertes Pruning jedoch nicht! Data Warehousing und Mining 35 Data Warehousing und Mining 36

10 Constraint-basiertes Pruning () Warum? Support-basiertes Pruning betrachtet alle Teilstrukturen der Größe k-1. Es gibt möglicherweise nur wenige solche Strukturen! Data Warehousing und Mining 37 Constraint-basiertes Pruning Beispiel Constraint R, abgebildet auf Automat: > 1 a b 3 4 c d 4 <1,,3,4> erfüllt Constraint. <1,,3,4> hat diverse Teilfolgen der Größe 3, z. B. <1,,3>, <1,,4>, <1,3,4>, <,3,4>. Aber nur <,3,4> erfüllt das Constraint. Angenommen, Wahrscheinlichkeit, daß Sequence mit drei Items frequent ist, beträgt stets 50%. Support-basiertes Pruning ist wirksamer ohne Constraint! Data Warehousing und Mining 38 Constraint-basiertes Pruning (3) Weiterer Punkt: Wie erzeugt man überhaupt die Kandidaten? Hier Constraint ist regulärer Ausdruck kann man sich mit dem Automaten behelfen. Konflikt Constraint-basiertes vs. Support-basiertes Pruning Schwächeres Constraint erleichtert Support-basiertes Pruning. Sollte man eigentliches Constraint zunächst abschwächen? Wenn ja, wie sehr? Data Warehousing und Mining 39 Data Warehousing und Mining 40

11 Alternativen Illustration Alternative 3 wenn Constraint nicht anti-monoton: Naives Postprocessing, d. h. nur Kandidaten generieren, die Constraint erfüllen. Kombination Support-basiertes und Constraint-basiertes Pruning mit ursprünglichem Constraint. Kombination Support-basiertes und Constraint-basiertes Pruning mit abgeschwächtem Constraint. Hoffnung ist, daß Support-basiertes Pruning besser funktioniert. Data Warehousing und Mining 41 k=1: > 1 a b 3 4 c d 4 Gemäß Automat keine einelementige gültige Folge. k=: Aus Automat: <4, 4>, <, > Beide ungültig, Teilfolgen: <4> <> d. h. kein Pruning. Support Counting für <4, 4> und <, > k=3: Aus Automat: <1, 4, 4>, <1,, >, <, 3, 4> Teilfolgen z. B.: <1,4>, <4, 4> Kein Pruning, Support Counting für alle Kandidaten. k=4: Data Warehousing und Mining 4 Illustration Alternative 3 Schlußbemerkungen > 1 a b 3 4 c d 4 k=4: Aus Automat: <1, 1, 4, 4>, <1, 1,, >, <1,, 3, 4> Teilfolgen z. B.: <1, 1, >, <1,, > <1,, > ist gültig, hat aber nicht genug Support. Mining unter. Nützlich aus Benutzersicht. ausnutzen, um Mining-Prozeß zu beschleunigen. Monotonizität nett. Ansonsten weniger klar, was man tun sollte. Tradeoff Support-basiertes Pruning vs. Constraint-basiertes Pruning. <1, 1,, > wird gepruned. Data Warehousing und Mining 43 Data Warehousing und Mining 44

12 Literatur Raymond Ng et al. Exploratory Mining and Pruning Optimizations of Association Rules. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data, Minos Garofalakis, Rajeev Rastogi, Kyuseok Shim. SPIRIT: Sequential Pattern Mining with Regular Expression, Proceedings of 5th International Conference on Very Large Data Bases, Prüfungsfragen, beispielhaft (1) Was ist Constraint-basiertes Mining? Was sind die Vorteile? Was für Arten von kennen sie? Beispiele hierfür. Was ist Monotonizität,? <Für ein bestimmtes Constraint sagen/begründen, ob anti-monoton/succinct.> Data Warehousing und Mining 45 Data Warehousing und Mining 46 Prüfungsfragen, beispielhaft () Wie läßt sich Apriori für das Sequence Mining verallgemeinern? 'Konflikt'zwischen Support-basiertem und Constraint-basiertem Pruning erklären können. Alternativen für Constraint-basiertes Pruning (wenn Constraint nicht anti-monoton) erklären können. Data Warehousing und Mining 47

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

4.2 Constraints für Assoziationsregeln

4.2 Constraints für Assoziationsregeln 4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln

Mehr

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren? Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori

Mehr

Kapitel 15: Mining von Sequential Patterns

Kapitel 15: Mining von Sequential Patterns Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten - XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues [email protected] 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel

Mehr

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung

Mehr

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2) Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Lernen von Assoziationsregeln

Lernen von Assoziationsregeln Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

Data Mining. Informationssysteme, Sommersemester 2017

Data Mining. Informationssysteme, Sommersemester 2017 Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter

Mehr

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln

Mehr

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Anfrageoptimierung Kostenmodelle

Anfrageoptimierung Kostenmodelle Web Science & Technologies University of Koblenz Landau, Germany Grundlagen der Datenbanken Anfrageoptimierung Kostenmodelle Dr. Jérôme Kunegis Wintersemester 2013/14 Regel vs. Kostenbasierte Optimierung

Mehr

Anfrageoptimierung Kostenabschätzung

Anfrageoptimierung Kostenabschätzung Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Kostenabschätzung Dr. Thomas Gottron Wintersemester 2012/13 Regel vs. Kostenbasierte Optimierung Bisher: Regeln, wie Optimierung

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

Formalismen für REG. Formale Grundlagen der Informatik 1 Kapitel 7 Kontextfreie Sprachen. Das Pumping Lemma. Abschlusseigenschaften

Formalismen für REG. Formale Grundlagen der Informatik 1 Kapitel 7 Kontextfreie Sprachen. Das Pumping Lemma. Abschlusseigenschaften Formalismen für RE Formale rundlagen der Informatik 1 Kapitel 7 Kontextfreie Sprachen Frank Heitmann [email protected] Satz Zu jeder regulären Sprache L gibt es einen DFA A mit L(A) =

Mehr

6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX)

6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX) 6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX) Was ist MDX? Microsoft Terminologie im OLAP Bereich MDX Basiskonstrukte MDX weiterführende Konstrukte Fazit MDX.- 1 Was ist MDX?

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Rückblick: Datenbankentwurf

Rückblick: Datenbankentwurf Rückblick: Datenbankentwurf Entity-Relationship-Modell für konzeptuellen Entwurf Entitytypen (entity types) (z.b. Studenten) Beziehungstypen (relationships) (z.b. hören) Attribute beschreiben Gegenstände

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Vorlesung Semantic Web. Vorlesung im Wintersemester 2011/2012 Dr. Heiko Paulheim Fachgebiet Knowledge Engineering

Vorlesung Semantic Web. Vorlesung im Wintersemester 2011/2012 Dr. Heiko Paulheim Fachgebiet Knowledge Engineering Vorlesung Semantic Web Vorlesung im Wintersemester 2011/2012 Dr. Heiko Paulheim Fachgebiet Knowledge Engineering Aufgabe 1 Gegeben ist folgende Ontologie: :Tier owl:disjointwith :Mensch. :hathaustier rdfs:domain

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

SQL. DDL (Data Definition Language) Befehle und DML(Data Manipulation Language)

SQL. DDL (Data Definition Language) Befehle und DML(Data Manipulation Language) SQL DDL (Data Definition Language) Befehle und DML(Data Manipulation Language) DML(Data Manipulation Language) SQL Abfragen Studenten MatrNr Name Vorname Email Age Gruppe 1234 Schmidt Hans [email protected]

Mehr

SQL. Ziele. Grundlagen von SQL. Beziehung zur relationalen Algebra SELECT, FROM, WHERE. Joins ORDER BY. Aggregatfunktionen. dbis.

SQL. Ziele. Grundlagen von SQL. Beziehung zur relationalen Algebra SELECT, FROM, WHERE. Joins ORDER BY. Aggregatfunktionen. dbis. SQL Lehr- und Forschungseinheit Datenbanken und Informationssysteme Ziele Grundlagen von SQL Beziehung zur relationalen Algebra SELECT, FROM, WHERE Joins ORDER BY Aggregatfunktionen Lehr- und Forschungseinheit

Mehr

(Prüfungs-)Aufgaben zu formale Sprachen

(Prüfungs-)Aufgaben zu formale Sprachen (Prüfungs-)Aufgaben zu formale Sprachen (siehe auch bei den Aufgaben zu endlichen Automaten) 1) Eine Grammatik G sei gegeben durch: N = {S, A}, T = {a, b, c, d}, P = { (S, Sa), (S, ba), (A, ba), (A, c),

Mehr

Declarative Data Cleaning

Declarative Data Cleaning Declarative Data Cleaning Vortragsgrundlage: Helena Galhardas, Daniela Florescu, Dennis Shasha, Eric Simon, Cristian Augustin Saita: Declarative Data Cleaning: Language, Model, and Algorithms, in VLDB

Mehr

Übung 4. Tutorübung zu Grundlagen: Datenbanken (Gruppen Do-T24 / Do-T31 WS 2016/2017)

Übung 4. Tutorübung zu Grundlagen: Datenbanken (Gruppen Do-T24 / Do-T31 WS 2016/2017) Übung 4 Tutorübung zu Grundlagen: Datenbanken (Gruppen Do-T24 / Do-T31 WS 2016/2017) Dennis Fischer [email protected] http://home.in.tum.de/~fischerd/ Technische Universität München Fakultät für Informatik

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle.

Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle. Seminar 2 SQL - DML(Data Manipulation Language) und DDL(Data Definition Language) Befehle. DML Befehle Aggregatfunktionen - werden auf eine Menge von Tupeln angewendet - Verdichtung einzelner Tupeln yu

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

SQL als Zugriffssprache

SQL als Zugriffssprache SQL als Zugriffssprache Der Select Befehl: Aufbau Select- und From-Klausel Where-Klausel Group-By- und Having-Klausel Union Join-Verbindung Order-By-Klausel Der Update-Befehl Der Delete-Befehl Der Insert-Befehl

Mehr

Rückblick. SQL bietet viele Möglichkeiten zur Anfrageformulierung

Rückblick. SQL bietet viele Möglichkeiten zur Anfrageformulierung Rückblick SQL bietet viele Möglichkeiten zur Anfrageformulierung mathematische Funktionen (z.b. ABS(A) und SIGN(A)) Aggregatfunktionen (z.b. MIN(A) und SUM(A)) Boole sche Operatoren (AND, OR, EXCEPT) Verknüpfungen

Mehr

3. Relationales Modell & Algebra

3. Relationales Modell & Algebra 3. Relationales Modell & Algebra Inhalt 3.1 Relationales Modell Wie können wir Daten mathematisch formal darstellen? 3.2 Übersetzung eines konzeptuellen Modells Wie können wir ein konzeptuelles Modell

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Datenbanksysteme I WS 17/18 HS-Übung. Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm, V. Christen, M.

Datenbanksysteme I WS 17/18 HS-Übung. Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm, V. Christen, M. Datenbanksysteme I WS 17/18 HS-Übung Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm, V. Christen, M. Franke Kapitel 1: Definitionen Grundlegenge Begriffe IS, DB, DBMS/

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik 4. Kellerautomaten und kontextfreie Sprachen (II) 11.06.2015 Viorica Sofronie-Stokkermans e-mail: [email protected] 1 Übersicht 1. Motivation 2. Terminologie

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert:

Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert: KAPITEL 3 Graphen Man kann als Ursprung der Graphentheorie ein Problem sehen, welches Euler 1736 von Studenten aus Königsberg gestellt bekam. Der Fluss Pregel wird von 7 Brücken überquert, und die Frage

Mehr

Theoretische Informatik I

Theoretische Informatik I Theoretische Informatik I Einheit 2.5 Grammatiken 1. Arbeitsweise 2. Klassifizierung 3. Beziehung zu Automaten Beschreibung des Aufbaus von Sprachen Mathematische Mengennotation Beschreibung durch Eigenschaften

Mehr

Sequenzgenerierung aus Klassifikationsbäumen

Sequenzgenerierung aus Klassifikationsbäumen Sequenzgenerierung aus Klassifikationsbäumen Peter M. Kruse, 24.01.2011 PMK, 24.01.2011 Inhalt Einleitung Stand von Wissenschaft und Technik Generierung von Testsequenzen mit der Klassifikationsbaum-Methode

Mehr

Aggregatfunktionen in der Relationenalgebra?

Aggregatfunktionen in der Relationenalgebra? Aggregatfunktionen in der Relationenalgebra? Dieter Sosna Aggregatfunktionen in der Relationenalgebra p.1/23 Gliederung Motivation Begriffe Definitionen Anwendungen Zusammenfassung Aggregatfunktionen in

Mehr

Diskrete Strukturen Kapitel 2: Grundlagen (Mengen)

Diskrete Strukturen Kapitel 2: Grundlagen (Mengen) WS 2016/17 Diskrete Strukturen Kapitel 2: Grundlagen (Mengen) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_16

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Aggregatfunktionen in SQL

Aggregatfunktionen in SQL Aggregatfunktionen in SQL Michael Dienert 14. April 2008 1 Definition von Aggregatfunktionen Ihren Namen haben die Aggregatfunktionen vom englischen Verb to aggregate, was auf deutsch anhäufen, vereinigen,

Mehr

Universität Basel Wirtschaftswissenschaftliches Zentrum. Kombinatorik. Dr. Thomas Zehrt. Inhalt: 1. Endliche Mengen 2. Einfache Urnenexperimente

Universität Basel Wirtschaftswissenschaftliches Zentrum. Kombinatorik. Dr. Thomas Zehrt. Inhalt: 1. Endliche Mengen 2. Einfache Urnenexperimente Universität Basel Wirtschaftswissenschaftliches Zentrum Kombinatorik Dr. Thomas Zehrt Inhalt: 1. Endliche Mengen 2. Einfache Urnenexperimente 2 Teil 1 Endliche Mengen Eine endliche Menge M ist eine Menge,

Mehr

WS 20013/14. Diskrete Strukturen

WS 20013/14. Diskrete Strukturen WS 20013/14 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws1314

Mehr

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16 Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine

Mehr