Kapitel 13: Pattern Mining unter Constraints
|
|
|
- Matthias Schmid
- vor 9 Jahren
- Abrufe
Transkript
1 Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher (Mengen von Transaktionen, Warenkörbe ). Data Warehousing und Mining 1 Data Warehousing und Mining Association Rules unter Unterschiedliche Arten des Prunings Mining, wie bisher vorgestellt, bietet keine Möglichkeit der Fokusierung. Man will für die zu findenden Association Rules angeben, z. B. Association Rules nur mit Items, die mehr als EUR 100,-- kosten. Motivation: licheres Resultat. Chance: Kürzere Laufzeit entsprechender Algorithmen? Support-basiert Kandidat wird eliminiert (candidate is pruned), wenn eine seiner Teilmengen nicht frequent ist. Constraint-basiert Kandidat wird eliminiert, wenn er ein aus den vorgegebenen abgeleitetes Constraint nicht erfüllt. Data Warehousing und Mining 3 Data Warehousing und Mining 4
2 Was für? (1) Was für? () Data, Data : Rule. Einschränkung auf konkrete Werte Beispiel: Finde alle Produkte, die in Basel im Dezember 98 oft zusammen verkauft wurden. (Auch Intervall-Angaben möglich.) Einschränkung auf bestimmte Attribute (z. B. Dimensionen/Levels) des Raums. Beispiel: Einschränkung auf region, price, brand, customer category. Data Warehousing und Mining 5 Data Warehousing und Mining 6 Was für? (3) Unterschiedliche Ansätze Rule : Unterschiedliche Ansätze: Spezifikation der Struktur oder von Eigenschaften der zu ermittelnden Regeln. Constraint-basierte Association Rules Beispiel: Nur Frequent Itemsets der Größe 3. Meta-Rule Guided Mining, und -var. Meta-Rule Guided Mining: Zugrundeliegende relationale Datenbank mit Schema. und -var : Zugrundeliegende Struktur Menge von Items mit Attributen. Ansätze kombinierbar. (Wird hier nicht explizit dargestellt.) Data Warehousing und Mining 7 Data Warehousing und Mining 8
3 Meta-Rule Guided Mining (1) Meta-Rule Guided Mining (1) - Introduction - Overview - Idea - - Succinct ness Beispiel: Zugrundeliegende Relationen: student(name, sno, status, major, gpa, birth_date, birth_place, address) course(cno, title, dept) grading(sno, cno, instructor, semester, grade) Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address - Introduction - Overview - Idea - - Succinct ness Beispiel: Zugrundeliegende Relationen: student(name, sno, status, major, gpa, birth_date, birth_place, address) course(cno, title, dept) grading(sno, cno, instructor, semester, grade) Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address Data Warehousing und Mining 9 Data Warehousing und Mining 10 Meta-Rule Guided Mining () Meta-Rule Guided Mining (3) - Introduction - Overview - Idea - - Succinct ness Beispiel (Forts.): Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address Erklärung: Zweite Zeile: meta-rule, Q, R Variable für Prädikate, mit Attributen instanziierbar, z. B. gpa, status, birth_place, address Beispiel für Regel, die gefunden wird: major(s, "Science") & gpa(s, "Excellent") status(s, "Graduate") (60%) - Introduction - Overview - Idea - - Succinct ness Meta-Rule Guided Mining: Sowohl Data als auch Rule birth_place = "Canada" Zwei Prädikate auf der linken Seite der Regel. Data Warehousing und Mining 11 Data Warehousing und Mining 1
4 , -var (1), -var () I. d. R. Aggregation über Werte/Belegungen mehrerer/aller Items Beispiel: Left-Hand Side sum(lhs) < 100 min(lhs) > 0 count(lhs) > 3 sum(rhs) > 1000 iable vs. -variable : : Constraint, das nur eine Seite der Regel (L oder R) einschränkt, wie im Beispiel oben. -var: Constraint bezüglich beider Seiten (L und R). Beispiel: sum(lhs) < min(rhs) max(rhs) < 5 sum(lhs) Hier: Regel als Tupel, mit zwei Komponenten (LHS, RHS). Verallgemeinerung möglich: Suche nach Tupeln mit n Komponenten (S 1,, S n ) (S i Itemset) D. h. S 1 =LHS, S =RHS. Data Warehousing und Mining 13 Data Warehousing und Mining 14 Weitere Beispiele für und -var (1) Weitere Beispiele für und -var () {(S 1, S ) S 1 Item & S Item & count(s 1 )=1 & count(s ) = 1 & freq(s 1 ) & freq(s )} spezifiziert Frequency. (Item- und Frequency- werden im folgenden weggelassen.) {(S 1, S ) agg 1 (S 1.Price) 100 & agg (S.Price) 1000} agg 1, agg irgendwelche Aggregationsfunktionen, S 1.Price Menge der Werte des Price-Attributs der Elemente von S 1. {(S 1, S ) count(s 1.Type)=1 & count(s.type)=1 & S 1.Type S.Type} Paare von Mengen von Items unterschiedlichen Typs (Type ist hier ein Attribut.) Data Warehousing und Mining 15 Data Warehousing und Mining 16
5 (1) Illustration Auflistung der Single-Variable ( ), die wir im Folgenden betrachten: Domain : Sθv θ {=,, <,, >, } Jedes Item s aus S muß das Constraint sθv erfüllen. Beispiel: Price 100 vθs θ {, } Beispiel: Snack Type SθV, VθS θ {=,,,, } Data Warehousing und Mining 17 SθV, VθS {Food, Drink} Type Association Rules: Burger, Pommes Cola Benzin, Frostschutzmittel Schokoriegel Zugrundeliegende Relation Item Type Burger Food Pommes Food Cola Drink Benzin Non-Food Frostschutz Non-Food Schokoriegel Non-Food Wenn Constraint für LHS, dann zweite Regel nicht. Wenn Constraint für RHS, ebenfalls nicht. Data Warehousing und Mining 18 () Single-Variable (Fortsetzung): Class : S A S ist Mengenvariable, A ist Attribut. S ist Menge von Werten aus dem Definitionsbereich von A. Beispiel: S 1 Item Aggregate : agg(s)θv agg ist min, max, sum, count, oder avg, θ {=,, <,, >, } Beschleunigung des Data Mining Prozesses Rigideres Pruning möglich ( Monotonizität ), Explizites Erzeugen des Itemsets ( ). z Data Warehousing und Mining 19 Data Warehousing und Mining 0
6 Mining von Association Rules unter (1) Postprocessing Naive Lösung: Finde alle Frequent Itemsets mit Apriori, und überprüfe dann für jede dieser Mengen, ob sie die erfüllt. Optimierung umfassende Analyse der Eigenschaften der mit dem Ziel, sie möglichst tief in den Algorithmus hizudrücken. Mining von Association Rules unter () Relevante Eigenschaften der : Monotonizität Ziel: Constraint möglichst früh überprüfen und Pruning so früh wie möglich stattfinden lassen, Ziel: Kandidaten, die Constraint nicht erfüllen, werden gar nicht erst erzeugt. Data Warehousing und Mining 1 Data Warehousing und Mining Monotonizität (1) Monotonizität () Definition: Ein single-variable Constraint ist anti-monoton gdw. für alle Mengen S, S gilt: S S & S erfüllt C S erfüllt C. D.h. jede Teilmenge erfüllt das Constraint. Beispiel: min(s) v ist anti-monoton. Was ist mit den folgenden? max(s) v size(s) v size(s) v Warum ist Monotonizität interessant? Wenn S Bedingung nicht erfüllt, brauchen wir Obermengen von S nicht mehr betrachten. Constraint Sθv, θ {=,, } v S S V S V S=V min(s) v min(s) v min(s) =v max(s) v max(s) v max(s) =v count(s) v count(s) v count(s) =v sum(s) v sum(s) v sum(s) =v avg(s)θv, θ {=,, } <frequency constraint> anti-monoton ja ja teilweise ja teilweise ja teilweise ja teilweise ja teilweise <ja> teilweise je nachdem, wie die Menge das Constraint verletzt. Beispiel für teilweise max(s)=v. Sei S S. Wenn max(s )>v: Man braucht S nicht mehr betrachten. Wenn max(s )<v: Das gilt nicht. Data Warehousing und Mining 3 Data Warehousing und Mining 4
7 Beispiel succinct = kurz und bündig, kurz und knapp, Eigenschaft von Constraint ist succinct, wenn man alle Itemsets, die das Constraint erfüllen, explizit in kurzer Art und Weise hinschreiben kann. - Introduction - Overview - Idea - Constraint C S.Type=Nonfood Nur drei Produkte mit 'Type=Nonfood'im Sortiment. Wieviele Frequent Itemsets gibt es maximal, die o. g. Constraint erfüllen? Anstelle von Apriori die Itemsets mit den drei Produkten erzeugen, ein Mal Support Counting. - Succinct ness z Data Warehousing und Mining 5 Data Warehousing und Mining 6 Motivation (1) Motivation () Motivation am Beispiel des Einzelhandels: Logisch zusammengehörige Einkäufe (z. B. CD-Brenner und CD-Rohlinge; Korn und Aspirin) oft nicht in einer Transaktion, sondern nacheinander. Annahme: Wir können Einkäufe dem Kunden eindeutig zuordnen, z. B. anhand von Treuekarte. Kundenverhalten nicht Menge, sondern Folge von Waren. (Folge von Mengen von Waren wäre präziser, hier zunächst aber nur Folge von Waren.) Alternativen: 1. Zeitpunkt/absoluter Zeitabstand zwischen Käufen interessiert nicht/ nicht verfügbar.. Jedem Einkauf entspricht expliziter Zeitpunkt. In diesem Kapitel erste Alternative. Ziel der Analyse: Subsequenzen mit bestimmter Mindesthäufigkeit. Sequential Patterns. Subsequenz wird gleich erklärt. Data Warehousing und Mining 7 Data Warehousing und Mining 8
8 Constraint-basiertes Mining von Sequenzen (1) Finden häufiger Sequenzen ohne Im folgenden: Finden häufiger Subsequenzen in Mengen von Sequenzen Beispiel: <1,3> und <1,,4> sind Subsequenzen von <1,,3,4>. Support einer Sequenz Beispiel: <1 3>, <1 4>, <4 >; minsup=50%: <1 > ist frequent, < 4> dagegen nicht. Geht wie Apriori, Kandidatenerzeugung ist wiederum Self-Join von F k-1, die Join-Attribute sind die letzten k- Elemente der ersten und die ersten k- Elemente der zweiten Sequenz. Illustration: <1 3 4>, < 3 4 5> < > Data Warehousing und Mining 9 Data Warehousing und Mining 30 Constraint-basiertes Mining von Sequenzen () Constraint-basiertes Mining von Sequenzen (3) : Reguläre Ausdrücke Beispiel: (ab)* Diese Art von ist nicht anti-monoton. Warum nicht? Beispiel für Constraint, das nicht anti-monoton ist: (ab)* abababab hat Subsequenz aaaa. Bisheriges Vorgehen funktioniert nicht. Data Warehousing und Mining 31 Data Warehousing und Mining 3
9 Wiederholung wichtiger Eigenschaften regulärer Ausdrücke und deterministischer endlicher Automaten: Regulärer Ausdruck R deterministischer Automat M R Sequenz s ist zulässig bezüglich Zustand b, wenn es ausgehend von b eine Folge von Transitionen für die Elemente von s gibt. Sequenz s ist gültig bezüglich Zustand b, wenn s zulässig ist, und Zustand nach den Transitionen ist Endzustand. Illustration. Support-basiertes Pruning Sei Kandidat c der Länge k gegeben. c wird eliminiert, wenn (k-1)-elementige Teilfolge, die R erfüllt, nicht frequent ist. Data Warehousing und Mining 33 Data Warehousing und Mining 34 Beispiel Constraint-basiertes Pruning (1) Constraint R, abgebildet auf Automat: > 1 a b 3 4 c d 4 <1,,3,4> ist Folge, die Constraint erfüllt. Diese Folge hat diverse Teilfolgen der Größe 3, z. B. <1,,3>, <1,,4>, <1,3,4>, <,3,4>. Aber nur eine dieser Teilfolgen erfüllt das Constraint: <,3,4> Algorithmus: Schritt k generiert F k. Constraintbasiertes Pruning F k Menge der frequent k-sequences, die Constraint R erfüllen. Es scheint: Je selektiver Constraint R, desto besser. Nicht wirklich: Angenommen, R ist extrem selektiv (und nicht anti-monoton). Dann funktioniert Constraint-basiertes Pruning offensichtlich gut. Support-basiertes Pruning jedoch nicht! Data Warehousing und Mining 35 Data Warehousing und Mining 36
10 Constraint-basiertes Pruning () Warum? Support-basiertes Pruning betrachtet alle Teilstrukturen der Größe k-1. Es gibt möglicherweise nur wenige solche Strukturen! Data Warehousing und Mining 37 Constraint-basiertes Pruning Beispiel Constraint R, abgebildet auf Automat: > 1 a b 3 4 c d 4 <1,,3,4> erfüllt Constraint. <1,,3,4> hat diverse Teilfolgen der Größe 3, z. B. <1,,3>, <1,,4>, <1,3,4>, <,3,4>. Aber nur <,3,4> erfüllt das Constraint. Angenommen, Wahrscheinlichkeit, daß Sequence mit drei Items frequent ist, beträgt stets 50%. Support-basiertes Pruning ist wirksamer ohne Constraint! Data Warehousing und Mining 38 Constraint-basiertes Pruning (3) Weiterer Punkt: Wie erzeugt man überhaupt die Kandidaten? Hier Constraint ist regulärer Ausdruck kann man sich mit dem Automaten behelfen. Konflikt Constraint-basiertes vs. Support-basiertes Pruning Schwächeres Constraint erleichtert Support-basiertes Pruning. Sollte man eigentliches Constraint zunächst abschwächen? Wenn ja, wie sehr? Data Warehousing und Mining 39 Data Warehousing und Mining 40
11 Alternativen Illustration Alternative 3 wenn Constraint nicht anti-monoton: Naives Postprocessing, d. h. nur Kandidaten generieren, die Constraint erfüllen. Kombination Support-basiertes und Constraint-basiertes Pruning mit ursprünglichem Constraint. Kombination Support-basiertes und Constraint-basiertes Pruning mit abgeschwächtem Constraint. Hoffnung ist, daß Support-basiertes Pruning besser funktioniert. Data Warehousing und Mining 41 k=1: > 1 a b 3 4 c d 4 Gemäß Automat keine einelementige gültige Folge. k=: Aus Automat: <4, 4>, <, > Beide ungültig, Teilfolgen: <4> <> d. h. kein Pruning. Support Counting für <4, 4> und <, > k=3: Aus Automat: <1, 4, 4>, <1,, >, <, 3, 4> Teilfolgen z. B.: <1,4>, <4, 4> Kein Pruning, Support Counting für alle Kandidaten. k=4: Data Warehousing und Mining 4 Illustration Alternative 3 Schlußbemerkungen > 1 a b 3 4 c d 4 k=4: Aus Automat: <1, 1, 4, 4>, <1, 1,, >, <1,, 3, 4> Teilfolgen z. B.: <1, 1, >, <1,, > <1,, > ist gültig, hat aber nicht genug Support. Mining unter. Nützlich aus Benutzersicht. ausnutzen, um Mining-Prozeß zu beschleunigen. Monotonizität nett. Ansonsten weniger klar, was man tun sollte. Tradeoff Support-basiertes Pruning vs. Constraint-basiertes Pruning. <1, 1,, > wird gepruned. Data Warehousing und Mining 43 Data Warehousing und Mining 44
12 Literatur Raymond Ng et al. Exploratory Mining and Pruning Optimizations of Association Rules. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data, Minos Garofalakis, Rajeev Rastogi, Kyuseok Shim. SPIRIT: Sequential Pattern Mining with Regular Expression, Proceedings of 5th International Conference on Very Large Data Bases, Prüfungsfragen, beispielhaft (1) Was ist Constraint-basiertes Mining? Was sind die Vorteile? Was für Arten von kennen sie? Beispiele hierfür. Was ist Monotonizität,? <Für ein bestimmtes Constraint sagen/begründen, ob anti-monoton/succinct.> Data Warehousing und Mining 45 Data Warehousing und Mining 46 Prüfungsfragen, beispielhaft () Wie läßt sich Apriori für das Sequence Mining verallgemeinern? 'Konflikt'zwischen Support-basiertem und Constraint-basiertem Pruning erklären können. Alternativen für Constraint-basiertes Pruning (wenn Constraint nicht anti-monoton) erklären können. Data Warehousing und Mining 47
Kapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
4.2 Constraints für Assoziationsregeln
4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln
Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
Kapitel 15: Mining von Sequential Patterns
Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen
6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
Kapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
Wissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
Kapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues [email protected] 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold
Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung
Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel
Kapitel 7: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel
Maschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
Lernen von Assoziationsregeln
Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]
INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
Frequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
Data Mining. Informationssysteme, Sommersemester 2017
Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter
4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
Kapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln
Kapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln
4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
Anfrageoptimierung Kostenmodelle
Web Science & Technologies University of Koblenz Landau, Germany Grundlagen der Datenbanken Anfrageoptimierung Kostenmodelle Dr. Jérôme Kunegis Wintersemester 2013/14 Regel vs. Kostenbasierte Optimierung
Anfrageoptimierung Kostenabschätzung
Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Kostenabschätzung Dr. Thomas Gottron Wintersemester 2012/13 Regel vs. Kostenbasierte Optimierung Bisher: Regeln, wie Optimierung
Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
Formalismen für REG. Formale Grundlagen der Informatik 1 Kapitel 7 Kontextfreie Sprachen. Das Pumping Lemma. Abschlusseigenschaften
Formalismen für RE Formale rundlagen der Informatik 1 Kapitel 7 Kontextfreie Sprachen Frank Heitmann [email protected] Satz Zu jeder regulären Sprache L gibt es einen DFA A mit L(A) =
6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX)
6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX) Was ist MDX? Microsoft Terminologie im OLAP Bereich MDX Basiskonstrukte MDX weiterführende Konstrukte Fazit MDX.- 1 Was ist MDX?
Data Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
Rückblick: Datenbankentwurf
Rückblick: Datenbankentwurf Entity-Relationship-Modell für konzeptuellen Entwurf Entitytypen (entity types) (z.b. Studenten) Beziehungstypen (relationships) (z.b. hören) Attribute beschreiben Gegenstände
5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
Vorlesung Semantic Web. Vorlesung im Wintersemester 2011/2012 Dr. Heiko Paulheim Fachgebiet Knowledge Engineering
Vorlesung Semantic Web Vorlesung im Wintersemester 2011/2012 Dr. Heiko Paulheim Fachgebiet Knowledge Engineering Aufgabe 1 Gegeben ist folgende Ontologie: :Tier owl:disjointwith :Mensch. :hathaustier rdfs:domain
Moderne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:
Maschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
SQL. DDL (Data Definition Language) Befehle und DML(Data Manipulation Language)
SQL DDL (Data Definition Language) Befehle und DML(Data Manipulation Language) DML(Data Manipulation Language) SQL Abfragen Studenten MatrNr Name Vorname Email Age Gruppe 1234 Schmidt Hans [email protected]
SQL. Ziele. Grundlagen von SQL. Beziehung zur relationalen Algebra SELECT, FROM, WHERE. Joins ORDER BY. Aggregatfunktionen. dbis.
SQL Lehr- und Forschungseinheit Datenbanken und Informationssysteme Ziele Grundlagen von SQL Beziehung zur relationalen Algebra SELECT, FROM, WHERE Joins ORDER BY Aggregatfunktionen Lehr- und Forschungseinheit
(Prüfungs-)Aufgaben zu formale Sprachen
(Prüfungs-)Aufgaben zu formale Sprachen (siehe auch bei den Aufgaben zu endlichen Automaten) 1) Eine Grammatik G sei gegeben durch: N = {S, A}, T = {a, b, c, d}, P = { (S, Sa), (S, ba), (A, ba), (A, c),
Declarative Data Cleaning
Declarative Data Cleaning Vortragsgrundlage: Helena Galhardas, Daniela Florescu, Dennis Shasha, Eric Simon, Cristian Augustin Saita: Declarative Data Cleaning: Language, Model, and Algorithms, in VLDB
Übung 4. Tutorübung zu Grundlagen: Datenbanken (Gruppen Do-T24 / Do-T31 WS 2016/2017)
Übung 4 Tutorübung zu Grundlagen: Datenbanken (Gruppen Do-T24 / Do-T31 WS 2016/2017) Dennis Fischer [email protected] http://home.in.tum.de/~fischerd/ Technische Universität München Fakultät für Informatik
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle.
Seminar 2 SQL - DML(Data Manipulation Language) und DDL(Data Definition Language) Befehle. DML Befehle Aggregatfunktionen - werden auf eine Menge von Tupeln angewendet - Verdichtung einzelner Tupeln yu
IR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
SQL als Zugriffssprache
SQL als Zugriffssprache Der Select Befehl: Aufbau Select- und From-Klausel Where-Klausel Group-By- und Having-Klausel Union Join-Verbindung Order-By-Klausel Der Update-Befehl Der Delete-Befehl Der Insert-Befehl
Rückblick. SQL bietet viele Möglichkeiten zur Anfrageformulierung
Rückblick SQL bietet viele Möglichkeiten zur Anfrageformulierung mathematische Funktionen (z.b. ABS(A) und SIGN(A)) Aggregatfunktionen (z.b. MIN(A) und SUM(A)) Boole sche Operatoren (AND, OR, EXCEPT) Verknüpfungen
3. Relationales Modell & Algebra
3. Relationales Modell & Algebra Inhalt 3.1 Relationales Modell Wie können wir Daten mathematisch formal darstellen? 3.2 Übersetzung eines konzeptuellen Modells Wie können wir ein konzeptuelles Modell
Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
WS 2009/10. Diskrete Strukturen
WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910
Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig
Datenbanksysteme I WS 17/18 HS-Übung. Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm, V. Christen, M.
Datenbanksysteme I WS 17/18 HS-Übung Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm, V. Christen, M. Franke Kapitel 1: Definitionen Grundlegenge Begriffe IS, DB, DBMS/
Grundlagen der Theoretischen Informatik
Grundlagen der Theoretischen Informatik 4. Kellerautomaten und kontextfreie Sprachen (II) 11.06.2015 Viorica Sofronie-Stokkermans e-mail: [email protected] 1 Übersicht 1. Motivation 2. Terminologie
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung
Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert:
KAPITEL 3 Graphen Man kann als Ursprung der Graphentheorie ein Problem sehen, welches Euler 1736 von Studenten aus Königsberg gestellt bekam. Der Fluss Pregel wird von 7 Brücken überquert, und die Frage
Theoretische Informatik I
Theoretische Informatik I Einheit 2.5 Grammatiken 1. Arbeitsweise 2. Klassifizierung 3. Beziehung zu Automaten Beschreibung des Aufbaus von Sprachen Mathematische Mengennotation Beschreibung durch Eigenschaften
Sequenzgenerierung aus Klassifikationsbäumen
Sequenzgenerierung aus Klassifikationsbäumen Peter M. Kruse, 24.01.2011 PMK, 24.01.2011 Inhalt Einleitung Stand von Wissenschaft und Technik Generierung von Testsequenzen mit der Klassifikationsbaum-Methode
Aggregatfunktionen in der Relationenalgebra?
Aggregatfunktionen in der Relationenalgebra? Dieter Sosna Aggregatfunktionen in der Relationenalgebra p.1/23 Gliederung Motivation Begriffe Definitionen Anwendungen Zusammenfassung Aggregatfunktionen in
Diskrete Strukturen Kapitel 2: Grundlagen (Mengen)
WS 2016/17 Diskrete Strukturen Kapitel 2: Grundlagen (Mengen) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_16
Induktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
Aggregatfunktionen in SQL
Aggregatfunktionen in SQL Michael Dienert 14. April 2008 1 Definition von Aggregatfunktionen Ihren Namen haben die Aggregatfunktionen vom englischen Verb to aggregate, was auf deutsch anhäufen, vereinigen,
Universität Basel Wirtschaftswissenschaftliches Zentrum. Kombinatorik. Dr. Thomas Zehrt. Inhalt: 1. Endliche Mengen 2. Einfache Urnenexperimente
Universität Basel Wirtschaftswissenschaftliches Zentrum Kombinatorik Dr. Thomas Zehrt Inhalt: 1. Endliche Mengen 2. Einfache Urnenexperimente 2 Teil 1 Endliche Mengen Eine endliche Menge M ist eine Menge,
WS 20013/14. Diskrete Strukturen
WS 20013/14 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws1314
Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16
Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine
