Kapitel 11: Association Rules

Größe: px
Ab Seite anzeigen:

Download "Kapitel 11: Association Rules"

Transkript

1 Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden aller Association (manchmal mit Einschränkungen); nicht Überprüfen, ob eine bestimmte Association Rule vorkommt. Techniken für das Finden von Mustern komplexerer Struktur verallgemeinern oft Basis-Techniken für das Finden von Association. Data Warehousing und Mining: Association 1 Data Warehousing und Mining: Association 2 Association Einleitung Gliederung dieses Kapitels Grobe Übersicht über dieses und folgende Kapitel: Einleitung, Association Begriffsbildung, Frequent Itemsets, -Algorithmus für die Bestimmung aller Association, Verbesserungen von, Grundsätzlich anderer (und überlegener) Ansatz: FP-Trees, Analyse von Zeitreihen, Die meisten Regeln sind interessant, manche jedoch irreführend. Was heißt Interessantheit? Effiziente Algorithmen. Quantitative Association. Association (Insbesondere: Warum sind Association aussagekräftiger als Frequent Itemsets?), Multidimensionale Association (Beziehungen zwischen Werten unterschiedlicher Attribute, Attribute sind nicht mehr nur boolsch, kleinerer Punkt), Association. Data Warehousing und Mining: Association 3 Data Warehousing und Mining: Association 4

2 Beispielszenario: Warenkorbanalyse Ziel der Warenkorbanalyse (1) Identifizieren von Kundengewohnheiten, indem man Assoziationen und Korrelationen zwischen unterschiedlichen Waren findet, die Kunden in ihren Einkaufswagen legen. ( Ware heißt: ja oder nein, Anzahl/Menge bleibt zunächst außen vor.) Milch, Eier, Zucker, Brot Milch, Eier, Cornflakes, Brot Eier, Zucker Extrahieren von Information aus dem Kaufverhalten. Handlungsvorschläge, z. B. anderes Layout der Geschäfte, andere Anordnung der Waren, Veränderung der Sortimente, Sonderangebote. Transaktion1 Transaktion2 Transaktion3 Data Warehousing und Mining: Association 5 Data Warehousing und Mining: Association 6 Ziel der Warenkorbanalyse (2) Association Warenkorbanalyse ist anwendbar, wenn ein Kunde mehreres zusammen kauft, z. B.: Drücken aus, wie Phänomene zueinander in Beziehung stehen. Kreditkarte, Dienste von Telekommunikationsanbietern, Bankdienstleistungen, medizinische Behandlung. Techniken auch anwendbar für andere Phänomene, z. B. Naturwissenschaften. Beispiel für Association Rule, noch ziemlich ungenau: Wenn ein Patient das Pipapo-Syndrom hat, dann hat er oft auch Krämpfe. Association sind die Art von Zusammenhängen, an denen wir in diesem Kapitel interessiert sind. Data Warehousing und Mining: Association 7 Data Warehousing und Mining: Association 8

3 Zugrundeliegende Konzepte Item: einzelnes Element, Itemset: Menge von Items. Transaktion: Relationale Struktur Kompakte Struktur <Tid,item> <Tid,itemset> <1, item1> <1, {item1,item2}> <1, item2> <2, {item3}> <2, item3> In der Warenkorbanalyse sind die Items die Waren; eine Transaktion ist ein einzelner Einkauf; Begriff Transaktion hat nichts zu tun mit dem klassischen Datenbank-Konzept. Zugrundeliegende Konzepte (1) Support eines Itemsets I: Anzahl der Transaktionen, die I enthalten. Beispiel: Milch, Eier, Zucker, Brot Milch, Eier, Cornflakes, Brot Eier, Zucker Transaktion1 Transaktion2 Transaktion3 Data Warehousing und Mining: Association 9 Data Warehousing und Mining: Association 10 Zugrundeliegende Konzepte (2) Frequent Itemsets (1) Minimum Support σ: Schwellenwert für Support Frequent Itemset: Itemset mit Support σ. Frequent Itemsets identifizieren Mengen von Items, die positiv miteinander korreliert sind, wenn der Support-Schwellenwert groß ist. Transaction ID Gekaufte Items 1 Milch, Obst 2 Milch, Obst, Gemüse 3 Milch 4 Obst, Brot Support({Milch}) = 3 (75%), Support({Obst}) = 3 (75%), Support({Milch, Obst}) = 2 (50%). Wenn σ = 60%, dann: {Milch} und {Obst} sind frequent, aber {Milch, Obst} ist nicht frequent. Data Warehousing und Mining: Association 11 Data Warehousing und Mining: Association 12

4 Frequent Itemsets (2) Beispielszenario: Warenkorbanalyse Frequent Itemset ist maximal, gdw. es nicht Teilmenge eines anderen Frequent Itemsets ist. Es reicht, die maximalen Frequent Itemsets explizit zu erzeugen, um die Frequent Itemsets zu kennen. Gilt aber nicht für Association. Identifizieren von Kundengewohnheiten, indem man Assoziationen und Korrelationen zwischen unterschiedlichen Waren findet, die Kunden in ihren Einkaufswagen legen. ( Ware heißt: ja oder nein, Anzahl/Menge bleibt zunächst außen vor.) Milch, Eier, Zucker, Brot Milch, Eier, Cornflakes, Brot Eier, Zucker Transaktion1 Transaktion2 Transaktion3 Data Warehousing und Mining: Association 13 Wichtige : Item, Itemset, Transaktion, Support, Frequent Itemset. Data Warehousing und Mining: Association 14 z Frequent Itemsets vs. Logik-Regeln (1) Frequent Itemsets vs. Logik-Regeln (2) Items a, b. a (bzw. b) in Diagramm Menge der Kunden, die a (bzw. b) kauft. Frequent Itemset I = {a, b} reflektiert Unterschied zwischen (1), (2) und (4) nicht. (1) (3) (1) (3) (2) (4) (2) (4) Regeln erlauben, den Unterschied darzustellen. Data Warehousing und Mining: Association 15 Data Warehousing und Mining: Association 16

5 Illustration {Bier} {Chips} Wer Bier kauft, kauft auch Chips (mit relativ hoher Wahrscheinlichkeit). Diese Association Rule ist aussagekräftiger als Aussage der Form Bier und Chips werden oft zusammen gekauft. Kriterien für die Auswahl der Association formale Definition (1) A B [s, c] A und B sind Itemsets. s = Support von A B = support(a B) support(a B) Anzahl der Mengen, die A B enthalten. Support war bereits definiert für Mengen, wird jetzt definiert für Regeln. c = Confidence von A B = support(a B)/support(A) Data Warehousing und Mining: Association 17 Data Warehousing und Mining: Association 18 Kriterien für die Auswahl der Association formale Definition (2) Bedeutung der Kriterien Kriterien für Auswahl der Regeln: Minimum Support σ Minimum Confidence γ Wir wollen nur Regeln, für die gilt: s σ und c γ Nächste Folie abstrakte Erläuterung, dann Illustration. A B [s, c] Support: Häufigkeit der Regel in Menge der Transaktionen. Hoher Wert Regel beschreibt Großteil des Datenbestands. support(a B [s, c]) = p(a B) Confidence: Anteil der Transaktionen mit A, die auch B enthalten; Schätzung der bedingten Wahrscheinlichkeit. Wie stark ist Abhängigkeit? dasselbe confidence(a B [s, c]) = p(b A) = p(a B)/p(A). Confidence würde nicht gebraucht, wenn wir nur mit Frequent Itemsets arbeiteten. Data Warehousing und Mining: Association 19 Data Warehousing und Mining: Association 20

6 Beispiel Association schematische Darstellung von Confidence T1 T2 T3 T4 T5 {Zahnpasta, Schokolade, Milch} {Schokolade, Milch} {Brot, Käse} {Zahnpasta, Milch, Käse} {Milch, Brot, Käse} (Fläche a viel kleiner als b.) (Schnittfläche sehr klein.) Confidence Support Brot Käse 100% 40% Käse Milch 66.6% 40% Zahnpasta Schokolade 50% 20% Warum hat Brot => Käse eine andere Confidence als Käse => Brot? Beispiel für Regel mit hohem Support, aber kleiner Confidence? Data Warehousing und Mining: Association 21 Data Warehousing und Mining: Association 22 Association Support und Confidence Association die Parameter σ und γ Beispiel für Association Rule mit hohem Support, aber recht geringer Confidence: 30% der Kunden kaufen Bier und Schnaps. 100% der Kunden kaufen Bier. Bier Schnaps hat recht hohen Support (30%), aber eher wenig Confidence (auch 30%). Minimum Support σ: Hoch Niedrig Minimum Confidence γ: Hoch wenige Frequent Itemsets, wenige Regeln, die oft vorkommen. viele gültige Regeln, die selten vorkommen. wenige Regeln, aber alle logisch fast wahr. Niedrig viele Regeln, aber viele sehr unsicher. Data Warehousing und Mining: Association 23 Typische Werte: σ = 2 10 % γ = % z Data Warehousing und Mining: Association 24

7 Beispiel für Candidate Generation Algorithmus zum Finden von Frequent Itemsets und Association. Erzeugen der einelementigen Frequent Itemsets Frequent Itemsets Association Finden von Frequent Itemsets, Erzeugen der einelementigen Frequent Itemsets - Laufvariable k - - Laufvariable k - Erzeugen der k-elementigen Join Frequent Itemsets Prune Support Counting Frequent Itemsets Association Die erste Phase ist i. Allg. die aufwendigere. Berechnung der Kandidaten besteht aus zwei Schritten, wie auf Folie zuvor angegeben. 3-Sets {1 2 3} {1 2 4} {1 3 4} {1 3 5} {2 3 4} Join Zwischenergebnis Kandidaten für 4-Sets { } { } { } Prune Data Warehousing und Mining: Association 25 Data Warehousing und Mining: Association 26 Erläuterung Identifizieren von Itemsets Kein Prune-Schritt, wenn k=2. Warum? Finden aller Itemsets mit ausreichendem Support, ausführlichere Darstellung als auf voriger Folie: Beginn mit einelementigen Sets (1-Sets) einfaches Abzählen. Berechnung der k-sets aus den (k-1)-sets: Join-Step: Ermittlung von Kandidaten; -Trick: Alle (k-1)-elementigen Teilmengen eines k-sets sind (k-1)-sets, Prune-Step: Löschen aller Kandidaten, die eine unzulässige (k-1)-elementige Teilmenge haben. Support Counting, d. h. Abzählen, wie häufig die Kandidaten wirklich sind. (übernächste Folie) Generierung der Kandidaten (letzte Folie) Data Warehousing und Mining: Association 27 Data Warehousing und Mining: Association 28

8 Algorithmus L 1 = {large 1-itemsets}; for (k=2; L k-1 ; k++) do begin C k =apriori-gen(l k-1 ); // Generierung neuer Kandidaten // gemäß voriger Folie forall transactions t D do begin C t = subset(c k, t); // candidates contained in t forall candidates c C t do c.count++; end L k ={c C k c.count minsup} end Answer = k L k ; Abzählen für alle Transaktionen Ist Candidate Itemset in Transaktion t enthalten? (1) Wie führt man diese Überprüfung effizient für viele t durch? Verwendung eines Hash-Trees - Beispiel: Kandidaten: {1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {1 3 9}, {2 3 4}; Hash-Tree repräsentiert diese Menge der Kandidaten. Hash-Tree wird einmal aufgebaut für die Kandidaten in jedem Schritt. 1, , {2 3 4} , 9 {1 2 3} {1 2 4} {1 3 4} {1 3 5}, {1 3 9} Wie geht also Hinzunehmen eines weiteren Itemsets? Ein Blatt mit mehreren Kandidaten Data Warehousing und Mining: Association 29 Data Warehousing und Mining: Association 30 Ist Candidate Itemset in Transaktion t enthalten? (2) Ermitteln der Association aus den Itemsets (1) Fortsetzung des Beispiels: Transaktion t = { }. Welche der Mengen {1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {1 3 9}, {2 3 4} ist Teilmenge von t = { }? Jede Transaktion wird mit dem Hash-Tree verglichen. 1, , {2 3 4} , 9 Betrachtung aller Subsets a eines Frequent Itemsets I. Ist a (I - a) Association Rule? Noch einmal zur Erinnerung: Regel X Y hat Support s gdw. s % der Transaktionen X und Y enthalten; Regel X Y hat Confidence c gdw. c % der Transaktionen, die X enthalten, enthalten auch Y; (bzw. c % der Transaktionen, die X enthalten, enthalten auch X Y) Support(X Y) conf = Support(X) {1 2 3} {1 2 4} {1 3 4} {1 3 5}, {1 3 9} a (I - a) hat Confidence conf = Support(I) Support(a) Data Warehousing und Mining: Association 31 Data Warehousing und Mining: Association 32

9 Ermitteln der Association aus den Itemsets (2) a (I - a) hat Confidence a (I - a) ist Association Rule, wenn Support(I) Support(a) minconf, d. h. Support(I) Support(a) >= minconf conf = Regel wird so stets nur einmal erzeugt. Support(I) Support(a) I={2,3,4} [40% Support] minconf=75% Subsets: {2,3} {4} Support(I) = 40% Support(a)= 50% {2} {3,4} Support(I) = 40% Support(a) = 80% Beispiel {2,3} {2,4} {3,4} {2} {3} {4} 50% 70% 60% 80% 60% 70% Confidence = 80 % OK! Confidence = 50 % NO! (Da I den geforderten Support hat, haben alle Teilmengen von I ebenfalls den geforderten Support.) z Data Warehousing und Mining: Association 33 Data Warehousing und Mining: Association 34 Multidimensionale Association Beziehungen zwischen Werten verschiedener Attribute: Regeln: CID nationality age income 1 Italian 50 low 2 French 40 high 3 French 30 high 4 Italian 50 medium 5 Italian 45 high 6 French 35 high nationality = French income = high [50%, 100%] income = high nationality = French [50%, 75%] age = 50 nationality = Italian [33%, 100%] Eindimensionale vs. multi-dimensionale (1) Multi-dimensional Single-dimensional Zur Anwendung von <1, Italian, 50, low> <1, {nat/ita, age/50, inc/low}> <2, French, 45, high> <2, {nat/fre, age/45, inc/high}> Data Warehousing und Mining: Association 35 Data Warehousing und Mining: Association 36

10 Eindimensionale vs. multi-dimensionale (2) Association Single-dimensional (Intra-attribute) Ereignisse: Items A, B und C gehören zur gleichen Transaktion Vorkommen der Ereignisse: Transaktionen Multi-dimensional (Inter-attribute) Ereignisse: Attribut A hat Wert a, Attribut B hat Wert b, und Attribut C hat Wert c. Vorkommen der Ereignisse: Tupel Kategorisierung der Items, z. B. Lebensmittel Milch Brot... Diät... Voll Weiß Vollkorn... Eventuell bestehen interessante Zusammenhänge, wenn man Konzepte auf allen Ebenen in Beziehung zu setzen versucht. Data Warehousing und Mining: Association 37 Data Warehousing und Mining: Association 38 Association Beispiel Beispiel: Bisher: Milch Brot [80%] Jetzt: Diätmilch Weißbrot [75%] Probleme: Hoher Support i. Allg. nur mit High-Level Concepts erreichbar, High-Level Regeln tendenziell weniger interessant, z. B. Eßware Getränk Naheliegender Ansatz Menge der Items enthält auch die Kategorien, z. B. {Vollkornbrot, Brot, Lebensmittel,...} Vorgehen wie bisherige Verfahren, bis auf daß Items, die hierarchische Beziehung haben, nicht kombiniert werden. Negative Effekte: Menge der Frequent Itemsets wächst exponentiell mit der Tiefe der Hierarchie, viele ähnliche Zusammenhänge. Data Warehousing und Mining: Association 39 Data Warehousing und Mining: Association 40

11 Illustration kodierte TA-Tabelle Codierung der verschiedenen Items: Milch 1 Diätmilch 11 Vollmilch 12 Brot 2 Weißbrot 21 Vollkornbrot 22 Transaktionstabelle: T1: {11,21,22,32} T2: {21,22,31}... Datenstrukturen für Berechnung von Association Kodierte Transaktionstabelle TID Items T 1 {111, 121, 211, 221} T 2 {111, 211, 222, 323} T 3 {112, 122, 221, 411} T 4 {111, 121} T 5 {111, 122, 211, 221, 413} T 6 {211, 323, 524} T 7 {323, 411, 524, 713} zweidimensionale Itemset-Tabelle Größe der Itemsets, Tiefe in der Hierarchie, Bis jetzt hatten wir nur eindimensionale Tabelle L j, jetzt L[i,j]. Data Warehousing und Mining: Association 41 Data Warehousing und Mining: Association 42 Beispiel Übersicht über die aufgebauten Tabellen Zusammenfassung Level-1 minsup = 4 Level-1 large 1-itemsets L[1,1] Itemset Support Level-1 large 2-itemsets L[1,2] Itemset Support {1**, 2**} 4 Level-1 large 3-itemsets L[1,3] Itemset Support Algorithmus beinhaltet herkömmliche Techniken zum Finden von Large Itemsets. Jedes Level wird nacheinander durchlaufen. Level-2 minsup = 3 Level-2 large 1-itemsets L[2,1] Level-2 large 2-itemsets L[2,2] Level-2 large 3-itemsets L[2,3] Itemset Support Itemset Support Itemset Support Level-3 minsup = 3... Data Warehousing und Mining: Association 43 Data Warehousing und Mining: Association 44

12 Varianten des Algorithmus Level-Crossing Association Erzeugung von L[l,1] für alle Levels mit einem Scan. Wenn Item angetroffen wird, werden mehrere Zähler inkrementiert (für jedes Level einer). Erzeugung des k-itemsets (für k > 1) wie im Single-Concept Level Fall. Zur Erzeugung der Kandidatenmengen können Itemsets unterschiedlicher Ebenen verknüpft werden. Beispiel: Weißbrot Milch. Für Mixed-Level Kandidaten kann man als Minimum-Support den des unteren Levels nehmen. Data Warehousing und Mining: Association 45 Data Warehousing und Mining: Association 46 Mögliche Prüfungsfragen Zusammenfassung Association präzise Begriffsbildung, Algorithmus zum Finden von Association (), Verfeinerungen. aufwendig, wenn große Frequent Itemsets viele Durchläufe durch die Daten, große Zwischenergebnisse. Was sind Association? Wie findet man sie? Wie überprüft man rasch für viele Transaktionen, welche Kandidaten sie enthalten? Geben Sie ein Beispiel für eine Association Rule mit hohem/niedrigem Support und hoher/niedriger Confidence. Was sind multidimensionale Association? Was sind Association, und wie findet man sie? Data Warehousing und Mining: Association 47 Data Warehousing und Mining: Association 48

13 Literatur Rakesh Agrawal, Ramakrishnan Srikant, Fast Algorithms for Mining Association, Proc. of the 20th Int'l Conference on Very Large Databases, 1994 Jiawei Han, Y. Fu Discovery of Multiple-level Association from Large Databases, Proc. of the 21th Int'l Conference on Very Large Databases, Data Warehousing und Mining: Association 49

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren? Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von

Mehr

Lernen von Assoziationsregeln

Lernen von Assoziationsregeln Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.

Mehr

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten - XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel

Mehr

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung

Mehr

Frequent Itemset Mining und FP-Tree

Frequent Itemset Mining und FP-Tree Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben

Mehr

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.

Mehr

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz Prof. Katarina Morik und Stefan

Mehr

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der

Mehr

4. Assoziationsregeln

4. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Kapitel 15: Mining von Sequential Patterns

Kapitel 15: Mining von Sequential Patterns Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Erkennung Sequenzieller Muster Algorithmen und Anwendungen

Erkennung Sequenzieller Muster Algorithmen und Anwendungen Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster

Mehr

4.2 Constraints für Assoziationsregeln

4.2 Constraints für Assoziationsregeln 4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 - Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Datenanalyse mit Data Mining

Datenanalyse mit Data Mining Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen

Mehr

Häufige Mengen ohne Kandidatengenerierung

Häufige Mengen ohne Kandidatengenerierung Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.

Mehr

Kapitel 13: Pattern Mining unter Constraints

Kapitel 13: Pattern Mining unter Constraints Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher

Mehr

Data Mining. Informationssysteme, Sommersemester 2017

Data Mining. Informationssysteme, Sommersemester 2017 Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter

Mehr

Selbstständiges Lernen

Selbstständiges Lernen Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2) Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Apriori 22.4.2010 Gliederung 1 Apriori 2 FP-Tree Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung 1 2 16.7.2009 Lernen von Assoziationsregeln Binäre Datenbanken Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge von

Mehr

DBS5 Kap. 4. Data Mining

DBS5 Kap. 4. Data Mining DBS5 Kap. 4 Data Mining Klassifikationen und Cluster-Bildung: Auffinden von Regeln zur Partitionierung von Daten in disjunkte Teilmengen (Anwendungsbeispiel: Risikoabschätzung) bzw. Herstellen von Gruppierungen

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Apriori Katharina Morik, Claus Weihs 23.4.2015 Katharina Morik, Claus Weihs DMV 1 / 47 Gliederung 1 Apriori 2 FP-Tree Katharina Morik, Claus Weihs DMV 2 / 47 Lernen von Assoziationsregeln

Mehr

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Was wissen Sie jetzt?

Was wissen Sie jetzt? Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der

Mehr

Mining conjunctive sequential patterns

Mining conjunctive sequential patterns Mining conjunctive sequential patterns Chedy Raïssi Toon Calders Pascal Poncelet Manh Linh Nguyen TU Dortmund Fakultät für Informatik Lehrstuhl 8.5.29 Inhalt. Einleitung 2. Mining von frequent sequences

Mehr

Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window

Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Institut für Informatik Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Yun Chi, Haixun Wang, Philip S. Yu, Richard R. Muntz Hauptseminar Data Science - SS 2016 Team D: Julian

Mehr

Kapitel 7 Studie: Verwaltung von E-Commerce Daten

Kapitel 7 Studie: Verwaltung von E-Commerce Daten Kapitel 7 Studie: Verwaltung von E-Coerce Daten Was ist speziell? (1 Produt-Daten, z. B. Eletronibauteile 2000 Produtategorien, insgesat über 5000 Attribute über alle Kategorien, ständig neue Teile it

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Datenbanksysteme 2009

Datenbanksysteme 2009 Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen

Mehr

Kapitel 14: Clustering

Kapitel 14: Clustering Kapitel 4: Beispiel : Customer Segmentation Gegeben: Große Datenbank mit Kundendaten, die Eigenschaften und Käufe der Kunden in der Vergangenheit enthält. Ziel: Gruppen von Kunden mit ähnlichem Verhalten

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung MinEx 27.4.2010 Gliederung 1 Closed Item Sets 2 Free sets 3 MinEx Wir erinnern uns... Hypothesen werden in einem Verband angeordnet. Ein Versionenraum gibt die möglichen Hypothesen

Mehr

Cognitive Interaction Technology Center of Excellence

Cognitive Interaction Technology Center of Excellence Kanonische Abdeckung Motivation: eine Instanz einer Datenbank muss nun alle funktionalen Abhängigkeiten in F + erfüllen. Das muss natürlich immer überprüft werden (z.b. bei jedem update). Es reicht natürlich

Mehr

Kapitel 2: Mathematik- und Informatik-Grundlagen

Kapitel 2: Mathematik- und Informatik-Grundlagen Kapitel 2: Mathematik- und Informatik-Grundlagen Data Warehousing und Mining - 1 einer Menge gibt an, wie zufällig die Daten in einer Menge verteilt sind (bzw. wie zufällig die Ausprägung eines Attributs

Mehr

Studienarbeit. Maria Soldatova

Studienarbeit. Maria Soldatova Leibniz Universität Hannover Fakultät für Elektrotechnik und Informatik Fachgebiet Datenbanken und Informationssysteme im Studiengang Mathematik mit Studienrichtung Informatik Diskussion und Implementierung

Mehr

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups Seminar im Fach Informatik Sommersemester 2006 Sascha Rüger Gliederung 1. Einleitung 2. Data Mining Systeme 3. Auswertung 4. Weitere Untersuchungen 5. Fazit 1. Einleitung (1) wichtige Aufgabe der Datenanalyse:

Mehr

! Erweiterungen zur Zeit. ! Zeitreihen lernen nach Das! Zeitintervallbeziehungen lernen nach Hoeppner! Privacy preserving data mining

! Erweiterungen zur Zeit. ! Zeitreihen lernen nach Das! Zeitintervallbeziehungen lernen nach Hoeppner! Privacy preserving data mining Häufige Mengen Häufige Mengen! Grundalgorithmen! Apriori! FP Growth! Verbesserungen! Kondensierte Repräsentationen! Pushing Constraints into the algorithm! Bessere Signifikanztests! Erweiterungen zur Zeit!

Mehr

Häufige Mengen. ! Grundalgorithmen. ! Verbesserungen. ! Apriori! FP Growth

Häufige Mengen. ! Grundalgorithmen. ! Verbesserungen. ! Apriori! FP Growth Häufige Mengen! Grundalgorithmen! Apriori! FP Growth! Verbesserungen! Kondensierte Repräsentationen! Pushing Constraints into the algorithm! Bessere Signifikanztests 1 Häufige Mengen! Erweiterungen zur

Mehr

Schema Mapping. Armin Roth 25.04.2013. arminroth.de. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23

Schema Mapping. Armin Roth 25.04.2013. arminroth.de. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Schema Mapping Armin Roth arminroth.de 25.04.2013 Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Mapping 2 Logische Mappings 3 Erzeugung der Anfragen Armin

Mehr

Maschinelles Lernen in der Bioinformatik

Maschinelles Lernen in der Bioinformatik Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut

Mehr

Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen

Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

VII.3 Assoziationsregeln

VII.3 Assoziationsregeln VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln

Mehr

Relationale Algebra. Thomas Heimrich. Rel. Algebra. Grundlagen. Beispielrelationen. rel. Algebra. Definition der rel. Algebra.

Relationale Algebra. Thomas Heimrich. Rel. Algebra. Grundlagen. Beispielrelationen. rel. Algebra. Definition der rel. Algebra. 1 / 17 Rel. Relationale Thomas Heimrich rel. Formale Sprachen Rel. relationale Die relationale ist prozedural orientiert. Sie beinhaltet implizit einen Abarbeitungsplan für die Anfrage. Die rel. ist wichtig

Mehr

Evidenzpropagation in Bayes-Netzen und Markov-Netzen

Evidenzpropagation in Bayes-Netzen und Markov-Netzen Einleitung in Bayes-Netzen und Markov-Netzen Thomas Thüm 20. Juni 2006 1/26 Thomas Thüm in Bayes-Netzen und Markov-Netzen Übersicht Einleitung Motivation Einordnung der Begriffe 1 Einleitung Motivation

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Lösungen zur 1. Klausur. Einführung in Berechenbarkeit, formale Sprachen und Komplexitätstheorie

Lösungen zur 1. Klausur. Einführung in Berechenbarkeit, formale Sprachen und Komplexitätstheorie Hochschuldozent Dr. Christian Schindelhauer Paderborn, den 21. 2. 2006 Lösungen zur 1. Klausur in Einführung in Berechenbarkeit, formale Sprachen und Komplexitätstheorie Name :................................

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Sequenzgenerierung aus Klassifikationsbäumen

Sequenzgenerierung aus Klassifikationsbäumen Sequenzgenerierung aus Klassifikationsbäumen Peter M. Kruse, 24.01.2011 PMK, 24.01.2011 Inhalt Einleitung Stand von Wissenschaft und Technik Generierung von Testsequenzen mit der Klassifikationsbaum-Methode

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der

Mehr

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23 Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Matching / Integration 2 Schema Mapping Definitionen Beispiel Algorithmus

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Gliederung Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 14.07.2009 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator 5 Implementierung

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Vollständigkeit 1 David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 20.05.2016 Übersicht Schwere Definition CIRCUIT-VALUE ist P-schwer

Mehr

Multidimensionale Modellierung

Multidimensionale Modellierung Multidimensionale Modellierung Vorlesung: Übung: Patrick Schäfer Berlin, 27. November 2017 patrick.schaefer@hu-berlin.de https://hu.berlin/vl_dwhdm17 https://hu.berlin/ue_dwhdm17 Grundlagen Fakten (Kennzahlen/Messgrößen):

Mehr

Objektorientierte Modellierung (1)

Objektorientierte Modellierung (1) Objektorientierte Modellierung (1) Die objektorientierte Modellierung verwendet: Klassen und deren Objekte Beziehungen zwischen Objekten bzw. Klassen Klassen und Objekte Definition Klasse Eine Klasse ist

Mehr

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,

Mehr

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell

Mehr

Kapitel 2. Wahrscheinlichkeit (wird heute behandelt) Kapitel 2. Wahrscheinlichkeit

Kapitel 2. Wahrscheinlichkeit (wird heute behandelt) Kapitel 2. Wahrscheinlichkeit Teil I: Wahrscheinlichkeitstheorie 1 Kapitel 2. Wahrscheinlichkeit (wird heute behandelt) Kapitel 3: Bedingte Wahrscheinlichkeit Kapitel 4: Zufallsvariablen Kapitel 5: Erwartungswerte, Varianz, Kovarianz

Mehr

Assoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger

Assoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger Assoziationsmining Datalab Brown-Bag-Seminar Thoralf Mildenberger Institut für Datenanalyse und Prozessdesign School of Engineering Zürcher Hochschule für Angewandte Wissenschaften 09.07.2014 Thoralf Mildenberger

Mehr

Probabilistische Ansätze in der Assoziationsanalyse

Probabilistische Ansätze in der Assoziationsanalyse Probabilistische Ansätze in der Assoziationsanalyse Habilitationsvortrag Dr. Michael Hahsler Institut für Informationswirtschaft Wirtschaftsuniversität Wien Wien, 19. Mai, 2006 Aufbau des Vortrags 1. Motivation

Mehr