Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19

Größe: px
Ab Seite anzeigen:

Download "Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19"

Transkript

1 Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig Data Mining 5-1

2 5-2 Data Mining Übersicht Hochdimension. Daten Locality sensitive hashing Clustering Dimension. reduction Graphdaten PageRank, SimRank Network Analysis Spam Detection Unbegrenzte Daten Filtering data streams Web advertising Queries on streams Maschinelles Lernen Support Vector Machines Decision Trees Nearest Neighbors Anwendung Recommen. Systems Association Rules Duplicate document detection

3 Inhaltsverzeichnis Motivation Frequent Itemsets & Assoziationsregeln A-Priori Algorithmus Park-Chen-Yu (PCY) Algorithmus Algorithmen mit weniger Durchläufen Zufallsstichprobe Savasere-Omiecinski-Navathe (SON) Algorithmus Algorithmus von Toivonen Data Mining 5-3

4 Motivation Große Menge an Items und große Menge an Baskets Datengrundlage: Zuordnungen von kleinen Mengen an Items zu Baskets Beispiel: Kaufverhalten im Supermarkt Welche Produkte werden von hinreichend vielen Leuten (nicht) zusammen gekauft? Klassische Regeln: Wenn jemand Bratwürste kauft, dann auch Senf. Wenn jemand Windeln kauft, dann auch Bier. Wenn jemand Coca Cola kauft, dann nicht Pepsi. Basket Items 1 Brot, Cola, Milch 2 Bier, Brot 3 Bier, Cola, Windeln, Milch 4 Bier, Brot, Windeln, Milch 5 Cola, Windeln, Milch, Bier Regeln: {Milch} --> {Cola} {Windeln, Milch} --> {Bier} Data Mining 5-4

5 Anwendungen Kaufverhalten für Marketing/Produktpositionierung in Supermärkten Produktempfehlungen: Kunden, die diesen Artikel gekauft haben, kauften auch Kunden, die diesen Film angesehen haben, haben auch angesehen Verwandte Konzepte: Wörter (Items) und Dokumente (Baskets) Plagiate: Dokumente (Items) und Sätze (Baskets) Nebenwirkungen von bestimmten Kombination von Medikamenten Items: Nebenwirkung und Medikament Baskets: Patienten Data Mining 5-5

6 Inhaltsverzeichnis Motivation Frequent Itemsets & Assoziationsregeln A-Priori Algorithmus Park-Chen-Yu (PCY) Algorithmus Algorithmen mit weniger Durchläufen Zufallsstichprobe Savasere-Omiecinski-Navathe (SON) Algorithmus Algorithmus von Toivonen Data Mining 5-6

7 Frequent Itemsets Frequent Itemset = Teilmenge von Items, die in vielen Baskets vorkommt Support eines Itemset I sup(i) : Anzahl (oft: Anteil) der Baskets, die alle Elemente aus I enthält Gegeben eines Schwellenwerts s, ein Itemset I ist ein Frequent Itemset, falls sup(i) s Basket Items 1 Brot, Cola, Milch 2 Bier, Brot 3 Bier, Cola, Windeln, Milch 4 Bier, Brot, Windeln, Milch 5 Cola, Windeln, Milch, Bier Data Mining 5-7

8 Assoziationsregeln Assoziationsregel: Wenn-Dann-Regel zu den Inhalten der Baskets Falls ein Basket die Elemente i 1, i 2,, i k enthält, dann enthält er mit hoher Wahrscheinlichkeit das Element j: i 1, i 2,, i k j Nur die interessanten Regeln sollen betrachtet werden Confidence einer Regel mit Itemset I = {i 1, i 2,, i k }: Interest einer Regel: conf I j = sup(i j ) sup(i) int I j = conf I j Pr[j] Interessant sind Regeln mit int I j > 0.5 oder int I j < 0.5 Data Mining 5-8

9 Beispiel: Confidence und Interest Assoziationsregel: {m, b} c sup m, b = 4 sup m, b, c = 2 conf {m, b} c = 1 2 int {m, b} c = 1 5 = Assoziationsregel: {p} j sup p = 3 sup p, j = 3 conf {p} j = 1 int {p} j = 1 3 = {m, c, b} {m, b} {m, p, b, j} {c, b} {m, p, j} {c, j, p} {m, c, b, k} {c, b} Data Mining 5-9

10 Die Suche nach Assoziationsregeln Problem: Finde alle Assoziationsregeln I j mit sup(i j ) s und conf(i j) c Schwierigkeit: Suche nach Frequent Itemsets Nachdem alle Frequent Itemsets I mit sup(i) s gefunden wurden: Für jedes Element j eines Frequent Itemset I, erstelle die Regel I\ j j Da I ein Frequent Itemset ist auch I\ j ein Frequent Itemset und somit wurde sowohl sup(i) als auch sup(i\ j ) schon berechnet conf I\ j j = sup(i) sup(i\ j ) Ausgabe der Regel I\ j j falls conf I\ j j c Reduzierung der Anzahl der Regeln durch Einschränkung der Frequent Itemsets auf: Maximal Frequent Itemsets: Keine direkte Übermenge ist frequent Closed Frequent Itemsets: Keine direkte Übermenge hat gleichen Support Data Mining 5-10

11 Inhaltsverzeichnis Motivation Frequent Itemsets & Assoziationsregeln A-Priori Algorithmus Park-Chen-Yu (PCY) Algorithmus Algorithmen mit weniger Durchläufen Zufallsstichprobe Savasere-Omiecinski-Navathe (SON) Algorithmus Algorithmus von Toivonen Data Mining 5-11

12 Suche nach Frequent Itemsets Annahme, dass Daten in Dateisystem auf Festplatte gespeichert Sortiert nach Basket Wenige Items pro Basket: Aufwand der Generierung aller Teilmengen eines Basket ist relativ gering Entscheidend: Anzahl der Festplattenzugriffe, da sehr viele Baskets existieren und diese nicht vollständig in Hauptspeicher passen Kosten eines Algorithmus: Anzahl der Festplattendurchläufe (Lesen aller Baskets von Festplatte) Größe des Hauptspeichers kritisch für das Speichern der Zwischenergebnisse (Häufigkeiten der Teilmengen) Auslagern der Zwischenergebnisse auf Festplatte ist nicht tolerierbar Item Item Item Item Item Item Item Item Item Item Item Item Etc. Data Mining 5-12

13 Zählen der Frequent Pairs Schwierigste Aufgabe ist das Auffinden häufiger Paare von Elementen Dies sind die häufigsten Teilmengen Teilmengen der Größe 3 oder höher sind selten Einmaliges Einlesen aller Baskets und Zählen im Hauptspeicher ist nicht für große Datenmengen geeignet Angenommen n verschiedene Items und 4 Byte pro Zähler n Speicherplatz für 2 = n(n 1) n2 Zähler: 2 2 2n2 Byte Bei 32 GB Hauptspeicher: n < Damit würde weder Walmart (17 Millionen Produkte) noch Amazon (500 Millionen Produkte) auskommen Repräsentation der Zähler eines Paars {i, j} 1. Dreiecksmatrix (4 Byte pro Paar): {1,2}, {1,3},, {1,n}, {2,3}, {2,4},,{2,n}, {3,4}, 2. Liste von Tripeln [i, j, c] (spärlich besetzte Matrix; 12 Byte pro Paar) Zusätzlich: Hash-Tabelle um Items auf Zahlen abzubilden Data Mining 5-13

14 A-Priori Algorithmus Wichtige Eigenschaft der Frequent Itemsets: Monotonie J I sup(i) sup(j) Gegenrichtung: Falls ein Element i kein häufiges Element ist, dann ist keine Teilmenge, welches i enthält, ein Frequent Itemset A-Priori Algorithmus: Begrenzung des benötigten (Haupt-) Speicherplatzes über zweifaches Einlesen aller Daten 1. Durchlauf: Zählen aller Elemente (einelementigen Mengen) und Auswahl der häufigen Elemente über Schwellenwert s 2. Durchlauf: Zählen der vorkommenden Paare, deren beiden Elemente häufig sind Data Mining 5-14

15 Hauptspeicher A-Priori Algorithmus: Details Tabelle: Eindeutige Abbildung der Elemente auf die Zahlen 1,, n 1. Durchlauf: Zähler für Elemente ist einfaches Array der Länge n Nach 1. Durchlauf: Zweites Array der gleichen Länge, aber Zuordnung der häufigen Element zu neuer Nummerierung 1,, m und seltene Elemente auf 0 2. Durchlauf: Speicherung der Paare häufiger Elemente über Dreiecksmatrix der Dimension m Speichplatzbedarf Tabelle für Abbildung Liste der häufigen Elemente Liste aller möglichen Paare der häufigen Elemente Liste von Tripeln anstatt Dreiecksmatrix könnte Speicherbedarf weiter reduzieren Elemente {1,, n} Zähler für Elemente Elemente {1,, n} Häufige Elemente Zähler für Paar häufiger Elemente 1. Durchlauf 2. Durchlauf Data Mining 5-15

16 Frequent Triples, etc. Weiterer Durchlauf für jede Menge der Größe k C k = Kandidatenmengen: Mengen der Größe k, die aufgrund der Informationen über Mengen der Größe k-1 häufig sein könnten L k = häufige Mengen der Größe k Alle Element Zählen der Elemente Alle Paare aus häufigen Elementen Zählen der Paare Alle Tripel aus Häufigen Paaren C 1 Filter L 1 Construct C 2 Filter L 2 Construct C 3 Für eine Menge aus C k gilt: ALLE (k-1)-elementigen Teilmengen müssen in L k 1 enthalten sein Data Mining 5-16

17 Beispiel C 1 = {{b}, {c}, {j}, {m}, {n}, {p}} L 1 = {{b}, {c}, {j}, {m}} C 2 = {{b, c}, {b, j}, {b, m}, {c, j}, {c, m}, {j, m}} L 2 = {{b, c}, {b, m}, {c, j}, {c, m}} C 3 = {{b, c, m}} L 3 = {} Data Mining 5-17

18 Inhaltsverzeichnis Motivation Frequent Itemsets & Assoziationsregeln A-Priori Algorithmus Park-Chen-Yu (PCY) Algorithmus Algorithmen mit weniger Durchläufen Zufallsstichprobe Savasere-Omiecinski-Navathe (SON) Algorithmus Algorithmus von Toivonen Data Mining 5-18

19 Park-Chen-Yu (PCY) Algorithm Nur ein kleiner Teil des Hauptspeichers wird im 1. Durchlauf des A-Priori- Algorithmus verwendet Idee: Verwende den restlichen Speicherplatz für eine Hash-Tabelle mit möglichst vielen Buckets PCY-Algorithmus: FOR (each basket) : FOR (each item in the basket) : add 1 to item s count; FOR (each pair of items) : hash the pair to a bucket; add 1 to the count for that bucket; Data Mining 5-19

20 Hauptspeicher Park-Chen-Yu (PCY) Algorithm Beobachtungen: Falls ein Bucket ein häufiges Paar enthält (Support größer als Schwellenwert s), dann ist Wert dieses Bucket größer als s Auch seltene Paare (Support kleiner als Schwellenwert s) können in Buckets mit Wert größer als s vorkommen Buckets mit Wert kleiner als s können keine häufige Paare enthalten Folgerung: Alle Paare aus Buckets mit Wert kleiner als s müssen nicht im 2. Durchlauf betrachtet werden Für 2. Durchlauf: Ersetze Hash-Tabelle durch Bit-Vektor: 1 bedeutet, dass Wert des Bucket größer als s ist (Frequent Bucket) Bit-Vektor benötigt nur 1 des Speichers 32 der Hash-Tabelle (Integer: 4 Byte) Elemente {1,, n} Zähler für Elemente Hash- Tabelle 1. Durchlauf Elemente {1,, n} Häufige Elemente Bit-Vektor Zähler für Paar häufiger Elemente 2. Durchlauf Data Mining 5-20

21 Park-Chen-Yu (PCY) Algorithm 2. Durchlauf: Zähle ein Paar {i, j} genau dann, wenn Beide Element i und j sind häufig {i, j} wird über die Hash-Funktion auf ein Bucket mit Wert 1 im Bit-Vektor abgebildet Anmerkungen: Die Buckets der Hash-Tabelle benötigen nur wenige Bytes: man muss nur bis s zählen Je nach Hauptspeicher: große Anzahl an Buckets möglich Dennoch: Durchschnittliche Anzahl der Paare pro Bucket sollte wesentlich kleiner als s sein Weiterhin: keinen Vorteil bei Speicherung der Zählungen in Dreiecksmatrix Hash-Tabelle sollte 2/3 der Kandidaten eliminieren, damit Liste von Tripeln verwendbar und somit PCY effizienter als A-Priori Weitere Einschränkung der Kandidatenmenge über weiteren Durchlauf, der einen zweiten Bit-Vektor mit häufigen Buckets erzeugt (Multistage PCY) In manchen Fällen ist es effizient, zwei verschiedene Hash-Funktionen anzuwenden und daraus zwei kleinere Bit-Vektoren zu erzeugen (Multihash PCY) Data Mining 5-21

22 Inhaltsverzeichnis Motivation Frequent Itemsets & Assoziationsregeln A-Priori Algorithmus Park-Chen-Yu (PCY) Algorithmus Algorithmen mit weniger Durchläufen Zufallsstichprobe Savasere-Omiecinski-Navathe (SON) Algorithmus Algorithmus von Toivonen Data Mining 5-22

23 Hauptspeicher Zufallsstichprobe Ziehe Zufallsstichprobe mit Anteil p, so dass alle Baskets der Stichprobe in den Hauptspeicher passen Anwendung von A-Priori oder PCY im Hauptspeicher Nur ein Festplattendurchlauf für die Suche nach den Frequent Itemsets aller Größen, (solange die Daten und Zähler in Hauptspeicher passen) Anpassung der Schwellenwerts auf p s Vermeidung von False Positives: Verifiziere die über die Stichprobe ausgewählten Frequent Itemsets durch einen weiteren Durchlauf (benötigt weniger Speicher, da weniger Kandidaten) Reduzierung der False Negatives: Kleineren Schwellenwert 0.9 p s (benötigt mehr Speicherplatz) Kopie der Stichprobe Platz für Zähler Data Mining 5-23

24 Savasere-Omiecinski-Navathe (SON) SON Algorithmus: Lies wiederholt einen Teil (Chunk) des gesamten Datensatzes in Hauptspeicher Finde ALLE Frequent Itemsets mit Schwellenwert p s (wobei p der Anteil des Chunk am gesamten Datensatz) Gesamter Datensatz wird in Teilen durchlaufen und Frequent Itemsets der Chunks werden gespeichert Jede Frequent Itemset eines Chunk ist Kandidat für 2. Durchlauf: Verfizieren und Aussortieren der False Positives Keine False Negatives: Ein Itemset kann nicht im gesamten Datensatz häufig vorkommen, wenn es nicht in mindestens einem Chunk häufig vorkommt (Monotonie) Gute Eignung für MapReduce und verteiltes Dateisystem Map-Schritt: Kandidatensuche (Schlüssel ist Kandidat, Wert ist Support) Reduce-Schritt: Verifizierung Data Mining 5-24

25 Algorithmus von Toivonen 1. Durchlauf: Ziehen einer Zufallsstichprobe des Anteils p, die Arbeit in Hauptspeicher erlaubt Nimm die Frequent Itemsets mit leicht niedrigerem Schwellenwert, z.b. 0.9 p s, als Kandidaten Erstellen der Negativen Grenze zu Kandidaten Eine Menge ist in der Negativen Grenze falls sie kein Kandidat ist, aber alle direkten Untermengen (Untermenge mit genau einem Element weniger) Kandidaten sind Beispiel: {A,B,C,D} ist Element der Negativen Grenze, falls {A,B,C,D} nicht häufig in der Stichprobe vorkam und die Mengen {A,B,C}, {B,C,D}, {A,C,D} und {A,B,D} häufig in der Stichprobe vorkamen Beispiel: Grundmenge {A,B,C,D,E} wobei {A}, {B}, {C}, {D}, {B,C}, {C,D} häufig in Stichprobe vorkommen Negative Grenze: {E}, {A,B}, {A,C}, {A,D}, {B,D} Die anderen Paare sind nicht in Negativen Grenze, da sie entweder E enthalten oder häufig vorkommen Kein Tripel ist in Negativen Grenze Data Mining 5-25

26 Algorithmus von Toivonen 2. Durchlauf: Zählen der Kandidaten und der Negativen Grenze Falls kein Element der Negativen Grenze häufig vorkommt, wurden alle Frequent Itemsets gefunden Falls ein Element der Negativen Grenze häufig vorkommt, muss der Algorithmus mit neuer Zufallsstichprobe wiederholt werden (evtl. mit geringerem Schwellenwert, z.b. 0.8 p s; aber so dass Kandidaten und Negative Grenze immer noch in Hauptspeicher passen) Satz: Falls ein Itemset S häufig im gesamten Datensatz aber nicht in der Zufallsstichprobe vorkommt, dann enthält die Negative Grenze mindestens eine Menge, die häufig im gesamten Datensatz vorkommt. Beweis: Sei T die kleinste Untermenge von S die nicht häufig in der Stichprobe vorkam, aber jede Teilmenge von T kam häufig in Stichprobe vor Dann ist T in der Negativen Grenze. Da S häufig in gesamten Menge, ist auch T häufig in gesamten Menge (Monotonie) Data Mining 5-26

27 Referenzen, Beispiele, Übungen Kapitel 6 aus Mining of Massive Datasets : Übungen: Assoziationsregeln: A-Priori Algorithmus: PYO Algorithmus: Algorithmus von Toivonen: Data Mining 5-27

28 Übung verschiedene Elemente und 100 Baskets Element i ist in Basket b genau dann, wenn b durch i teilbar ist Basket 1: {1} Basket 2: {1,2} Basket 3: {1,3} Basket 4: {1,2,4} Basket 5: {1,5} Basket 6: {1,2,3,6} Basket 71: {1,71} Basket 99: {1,2,9,11,33,99} Basket 100: {1,2,4,5,10,20,25,50,100} sup({5,7}) = 2 (Baskets 35 & 70) sup({2,5,7}) = 1 (Basket 70) conf({5,7} 2) = 1/2 sup({2,3,4}) = sup({3,4}) = 8 (Baskets 12, 24, 36, 48, 60, 72, 84, 96) sup({2,3,4,5}) = 1 (Basket 60) conf({2,3,4} 5) = 1/8 Data Mining 5-30

29 Übungen 6.2.7: A-priori Support-Schwellenwert: 10, verschiedene Elemente: Byte = 4MB zum Zählen N Frequent Items: 10 6 Frequent Pairs N 2 Kandidaten für Frequent Pairs M Paare aus häufigen Elementen kommen genau einmal vor Speicherbedarf der Frequent Pairs: Dreiecksmatrix: N 2 4 Byte Liste von Tripeln: M Byte Gesamter Speicherbedarf: 4 MB + 4B min N 2, M Data Mining 5-32

30 Übungen 6.3.1: PCY (Schwellenwert: 4) (a) {1,2,3} {2,3,4} {3,4,5} {4,5,6} {1,3,5} {2,4,6} {1,3,4} {2,4,5} {3,5,6} {1,2,4} {2,3,5} {3,4,6} Item sup (b) h({i, j}) = i j mod (c) Bucket sup Data Mining 5-37

31 Übungen 6.4.2: Toivonen (Schwellenwert: 4) {1,2,3} {2,3,4} {3,4,5} {4,5,6} {1,3,5} {2,4,6} {1,3,4} {2,4,5} {3,5,6} {1,2,4} {2,3,5} {3,4,6} Frequent Itemsets in Stichprobe (Schwellenwert: 1): {1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {1,3}, {2,3}, {2,4}, {3,4}, {3,5}, {4,5}, {4,6}, {5,6}, {1,2,3}, {2,3,4}, {3,4,5}, {4,5,6} Negative Grenze: {1,4}, {1,5}, {1,6}, {2,5}, {2,6}, {3,6} Data Mining 5-41

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 2- WS 28/9 2-2 Data Mining WS 28/9 Übersicht

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von

Mehr

Lernen von Assoziationsregeln

Lernen von Assoziationsregeln Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]

Mehr

Data Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19

Data Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 3: Mining Data Streams Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 3-1 3-2 Data Mining Übersicht Hochdimension.

Mehr

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

Was wissen Sie jetzt?

Was wissen Sie jetzt? Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der

Mehr

Data Mining. Informationssysteme, Sommersemester 2017

Data Mining. Informationssysteme, Sommersemester 2017 Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Data Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19

Data Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 8: Recommendation Systems Johannes Zschache Wintersemester 08/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 8- 8- Data Mining Übersicht Hochdimension.

Mehr

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 4: Link Analysis Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 4-1 4-2 Data Mining Übersicht Hochdimension.

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren? Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung MinEx 27.4.2010 Gliederung 1 Closed Item Sets 2 Free sets 3 MinEx Wir erinnern uns... Hypothesen werden in einem Verband angeordnet. Ein Versionenraum gibt die möglichen Hypothesen

Mehr

Frequent Itemset Mining und FP-Tree

Frequent Itemset Mining und FP-Tree Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten - XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel

Mehr

Selbstständiges Lernen

Selbstständiges Lernen Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung

Mehr

4. Assoziationsregeln

4. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

4.2 Constraints für Assoziationsregeln

4.2 Constraints für Assoziationsregeln 4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Datenbanken Unit 11: Data Mining

Datenbanken Unit 11: Data Mining Datenbanken Unit 11: Data Mining 11. VI. 2018 Organisatorisches Diesen Mittwoch UE-Abschlusstest (Gruppe 1: 17:30 18:30, Gruppe 2: 16:15 17:15 ) Klassifikation Outline 1 Organisatorisches 2 Data Mining

Mehr

Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window

Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Institut für Informatik Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Yun Chi, Haixun Wang, Philip S. Yu, Richard R. Muntz Hauptseminar Data Science - SS 2016 Team D: Julian

Mehr

Häufige Mengen ohne Kandidatengenerierung

Häufige Mengen ohne Kandidatengenerierung Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Mining conjunctive sequential patterns

Mining conjunctive sequential patterns Mining conjunctive sequential patterns Chedy Raïssi Toon Calders Pascal Poncelet Manh Linh Nguyen TU Dortmund Fakultät für Informatik Lehrstuhl 8.5.29 Inhalt. Einleitung 2. Mining von frequent sequences

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Teil VII. Hashverfahren

Teil VII. Hashverfahren Teil VII Hashverfahren Überblick 1 Hashverfahren: Prinzip 2 Hashfunktionen 3 Kollisionsstrategien 4 Aufwand 5 Hashen in Java Prof. G. Stumme Algorithmen & Datenstrukturen Sommersemester 2009 7 1 Hashverfahren:

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:

Mehr

Pat Trees und Pat Arrays Datenstrukturen zur effizienten Suche in Texten

Pat Trees und Pat Arrays Datenstrukturen zur effizienten Suche in Texten Pat Trees und Pat Arrays Datenstrukturen zur effizienten Suche in Texten Ruprecht-Karls-Universität Heidelberg HS Information Retrieval Dozentin: Dr. Karin Haenelt Referenten: Doina Gliga und Katja Niemann

Mehr

Regelbasiertes Tiling für Collaborative Filtering

Regelbasiertes Tiling für Collaborative Filtering Regelbasiertes Tiling für Collaborative Filtering Diplomarbeit Simone Daum 17.11.2005 Betreuer: Prof. Johannes Fürnkranz Überblick Einführung Algorithmus zum Regelbasierten Tiling Ergebnisse Überblick

Mehr

Datenanalyse mit Data Mining

Datenanalyse mit Data Mining Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen

Mehr

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation

4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Übung GSS Blatt 1. SVS Sicherheit in Verteilten Systemen

Übung GSS Blatt 1. SVS Sicherheit in Verteilten Systemen Übung GSS Blatt 1 SVS Sicherheit in Verteilten Systemen 1 Alle so markierten Folien werden online gestellt Download über STINE (GSS-Übung) ONLINE Organisatorisches Den Foliensatz mit Hinweisen zur Organisation

Mehr

Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen

Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von

Mehr

Item-based Collaborative Filtering

Item-based Collaborative Filtering Item-based Collaborative Filtering Initial implementation Martin Krüger, Sebastian Kölle 12.05.2011 Seminar Collaborative Filtering Projektplan Implementierung Ideen Wdh.: Item-based Collaborative Filtering

Mehr

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln

4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln 4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit

Mehr

Informatik II, SS 2016

Informatik II, SS 2016 Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 8 (13.5.2016) Hashtabellen I Algorithmen und Komplexität Dictionary mit sortiertem Array Laufzeiten: create: O(1) insert: O(n) find: O(log

Mehr

KAPITEL 4. Posets Hasse Diagramm

KAPITEL 4. Posets Hasse Diagramm KAPITEL 4 Posets Im Abschnitt über Relationen (1.4) wurde Eigenschaften von Relationen über einer einzigen Grundmenge X definiert. Mithilfe dieser Eigenschaften wurden z.b. Äquivalenzrelationen definiert.

Mehr

Inhalt. 7.1 Motivation. 7.2 Artikelmengen. 7.3 Assoziationsregeln. 7.4 Sequenzen. Entscheidungsunterstützende Systeme / Kapitel 7: Mustererkennung

Inhalt. 7.1 Motivation. 7.2 Artikelmengen. 7.3 Assoziationsregeln. 7.4 Sequenzen. Entscheidungsunterstützende Systeme / Kapitel 7: Mustererkennung 7. Mustererkennung Inhalt 7.1 Motivation 7.2 Artikelmengen 7.3 Assoziationsregeln 7.4 Sequenzen 2 7.1 Motivation Mustererkennung (pattern mining) sucht in oft großen Datenmengen nach häufig auftretenden

Mehr

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz Prof. Katarina Morik und Stefan

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Closed Sets, Web Mining Katharina Morik, Claus Weihs 28.4.2015 Katharina Morik, Claus Weihs DMV 1 / 31 Gliederung 1 Closed Sets 2 Web Mining Finden von häufigen Subgraphen Ranking

Mehr

Maschinelles Lernen in der Bioinformatik

Maschinelles Lernen in der Bioinformatik Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut

Mehr

Cognitive Interaction Technology Center of Excellence

Cognitive Interaction Technology Center of Excellence Kanonische Abdeckung Motivation: eine Instanz einer Datenbank muss nun alle funktionalen Abhängigkeiten in F + erfüllen. Das muss natürlich immer überprüft werden (z.b. bei jedem update). Es reicht natürlich

Mehr

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 - Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

Approximate Frequency Counts over Data Streams

Approximate Frequency Counts over Data Streams Approximate Frequency Counts over Data Streams Gurmeet Singh Manku Rajeev Motwani Näherungsweise Häufigkeitszählung in Datenströmen Seminarvortrag von Marco Möller 1 Wofür ist das gut? Was sind die Top

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen

Mehr

Assoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger

Assoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger Assoziationsmining Datalab Brown-Bag-Seminar Thoralf Mildenberger Institut für Datenanalyse und Prozessdesign School of Engineering Zürcher Hochschule für Angewandte Wissenschaften 09.07.2014 Thoralf Mildenberger

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln

Mehr

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2) Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

17. Hashing. Hash Tabellen, Geburtstagsparadoxon, Hashfunktionen, Kollisionsauflösung durch Verketten, offenes Hashing, Sondieren

17. Hashing. Hash Tabellen, Geburtstagsparadoxon, Hashfunktionen, Kollisionsauflösung durch Verketten, offenes Hashing, Sondieren 336 17. Hashing Hash Tabellen, Geburtstagsparadoxon, Hashfunktionen, Kollisionsauflösung durch Verketten, offenes Hashing, Sondieren Motivation 337 Ziel: Tabelle aller n Studenten dieser Vorlesung Anforderung:

Mehr

Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 1982, Kapitel 2.2

Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 1982, Kapitel 2.2 Hashorganisation HASHORGANISATION Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 982, Kapitel 2.2 Die Sätze der Datei werden auf eine Menge von Buckets aufgeteilt. Jedes Bucket

Mehr

Vorlesung 4: DATENSTRUKTUREN UND ALGORITHMEN

Vorlesung 4: DATENSTRUKTUREN UND ALGORITHMEN Vorlesung 4: DATENSTRUKTUREN UND ALGORITHMEN 107 Wiederholung zur Speicherhierarchie! EM- bzw. I/O-Modell: Übergang der Ebenen universell! Blockweise Abarbeitung unter Ausnutzung von Lokalität Chip On-/off-Chip,

Mehr

EADS 3.3 Gewichtsbalancierte Bäume 95/598 ľernst W. Mayr

EADS 3.3 Gewichtsbalancierte Bäume 95/598 ľernst W. Mayr 3.3 Gewichtsbalancierte Bäume Siehe zu diesem Thema Seite 189ff in Kurt Mehlhorn: Data structures and algorithms 1: Sorting and searching, EATCS Monographs on Theoretical Computer Science, Springer Verlag:

Mehr

Grundlagen von Datenbanken Sommersemester 2012

Grundlagen von Datenbanken Sommersemester 2012 Beispiellösung für die Präsenzübung Nr. 3 Lösung zu Aufgabe 1 (RAP- Algorithmus): a) K ist Schlüssel, wenn gilt: K R und K ist minimal? 1) K R gilt, wenn: F K R (K R) ε F + R K F * 2) K ist minimal gilt,

Mehr

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://moves.rwth-aachen.de/teaching/ss-15/dsal/ 2 Effizienz

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 7 (21.5.2014) Binäre Suche, Hashtabellen I Algorithmen und Komplexität Abstrakte Datentypen : Dictionary Dictionary: (auch: Maps, assoziative

Mehr

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group https://moves.rwth-aachen.de/teaching/ss-18/dsal/ 2 Effizienz

Mehr

119+1/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik. Data Cube +, *!!**)* -. Dank an Hanna Köpcke!

119+1/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik. Data Cube +, *!!**)* -. Dank an Hanna Köpcke! 119+1/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Data Cube!! "#$% & '(!&!)*#$ +, *!!**)* -. Dank an Hanna Köpcke! 119+2/182 Maschinelles Lernen und Data Mining WS 2002,3

Mehr

Datenbanken Vertiefung Wintersemester 2013/ Matrikelnummer: Hinweise. Unterschrift

Datenbanken Vertiefung Wintersemester 2013/ Matrikelnummer: Hinweise. Unterschrift Fachbereich für Computerwissenschaften Prof. Dr. Nikolaus Augsten Jakob-Haringer-Str. 2 5020 Salzburg, Austria Telefon: +43 662 8044 6347 E-Mail: nikolaus.augsten@sbg.ac.at Datenbanken Vertiefung Prüfung

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung 1 2 16.7.2009 Lernen von Assoziationsregeln Binäre Datenbanken Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge von

Mehr

Vorlesung Datenstrukturen

Vorlesung Datenstrukturen Vorlesung Datenstrukturen Kürzeste Wege Maike Buchin 4. und 6.7.2017 Einführung Motivation: Bestimmung von kürzesten Wegen ist in vielen Anwendungen, z.b. Routenplanung, ein wichtiges Problem. Allgemeine

Mehr

Zeichenketten. Michael Fularczyk Michael Fularczyk Zeichenketten / 41

Zeichenketten. Michael Fularczyk Michael Fularczyk Zeichenketten / 41 Zeichenketten Michael Fularczyk 17.05.2011 Michael Fularczyk Zeichenketten 17.05.2011 1 / 41 Inhalt Zeichenketten Zeichensätze Darstellung Suchverfahren naive Stringsuche Knuth-Morris-Pratt Boyer-Moore

Mehr