Kapitel 15: Mining von Sequential Patterns

Größe: px
Ab Seite anzeigen:

Download "Kapitel 15: Mining von Sequential Patterns"

Transkript

1 Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen anwendbar. Erkennen der Verallgemeinerbarkeit des Ansatzes (genauer: Verallgemeinert wird Erweiterung des Ansatzes). Data Warehousing und Mining: Zeitreihenanalyse 1 Data Warehousing und Mining: Zeitreihenanalyse 2 Motivation (1) Motivation (2) Motivation am Beispiel des Einzelhandels: Logisch zusammengehörige Einkäufe (z. B. Apfelkorn und Aspirin; CD-Brenner und CD-Rohlinge) oft nicht in einer Transaktion, sondern nacheinander. Annahme: Wir können Einkäufe dem Kunden eindeutig zuordnen, z. B. anhand von Treuekarte. Kundenverhalten nicht Menge von Waren, sondern Folge von Mengen. Alternativen: 1. Zeitpunkt/absoluter Zeitabstand zwischen Käufen interessiert nicht/ nicht verfügbar. 2. Jedem Einkauf entspricht expliziter Zeitpunkt. Ziel der Analyse: Subsequenzen mit bestimmter Mindesthäufigkeit. Sequential Patterns. Subsequenz wird gleich erklärt. Data Warehousing und Mining: Zeitreihenanalyse 3 Data Warehousing und Mining: Zeitreihenanalyse 4

2 Subsequenz Diese Folie: Fall 1., d.h. keine explizite Betrachtung der Zeitpunkte. Notation für Sequenzen Beispiele: <a(abc)(ac)d(cf)> <eg(af)cbc> Subsequenz Beispiel: <a(bc)df> ist Subsequenz von <a(abc)(ac)d(cf)> besteht aus fünf Transaktionen. <a(abc)(ac)d(cf)> Transaktion hier: Menge von Items innerhalb Sequenz. Darstellung der Transaktionen bereits normalisiert, eigentlich handelt es sich um Mengen. Sequential Pattern Mining Problemstellung (1) Falls Transaktionen einem Zeitpunkt zugeordnet sind, sind Verfeinerungen möglich. Maximaler/minimaler Zeitraum zwischen einzelnen Käufen anggebbar; min-gap/max-gap constraints. Beispiel: Gesucht sind Sequenzen dergestalt, daß zwischen aufeinanderfolgenden Käufen mindestens fünf Zeiteinheiten liegen. (min-gap constraint) Ist dieses Constraint anti-monoton? Data Warehousing und Mining: Zeitreihenanalyse 5 Data Warehousing und Mining: Zeitreihenanalyse 6 Sequential Pattern Mining Problemstellung (2) Falls Transaktionen einem Zeitpunkt zugeordnet sind, sind Verfeinerungen möglich. (Forts.) Rigide Definition einer Transaktion wird durch Sliding Window ersetzt. Illustration: Käufe innerhalb eines Zeitfensters der Größe 2 gehören zu einer Transaktion. Vorgehen, Alternativen 1. mäßig, d. h. schrittweise kleine Muster aus größeren erzeugen. 2. Verallgemeinerung von s. Data Warehousing und Mining: Zeitreihenanalyse 7 Data Warehousing und Mining: Zeitreihenanalyse 8

3 Vorgehen 1: Algorithmus zum Finden der Sequential Patterns Prinzip - wie bei Apriori: In jedem Schritt die Zahl der Items um 1 erhöhen, Kandidaten erzeugen und Support ermitteln. Sequenz mit k Items heißt k-item Sequenz. (Anzahl der Transaktionen einer k-item Sequenz ist beliebig.) Item kann mehrmals in unterschiedlichen Transaktionen vorkommen. L k - Menge der k-item Sequenzen. Beispiel: <a(abc)(ac)d(cf)> und <aabc(ac)dcf> sind 9-Item Sequenzen. Erzeugung der Kandidaten (1) Beispiel: <(abc)(ac)d(cf)> und <a(ab)cdf> sind zusammenhängende Subsequenzen von <a(abc)(ac)d(cf)>, <a(abc)(ac)(cf)> aber nicht. <a(abc)(ac)d> ist zusammenhängende Subsequenz von <a(abc)(ac)d(cf)>. Definition (s. b. folgende Folie) wird gebraucht, um Kandidaten systematisch zu erzeugen. Data Warehousing und Mining: Zeitreihenanalyse 9 Data Warehousing und Mining: Zeitreihenanalyse 10 Erzeugung der Kandidaten (2) Definition zusammenhängende Subsequenz: Sequenz c ist eine zusammenhängende Subsequenz von s=<s 1 s 2 s n >, wenn c sich aus s ergibt durch Weglassen eines Items aus s 1 oder s n, oder c sich aus s ergibt durch Weglassen eines Items aus s i, und s i enthält mehr als zwei Items, oder c ist eine zusammenhängende Subsequenz von c, und c ist eine zusammenhängende Subsequenz von s. Erzeugung der Kandidaten (3) Join Phase: s 1 wird mit s 2 gejoined, wenn s 1 ohne das erste Item identisch ist mit s 2 ohne das letzte Item, Beispiel: <(x)> und <(y)> (beide natürlich aus L 1 ) führen zu <(x y)>, <(x) (y)> und <(y) (x)>. Prunen von Kandidaten, die eine zusammenhängende Teilsequenz ohne genügend Support haben. Warum zusammenhängend? Beispiel: L 3 Ergebnis C 4 des Joins <(1 2) (3)>, <(1 2) (4)>, <(1 2) (3 4)>, <(1 2) (3 4)> <(1) (3 4)>, <(1 3) (6)>, <(1 2) (3) (5)> <(2) (3 4)>, <(2) (3) (5)> Data Warehousing und Mining: Zeitreihenanalyse 11 Data Warehousing und Mining: Zeitreihenanalyse 12

4 Enthält eine Sequenz eine andere? Beispiel-Daten: Parameter: max-gap=30, min-gap=5, window-size=0. Kandidat für Teilsequenz: <(1 2) (3) (4)> Algorithmus: (1 2) wird ab Zeitpunkt 0 gesucht und zum Zeitpunkt 10 gefunden, (3) wird ab Zeitpunkt 15 gesucht und zum Zeitpunkt 45 gefunden, (1 2) wird ab Zeitpunkt 10 gesucht und zum Zeitpunkt 50 gefunden, (3) wird ab Zeitpunkt 55 gesucht und zum Zeitpunkt 65 gefunden, (4) wird ab Zeitpunkt 70 gesucht und zum Zeitpunkt 90 gefunden. Transaction-Time Items 1, 2 4, 6 3 1, 2 3 2, 4 6 Data Warehousing und Mining: Zeitreihenanalyse 14 Finden eines Itemsets ab einem bestimmten Zeitpunkt Beispiel Überführen der Daten in andere Darstellung: Item Zeitpunkte NULL NULL NULL NULL 5 NULL NULL 7 NULL window-size=7; gesucht wird (2 6) ab t=20. Ablauf: Gesucht wird ab wird zum Zeitpunkt t=50 gefunden, 6 zum Zeitpunkt t=25. Gesucht wird ab 43. 2: t=50, 6: t=95 Gesucht wird ab 88. 2: t=90, 6: t=95 Data Warehousing und Mining: Zeitreihenanalyse 15 Bestandsaufnahme Bis hierhin: Verallgemeinerung von Apriori. Wichtige Punkte: Join kann mehrere Ergebnisse haben. Systematisierung der Erzeugung der Kandidaten unumgänglich. Constraint- vs. Support-basiertes Pruning. Im folgenden (für den Rest des Kapitels): Verallgemeinerungen von s. Phase 1 ( Sortieren der Frequent Items ) TID Items Sortierte häufige Items 100 c, a, f, d, g, i, m, p c, f, a, m, p 200 a, b, f, c, l, m, o c, f, a, b, m 300 b, c, h, j, o c, b 400 b, f, k, s, p f, b, p 500 a, c, f, e, l, p, m, n c, f, a, m, p Häufigste Items in der Sortierung zuerst. L=<c: 4, f: 4, a: 3, b: 3, m: 3, p: 3> Man sieht: Manche Präfixe sind recht häufig, z. B. c, f, a. Data Warehousing und Mining: Zeitreihenanalyse 16 Data Warehousing und Mining: Zeitreihenanalyse 17

5 Aufbau des s s große Datenbestände (1) Item c f a b m p Listenkopf c:4 f:3 a:3 m:2 b:1 b:1 root f:1 b:1 p:1 Wenn Datenbank zu groß, paßt nicht in Hauptspeicher. Ansatz basiert auf Partitionierung der Menge der Muster. Wichtiges Konzept: Projected Databases. p:2 m:1 Data Warehousing und Mining: Zeitreihenanalyse 18 Data Warehousing und Mining: Zeitreihenanalyse 19 Projected Databases Illustration (1) Projected Databases Illustration (2) Ausgangspunkt: Frequent Item List L=<c: 4, f: 4, a: 3, b: 3, m: 3, p: 3> Transaktion <c f a b m> In m-projected Database: <c f a b m> In b-projected Database: <c f a b>, usw. In c-projected Database: <c> Mit m-projected Database alle maximalen Frequent Itemsets bestimmen, die m enthalten. Aufbau des s, Ermitteln dieser Frequent Itemsets mit diesem. Mit b-projected Database alle maximalen Frequent Itemsets bestimmen, die b, aber nicht m enthalten. Gleiches Vorgehen wie oben. Usw. Data Warehousing und Mining: Zeitreihenanalyse 20 Data Warehousing und Mining: Zeitreihenanalyse 21

6 Projected Databases Erklärung s große Datenbestände (2) Warum ist für Projected Database i. d. R. kleiner als für Ausgangsdatenbestand? m-projected Database: Nicht alle Transaktionen enthalten m, nur relativ wenige. c-projected Database: Nur eine Art von Transaktion, nämlich <c> Gar nicht erforderlich, aufzubauen; Support von {c} direkt ermittelbar. F-projected Database: Nur Transaktionen mit c und f. Sehr kleiner. Angenommen, m-projected Database istimmernochzugroß. Rekursion; {cm}-projected Database, {fm}-projected Database, usw. aus m-projected Database erstellen. Beispiel: {fb}-projected Database alle Transaktionen, die f und b enthalten, ohne m, dient der Ermittlung aller maximalen Frequent Itemsets mit f und b, aber ohne m. Ausgangspunkt: Frequent Item List L=<c: 4, f: 4, a: 3, b: 3, m: 3, p: 3> Data Warehousing und Mining: Zeitreihenanalyse 22 Data Warehousing und Mining: Zeitreihenanalyse 23 Zusammenfassung bis hierhin Begriffe Zerlegung der Datenbank in mehrere Datenbanken (x-projected Database). (Eine Transaktion kann in mehrere Datenbanken gelangen.) Jede x-projected Database dient dazu, bestimmte Menge von Frequent Itemsets zu bestimmen. Sequence, Sequenz: <s 1,, s l >; s i ist Itemset, l-sequence (anderes Konzept als k-item Sequenz zuvor; l zählt jetzt die Transaktionen.) steht im folgenden für Subsequenz-Beziehung. Sequence Database, Sequential Pattern Subsequenz mit hinreichendem Support (die Muster, die wir wollen). Explizite Zeitpunkte bleiben im folgenden außen vor. Data Warehousing und Mining: Zeitreihenanalyse 24 Data Warehousing und Mining: Zeitreihenanalyse 25

7 Nächstes Verfahren: Vorgehen (1) Ähnlich s, Kategorisierung der Menge der Patterns, Erster Schritt wieder Erstellung von sortierter Liste der Frequent Items. Beispiel Datenbank: Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 1. Sortierte Liste der Frequent Items erstellen. Projektion einer Sequenz bezüglich eines Items: Nur Item und Items, die davor in der Liste stehen, behalten. (Reihenfolge der Liste der Frequent Items ist maßgeblich.) Beispiel: Sequenz <(ad)c(bc)(ae)> gegeben. Projektion bezüglich {b}: <aba>, Projektion bezüglich {c}: <ac(bc)a> Liste der Frequent Items: a:4, b:4, c:4, d:3, e:3, f:3 Gezählt wird Anzahl Sequences, die Item enthalten, nicht Anzahl Vorkommen. Data Warehousing und Mining: Zeitreihenanalyse 26 Data Warehousing und Mining: Zeitreihenanalyse 27 Vorgehen (2) Vorgehen (3) 2. Projected Databases erstellen. Erzeugung mehrerer Datenbanken aus der ursprünglichen. Projektion, wie eben dargestellt. Beispiel: Sequenz <(ad)c(bc)(ae)> wird zu <aba> in {b}-projected Datenbank und zu <ac(bc)a> in {c}-projected Datenbank. 3. Weitermachen, rekursiv: Unterschiedliche projected Databases, z. B. aus c-projected Database <bc>-projected, (bc)-projected, <cb>-projected. D. h. Erzeugung mehrerer Datenbanken (für jedes o. g. Bullet eine) aus der ursprünglichen. Weitermachen, rekursiv, bis Datenbanken klein (z. B. kleiner als Hauptspeicher oder Anzahl Sequences kleiner minsup). Dann herkömmliche Technik anwenden. Data Warehousing und Mining: Zeitreihenanalyse 28 Data Warehousing und Mining: Zeitreihenanalyse 29

8 Optimierung: S-Matrix (1) Optimierung: S-Matrix (2) Hauptkostenpunkt bei : Konstruktion der Projected Databases. Struktur, die der Optimierung zugrundeliegt: S-Matrix. Beispiel: Sequence <a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> <eg(af)cbc> a 2 b (4, 2, 2) 1 c (4, 2, 1) (3, 3, 2) 3 d (2, 1, 1) (2, 2, 0) (1, 3, 0) 0 e (1, 2, 1) (1, 2, 0) (1, 2, 0) (1, 1, 0) 0 f (2, 1, 1) (2, 2, 0) (1, 2, 1) (1, 1, 1) (2, 0, 1) 1 a b c d e f Nur Präfixe der Länge 2 gemäß S-Matrix betrachten. Erstellen der Matrix in jedem Rekursionsschritt. Drei Arten, wie a und c Sequenz bilden können: <ac>, <ca>, <(ac)> Data Warehousing und Mining: Zeitreihenanalyse 30 Data Warehousing und Mining: Zeitreihenanalyse 31 Übersicht (1) Übersicht (2) Im Prinzip gleiches Vorgehen wie Projected Databases, rekursive Abarbeitung. Systematisches Vorgehen bei der Erzeugung der Patterns. Normalisierte Darstellung der Sequences im folgenden obligatorisch. Beispiel: <a(abc)(ac)d(cf)> ist normalisiert, <a(bca)(ac)d(fc)> dagegen nicht. Präfix, Postfix Beispiele: <a(abc)a>, <a(abc)(ac)> sind Präfixe von <a(abc)(ac)d(cf)>, nicht aber <a(abc)c>. <cd(cf)> ist Postfix von <a(abc)(ac)d(cf)> bezüglich Präfix <a(abc)a>. Wir schreiben auch <(_c)d(cf)>. Präfix, Postfix wird gebraucht für bessere Definition von Projected Databases (s.b. folgende Folien). Data Warehousing und Mining: Zeitreihenanalyse 32 Data Warehousing und Mining: Zeitreihenanalyse 33

9 Projektion Vorgehen Sequenzen α, β mit β α. α ist Projektion von α bezüglich Präfix β gdw. α hat Präfix β, und kein α α, so daß α α, und α hat Präfix β. Beispiele: <d(cf)> ist Projektion von <a(abc)(ac)d(cf)> bezüglich Präfix <d>. <a(abc)(ac)d(cf)> ist Projektion von <a(abc)(ac)d(cf)> bezüglich Präfix <a>. Motivation: Systematische und schrittweise Erstellung der Projected Databases. 1. Sortierte Liste der Frequent Items, d. h. der length-1 Sequential Patterns, erstellen. Die Frequent Items sind mögliche Präfixe. 2. Projected Databases erstellen. Für jeden Präfix aus Schritt 1. eine. Weitermachen, rekursiv. Data Warehousing und Mining: Zeitreihenanalyse 34 Data Warehousing und Mining: Zeitreihenanalyse 35 e hat Support 2. Transaktionen: Beispiel (1) Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Projected Databases: Präfix Projected Databases <a> <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b)(df)cb>, <(_f)cbc> <b> <(_c)(ac)d(cf)>, <(_c)(ae)>, <(df)cb>, <c> <c> <(ac)d(cf)>, <(bc)(ae)>, <b>, <bc> <d> <(cf)>, <c(bc)(ae)>, <(_f)cb> <e> <(_f)(ab)(df)cb>, <(af)cbc> <f> <(ab)(df)cb>, <cbc> (Präfix selbst wird weggelassen.) Data Warehousing und Mining: Zeitreihenanalyse 36 Transaktionen: Beispiel (2) Eine Projected Database: Präfix <a> Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Projected Databases <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b)(df)cb>, <(_f)cbc> Verfahren wiederholt sich rekursiv. Jetzt aus o. g. Datenbank die Projected Databases mit (Gesamt-)Präfixen <aa>, <ab>, <(ab)>,, <af> generieren. Verfahren hört auf, wenn Anzahl Datenbankelemente kleiner als minsup. Data Warehousing und Mining: Zeitreihenanalyse 37

10 S-Matrix Zeitreihenanalyse Beispiel: Sequence <a(abc)(ac)d(cf)> a 2 <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> b (4, 2, 2) 1 <eg(af)cbc> c (4, 2, 1) (3, 3, 2) 3 d (2, 1, 1) (2, 2, 0) (1, 3, 0) 0 e (1, 2, 1) (1, 2, 0) (1, 2, 0) (1, 1, 0) 0 f (2, 1, 1) (2, 2, 0) (1, 2, 1) (1, 1, 1) (2, 0, 1) 1 a b c d e f Drei Arten, wie a und c Sequenz bilden können: <ac>, <ca>, <(ac)> Sequential Pattern Mining wurde anhand des Beispiels Einzelhandel motiviert; Übertragbarkeit auf andere Anwendungsszenarien ist aber offensichtlich. Verallgemeinerungen sowohl von Apriori als auch der basierten Technik wurden vorgestellt. Verallgemeinerungsmöglichkeiten für andere Strukturen, z. B. Bäume und Graphen. Data Warehousing und Mining: Zeitreihenanalyse 38 Data Warehousing und Mining: Zeitreihenanalyse 39 Problemstellung: Lag Plot (1) Gegeben: Zeitreihe x 1, x 2,, x t. Gesucht: Vorhersage für x t+1 ( Predict-1 ) Anwendungen beispielhaft: Finanzsysteme, Börse, Business, Physik, z. B. Verhalten von Lasern, Medizin, Wert Ökosysteme. Existierende Ansätze Zeit zu primitiv, z. B. lineare Modelle, aufwendig zu trainieren, z. B. Neuronale Netze. Data Warehousing und Mining: Zeitreihenanalyse 40 Data Warehousing und Mining: Zeitreihenanalyse 41

11 Lag Plot (2) Lag Plot (3) Lag Plot für L=1: x(t) x(t-1) Lag Plot für L=2: x(t) x(t-2) x(t-1) Data Warehousing und Mining: Zeitreihenanalyse 42 Data Warehousing und Mining: Zeitreihenanalyse 43 Lag Plot (4) basierend auf Lag Plots (1) Erläuterungen: Erläuterung für L=1: Lag Plot für L=1 (Lag = (zeitliche) Verzögerung, Zeitabstand) Logistic Parabola x t = 3.8 x t-1 (1 x t-1 ) + e t e t ist N(0, 0.001) Zufallsvariable. Lag Plot besteht aus endlich vielen Punkten, im Gegensatz zu dieser Parabel. Ermittlung der k-nn entlang der x-achse. y-werte der k-nn nehmen und interpolieren. Delay Coordinate Vector b := [x t, x t-1,, x t-l ] Lag Plot für Lag L ist Plot der Delay Coordinate Vectors. z Data Warehousing und Mining: Zeitreihenanalyse 44 Data Warehousing und Mining: Zeitreihenanalyse 45

12 basierend auf Lag Plots (2) basierend auf Lag Plots (3) x Verallgemeinerung für L>1 offensichtlich. Wie sähe Lag Plot für L=2 für unser aktuelles Beispiel aus? Satz von Takens: optimaler Wert L opt für L, keine besseren Vorhersagen für L > L opt. x Data Warehousing und Mining: Zeitreihenanalyse 46 Data Warehousing und Mining: Zeitreihenanalyse 47 Offene Punkte Ermittlung der NN-Anzahl k opt (1) Ermittlung von L k automatisch, effizient. Wie interpoliert man? (Weniger wichtig, nicht so schwierig.) Vorstellung eines möglichen Ansatzes (gut darstellbar, aber nicht unbedingt der schnellste). Cross-Validation Datenbestand zerlegen in Training Set und Holdout Set, R-Baum für das Training Set aufbauen. Für k=1, 2, Prediction Error ermitteln. Aufhören, wenn Fehler nicht mehr merklich kleiner wird. Data Warehousing und Mining: Zeitreihenanalyse 48 Data Warehousing und Mining: Zeitreihenanalyse 49

13 Ermittlung der NN-Anzahl k opt (2) Interpolation Alternativen: x xxx x x Durchschnittsermittlung gewichteter Durchschnitt (je kleiner der Abstand, desto größer Gewicht). blaue Punkte Holdout Set (restliche Punkte: Training Set) rote bzw. violette Punkte NNs, die für Prediction verwendet werden Data Warehousing und Mining: Zeitreihenanalyse 50 Data Warehousing und Mining: Zeitreihenanalyse 51 Zusammenfassung Wichtigkeit des Problems ist offensichtlich. Auf den ersten Blick einfache Lösung. Problem: Ermittlung der Parameter-Werte. Parameter-Ermittlung basierend auf fraktaler Dimensionalität. Prüfungsfragen, beispielhaft Wie sieht Verallgemeinerung von Apriori für komplexere Muster aus? Wie läßt sich das basierte Verfahren für sehr große Datenbestände erweitern? Wie lassen sich s für das Finden von Mustern komplexerer Struktur verallgemeinern? Welche Aspekte des Verfahrens werden verallgemeinert, was bleibt gleich? Geben Sie die -Technik aus der Vorlesung wieder. Welche Parameter hat das Verfahren, wie kann man sie bestimmen? Data Warehousing und Mining: Zeitreihenanalyse 52 Data Warehousing und Mining: Zeitreihenanalyse 53

14 Literatur (1) Ramakrishnan Srikant, Rakesh Agrawal Mining Sequential Patterns: Generalizations and Performance Improvements Proc. 5th Int. Conf. Extending Database Technology (EDBT), Jiawei Han et al.: : Frequent Pattern- Projected Sequential Pattern Mining Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Literatur (2) Jian Pei et al.: : Mining Sequential Patterns by Prefix-Projected GrowthSource Proceedings of the 17th International Conference on Data Engineering, Deepay Chakrabarti and Christos Faloutsos F4: Large-Scale Automated using Fractals CIKM 2002, Washington DC, Nov Data Warehousing und Mining: Zeitreihenanalyse 54 Data Warehousing und Mining: Zeitreihenanalyse 55

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Häufige Mengen ohne Kandidatengenerierung

Häufige Mengen ohne Kandidatengenerierung Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

Kapitel 13: Pattern Mining unter Constraints

Kapitel 13: Pattern Mining unter Constraints Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher

Mehr

Kapitel 11: Association Rules

Kapitel 11: Association Rules Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden

Mehr

Mining conjunctive sequential patterns

Mining conjunctive sequential patterns Mining conjunctive sequential patterns Chedy Raïssi Toon Calders Pascal Poncelet Manh Linh Nguyen TU Dortmund Fakultät für Informatik Lehrstuhl 8.5.29 Inhalt. Einleitung 2. Mining von frequent sequences

Mehr

Erkennung Sequenzieller Muster Algorithmen und Anwendungen

Erkennung Sequenzieller Muster Algorithmen und Anwendungen Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

4.2 Constraints für Assoziationsregeln

4.2 Constraints für Assoziationsregeln 4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln

Mehr

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren? Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Datenanalyse mit Data Mining

Datenanalyse mit Data Mining Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:

Mehr

Electronic Design Automation (EDA) Technology Mapping

Electronic Design Automation (EDA) Technology Mapping Electronic Design Automation (EDA) Technology Mapping Überblick digitale Synthese Technology Mapping Abbildung durch die Abdeckung eines Baumes Partitionierung des DAG Dekomposition und Abdeckung Beispiel

Mehr

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n)

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) ( ( ) n 3 T + T m ) 4 n n 3 c + m 4 n c + n n + C m + cn; dies gilt, falls m 2 n m C m + n 2 (bis auf, ) c m + 3

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =. 2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n

Mehr

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz Prof. Katarina Morik und Stefan

Mehr

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold

Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung

Mehr

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

Frequent Itemset Mining und FP-Tree

Frequent Itemset Mining und FP-Tree Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Lernen von Assoziationsregeln

Lernen von Assoziationsregeln Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln

Mehr

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln

Mehr

Theoretische Grundlagen der Informatik. Vorlesung am 8. Januar INSTITUT FÜR THEORETISCHE INFORMATIK

Theoretische Grundlagen der Informatik. Vorlesung am 8. Januar INSTITUT FÜR THEORETISCHE INFORMATIK Theoretische Grundlagen der Informatik 0 08.01.2019 Torsten Ueckerdt - Theoretische Grundlagen der Informatik KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft www.kit.edu Letzte Vorlesung Eine

Mehr

Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window

Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Institut für Informatik Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Yun Chi, Haixun Wang, Philip S. Yu, Richard R. Muntz Hauptseminar Data Science - SS 2016 Team D: Julian

Mehr

Informatik II, SS 2018

Informatik II, SS 2018 Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 4 (30.4.2018) Sortieren IV Algorithmen und Komplexität Analyse Merge Sort Laufzeit T(n) setzt sich zusammen aus: Divide und Merge: O n

Mehr

Partialbruchzerlegung

Partialbruchzerlegung Partialbruchzerlegung Lucas Kunz 27. Januar 207 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Nullstellen höheren Grades........................... 2.3 Residuen-Formel................................

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.

Mehr

Sequenzgenerierung aus Klassifikationsbäumen

Sequenzgenerierung aus Klassifikationsbäumen Sequenzgenerierung aus Klassifikationsbäumen Peter M. Kruse, 24.01.2011 PMK, 24.01.2011 Inhalt Einleitung Stand von Wissenschaft und Technik Generierung von Testsequenzen mit der Klassifikationsbaum-Methode

Mehr

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

28 4. DIE MATHEMATIK HINTER DER COMPACT DISC. Abbildung 4.1: Selbstkorrigierende Codes

28 4. DIE MATHEMATIK HINTER DER COMPACT DISC. Abbildung 4.1: Selbstkorrigierende Codes 8 4. DIE MATHEMATIK HINTER DER COMPACT DISC y1 1 4 3 y3 y Abbildung 4.1: Selbstkorrigierende Codes 4. Die Mathematik hinter der Compact Disc 4.1. Selbstkorrigierende Codes Wenn wir eine Reihe von 0 und

Mehr

Item-based Collaborative Filtering

Item-based Collaborative Filtering Item-based Collaborative Filtering Paper presentation Martin Krüger, Sebastian Kölle 28.04.2011 Seminar Collaborative Filtering KDD Cup 2011: Aufgabenbeschreibung Track 1 Item-based Collaborative Filtering

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von

Mehr

Kapitel III Selektieren und Sortieren

Kapitel III Selektieren und Sortieren Kapitel III Selektieren und Sortieren 1. Einleitung Gegeben: Menge S von n Elementen aus einem total geordneten Universum U, i N, 1 i n. Gesucht: i-kleinstes Element in S. Die Fälle i = 1 bzw. i = n entsprechen

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Data Mining. Informationssysteme, Sommersemester 2017

Data Mining. Informationssysteme, Sommersemester 2017 Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 15.01.2015 INSTITUT FÜR THEORETISCHE 0 KIT 15.01.2015 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken, Häufige Mengen Nico Piatkowski und Uwe Ligges 09.05.2017 1 von 15 Überblick Was bisher geschah... Heute Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Efficient Learning of Label Ranking by Soft Projections onto Polyhedra

Efficient Learning of Label Ranking by Soft Projections onto Polyhedra Efficient Learning of Label Ranking by Soft Projections onto Polyhedra Technische Universität Darmstadt 18. Januar 2008 Szenario Notation duales Problem Weitere Schritte Voraussetzungen Tests Szenario

Mehr

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 ETH Zürich Institut für Theoretische Informatik Prof. Dr. Angelika Steger Florian Meier, Ralph Keusch HS 2017 Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 Lösungsvorschlag zu Aufgabe 1

Mehr

4. Tries und kd-bäume

4. Tries und kd-bäume 4. Tries und kd-bäume Digitale Suchbäume (Tries) kd-bäume Prof. Dr. O. Bittel, HTWG Konstanz Algorithmen und Datenstrukuren Tries und kd-bäume SS 2019 4-1 Tries (1) Problem mit den bisherigen Suchbäumen

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

FORMALE SYSTEME. Wiederholung. Beispiel: NFA. Wiederholung: NFA. 4. Vorlesung: Nichtdeterministische Endliche Automaten. TU Dresden, 19.

FORMALE SYSTEME. Wiederholung. Beispiel: NFA. Wiederholung: NFA. 4. Vorlesung: Nichtdeterministische Endliche Automaten. TU Dresden, 19. Wiederholung FORMALE SYSTEME 4. Vorlesung: Nichtdeterministische Endliche Automaten Markus Krötzsch Professur für Wissensbasierte Systeme Grammatiken können Sprachen beschreiben und sie grob in Typen unterteilen

Mehr

Ein fundamentales mathematisches Beweisprinzip p ist die vollständige Induktion: Sei p : Falls

Ein fundamentales mathematisches Beweisprinzip p ist die vollständige Induktion: Sei p : Falls Beweisprinzip der vollständigen Induktion Ein fundamentales mathematisches Beweisprinzip p ist die vollständige Induktion: Sei p : Falls ein totales Prädikat. 1. p(0) (Induktionsanfang) und 2. für beliebiges

Mehr

Stream Processing II

Stream Processing II Stream Processing II K-Buckets Histogram Histogramme sind graphische Darstellungen der Verteilung von numerischen Werten Werden durch Intervalle, die sich nicht überlappen, dargestellt Ein Intervall wird

Mehr

Was wissen Sie jetzt?

Was wissen Sie jetzt? Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der

Mehr

Höhere Mathematik für die Fachrichtung Physik

Höhere Mathematik für die Fachrichtung Physik Karlsruher Institut für Technologie Institut für Analysis Dr. Christoph Schmoeger Michael Hott, M. Sc. WS 5/.. Höhere Mathematik für die Fachrichtung Physik Lösungsvorschläge zum 4. Übungsblatt Aufgabe

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Zeitaspekte. Fabian Bauschulte

Zeitaspekte. Fabian Bauschulte Zeitaspekte Fabian Bauschulte 1 Zeitaspekte Überblick Zeitreihen (engl. time series) Zeitphänomene [Morik/2000a] Lernaufgaben und Repräsentation der Eingabedaten Clustering [Das et al.] Beziehungen zwischen

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.

Mehr

Algorithmische Graphentheorie

Algorithmische Graphentheorie Algorithmische Graphentheorie Vorlesung 4: Suchstrategien Babeş-Bolyai Universität, Department für Informatik, Cluj-Napoca csacarea@cs.ubbcluj.ro 14. April 2017 HALBORDNUNG TOPOLOGISCHE ORDNUNG TOPOLOGISCHES

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben

Mehr

Definition 4 (Operationen auf Sprachen) Beispiel 5. Seien A, B Σ zwei (formale) Sprachen. Konkatenation: AB = {uv ; u A, v B} A + = n 1 An

Definition 4 (Operationen auf Sprachen) Beispiel 5. Seien A, B Σ zwei (formale) Sprachen. Konkatenation: AB = {uv ; u A, v B} A + = n 1 An Definition 4 (Operationen auf Sprachen) Seien A, B Σ zwei (formale) Sprachen. Konkatenation: AB = {uv ; u A, v B} A 0 = {ɛ}, A n+1 = AA n A = n 0 An A + = n 1 An Beispiel 5 {ab, b}{a, bb} = {aba, abbb,

Mehr

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten - XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel

Mehr

Threading - Algorithmen

Threading - Algorithmen Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Induktion und Rekursion 3.3 Boolsche Algebra

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Induktion und Rekursion 3.3 Boolsche Algebra Überblick 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 3.3 Boolsche Algebra Peer Kröger (LMU München) Einführung in die Programmierung WS 14/15 72 / 179 Beweisprinzip der vollständigen Induktion

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

Univ.-Prof. Dr. Goulnara ARZHANTSEVA

Univ.-Prof. Dr. Goulnara ARZHANTSEVA Diskrete Mathematik Univ.-Prof. Dr. Goulnara ARZHANTSEVA SS 2018 c Univ.-Prof. Dr. Goulnara Arzhantseva Kapitel 06: Rekursionen 1 / 30 Rekursionen Definition: Rekursion Sei c n eine Zahlenfolge. Eine Rekursion

Mehr

Polynominterpolation. Allgemeines Problem: Beispiel 1 (Teil 1):

Polynominterpolation. Allgemeines Problem: Beispiel 1 (Teil 1): . Großübung Polynominterpolation Allgemeines Problem: Aufgrund gegebener Messwerte (Paare aus Werten i und Funktionswerten f( i )) soll ein Funktionsverlauf rekonstruiert bzw. zumeist angenähert werden.

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 20 (23.7.2014) All Pairs Shortest Paths, String Matching (Textsuche) Algorithmen und Komplexität Vorlesungsevaluation Sie sollten alle eine

Mehr

Spatial Skyline Queries

Spatial Skyline Queries Beispielbild Spatial Skyline Queries Seminar zur Datenverwaltung, SoSe 2010 Fachbereich Mathematik und Informatik, Institut für Informatik Patrick Jungermann, 02. Juli 2010 Roadmap 1. Motivation 2. Problem

Mehr

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2) Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Topologieerkennung von Sensornetzwerken

Topologieerkennung von Sensornetzwerken looz@ira.uka.de Institut für Theoretische Informatik - Algorithmik I 26. Januar 2010 Übersicht Motivation Definitionen Überlegungen Algorithmus Resultate Motivation Definitionen Überlegungen Algorithmus

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Gruppen. Kapitel Operationen Definiton Gruppe, symmetrische Gruppen. Gruppen und Untergruppen, Lernziele 1. Erzeugendensysteme,

Gruppen. Kapitel Operationen Definiton Gruppe, symmetrische Gruppen. Gruppen und Untergruppen, Lernziele 1. Erzeugendensysteme, Kapitel 1 Gruppen 1.1 Operationen Lernziele 1. Gruppen und Untergruppen, Erzeugendensysteme, Operationen und Bahnen 1.1.1 Definiton Gruppe, symmetrische Gruppen Definition 1.1. Sei G eine nicht leere Menge

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38 Gliederung 1 2 Lagrange-Optimierung 2 von 38 Übersicht über die Stützvektormethode (SVM) Eigenschaften

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Bisher haben wir verschiedene Automatenmodelle kennengelernt. Diesen Automaten können Wörter vorgelegt werden, die von den Automaten gelesen und dann akzeptiert oder abgelehnt

Mehr

PG-402 Wissensmanagement: Zeitreihen in Datenbanken

PG-402 Wissensmanagement: Zeitreihen in Datenbanken PG-402 Wissensmanagement: Zeitreihen in Datenbanken 07.05.2002 Klaus Unterstein 07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken 1 Übersicht Zeitreihen Schritte bei der Zeitreihenanalyse Anwendungsfallbeispiel:

Mehr

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { } Zur Einleitung: Lineare Gleichungssysteme Wir untersuchen zunächst mit Methoden, die Sie vermutlich aus der Schule kennen, explizit einige kleine lineare Gleichungssysteme. Das Gleichungssystem I wird

Mehr

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Boolsche Algebra 3.3 Induktion und Rekursion

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Boolsche Algebra 3.3 Induktion und Rekursion Überblick 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Boolsche Algebra 3.3 Peer Kröger (LMU München) Einführung in die Programmierung WS 16/17 92 / 708 Beweisprinzip der vollständigen Induktion

Mehr

G. Zachmann Clausthal University, Germany

G. Zachmann Clausthal University, Germany lausthal Informatik II Suchen lausthal University, ermany zach@in.tu-clausthal.de Problemstellung egeben ist eine Menge von Datensätzen {A1,...,An} esucht sind die Datensätze, deren Schlüssel (Key) = A[i].key

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Closed Sets, Web Mining Katharina Morik, Claus Weihs 28.4.2015 Katharina Morik, Claus Weihs DMV 1 / 31 Gliederung 1 Closed Sets 2 Web Mining Finden von häufigen Subgraphen Ranking

Mehr

Projektionen auf abgeschlossene konvexe Mengen

Projektionen auf abgeschlossene konvexe Mengen Projektionen auf abgeschlossene konvexe Mengen Seminarvortrag von Veronika Pick Seminar Optimierung bei Herrn Prof. Dr. F. Jarre Heinrich-Heine-Universität Düsseldorf SS 2006 1 Vorbemerkung Das Seminarthema

Mehr

Kapitel 2. Weitere Beispiele Effizienter Algorithmen

Kapitel 2. Weitere Beispiele Effizienter Algorithmen Kapitel 2 Weitere Beispiele Effizienter Algorithmen Sequentielle Suche Gegeben: Array a[1..n] Suche in a nach Element x Ohne weitere Zusatzinformationen: Sequentielle Suche a[1] a[2] a[3] Laufzeit: n Schritte

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

G. Zachmann Clausthal University, Germany Die wichtigsten Entwurfsverfahren für Algorithmen:

G. Zachmann Clausthal University, Germany Die wichtigsten Entwurfsverfahren für Algorithmen: lausthal Informatik II Divide & onquer. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Algorithmen-Design-Techniken Die wichtigsten Entwurfsverfahren für Algorithmen: 1. Divide and onquer

Mehr

Lösbarkeit linearer Gleichungssysteme

Lösbarkeit linearer Gleichungssysteme Lösbarkeit linearer Gleichungssysteme Lineares Gleichungssystem: Ax b, A R m n, x R n, b R m L R m R n Lx Ax Bemerkung b 0 R m Das Gleichungssystem heißt homogen a A0 0 Das LGS ist stets lösbar b Wenn

Mehr