Vorlesung Wissensentdeckung

Ähnliche Dokumente
Vorlesung Wissensentdeckung

Lernen von Assoziationsregeln

119+1/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik. Data Cube +, *!!**)* -. Dank an Hanna Köpcke!

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Kapitel 7: Assoziationsregeln

Kapitel 8: Assoziationsregeln

Kapitel 8: Assoziationsregeln

Kapitel 7: Assoziationsregeln

Data Warehousing und Data Mining

Maschinelles Lernen: Symbolische Ansätze

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining. Informationssysteme, Sommersemester 2017

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Vorlesung Wissensentdeckung

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

1 Mengen. 1.1 Definition

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19

Induktion von Assoziationsregeln. Stefan Mandl

Grundlagen: Algorithmen und Datenstrukturen

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube

Wissensentdeckung in Datenbanken

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Grundlagen der Theoretischen Informatik

Effiziente Algorithmen (SS2015)

5. Assoziationsregeln

Answer Sets: Beispiel Meeting Scheduling. a) Generate: generiert beliebige Zuweisungen von Zeiten und Räumen an Meetings

Überbestimmte lineare Gleichungssysteme

Frequent Itemset Mining und FP-Tree

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

...imbeispiel: Die Konkatenation der Blätter des Ableitungsbaums t bezeichnen wir auch mit yield(t). liefert die Konkatenation: name int + int.

IR Seminar SoSe 2012 Martin Leinberger

Klassische Logik ist monoton: mehr Prämissen haben nie weniger Folgerungen Sei Th(T) = {p T = p}

2. Übungsblatt 3.0 VU Datenmodellierung

Übung 1. Fabian Wannenmacher 24C9 F9C EE15 197D 7DD5 F85A 19E2 B51F 75B7. Übung 1. UNI Tübingen.

1 Einführung in Lineare Programme und Dualität

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Vorlesung Wissensentdeckung in Datenbanken

Theoretische Grundlagen der Informatik

Lösungen zur Vorlesung Berechenbarkeit und Komplexität

Moderne Methoden der KI: Maschinelles Lernen

Übungsblatt 6. Vorlesung Theoretische Grundlagen der Informatik im WS 16/17

Systems of Distinct Representatives

Übung Datenbanksysteme Normalformen

Der eigentliche Inhalt (z.b. arithmetisch, algebraisch) wird ignoriert:

Datenbanksysteme I Übung: Relationaler Datenbankentwurf. Jana Bauckmann

Einführung in die Theoretische Informatik

Vorlesung Wissensentdeckung in Datenbanken

2. Klausur zur Vorlesung Informatik III Wintersemester 2004/2005

Elemente der Mathematik - Sommer 2016

12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme

Lineare Algebra I. - 1.Vorlesung - Prof. Dr. Daniel Roggenkamp & Falko Gauß. Monday 12 September 16

Cognitive Interaction Technology Center of Excellence

Aufgabensammlung Theo Inf I 1

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Theoretische Informatik und Logik Übungsblatt 1 (2016S) Lösung

Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme

Modellbasierte Diagnosesysteme

3. Übungsblatt (Testatwoche: Mai 2010) Einführung in Datenbanksysteme Datenbanken für die Bioinformatik

Maschinelles Lernen: Symbolische Ansätze

Numerische Mathematik für die Fachrichtung Informatik und für Ingenieurwesen SS 2005

Definition 4 (Operationen auf Sprachen) Beispiel 5. Seien A, B Σ zwei (formale) Sprachen. Konkatenation: AB = {uv ; u A, v B} A + = n 1 An

Mathematische Grundlagen der Computerlinguistik Ordnungsrelationen

c) {abcde, abcfg, bcade, bcafg} d) {ade, afg, bcde, bcfg} c) {abcabc} d) {abcbc, abc, a} c) {aa, ab, ba, bb} d) {{aa}, {ab}, {ba}, {bb}}

Kapitel 0: Grundbegriffe Gliederung

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Vorlesung Theoretische Informatik (Info III)

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -

Aufgabe 7. Sei die Schema R(A, B, C, D, E) mit folgenden fkt. Abh.:

Vorlesung Wissensentdeckung in Datenbanken

Pareto optimale lineare Klassifikation

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Peg-Solitaire. Florian Ehmke. 29. März / 28

40. Österreichische Mathematik-Olympiade Kurswettbewerb Lösungen

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Karoline Grandy und Renate Schöfer

Maschinelles Lernen: Symbolische Ansätze

LR-Parser, Shift-Reduce-Verfahren

Im allerersten Unterabschnitt wollen wir uns mit einer elementaren Struktur innerhalb der Mathematik beschäftigen: Mengen.

Maschinelles Lernen: Symbolische Ansätze

Übung Algorithmen und Datenstrukturen

Das Gradientenverfahren

Theoretische Grundlagen der Informatik

Vorlesung Wissensentdeckung

Turingautomaten Jörg Roth Turingautomaten

Maschinelles Lernen in der Bioinformatik

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

Maike Buchin 18. Februar 2016 Stef Sijben. Probeklausur. Theoretische Informatik. Bearbeitungszeit: 3 Stunden

Vorlesung Wissensentdeckung

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

4 Elementare Mengentheorie

Projekt Maschinelles Lernen WS 06/07

Algorithmen und Datenstrukturen 2. Stefan Florian Palkovits, BSc Juni 2016

< hergeleitet. < war nach 1.9 mit Hilfe von Rechenregeln für

3.4 Fixpunkttheorie auf Partialordnungen

Transkript:

Vorlesung Wissensentdeckung MinEx 27.4.2010

Gliederung 1 Closed Item Sets 2 Free sets 3 MinEx

Wir erinnern uns... Hypothesen werden in einem Verband angeordnet. Ein Versionenraum gibt die möglichen Hypothesen an, die zu den gegebenen Daten passen - durch weitere Daten wird der Versionenraum weiter eingeschränkt: Wenn ein positives Beispiel nicht abgedeckt ist, wird die Menge der speziellsten Hypothesen generalisiert, Wenn ein negatives Beispiel abgedeckt ist, wird die Menge der generellsten Hypothesen spezialisiert.

In anderen Worten: Wir müssen also aus den Beispielen eine untere Grenze und eine obere Grenze konstruieren. Eine Halbordnung bzgl. Teilmengenbeziehung haben wir schon. Die Grenzen haben wir auch. Gemerkt?

Untere Grenze Kleinere Mengen Bzgl. der Häufigkeit Größere Mengen Wenn eine Menge häufig ist, so auch all ihre Teilmengen. (Anti-Monotonie) Beschneiden der Ausgangsmengen für die Kandidatengenerierung gemäß dieser Grenze!

Obere Grenze Kleinere Mengen Bzgl. der Häufigkeit Bzgl. eines constraints Größere Mengen Monotonie der Seltenheit: Wenn eine Teilmenge selten ist, so auch jede Menge, die sie enthält. Seltenheit ist ein constraint. Beschneidung der Kandidatengenerierung nach der Monotonie.

Beispiel mit Frequency threshold 0.3 {} A B C D 1 0 1 0 1 1 1 0 0 1 1 1 0 1 0 1 1 1 1 0 {A} {B} {C} {D} {A, B} {A, C} {A, D} {B, C} {B, D} {C, D} {A, B, C} {A, B, D} {A, C, D} {B, C, D} {A, B, C, D} Dank an Jean-Francois Boulicaut! enthält A häufig genug

Kondensierte Repräsentationen Statt Suche nach allen häufigen Mengen: Suche nach einer kondensierten Repräsentation, die kleiner ist als die ursprüngliche Repräsentation und aus der wir alle häufigen Mengen und ihre Häufigkeit ableiten können, ohne noch mal die Daten selbst anzusehen. Kondensierte Repräsentationen für Assoziationsregeln: Closed item sets Free sets Operator, der die Menge aller Assoziationsregeln ableitet: Cover operator

Closed Item Sets A B C D 1 1 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1 1 0 closure(s) ist die maximale Obermenge (gemäß der Teilmengenbeziehung) von S, die noch genauso häufig wie S vorkommt. S ist ein closed item set, wenn closure(s) = S support(s) = support(closure(s)) (für alle S) Bei einem Schwellwert von 0.1 sind alle Transaktionen häufig genug. Closed sind: C, AC, BC, ABC, ABCD keine Obermenge von C kommt auch 6 mal vor A kommt 5 mal vor, aber auch die Obermenge AC und keine Obermenge von AC

Kondensierte Repräsentation und Ableitung Closed item sets sind eine kondensierte Repräsentation: Sie sind kompakt. Wenn man die häufigen closed item sets C berechnet hat, braucht man nicht mehr auf die Daten zuzugreifen und kann doch alle häufigen Mengen berechnen. Ableitung: Für jede Menge S prüfen wir anhand von C: Ist S in einem Element X von C enthalten? Nein, dann ist S nicht häufig. Ja, dann ist die Häufigkeit von S genau die der kleinsten solchen Obermenge X. Wenn es in mehreren Elementen von C vorkommt, nimm die maximale Häufigkeit!

Freie Mengen (free sets) Eine Menge S ist δ-frei, wenn es keine Regel mit δ oder weniger Ausnahmen zwischen ihren Elementen gibt. Beispiel support({a, c, f}) = 128 support({a, c, f, g}) = 125 Hier hat die Regel acf g also 3 Ausnahmen, daher ist {a, c, f, g} nicht 3-frei

Freie Mengen (free sets) Aus einer 0-freien Menge lässt sich also keine exakte Regel bilden Also hat jede echte Teilmenge einer 0-freien Menge X höheren Support als X Also hat keine 0-freie Menge X eine echte Teilmenge Y mit: closure(y ) = closure(x) und support(y ) = support(x) Also sind die 0-freien Mengen die kleinsten Mengen, aus denen sich die closed item sets mit gleichem Support berechnen lassen! Weiterhin gilt: jede Menge M hat eine δ-freie Teilmenge, mit der sich der Support von M approximieren lässt (hier nicht behandelt)

Beispiel Bei einem Schwellwert von 0.2 sind die häufigen 0-freien Mengen: A B C D 1 1 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1 1 0 {}, A, B, D, AB Closed sind: C, AC, BC, ABC, ABCD closure({}) = C, support({}) = support(c) closure(a) = AC... closure(b) = BC... closure(d) = ABCD... closure(ab) = ABC, support(ab) = support(abc) Nicht 0-freie Mengen: AC : A C, AD : D A, BC : B C, BD : D B, CD : D C, ABC, ABD, ACD, BCD, ABCD

Arbeiten mit freien Mengen F ree(r, δ): Eine Menge X ist δ-frei, wenn es in r keine Regel zwischen ihren Elementen mit weniger als δ Ausnahmen gibt So eine Regel heisst δ-stark F req(r, σ) : {X X R, ( {t t r,x t} r ) σ} F reqf ree(r, σ, δ): F req(r, σ) F ree(r, δ) Antimonotonie: Für Y X F ree(r, δ) gilt Y F ree(r, δ)

Arbeiten mit freien Mengen Negative Grenze: F reebd (r, σ, δ) : {X R X F ree(r, δ), X / F req(r, σ) und Y X : Y F reqf ree(r, σ, δ)} Also die kürzesten Mengen, die δ-frei sind, aber nicht häufig, und deren Teilmengen sowohl häufig als auch δ-frei sind. Wir schätzen die Häufigkeit einer Menge S so ab: Falls X mit X S und X F reebd (r, σ, δ), so ist S nicht häufig. Sonst approximiere die Häufigkeit von S durch die kleinste Häufigkeit einer Teilmenge Z von S mit Z F reqf ree(r, σ, δ).

Abschätzung h(r, S 1 ) = h min h(r, S 2 ) = 0 S 1 S2 F reqf ree Y 11 Y 12... Y 1m... min({h(r, Y ) Y X}) = h min X 1 X 2 X 3... X n Minimale freie nicht häufige Mengen: F reebd (r, σ, δ)

MinEx Statt alle häufigen Mengen zu suchen, brauchen wir nur noch alle Mengen aus F reqf ree(r, σ, δ) zu suchen. Bottom-up Suche im Halbverband der Mengen beginnt beim leeren Element, nimmt dann alle 1-elementigen Mengen,... endet bei den größten Mengen, die noch F reqf ree(r, σ, δ) sind. Der Test, ob Mengen frei sind, erfordert das Bilden von strengen Regeln und erlaubt das Pruning der Mengen, in denen solche gefunden wurden. Algorithmus von Jean-Francois Boulicaut

Algorithmus (abstrakt) Gegeben: Eine binäre Datenbasis r über Objekten R und die Schwellwerte σ und δ, Ausgabe: F reqf ree(r, σ, δ) 1 C 0 := {{}} 2 i := 0 3 While C i {} do Listing 1: MinEx-Algorithmus 4 F reqf ree i := {X X C i, X i s t σ häufig und δ f r e i } 5 C i+1 := {X X R, Y X, Y F reqf ree j (r, σ, δ), j i} \ ( j i C j ) 6 i := i + 1 7 Output j<i F reqf ree j

Pruning In der i-ten Iteration werden die δ-starken Regeln der Form X {A} berechnet, wobei X häufig und frei ist auf der i-ten Ebene und A R X. Das Ergebnis wird verwendet, um alle nicht δ-freien Mengen zu entfernen - sie sind keine Kandiaten mehr in der i + 1-ten Iteration.

Eigenschaften von MinEx Der Algorithmus ist immer noch aufwändig, aber schneller als APRIORI und schneller als die Verwendung von closed sets. Der Algorithmus ist exponentiell in der Menge R. Der Algorithmus ist linear in der Menge der Datenbanktupel, wenn δ im selben Maße steigt wie die Zahl der Tupel, wenn also bei doppelter Tupelzahl auch δ verdoppelt wird. Für δ > 0 liefern die δ-freien Mengen nur eine Approximation des tatsächlichen Supports. In der Praxis ist eine durchschnittliche Abweichung von 0.3% aber kein Problem.

Was wissen Sie jetzt? Sie kennen zwei Repräsentationen, die weniger Elemente für eine Suche nach häufigen Mengen ausgeben als eben alle häufigen Mengen. Aus diesen Repräsentationen können alle häufigen Mengen hergeleitet werden. Die closed sets sind maximale Obermengen von S mit derselben Häufigkeit wie S. Die free sets sind Mengen, aus denen man keine Assoziationsregeln machen kann. Wenn man die größten häufigen freien Mengen berechnet, hat man die untere Grenze im Versionenraum für Assoziationsregeln gefunden. Der Algorithmus MinEx findet diese Grenze.