Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)
|
|
- Helmut Acker
- vor 5 Jahren
- Abrufe
Transkript
1 Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene Vorgehen: Entfernen von Attributen, die viele verschiedene Werte (> Schwellwert1) in der Datenmenge aber keinen Generalisierungsoperator haben oder deren Verallgemeinerungen durch andere Attribute ausgedrückt werden. Verallgemeinerung von Attributen, die viele verschiedene Werte (> Schwellwert2) in der Datenmenge und einen Generalisierungsoperator haben, mit Tupel-Zähler. Relevanzanalyse der restlichen Attribute durch Vergleich mit Kontrastmenge, wobei Attribute mit einem Informationsgewinn > Schwellwert3 ausgewählt werden. Wissen: Generalisierungshierarchie (z.b. Konzepthierarchie) für Verallgemeinerung, Schwellwerte, Informationsmaß Varianten: Konzept-Charakterisierung: Charakterisierung einer Teil- Datenmenge im Vergleich zur Restmenge Konzept-Vergleich: Vergleich zweier Datenmengen Informationsmaß Die erwartete Information in Bits (Anzahl ja/nein Fragen), um eine Klasse i mit der Häufigkeit h i aus einer Menge mit n verschiedenen Klassen der Häufigkeiten (h 1, h 2,... h n ) zu klassifizieren, ist: I (h 1, h 2,..., h n) = (i=1.. n) (h i/h) log 2 (h i/h) mit h = Gesamthäufigkeit; h i = Häufigkeit der i-ten Klasse Wie hoch ist der Informationsgewinn des Attributwertes? Wenn ein Attribut A eine Menge entsprechend seiner m Werte in m Teilmengen aufteilt, dann ist seine Entropie E(A) der gewichtete Durchschnitt der erwarteten Information aller Teilmengen entsprechend obiger Formel. Der Informationsgewinn des Attributwertes ist dann: Gewinn (A) = I (h 1, h 2,..., h n) - E(A) 1 2 Beispiel für Konzept-Charakterisierung (1) 1. Anfrage in DMQL: use Big-University-DB mine characteristics as "Science-Students" in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in "graduate" 2. Transformation in SQL: use Big-University-DB select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in { M.Sc, M.A M.B.A.", Ph.D."} Beispiel für Konzept-Charakterisierung (2) 4. Attribut-orientierte Induktion Name: viele Werte ohne Hierarchie entfällt Geschlecht: 2 Werte ohne Hierarchie behalten Studienfach: 20 Werte (Schwellwert sei 5) mit Hierarchie (arts, engineering, business) generalisiert Geburtsort: viele Werte mit Hierarchie (Stadt < Bundesstaat < Land {Kanada, Ausland}) generalisiert Geburtstag: viele Werte mit Hierarchie (Geburtstag < Alter < Altersgruppe) generalisiert Wohnort: viele Werte mit Hierarchie generalisiert Telefon#: viele Werte ohne Hierarchie entfällt Punkte: viele Werte mit Hierarchie (Punkte < Punktintervall > Note) generalisiert 5. Generalisierte Daten der graduate-studenten 3. Initiale Daten aller graduate-studenten 3 4
2 Beispiel für Konzept-Charakterisierung (3) 6. Berechnung der Kontrastmenge für Relevanzanalyse Kontrastmenge: nicht graduate, d.h. undergraduate Kontrastmenge (undergraduate, ohne residence_city): Beispiel für Konzept-Charakterisierung (4) 8. Auswahl von Attributen mittels Relevanz-Schwelle Relevanzschwelle = 0,1 gender und birth_country fallen raus. Ergebnis: Graduate Studenten werden durch die Attribute: Studienfach (major) Altersgruppe (age_range) Noten (gpa) am besten charakterisiert. Zielmenge (graduate, ohne residence_city): 7. Berechnung des Informationsgewinn der Attribute: I (grad, ugrad) = I (120, 130) = - 120/250 log 2 (120/250) - 130/250 log 2 (130/250) = 0,9988 Informationsgehalt von Studienfach (major): major = science S grad = 84 S ugrad = 42 I(S grad, S ugrad ) = 0,92 major = engine E grad = 36 E ugrad = 46 I(E grad, E ugrad ) = 0,99 major = business B grad = 0 B ugrad = 42 I(B grad, B ugrad) = 0 Entropie(major) = 126/250 * 0, /250 * 0, /250 * 0 = 0,79 Entropiegewinn (major) = 0,9988 0,79 = 0,21 Entropiegewinn (gender) = 0,0003 Entropiegewinn (birth_country) = 0,04 Entropiegewinn (gpa) = 0,45 Entropiegewinn (age) = 0, Konzept-Vergleich Gleiche Vorgehensweise wie bei Konzept-Charakterisierung, wobei die Vergleichsklasse explizit festgelegt ist. Sie wird auf das gleiche Niveau abstrahiert wird und im Ergebnis mitausgegeben. Beispiel: Vergleich zwischen graduate und undergraduate: Graduate: Statistische Maße zur Beschreibung von Datenmengen Gegeben sei eine Menge von (numerischen) Daten. Diese kann durch folgende Parameter beschrieben werden: Durchschnitt (mean): Summe / Anzahl Standardabweichung: 1/(n-1) (i=1.. n) (x i x mittel ) 2 Median: Mittlere Wert in sortierter Liste 1. Quartil: 25% der Werte sind kleiner 2. Quartil: Median, 50% der Werte sind kleiner bzw. größer 3. Quartil: 75% der Werte sind kleiner Minimum: kleinster Wert Maximum: größter Wert Box-Plot: 5-Zahlen-Zusammenfassung: Min, 1Q, Median, 3Q, Max Undergraduate: 7 8
3 Finden von Assoziationsregeln Datenmaterial: Transaktionen (z.b. Warenkörbe) Ziel: Herausfinden von Assoziationsregeln über den Elementen in Transaktionen, z.b. welche Waren zusammen gekauft werden Vorgehensweise Finden von Assoziationsregeln ist ein zweistufiger Prozess: 1. Finde alle häufigen Itemsets (support > Schwellwert1) 2. Generiere aus häufigen Itemsets starke Assoziationsregeln (confidence > Schwellwert2) Der zweite Schritt ist relativ einfach. Der erste Schritt bestimmt den Gesamtaufwand. Beispielregel: Wenn Computer dann auch Finanzsoftware support = 2%, d.h. die Regel ist für 2% aller Transaktionen relevant. confidence = 60%, d.h. die Schlussfolgerung stimmt in 60% aller relevanten Transaktionen. Interessantheit wird meist so definiert, dass die Regeln einen minimalen support und eine minimale confidence haben müssen. support (A B) = P (A B) confidence (A B) = P (B A) 9 10 Apriori-Algorithmus Motivation: Wenn zu einem itemset I ein item A hinzugefügt wird, dann gilt: I A kann nicht häufiger sein als I alleine! Daher verringert sich die Häufigkeit in jeder Ebene (oder bleibt gleich). Beispiel Apriori-Algorithmus (1) Input mit Transaktionsdaten: Vorgehensweise: Iterativer Ansatz, der ebenenweise vorgeht: Erst alle häufigen 1-elementigen Elementmengen (1-itemsets) berechnen, dann alle häufigen 2-itemsets, wobei die häufigen k-itemsets zum Finden der häufigen (k+1)-itemsets benutzt werden (dabei werden die itemsets lexikografisch sortiert): 1. Erweiterungsschritt: Bilde aus je 2 k-itemsets, deren erste (k-1) items gleich sind, ein (k+1)-itemset (ohne Duplikate). 2. Logik-Filterschritt: Lösche aus den (k+1)kandidaten alle heraus, die irgendeine k-teilmenge enthalten, die nicht häufig ist. Da alle häufigen Teilmengen bereits vorher berechnet wurden, kann man sie zur Effizienzsteigerung in einer Hash-Tabelle speichern. 3. Zähl-Filterschritt: Für die übriggebliebenen Kandidaten wird deren Häufigkeit gezählt und entsprechend gefiltert
4 Beispiel Apriori-Algorithmus (2) Apriori-Algorithmus: Regelgenerierung für jedes häufige Itemset werden alle Regeln ausprobiert und überprüft, ob der confidence > Schwellwert ist (der support ist für alle Regeln gleich). confidence (A B) = P (B A) = support_count (A B) / support_count (A) Generierung der Regeln: 1. Generiere alle nichtleeren Teilmengen T des Itemset I. 2. Generiere daraus die Regel T (I T) 3. Überprüfe, ob die confidence der Regel größer als der Schwellwert ist. Vorgehensweise: 1. Zählen der Häufigkeit aller 1-itemsets 2. Berechnung der häufigen 1-itemsets (Schwelle sei 2) 3. Erweiterung der Kandidaten für 2-itemsets 4. Logik-Filtern: liefert keine Einschränkung 5. Zählen der Häufigkeit aller 2-itemsets 6. Berechnung der häufigen 2-itemsets 7. Erweiterung der Kandidaten für 3-itemsets {(I1, I2, I3) (I1, I2, I5) (I1, I3, I5) (I2, I3, I4) (I2, I3, I5) (I2, I4, I5)} 8. Logik-Filtern: Übrig bleiben nur {(I1, I2, I3) (I1, I2, I5)} 9. Zählen der Häufigkeit beider 3-itemsets 10. Berechnung der häufigen 3-itemsets: liefert keine Einschränkung 11. Erweiterung der Kandidaten für 4-itemsets {(I1, I2, I3, I5)} 12. Logik-Filtern: Kandidat wird ausgefiltert, da Teilmenge (I2, I3, I5) nicht häufig. Beispiel für Itemset (I1, I2, I5): 1. Teilmengen: {(I1), (I2), (I5), (I1, I2), (I1, I5), (I2, I5)} Regeln mit confidence: I1 & I2 I5 confidence 2/4 = 50% I1 & I5 I2 confidence 2/2 = 100% I2 & I5 I1 confidence 2/2 = 100% I1 I2 & I5 confidence 2/6 = 33% I2 I1 & I5 confidence 2/7 = 29% I5 I1 & I2 confidence 2/2 = 100% Angenommen der confidence-schwellwert liegt bei 70%. Dann bleiben nur die 2., 3., und 6. Regel übrig Effizienzsteigerung des Apriori- Algorithmus 1. Verwendung von Hash-Tabellen für Logik-Filterschritt (s.o.) 2. Reduktion der Transaktionen, die nicht in mindestens einem häufigen Itemset vorkommen: verbessert den Zähl-Filterschritt. 3. Partitionierung der Transaktionen in Teildatenbanken, die jeweils in den Hauptspeicher passen. Probleme des Apriori-Algorithmus Potentiell große Kandidatenmengen, z.b. bei häufigen 1-itemsets müssen mehr als 10 Millionen 2-itemsets generiert und getestet werden. Mehrfache Überprüfung der Datenbank zum Zählen relevanter Transaktionen, insbesondere bei n-itemsets mit großem n. Alternativ-Algorithmus: Frequent-Pattern-Growth (FP-Growth) Erstelle aus der Menge der häufigen itemsets einen frequentpattern-baum (FP-Baum), der anstelle der Transaktionsdatenbank weiterbearbeitet wird (wesentlich effizienter). 4. Arbeiten mit repräsentativen Teilmengen der Transaktionen
5 Frequent Pattern Growth Algorthmus 1. Datenbankdurchlauf: Berechne 1-item Mengen und sortiere sie nach Häufigkeit (sortierte Liste L). 2. Datenbankdurchlauf: 2.1. Starte mit einen Null-Knoten 2.2. Für jede Transaktion tue Sortiere die Items nach Häufigkeit (L) Baue einen Pfad auf, der aus den Items besteht Falls ein Item schon vorkommt, erhöhe Zähler ansonsten verzweige baumartig. Beispiel für 2. Schritt: 1. Transaktion (I1, I2, I5): Pfad: null I2 (1) I1 (1) I5 (1) 2. Transaktion (I2, I4): erhöhe Zähler von I2 auf 2 und verzweige von dort nach I4 mit Zähler Transaktion (I2, I3): erhöhe Zähler von I2 auf 3 und verzweige von dort nach I3 mit Zähler 1 4. Transaktion (I1, I2, I4): erhöhe Zähler von I2 auf 4, von I1 auf 2 und füge neue Verzweigung für I4 ein (mit Zähler 1), die mit altem I4 verbunden wird.. Fertige Struktur für alle 9 Transaktionen: Generierung häufiger Itemsets aus FP- Baum Für jedes 1-Itemset in umgekehrter Häufigkeitsreihenfolge tue: 1. Konstruiere seine conditional pattern base (Menge aller Prefix-Pfade) 2. Konstruiere seinen conditional FP-tree (Reduktion der Pfade aufgrund des minimalen Supports (hier 2), wobei bereits abgearbeitete Items (deswegen umgekehrte Reihenfolge) ignoriert werden können. 3. Generierung des Ergebnisses (frequent patterns). Beispiel: Frquent-Pattern-Growth Algorithmus Berücksichtigen von Konzepthierarchien Problem: Interessante Assoziationsregeln finden sich möglicherweise auf höheren Abstraktionsebenen (z.b. Produktgruppen), da bei konkreten Items (z.b. Produkten) der support sehr klein sein kann. Lösung: Benutzen von Konzepthierarchien mit Top-Down-Ansatz, d.h. zunächst nur Berücksichtigung des Top-Level, dann Verfeinerung. Wenn bei allen Ebenen die gleiche Support-Schwelle gilt, ist ein effektives Abschneiden von unteren Zweigen möglich, wenn der übergeordnete Knoten einen zu niedrigen Support hat (da der Support nach unten nur kleiner werden kann). Wenn unterschiedliche Support-Schwellen gelten, kann man Heuristiken zum Abschneiden verwenden
6 Weitere Aspekte Multidimensionale Assoziationsregeln, z.b. Alter (X, 20-29) & Beruf (X, student) kauft (X, Laptop) Konstruktion eines entsprechenden Data Cube mit Analyse Finden quantitativer Assoziationsregeln (u.a. Finden von Intervallen, z.b. Binning) Berücksichtigung von Korrelationen, z.b. kauft (X, Computer-Spiele) kauft (X, Videos) [support 40%, confidence = 60%] kann irreführend sein, wenn z.b. kauft (X, Videos) einen support von 75% hat. Constraint-basiertes Finden von Assoziationsregeln (z.b. durch Metaregeln geführt) 21
Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
MehrHäufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig
MehrHäufige Mengen ohne Kandidatengenerierung
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrMining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
MehrFrequent Itemset Mining und FP-Tree
Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset
Mehr4.2 Constraints für Assoziationsregeln
4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrApriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
MehrKapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
MehrWas wissen Sie jetzt?
Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der
MehrSkript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel
MehrKapitel 7: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel
Mehr6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
MehrKapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
MehrKapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrData Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.
Mehr4. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrFortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
MehrLernen von Assoziationsregeln
Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]
MehrXML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:
Mehr5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
MehrDatenbanksysteme 2009
Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen
MehrHäufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrAlgorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
MehrID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
Mehr4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
Mehrn t(2k + 1) in den P k s r = n t(2k + 1) Rest
Kette von P k s: Gesamtzahl der Elemente: top P k bottom P k P k }{{} t n t(2k + 1) in den P k s r = n t(2k + 1) Rest EADS 4 Schönhage/Paterson/Pippenger-Median-Algorithmus 365/530 Wenn r < t 1, dann wissen
MehrStudienarbeit. Maria Soldatova
Leibniz Universität Hannover Fakultät für Elektrotechnik und Informatik Fachgebiet Datenbanken und Informationssysteme im Studiengang Mathematik mit Studienrichtung Informatik Diskussion und Implementierung
MehrRückblick. SQL bietet viele Möglichkeiten zur Anfrageformulierung
Rückblick SQL bietet viele Möglichkeiten zur Anfrageformulierung mathematische Funktionen (z.b. ABS(A) und SIGN(A)) Aggregatfunktionen (z.b. MIN(A) und SUM(A)) Boole sche Operatoren (AND, OR, EXCEPT) Verknüpfungen
Mehr4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrKapitel 13: Pattern Mining unter Constraints
Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken, Häufige Mengen Nico Piatkowski und Uwe Ligges 09.05.2017 1 von 15 Überblick Was bisher geschah... Heute Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
MehrInduktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Mehrtechnische universität dortmund Fakultät für Informatik LS 8 Speichern von Daten Prof. Dr. Katharina Morik
Speichern von Daten Prof. Dr. Katharina Morik Unterschiede von DBMS und files! DBMS unterstützt viele Benutzer, die gleichzeitig auf dieselben Daten zugreifen concurrency control.! DBMS speichert mehr
MehrSelbstständiges Lernen
Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrKapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln
MehrKapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Lerneinheit 3: Greedy Algorithmen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2016 10.5.2016 Einleitung Einleitung Diese Lerneinheit
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung MinEx 27.4.2010 Gliederung 1 Closed Item Sets 2 Free sets 3 MinEx Wir erinnern uns... Hypothesen werden in einem Verband angeordnet. Ein Versionenraum gibt die möglichen Hypothesen
MehrTU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann
TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 10 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am 07..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
MehrMaschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
MehrInformationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -
Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf
MehrPrakt. Datenbankprogrammierung. Sommersemester 2005
Prakt. Datenbankprogrammierung Sommersemester 2005 A,2: Hierarchische Anfragen Martin-Luther-Universität Halle, Institut für Informatik, Datenbanken Christian Goldberg Wann ist eine hierarchische Anfrage
MehrDatenanalyse mit Data Mining
Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen
Mehr5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
MehrDatenbanksysteme II Multidimensionale Indizes (Kapitel 14) Felix Naumann
Datenbanksysteme II Multidimensionale Indizes (Kapitel 14) 14.5.2007 Felix Naumann Motivation 2 Annahme bisher: Eine Dimension Ein einziger Suchschlüssel Suchschlüssel kann auch Kombination von Attributen
MehrWelche Kunden haben die gleiche Ware bestellt? select distinct a1.name, a2.name from Auftrag a1, Auftrag a2 where a1.ware = a2.ware.
*HVFKDFKWHOWH$QIUDJHQ In einer SQL-Anweisung können in der where-klausel, from-klausel, select-klausel wieder SQL-Anweisungen auftreten. Man spricht dann auch von einer geschachtelten Anfrage oder Unteranfrage.
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
Mehr! Erweiterungen zur Zeit. ! Zeitreihen lernen nach Das! Zeitintervallbeziehungen lernen nach Hoeppner! Privacy preserving data mining
Häufige Mengen Häufige Mengen! Grundalgorithmen! Apriori! FP Growth! Verbesserungen! Kondensierte Repräsentationen! Pushing Constraints into the algorithm! Bessere Signifikanztests! Erweiterungen zur Zeit!
MehrHäufige Mengen. ! Grundalgorithmen. ! Verbesserungen. ! Apriori! FP Growth
Häufige Mengen! Grundalgorithmen! Apriori! FP Growth! Verbesserungen! Kondensierte Repräsentationen! Pushing Constraints into the algorithm! Bessere Signifikanztests 1 Häufige Mengen! Erweiterungen zur
MehrKapitel 17: Date Warehouse
Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical
MehrGreedy Algorithms - Gierige Algorithmen
Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Apriori 22.4.2010 Gliederung 1 Apriori 2 FP-Tree Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge
MehrMehrwegbäume Motivation
Mehrwegbäume Motivation Wir haben gute Strukturen (AVL-Bäume) kennen gelernt, die die Anzahl der Operationen begrenzen Was ist, wenn der Baum zu groß für den Hauptspeicher ist? Externe Datenspeicherung
MehrIntroduction to Data and Knowledge Engineering. 6. Übung SQL
Introduction to Data and Knowledge Engineering 6. Übung SQL Aufgabe 6.1 Datenbank-Schema Buch PK FK Autor PK FK ISBN Titel Preis x ID Vorname Nachname x BuchAutor ISBN ID PK x x FK Buch.ISBN Autor.ID FB
MehrKapitel 2: Mathematik- und Informatik-Grundlagen
Kapitel 2: Mathematik- und Informatik-Grundlagen Data Warehousing und Mining - 1 einer Menge gibt an, wie zufällig die Daten in einer Menge verteilt sind (bzw. wie zufällig die Ausprägung eines Attributs
MehrEntscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
MehrFrequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung 1 2 16.7.2009 Lernen von Assoziationsregeln Binäre Datenbanken Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge von
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
Mehr3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
MehrFallstudie: Online-Statistik
Fallstudie: Online-Statistik Ziel: Klasse / Objekt, welches Daten konsumiert und zu jeder Zeit Statistiken, z.b. Mittelwert, Varianz, Median (etc.) ausgeben kann Statistics s = new Statistics(maxSize);...
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
MehrADS: Algorithmen und Datenstrukturen 2
ADS: Algorithmen und Datenstrukturen 2 Teil 4 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 24. April 2019 [Letzte Aktualisierung: 24/04/2019,
Mehr5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
MehrVorlesung Methodische Grundlagen des Software-Engineering im Sommersemester 2013
Vorlesung des Software-Engineering im Sommersemester 2013 Prof. Dr. Jan Jürjens TU Dortmund, Fakultät Informatik, Lehrstuhl XIV Teil 2.3: Data-Mining v. 11.06.2013 1 [mit freundlicher Genehmigung basierend
MehrData Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
MehrFortgeschrittene Netzwerk- und Graph-Algorithmen
Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
MehrAlgorithmen für schwierige Probleme
Algorithmen für schwierige Probleme Britta Dorn Wintersemester 2011/12 24. November 2011 Farbkodierung Beispiel Longest Path Longest Path gegeben: G = (V, E) und k N. Frage: Gibt es einen einfachen Pfad
MehrInformationssysteme SS 2013 Lösungsvorschläge zu Übungsblatt 2. Übungsblatt 2. Für die Übungen in der Woche vom 29. April bis 03.
Prof. Dr.-Ing. Stefan Deßloch AG Heterogene Informationssysteme Fachbereich Informatik Technische Universität Kaiserslautern Übungsblatt 2 Für die Übungen in der Woche vom 29. April bis 03. Mai 2013 Aufgabe
MehrEntscheidungsverfahren für die Software-Verifikation. 4 - BDDs
Entscheidungsverfahren für die Software-Verifikation 4 - BDDs Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen) Boolesche
MehrLage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
MehrMaschinelles Lernen: Symbolische Ansätze
Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:
MehrMining conjunctive sequential patterns
Mining conjunctive sequential patterns Chedy Raïssi Toon Calders Pascal Poncelet Manh Linh Nguyen TU Dortmund Fakultät für Informatik Lehrstuhl 8.5.29 Inhalt. Einleitung 2. Mining von frequent sequences
MehrTheoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
MehrDatenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken
Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt
Mehr11. Übung Knowledge Discovery
Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den
MehrADS: Algorithmen und Datenstrukturen 2
ADS: Algorithmen und Datenstrukturen 2 Teil 6 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 16. Mai 2018 [Letzte Aktualisierung: 18/05/2018,
MehrEffizienter Planaritätstest Vorlesung am
Effizienter Planaritätstest Vorlesung am 23.04.2014 INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER Satz Gegebenen einen Graphen G = (V, E) mit n Kanten und m Knoten, kann in O(n + m) Zeit
MehrVorlesung Datenbanken I Zwischenklausur
Prof. Dr. Stefan Brass 12. Dezember 2003 Institut für Informatik MLU Halle-Wittenberg Vorlesung Datenbanken I Zwischenklausur Name: Matrikelnummer: Studiengang: Aufgabe Punkte Max. Punkte Zeit 1 (Integritätsbedingungen)
Mehr