Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
|
|
- Irma Fischer
- vor 7 Jahren
- Abrufe
Transkript
1 Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold
2 Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung
3 Einleitung 3 Entwickelt duch Rakesh Agrawal und Ramakrishnan Srikant IBM Almaden Research Center Algorithmus zum Auffinden von Assoziationsregeln
4 Support / Confidence 4 Support (einer Itemmenge I) In wie viel % der Transaktionen kommen alle Elemente der Menge I vor? minsup Alle Transaktionen Support A B Confidence (einer Regel) In wie viel % der Transaktionsen in denen der linke Teil der Regel vorkommt, kommt auch der Rechte Teil vor? minconf Apriori Felix Leupold 12. Oktober 2009
5 Fallbeispiel 5 Sortiment: I={Shrek, Spiderman, LoR, MIB, SAW, MI2, Blade} Transaktionen T1 bis T9 mit: T1={Spiderman, Shrek, LoR} T2={Spiderman, Shrek, MIB} T3={Spiderman, SAW} T4={Spiderman, Shrek, LoR, MIB} T5={SAW} T6={MI2, Shrek, Chips} T7={Shrek, LoR} T8={MI2, Conan, Blade} T9={Blade, LoR}
6 Grundgedanke 6 1. Finden aller Itemsets mit minsup 2. Daraus Assoziationsregeln bilden, die minconf überschreiten Problem: Es werden viele Kandidaten erzeugt Vergleich mit der Datenbank ist extrem teuer(möglichst wenig Kandidaten)
7 Apriori Überlegung 7 Support ist mit steigender Anzahl von Elementen monoton fallend! à Wenn eine Teilmenge einer Menge M klein ist, dann ist die Menge M auch auf jeden Fall klein Erzeuge Kandidaten mit Hilfe von bereits gefundenen Mengen Lösche alle Kandidaten, die Teilmengen enthalten, die nicht groß sind
8 Apriori Kandidatengenerierung 8 Besteht aus 2 Schritten: 1. Join 2. Prune p und q sind in den ersten k-2 Einträgen identisch Lösche alle Kandidaten, deren Teilmenge nicht in L k 1
9 Fortsetzung Fallbeispiel 9 T1={Spiderman, Shrek, LoR} T2={Spiderman, Shrek, MIB} T3={Spiderman, SAW} T4={Spiderman, Shrek, LoR, MIB} T5={SAW} T6={MI2, Shrek, Chips} T7={Shrek, LoR} T8={MI2, Conan, Blade} T9={Blade, LoR} Sei L2= {{Shrek,Spiderman}, {Shrek,LoR}, {Shrek,MIB}, {Spiderman,LoR}, {Spiderman,MIB}} Join ergibt: {Shrek,Spiderman,LoR},{Shrek,Spiderman,MIB}, {Shrek,LoR,MIB},{Spiderman,LoR,MIB} Prune löscht {Shrek,LoR,MIB} und {Spiderman,LoR,MIB}
10 Apriori - Problem 10 In jeder Iteration wird die gesamte Datenbank durchsucht!
11 Fortsetzung Fallbeispiel 11 L 2 Itemset {Shrek,Spider man} {Shrek,LoR} {Shrek,MIB} {Spiderman,Lo R} {Spiderman,M IB} C 3 Itemset {Shrek,Spiderman, LoR} {Shrek,Spiderman, MIB} C 2 TID Set-of-Itemsets {{Shrek,Spiderman},{Shrek,LoR}, {Spiderman,LoR}} {{Shrek,Spiderman}, {Shrek,MIB},{Spiderman,MIB}} {{Shrek,LoR}} {{Shrek,Spiderman},{Shrek,LoR}, {Shrek,MIB},{Spiderman,LoR}, {Spiderman,MIB}} TID C 3 Set-of-Itemsets {{Shrek,Spiderman,LoR}} {{Shrek,Spiderman,MIB}} {{Shrek,Spiderman,LoR}, {Shrek,Spiderman,MIB}}
12 Apriori vs. AprioriTID 12 Vorteile von AprioriTID: Kein Zugriff auf Datenbank Relevante Datensätze werden mit der Zeit immer kleiner Nachteile von AprioriTID Relevante Datensätze sind zu Beginn sehr groß Im worst case bedeutend schlechter als Apriori Hauptspeicher wird immer preiswerter à AprioriTID relevanter Falls Hauptspeicher zu klein, Apriori Hybrid.
13 Erzeugung von Regeln 13 Sei L ein large Itemset und A L A sup( L) ( L A) > sup( A) minconf Überlegung: Wenn XY à Z nicht hält, dann auch nicht Xà YZ Da sup(xy) sup(x) Wieder induktiv (Anzahl der Elemente rechts der Regel) A B Prüfe alle Regeln mit einem Element rechts Generiere daraus 2-elementige rechte Seiten und prüfe diese
14 Erzeugung von Regeln 14 sup( L) A ( L A) > sup( A) minconf L2 = {{Shrek,Spiderman}, {Shrek,LoR}, {Shrek,MIB}, {Spiderman,LoR}, {Spiderman,MIB}} L3 = {{Shrek,Spiderman,LoR}, {Shrek,Spiderman,MIB}} Prüfe zuerst alle Regeln mit einem Item rechts Spiderman à Shrek; LoR à Shrek; MIB à Shrek; MIB à Spiderman; MIB, Shrek à Spiderman; MIB, Spiderman à Shrek Generiere Regeln mit 2 Items rechts
15 Datensatz 15 Netflix Filmbewertungen von : NutzerID, Bewertung, Datum der Bewertung, FilmID Transaktion: Alle Filme, die von einem einzelnen Nutzer als sehr gut (5/5) bewertet wurden Statistiken: D = Transaktionen Avg( T ) = 49,97 Avg( I ) = 2,04 (minsup=10%, minconf=75%) 17 Regeln (minsup=10%, minconf=75%) Bewertungen
16 Implementierung 16 Programmiersprache Python 130 LOC Alle Daten im Hauptspeicher, keine Datenbankanbindung Vorteil: Sehr schnelle Zugriffzeiten auf Itemsets Nachteil: Langsames einlesen aller Daten bei jedem Start Transaktionen, Items und Rules sind Objekte
17 Performance I 17 D = Avg( T ) = 51.6 N = Dauer der Berechnung für k=x minsup = 0.05 minconf = 0.75 Zeit (sec) sec k
18 Performance II 18 D = netflix D =88k Netflix: Avg( T ) = 51.6 N = Zeit (sec) netflix D =88k Minimum Support Warenkorb: Avg( T ) = N = Zeit (sec) Warenkorb D =88k Einkaufswagen D =88k Minimum Support
19 Performance III - Vergleich 19 Vergleich netflix D =88k Einkaufswagen D =88k Zeit (sec) Minimum Support
20 Performance III - Profiling 20
21 Erweiterung: Parallellisierung 21 Bottleneck Supportberechnung: Schleifen mit sehr vielen Durchläufen Bei unserem Datensatz: 1.5 Mio. Durchläufe (minsup=10%) Parallelisierung Vorteil: Transaktionen voneinander unabhängig Nachteil: Große Datenmengen (Transactions & Itemsets) müssen kopiert werden
22 Ergebnisse I SW: A New Hope -> SW: The Empire Strikes Back support: 0.10, confidence: 0.83 Monsters Inc. + Shrek -> Finding Nemo support: 0.058, confidence: 0.77 Pirates of the C. + LoR III -> LoR II support: 0.08, confidence: 0.87
23 Ergebnisse II Anzahl an Bewertungen pro Film Anzahl an Bewertungen Film ID
24 Nächste Schritte 24 Laufzeitoptimierung Datenbankanbindung Vergleich mit Ergebnis von Netflix-Challenge Analyse von Regeln Warum fand der Kunde die Filme gut Korrelationen zwischen Filmen aus bestimmten Genre/Jahren? Erweiterung von Apriori durch weitere Attribute an Items?
25 Quellen 25 R. Agrawal, R. Srikant: "Fast Algorithms for Mining Association Rules", Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sept [Stand ] [Stand ] Knowledge and Data Engineering, Vorlesung SoSe2004 Uni Kassel, VII.3 Assoziationsregeln Zoulfa El Jerroudi, Seminarvortrag Apriori-Algorithmus zur Entdeckung von Assoziationsregeln, Uni Dortmund Oktober Artikel zu Data Mining [Stand ] Apriori algorithm [Stand ]
Apriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold
Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung
MehrKapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
MehrKapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrKapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
MehrXML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrSkript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel
MehrApriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
MehrKapitel 7: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel
Mehr6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
MehrAlgorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln
Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz Prof. Katarina Morik und Stefan
MehrFortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:
MehrErmittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung
Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.
MehrMining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
MehrKapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln
MehrKapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
MehrLernen von Assoziationsregeln
Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]
Mehr4.2 Constraints für Assoziationsregeln
4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
MehrDatenanalyse mit Data Mining
Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
MehrFernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus
FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der
MehrErkennung Sequenzieller Muster Algorithmen und Anwendungen
Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster
Mehr4. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
Mehr5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
MehrHäufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.
MehrVII.3 Assoziationsregeln
VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln
Mehr4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrGliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups
Seminar im Fach Informatik Sommersemester 2006 Sascha Rüger Gliederung 1. Einleitung 2. Data Mining Systeme 3. Auswertung 4. Weitere Untersuchungen 5. Fazit 1. Einleitung (1) wichtige Aufgabe der Datenanalyse:
MehrSelbstständiges Lernen
Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
Mehr4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrInhalt. 7.1 Motivation. 7.2 Artikelmengen. 7.3 Assoziationsregeln. 7.4 Sequenzen. Entscheidungsunterstützende Systeme / Kapitel 7: Mustererkennung
7. Mustererkennung Inhalt 7.1 Motivation 7.2 Artikelmengen 7.3 Assoziationsregeln 7.4 Sequenzen 2 7.1 Motivation Mustererkennung (pattern mining) sucht in oft großen Datenmengen nach häufig auftretenden
MehrWas wissen Sie jetzt?
Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der
MehrData Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.
MehrKapitel 15: Mining von Sequential Patterns
Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen
MehrData Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
MehrData Mining. Informationssysteme, Sommersemester 2017
Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter
MehrInduktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
MehrKonzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
MehrInformationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -
Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf
MehrInformationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
MehrMusterkennung (pattern mining) findet häufig auftretende Strukturen z.b. in Mengen, Sequenzen oder Graphen
Rückblick Musterkennung (pattern mining) findet häufig auftretende Strukturen zb in Mengen, Sequenzen oder Graphen Häufige Artikelmengen (frequent itemsets) lassen sich durch Ausnutzung der Anti-Monotonie
MehrStudienarbeit. Maria Soldatova
Leibniz Universität Hannover Fakultät für Elektrotechnik und Informatik Fachgebiet Datenbanken und Informationssysteme im Studiengang Mathematik mit Studienrichtung Informatik Diskussion und Implementierung
MehrDBS5 Kap. 4. Data Mining
DBS5 Kap. 4 Data Mining Klassifikationen und Cluster-Bildung: Auffinden von Regeln zur Partitionierung von Daten in disjunkte Teilmengen (Anwendungsbeispiel: Risikoabschätzung) bzw. Herstellen von Gruppierungen
Mehr5.2 Assoziationsregeln
52 Assoziationsregeln Assoziationsregeln erfassen starke usammenhänge zwischen dem Auftreten einer Artikelmenge A und einer Artikelmenge B in Transaktionen A B Nur solche Assoziationsregeln sollen gefunden
MehrVorlesung Methodische Grundlagen des Software-Engineering im Sommersemester 2013
Vorlesung des Software-Engineering im Sommersemester 2013 Prof. Dr. Jan Jürjens TU Dortmund, Fakultät Informatik, Lehrstuhl XIV Teil 2.3: Data-Mining v. 11.06.2013 1 [mit freundlicher Genehmigung basierend
MehrHäufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig
MehrFrequent Itemset Mining und FP-Tree
Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset
MehrHäufige Mengen ohne Kandidatengenerierung
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.
MehrKapitel 13: Pattern Mining unter Constraints
Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher
MehrMaschinelles Lernen in der Bioinformatik
Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut
MehrFrequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung MinEx 27.4.2010 Gliederung 1 Closed Item Sets 2 Free sets 3 MinEx Wir erinnern uns... Hypothesen werden in einem Verband angeordnet. Ein Versionenraum gibt die möglichen Hypothesen
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Apriori 22.4.2010 Gliederung 1 Apriori 2 FP-Tree Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge
MehrData Mining im Einzelhandel Methoden und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Apriori Katharina Morik, Claus Weihs 23.4.2015 Katharina Morik, Claus Weihs DMV 1 / 47 Gliederung 1 Apriori 2 FP-Tree Katharina Morik, Claus Weihs DMV 2 / 47 Lernen von Assoziationsregeln
MehrDatenbanksysteme 2009
Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen
MehrIntegration eines hochperformanten Apriori-Operators in einer Hauptspeicherdatenbank
Institut für Software & Systems Engineering Universitätsstraÿe 6a D-86135 Augsburg Integration eines hochperformanten Apriori-Operators in einer Hauptspeicherdatenbank Maximilian E. Schüle Masterarbeit
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung 1 2 16.7.2009 Lernen von Assoziationsregeln Binäre Datenbanken Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t R r eine Menge von
MehrImplementierung und Analyse ausgewählter Verfahren zum Data Stream Mining
Fakultät für Elektrotechnik und Informatik Institut für Praktische Informatik Fachgebiet Datenbanken und Informationssysteme Implementierung und Analyse ausgewählter Verfahren zum Data Stream Mining Bachelorarbeit
MehrID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrZeitaspekte. Fabian Bauschulte
Zeitaspekte Fabian Bauschulte 1 Zeitaspekte Überblick Zeitreihen (engl. time series) Zeitphänomene [Morik/2000a] Lernaufgaben und Repräsentation der Eingabedaten Clustering [Das et al.] Beziehungen zwischen
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
MehrData Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen
Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von
MehrAlgorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation
Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive
MehrProbabilistische Ansätze in der Assoziationsanalyse
Probabilistische Ansätze in der Assoziationsanalyse Habilitationsvortrag Dr. Michael Hahsler Institut für Informationswirtschaft Wirtschaftsuniversität Wien Wien, 19. Mai, 2006 Aufbau des Vortrags 1. Motivation
MehrItem-based Collaborative Filtering
Item-based Collaborative Filtering Paper presentation Martin Krüger, Sebastian Kölle 28.04.2011 Seminar Collaborative Filtering KDD Cup 2011: Aufgabenbeschreibung Track 1 Item-based Collaborative Filtering
MehrIndexstrukturen für Zeichendaten und Texte
Indexstrukturen für Zeichendaten und Texte Felix Hain HTWK Leipzig 29.06.15 Gliederung 29.06.15 Felix Hain 2 1 B + -Baum 1.1 Präfix-B + -Baum 1.2 B + -Baum für BLOBs 2 Digitale Bäume 2.1 Trie 2.2 Patricia
MehrEntdeckung häufiger Episoden und repräsentativer Episode-Regeln in Ereignis-Sequenzen
Diplomarbeit Entdeckung häufiger Episoden und repräsentativer Episode-Regeln in Ereignis-Sequenzen Nuhad Shaabani Lehrstuhl für künstliche Intelligenz Fachbereich Informatik Universität Dortmund Dortmund,
MehrPG-402 Wissensmanagement: Zeitreihen in Datenbanken
PG-402 Wissensmanagement: Zeitreihen in Datenbanken 07.05.2002 Klaus Unterstein 07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken 1 Übersicht Zeitreihen Schritte bei der Zeitreihenanalyse Anwendungsfallbeispiel:
MehrGraph Mining. Discovering Frequent Subgraphs Discovering Frequent Geometric Subgraphs Angela Eigenstetter und Christian Wirth
Graph Mining Discovering Frequent Subgraphs Discovering Frequent Geometric Subgraphs Angela Eigenstetter und Christian Wirth 10.12.2008 Fachbereich 20 Fachgebiet Knowledge Engineering Prof. Fürnkranz 1
MehrHash-Join Algorithmen
Hash-Join lgorithmen dvanced Topics in Databases Ws08/09 atthias ichly Einleitung 2 Grundlage ist das Paper: Join Processing in Database Systems With Large ain emories Quelle: C Transactions on Database
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Springer-V erlag Berlin Heidelberg GmbH Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Mit 150 Abbildungen i Springer Dr. Martin Ester
MehrGliederung einer Abschlussarbeit (Für Ihre Masterarbeit, aber auch für die Bachelorarbeit anwendbar) Alexander Löser, Petra Sauer, Stefan Edlich
Gliederung einer Abschlussarbeit (Für Ihre Masterarbeit, aber auch für die Bachelorarbeit anwendbar) Alexander Löser, Petra Sauer, Stefan Edlich April 2014 Zusammenfassung. Wie schreibe ich denn nun meine
MehrDatenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen
Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen 28. V. 2018 Outline 1 Organisatorisches 2 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 3 Ranking 4 SQL Organisatorisches Ergebnisse
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrMaschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
MehrVom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.
Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.de 1 Informationsflut Amazon: Alle lieferbaren Bücher (930.000 Titeln
MehrMining conjunctive sequential patterns
Mining conjunctive sequential patterns Chedy Raïssi Toon Calders Pascal Poncelet Manh Linh Nguyen TU Dortmund Fakultät für Informatik Lehrstuhl 8.5.29 Inhalt. Einleitung 2. Mining von frequent sequences
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrKapitel 17: Date Warehouse
Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical
MehrMaschinelles Lernen: Symbolische Ansätze
Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:
MehrFinden von Assoziationsregeln
Data Mining Verfahren zum Finden von Assoziationsregeln und Evaluierung durch das Werkzeug MISTRAL Diplomarbeit von Joachim Baumeister Betreuer: Dipl. Inform. Ioannis Iglezakis Prof. Dr. Frank Puppe August
MehrAssoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger
Assoziationsmining Datalab Brown-Bag-Seminar Thoralf Mildenberger Institut für Datenanalyse und Prozessdesign School of Engineering Zürcher Hochschule für Angewandte Wissenschaften 09.07.2014 Thoralf Mildenberger
Mehr