6.6 Vorlesung: Von OLAP zu Mining
|
|
- Hansi Rothbauer
- vor 7 Jahren
- Abrufe
Transkript
1 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum Erkennen bisher unbekannter, interessanter Zusammenhänge in grossen Datenbanken, interessant heisst bezogen auf die anderen Zusammenhänge, die gerade entdeckt werden Information Mining anstatt Data Mining. OHO - 2 1
2 Data Mining ist für grosse Datenbestände. Es eistieren schon relativ lange vielfältige statistische Verfahren. Problem mit grossem Datenbestand: Hauptspeicher eines Rechners reicht nicht aus. Zugriffslücke : Zugriff auf Disk ist um Grössenordnungen teurer als Zugriff auf Hauptspeicher. Data Mining-Verfahren zielen darauf ab, mit möglichst wenig Disk-Zugriffen auszukommen. OHO - 3 Wichtige Data Mining- Problemstellungen Die wichtigen Problemstellungen sind recht einfach: Finden von Association Rules, Teilproblem: Finden von Frequent, zahlreiche Verfeinerungen, z.b. Quantitative Association Rules, Zeitreihenanalyse, Clustering, Classification. OHO - 4 2
3 Association Rules Transaktion z.b. Menge der Waren, die ein Kunde kauft (oder Menge von Symptomen im Bereich Krankenhaus ) Milch, Eier, Zucker, Brot Milch, Eier, Cornflakes, Brot Eier, Zucker Transaktion1 Transaktion2 Transaktion3 Frequent Itemset Menge von Waren, die in vielen Transaktionen vorkommt (d.h. häufiger als ein Schwellenwert) Beispiel: {Milch, Brot}, wenn Schwellenwert=2. Finden aller Frequent ist Grundlage für die Ermittlung von Association Rules. Association Rules sind Zusammenhänge der Form Wer Bier kauft, kauft auch Chips (mit relativ hoher Wahrscheinlichkeit). oder Patienten mit Pipapo-Syndrom haben oft auch Krämpfe. OHO - 5 Clustering Identifizieren von Gruppen von Items, die nahe beieinanderliegen; Beispiel: Kundengruppen. Bier 0 Wein OHO - 6 3
4 Classification Ziel: Item hat mehrere Attribute, man will anhand der Werte von n Attributen den (n+1)-ten vorhersagen. Grundlage für Voraussage: Menge von Tupeln (Trainingsmenge), für die alle n+1 Werte bekannt sind. Beispiel: Attribute 1,, n: Alter, Einkommen, Beruf, Attribut n+1: Kreditwürdigkeit Information, die i.d.r. erst zu spaeterem Zeitpunkt bekannt wird Ein mögliches Vorgehen: Entscheidungsbaum aufbauen mit Hilfe einer möglichst grossen Trainingsmenge. OHO - 7 Zusammenhang zu Data Warehousing 1. Data Warehousing als Plattform für Data Mining (s.b. vorige Folie), Data Warehousing beinhaltet Technologie zum Zusammenführen und Konsolidieren der Daten. 2. Gleiche Motivation: Zusammenhänge erkennen, die Grundlage für strategische Entscheidungen sein könnten. Data Warehousing - bestimmte, relativ klar definierte Anfragen, Data Mining - Analysetechniken, vagere Anfragen. OHO - 8 4
5 Zugrundeliegende Definitionen, Übersicht, Finden von Frequent, Finden von Association Rules, gegeben die Frequent. OHO - 9 Association Rules - zugrundeliegende Definitionen Transaktion T - Menge von Items, z.b. Warenangebot im Supermarkt Association Rule - Ausdruck der Form X Y, (X, Y sind Mengen von Items, und X Y =.) Beispiele: {Bier} {Chips} Wer Bier kauft, kauft auch Chips (mit relativ hoher Wahrscheinlichkeit). Diese Association Rule ist aussagekräftiger als Aussage der Form Bier und Chips werden oft zusammen gekauft. {Bier, Korn, Wodka} {Aspirin, Wasser} OHO
6 Association Rules - zugrundeliegende Definitionen Wir sind nur an Regeln mit einer gewissen Aussagekraft interessiert, deswegen die folgenden Definitionen: Support eines X andere Bezeichnung für relative Häufigkeit; minsup untere Schranke für Support, mit Support grösser als minsup: large itemsets; Regel X Y hat Support s gdw. s % der Transaktionen X und Y enthalten; Regel X Y hat Confidence c gdw. c % der Transaktionen, die X enthalten, enthalten auch Y; minconf - untere Schranke für Algorithmus; high confidence ; Regel X Y ist interessant gdw. Confidence deutlich höher ist als die erwartete WS, wenn Items zufällig gekauft werden. wird im folgenden nicht eplizit betrachtet OHO - 11 Beispiel T1 T2 T3 T4 T5 {Zahnpasta, Schokolade, Milch} {Schokolade, Milch} {Brot, Käse} {Zahnpasta, Milch, Käse} {Milch, Brot, Käse} Confidence Support Brot Käse 100% 40% Käse Milch 66.6% 40% Zahnpasta Schokolade 50% 20% OHO
7 Identifizieren aller Association Rules Identifizieren aller Association Rules in zwei Teilprobleme unterteilbar: Finden aller mit ausreichendem Support - Algorithmus ; Ermitteln der Association Rules aus diesen. Der erste Schritt ist i.a. der aufwendigere; Prinzip: Large der Grösse k Candidate Itemset der Grösse k+1 OHO Identifizieren von Finden aller mit ausreichendem Support: Beginn mit einelementigen Sets (1-Sets) - einfaches Abzählen Berechnung der k-sets aus den (k-1)-sets: Join-Step: Ermittlung von Kandidaten; -Trick: alle (k-1)-elementigen Teilmengen eines k-sets sind (k-1)-sets, Prune-Step: Löschen aller Kandidaten, die eine unzulässige (k-1)-elementige Teilmenge haben. Verkleinert die Menge der Kandidaten, man muss aber noch einmal durch die Daten gehen. Abzählen über die Daten. (darauffolgende Folie) Generierung der Kandidaten (nächste zwei Folien) OHO
8 Beispiel für Candidate Generation Berechnung der Kandidaten besteht aus zwei Schritten, wie auf Folie zuvor angegeben. 3-Sets {1 2 3} {1 2 4} {1 3 4} {1 3 5} {2 3 4} Join Kandidaten für 4-Sets 4-Sets { } { } { } Prune OHO - 15 Algorithmus L 1 = {large 1-itemsets}; for (k=2; L k-1 ; k++) do begin C k =apriori-gen(l k-1 ); // Generierung neuer Kandidaten // gemäss voriger Folie forall transactions t D do begin C t = subset(c k, t); // candidates contained in t forall candidates c C t do c.count++; end L k ={c C k c.count minsup} end Answer = k L k ; Abzählen für alle Transaktionen OHO
9 Ist Candidate Itemset in t enthalten? Wie führt man diese Überprüfung effizient für viele t durch? Verwendung eines Hash-Trees - Beispiel: Kandidaten: {1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {1 3 9}, {2 3 4} t = { } 1, {2 3 4} 1, , 9 {1 2 3} {1 2 4} {1 3 4} {1 3 5}, {1 3 9} Eplizit sagen: Was sind die gruenen Kanten? Hash-Baum: mehrere Werte fuer eine Kante Einfuegen neuer von oben. Blaetter haben Kapazitaet. Fuer jedes Element von t eine Ebene nach unten steigen. Ein Blatt mit mehreren Kandidaten OHO - 17 Ermitteln der Association Rules aus den Betrachtung aller Subsets a eines I. Noch einmal zur Erinnerung Regel X Y hat Support s gdw. s % der Transaktionen X und Y enthalten; Regel X Y hat Confidence c gdw. c % der Transaktionen, die X enthalten, enthalten auch Y; (bzw. enthalten auch X Y, ist egal) a (I - a) ist Association Rule, wenn Support(I) Support(a) >= minconf OHO
10 I={2,3,4} [40% Support] Subsets: minconf=75% {2,3} {4} Support(I) = 40% Support(a)= 50% {2} {3,4} Support(I) = 40% Support(a) = 80% Beispiel {2,3} {2,4} {3,4} {2} {3} {4} 50% 70% 60% 80% 60% 70% Confidence = 80 % OK! Confidence = 50 % NO! OHO
Kapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
MehrKapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrKapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
Mehr5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
MehrSkript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel
MehrKapitel 7: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel
MehrMining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:
MehrApriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
MehrKapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln
MehrKapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von
MehrFortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
MehrAlgorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
MehrXML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues dwesthue@techfak.uni-bielefeld.de 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrFernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus
FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
MehrData Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.
MehrHäufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrFrequent Itemset Mining und FP-Tree
Übung 4 Frequent Itemset Mining und FP-Tree Frequent Itemset Mining Motivation: Es existiert eine Datenbank mit vielen Einträgen Man möchte wissen, welche Einträge oft zusammen vorkommen Frequent Itemset
MehrKapitel 15: Mining von Sequential Patterns
Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen
MehrLernen von Assoziationsregeln
Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]
MehrApriori Algortihmus. Endpräsentation. Stefan George, Felix Leupold
Apriori Algortihmus Endpräsentation Stefan George, Felix Leupold Gliederung 2 Wiederholung Apriori Erweiterung: Parallelisierung Parallele Programmierung in Python Parallelisierungszenarien Implementierung
MehrData Mining. Informationssysteme, Sommersemester 2017
Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter
MehrAlgorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln
Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und missverständlichen Regeln PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz Prof. Katarina Morik und Stefan
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrDatenbanksysteme 2009
Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen
Mehr4. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrInformationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -
Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf
Mehr4.2 Constraints für Assoziationsregeln
4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln
MehrKapitel 17: Date Warehouse
Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical
MehrErmittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung
Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.
MehrVorlesung Methodische Grundlagen des Software-Engineering im Sommersemester 2013
Vorlesung des Software-Engineering im Sommersemester 2013 Prof. Dr. Jan Jürjens TU Dortmund, Fakultät Informatik, Lehrstuhl XIV Teil 2.3: Data-Mining v. 11.06.2013 1 [mit freundlicher Genehmigung basierend
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrKapitel 13: Pattern Mining unter Constraints
Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher
MehrData Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
MehrVII.3 Assoziationsregeln
VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln
MehrKapitel 2: Mathematik- und Informatik-Grundlagen
Kapitel 2: Mathematik- und Informatik-Grundlagen Data Warehousing und Mining - 1 einer Menge gibt an, wie zufällig die Daten in einer Menge verteilt sind (bzw. wie zufällig die Ausprägung eines Attributs
MehrVorlesung Data Warehousing und Mining Kapitel 1: Einleitung
Data Warehousing und Mining Kapitel 1: Einleitung Data Warehousing und Mining - 1 Gliederung dieses Kapitels für Datenanalyse (und Thema der ), Begriffsbildung Data Warehousing, im Bereich Data Warehousing,
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrFrequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
MehrGliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups
Seminar im Fach Informatik Sommersemester 2006 Sascha Rüger Gliederung 1. Einleitung 2. Data Mining Systeme 3. Auswertung 4. Weitere Untersuchungen 5. Fazit 1. Einleitung (1) wichtige Aufgabe der Datenanalyse:
MehrHäufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig
Mehr4. Assoziationsregeln. 4.1 Einleitung. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrDatenanalyse mit Data Mining
Datenanalyse mit Data Mining von Jan-Christoph Meier Hamburg, 19.01.2012 1 Ablauf Motivation Speicherung der Daten für das Data Mining Data Mining Algorithmen Ausblick auf die Masterarbeit Konferenzen
Mehr4.1 Einleitung. 4. Assoziationsregeln. 4.2 Einfache Assoziationsregeln. 4.1 Einleitung. Inhalt dieses Kapitels. Motivation. Assoziationsregeln
4.1 Einleitung 4. Assoziationsregeln Inhalt dieses Kapitels Transaktionsdatenbanken, Warenkorbanalyse 4.2 Einfache Assoziationsregeln Grundbegriffe, Aufgabenstellung, Apriori-Algorithmus, Hashbäume, Interessantheit
MehrAssoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger
Assoziationsmining Datalab Brown-Bag-Seminar Thoralf Mildenberger Institut für Datenanalyse und Prozessdesign School of Engineering Zürcher Hochschule für Angewandte Wissenschaften 09.07.2014 Thoralf Mildenberger
MehrMining conjunctive sequential patterns
Mining conjunctive sequential patterns Chedy Raïssi Toon Calders Pascal Poncelet Manh Linh Nguyen TU Dortmund Fakultät für Informatik Lehrstuhl 8.5.29 Inhalt. Einleitung 2. Mining von frequent sequences
MehrMoment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window
Institut für Informatik Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window Yun Chi, Haixun Wang, Philip S. Yu, Richard R. Muntz Hauptseminar Data Science - SS 2016 Team D: Julian
MehrHäufige Mengen ohne Kandidatengenerierung
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.
MehrMaschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
MehrInhalt. 7.1 Motivation. 7.2 Artikelmengen. 7.3 Assoziationsregeln. 7.4 Sequenzen. Entscheidungsunterstützende Systeme / Kapitel 7: Mustererkennung
7. Mustererkennung Inhalt 7.1 Motivation 7.2 Artikelmengen 7.3 Assoziationsregeln 7.4 Sequenzen 2 7.1 Motivation Mustererkennung (pattern mining) sucht in oft großen Datenmengen nach häufig auftretenden
Mehr6. Überblick zu Data Mining-Verfahren
6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse
MehrDBS5 Kap. 4. Data Mining
DBS5 Kap. 4 Data Mining Klassifikationen und Cluster-Bildung: Auffinden von Regeln zur Partitionierung von Daten in disjunkte Teilmengen (Anwendungsbeispiel: Risikoabschätzung) bzw. Herstellen von Gruppierungen
MehrVorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen
Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,
Mehr6. Überblick zu Data Mining-Verfahren
6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support
MehrEffiziente Algorithmen
Effiziente Algorithmen Aufgabe 5 Gruppe E Martin Schliefnig, 0160919 Christoph Holper, 9927191 Ulrike Ritzinger, 0125779 1. Problemstellung Gegeben ist eine Datei, die eine Million reelle Zahlen enthält.
MehrErkennung Sequenzieller Muster Algorithmen und Anwendungen
Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster
MehrData Mining im Einzelhandel Methoden und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.
MehrEntscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
MehrInduktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
MehrCognitive Interaction Technology Center of Excellence
Kanonische Abdeckung Motivation: eine Instanz einer Datenbank muss nun alle funktionalen Abhängigkeiten in F + erfüllen. Das muss natürlich immer überprüft werden (z.b. bei jedem update). Es reicht natürlich
Mehr5 Data Warehouses und Data Mining
5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher
MehrDatenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken
Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt
MehrID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
MehrDatenbanken Unit 11: Data Mining
Datenbanken Unit 11: Data Mining 11. VI. 2018 Organisatorisches Diesen Mittwoch UE-Abschlusstest (Gruppe 1: 17:30 18:30, Gruppe 2: 16:15 17:15 ) Klassifikation Outline 1 Organisatorisches 2 Data Mining
MehrData Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG
Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information
MehrWas wissen Sie jetzt?
Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der
MehrInduktive Beweise und rekursive Definitionen
Induktive Beweise und rekursive Definitionen Vorlesung Logik in der Informatik, HU Berlin 1. Übungsstunde Beweis durch vollständige Induktion über N Aufgabe 1 Zeige, dass für alle n N gilt: n 2 i = 2 n+1
MehrDatenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen
Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen 28. V. 2018 Outline 1 Organisatorisches 2 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 3 Ranking 4 SQL Organisatorisches Ergebnisse
MehrBeschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken
Diplomarbeit Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken Irina Alesker Diplomarbeit am Fachbereich Informatik der Universität Dortmund 23. Juni 2005 Betreuer: Prof.
MehrData Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen
Rückblick Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrDarstellung, Verarbeitung und Erwerb von Wissen
Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 169
MehrDarstellung, Verarbeitung und Erwerb von Wissen
Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169 Kapitel 5 Entscheidungsbäume
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
MehrDarstellung, Verarbeitung und Erwerb von Wissen
Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 169
MehrMaschinelles Lernen: Symbolische Ansätze
Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.
Mehr2. Vorlesung. 1.3 Beste-Antwort Funktion. Vorlesung: Einführung in die Spieltheorie WS 2006/ Oktober 2006 Guido Schäfer
LETZTE ÄNDERUNG: 15. NOVEMBER 2006 Vorlesung: Einführung in die Spieltheorie WS 2006/2007 2. Vorlesung 24. Oktober 2006 Guido Schäfer 1.3 Beste-Antwort Funktion Notation: Definiere A i := j N\{i} A j.
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrKapitel 4: Data Warehouse Architektur
Kapitel 4: Data Warehouse Architektur Data Warehousing und Mining 1 Data Warehousing, Motivation Zugriff auf und Kombination von Daten aus mehreren unterschiedlichen Quellen, Source Source Source komplexe
MehrKonzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
Mehr