Knowledge Discovery in Datenbanken I (IN5042)



Ähnliche Dokumente
Algorithmen auf Sequenzen (IN5022)

Einführung in die Programmierung (IN5002)

Algorithmische Bioinformatik I (IN5000)

Perlen der Bioinformatik: ENCODE (IN5096)

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%.

Exploration und Klassifikation von BigData

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Proseminar - Organisation und Personal Seminar Organisational Theory and Human Resource Management

Studieren probieren 2015

Grundlagen zur Biochemie (IN5167)

Biologie (IN5113) Vorlesung Credits 6. Arbeitsaufwand Präsenzstunden 60 Stunden

Fakultät für Mathematik- und Wirtschaftswissenschaften. Modulhandbuch. Brückenkurse. Sommersemester 2016

Einführung in die Informatik

Proseminar - Data Mining

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

WEKA A Machine Learning Interface for Data Mining

Überblick. 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation. 4.4 Outlier Detection

Bio-Inspired Credit Risk Analysis

Programmierpraktikum Bioinformatik (IN5032)

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

URL: Modulbeschreibung

Predictive Modeling Markup Language. Thomas Morandell

Studien- und Prüfungsordnung für Master- Studiengänge der Hochschule Aalen - Technik und Wirtschaft vom 2. Juni 2006

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Master-Seminar Innovative Industrial Software. Digitalization in Industry: Status Quo in different Domains and Regions

Wirtschaftsprüfung. Modulschlüssel: Leistungspunkte:

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester Prof. Dr. R. D. Reiß

URL: Modulbeschreibung

Semester: -- Workload: 150 h ECTS Punkte: 5

Data/Information Quality Management

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Data Mining-Modelle und -Algorithmen

Tag der Bekanntmachung im NBl. HS MSGWG Schl.-H.: , S. 77 Tag der Bekanntmachung auf der Homepage der UL:

Seminar Führung von Familienunternehmen (Bachelor)

Clustering Seminar für Statistik

(1) Für die Lehrveranstaltungen werden folgende Abkürzungen verwendet:

Aktuelle Themen für die Masterstudiengänge Wirtschaftsingenieurwesen 1

Hinweise für das Studium für Studierende des 5. Fachsemesters. Alles, was Schwarz geschrieben ist, gilt für alle Studierende.

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

Double Degree: Bachelor in Philosophie, Politik und Ökonomik und in Commerce. 2C2D The best of both worlds!

GERMAN LANGUAGE COURSE SYLLABUS

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Selected Topics in Machine Learning and Reverse Engineering

Data Mining und Knowledge Discovery in Databases

Die Naturwissenschaftlich-Technische Fakultät 6 der Universität des Saarlandes Fachrichtung Informatik

Mathematische Grundlagen

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Modulbeschreibung TBB Internationale Technische Betriebswirtschaft

Kapitel 11* Grundlagen ME. Aufbau eines ME-Systems Entwicklung eines ME-Systems. Kapitel11* Grundlagen ME p.1/12

Knowledge Discovery. Lösungsblatt 1

Einführung in die Informatik

Lean Six Sigma als Instrument für die Messung von ITIL -Prozessen

Efficient Design Space Exploration for Embedded Systems

Master Logistik. Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3. Anzahl der SWS.

UNIGRAZONLINE. With UNIGRAZonline you can organise your studies at Graz University. Please go to the following link:

Studieninformationsveranstaltung. Informatik. Institut für Informatik IV Universität Bonn. Tel.: 0228/

0 Einführung: Was ist Statistik

Microsoft Azure Fundamentals MOC 10979

Kurze Einführung in Web Data Mining

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall Hochschule Furtwangen

Mathematisch-algorithmische Grundlagen für Big Data

(Stand: )

Bachelor-Studiengang Angewandte Informatik mit einem Fachanteil von 100%

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Die Fachspezifische Anlage 7.1 erhält die in Anlage 1 dieser Ordnung beigefügte Fassung.

Studien- 1. Sem./ 2. Sem. Kontaktzeit. 14 h

Business Intelligence & Machine Learning

Das Institut für Wirtschaftsinformatik und Neue Medien im Master-Studiengang Medieninformatik mit Anwendungsfach Medienwirtschaft

Inhaltsverzeichnis. Holger Schrödl. Business Intelligence mit Microsoft SQL Server BI-Projekte erfolgreich umsetzen ISBN:

Übersicht: Modul 2. Methoden der empirischen Sozialforschung, Statistik und computergestützte Datenanalyse. Dr. H.-G. Sonnenberg

Text Mining Praktikum. Durchführung: Andreas Niekler Zimmer: Paulinum (P) 818

Studien- und Prüfungsordnung für Master-Studiengänge der Hochschule Aalen (SPO 30) vom 15. Juli 2013

IMW - Institutsmitteilung Nr. 37 (2012) 79

Daten haben wir reichlich! The unbelievable Machine Company 1

Modulbeschreibung. Distributed Algorithms. Titel des Moduls: Stand: LP (nach ECTS): 6

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

Ergänzung zum Modulhandbuch

Masterstudium Informatik CURRICULUM 2006 IN DER VERSION 2013 MICHAEL KRISPER, BASISGRUPPE INFORMATIK & SOFTWAREENTWICKLUNG

Herausforderungen und Lösungsstrategien

Mensch-Maschine-Interaktion 2 Übung 1

/A13. Inhalt. Anlage 1: Beispielstudienplan Anlage 2: Studien- und Prüfungsplan

VPN / IPSec Verbindung mit dem DI 804 HV und dem SSH Sentinel

Proseminar - Data Mining

An Introduction to Monetary Theory. Rudolf Peto

LEHRVERANSTALTUNGSBESCHREIBUNG

FAQs zum Bachelorstudiengang Software Engineering PO-Version Allgemeine Informationen zum Bachelorstudiengang Software Engineering

SHARE_Personas Stimulierungsprojekt FFG Programm Benefit 5. Aussschreibung. Bernhard Wöckl Mai 2010

EMV und Medizinprodukte

Seminar: Software Engineering verteilter Systeme

Beschreibung der Inhalte und Lernziele des Moduls/ der Lehrveranstaltung. Unterrichtsform Punkte I II III IV

Vgl. die Literaturangaben bzw. Hinweise der einzelnen Lehrveranstaltungen

Ausbildungsordnung für den EFA European Financial Advisor (in der Fassung vom )

Modulhandbuch. Master of Arts - Englische Linguistik - ab WS05/06

Master of Science (M.Sc.)

Schwerpunkt Statistik

Bachelor-Seminar Eingebettete Interaktive Systeme. Farming 4.0: Agriculture in the Context of Digitalization

Transkript:

Knowledge Discovery in Datenbanken I (IN5042) Titel Knowledge Discovery in Databases I Typ Vorlesung mit Übung Credits 6 ECTS Lehrform/SWS 3V + 2Ü Sprache Deutsch Modulniveau Master Arbeitsaufwand Präsenzstunden 75 Stunden Eigenstudium 105 Stunden Gesamtaufwand 180 Stunden Angestrebte Lernergebnisse Die Studierenden kennen den grundlegenden Prozess des Knowledge Discovery in Datenbanken und die einzelnen Schritte dieses Prozesses sowie die grundliegenden Problemstellung im Data Mining (wie z.b. Feature Transformation, Suche nach häufigen Mustern, Musterevaluation). Sie sind in der Lage, Merkmalsräume, Ähnlichkeitsmaße und Distanz- Metriken zu beschreiben, zu analysieren, zu bewerten und gezielt anzuwenden. Sie sind in der Lage, grundlegende Verfahren (wie z.b. Clustering-Methoden, Klassifikatoren, Outlier Detection Methoden, Regressionsverfahren) in verschiedene Bereiche des Data Mining zu beurteilen, auszuwählen und gezielt einzusetzen sowie die gefundenen Muster und Funktionen zu evaluieren und kritisch zu interpretieren. Sie sind in der Lage, für ein gegebenes Problem (wie z.b. Erkennen von Spam Emails, Warenkorbanalyse, Clustern von Bildinhalten) einen Knowledge Discovery Prozess zu entwerfen und umzusetzen sowie aus den vorhanden Verfahren geeignete Verfahren auszuwählen und an diese Probleme anzupassen. Intended Learning Outcomes Students are able to reproduce the process of knowledge discovery and fundamental problems of data mining (e.g. feature transformation, frequent pattern mining, pattern evaluation). They are able to describe, to analyze, to evaluate and to apply feature spaces, similarity measures, and distance metrics. They are able to employ and implement methods (e.g. clustering methods, classification methods, regression methods, outlier detection methods) for data mining tasks and to

evaluate the computed patterns and functions. They are able to design and implement knowledge discovery processes for given problem settings (e.g. spam detection, market basket analysis, or image clustering) and to select the best suited data mining methods for these problem settings. Inhalt Knowledge Discovery and Data Mining: Definition Knowledge Discovery und Data Mining Der KDD Prozess (einzelne Schritte, iterativer Ablauf) Supervised und Unsupervised Learning Grundliegende Aufgaben des Data Mining: Klassifikation, Clustering, Outlier Detection, Regression, Frequent Pattern Mining. Merkmalsräume: Wahrscheinlichkeitsverteilungen (einfache univariate und multivariate Verteilungen, Abhängigkeit von Zufallsvariablen) Distanzmaße und Ähnlichkeitsmaße (mathematische Eigenschaften wie Reflexivität, Symmetrie, Transitivität) Beispiele für Feature-Transformationen (z.b. Farbhistogramme, Bag of Words) einfache Verfahren zu Feature Selection (z.b. greedy forward selection) einfache Verfahren der Feature Reduction (z.b. PCA) Klassifikation: Evaluation von Klassifikatoren (Testschemata z.b. Crossvalidation, Bootstraping, leaveone-out, Metriken ) Formale Aspekte des Lernens (Generalisierung, Overfitting, Problemdefinition) Entscheidungsbäume Bayes-Klassifikationen (naive Bayes, Bayes- Netze, diskrete und kontinuierliche Verteilungen) Instanzbasierte Klassifikation. fortgeschrittene Klassifikationsverfahren ( z.b. Support Vector Maschinen, Neuronale Netze, Gauss Klassifikatoren, logistische Regression) regelbasierte Klassifikation und Inductive logical programming Deep Learning Methoden Regression: Problemdefinition (Bewertung von

Regressionsmodellen) einfache lineare Regressionsmodelle Grundlegende Verfahren der multivariaten Regression fortgeschrittene Regressionsverfahren (z.b. kernelbasierte Regression, instanzbasierte Regression). Clustering: Problemdefinition (Zielsetzung, Abgrenzung zur Klassifikation) Partitionierende Clusteringmethoden (k-means, Expectation Maximization, weitere Verfahren z.b. PAM, CLARANCE, k-modes) Dichtebasiertes und hierarchische Clustering (z.b. DBSCAN, OPTICS, Single Link) Self Organizing Maps graphbasiertes Clustering und Spectral Clustering [optinaol] Clusterevaluation Outlier Detection: Aufgabenstellung (verschiedene Outlier Definitionen, Abgrenzung zu Clustering und Klassifikation) statistische Outlier distanzbasierte Outlierfaktoren lokale Outlier (z.b. LOF). fortgeschrittene Verfahren (z.b. ABOD) Evaluation von Outlierverfahren Frequent Itemset Mining und Assoziationsregeln: Einführung Pattern Mining (Häufigkeit, Konfidenz, Monotonie) Frequent Itemset Mining (Suchraum, Apriori) Assozitionsregeln (Ableitung, Interessantheit) weiterführende Algorithmen zur Berechnung von frequent Itemsets Datenstrukturen zur Suche in frequent Itemsets Contents Knowledge Discovery and Data Mining: Definition Knowledge Discovery and Data Mining KDD Process (different steps, iterative approach) Supervised and unsupervised learning Basic Data Mining tasks: Classification, Clustering, Outlier Detection, Regression, Frequent Pattern Mining. Feature Spaces:

Probability distributions (simple univariate and multivariate distributions, dependency of random variables) Distance and similarity measures (mathematical characteristics such as reflexivity, symmetry, transitivity) Examples for simple feature transformations (e.g. color histograms, bag of words) simple methods for feature selection (e.g. greedy forward selection) simple methods for feature reduction (e.g. PCA) Classification: Classifier evaluation (testing schemes e.g. cross validation, bootstrapping, leave-one-out, evaluation metrics) Formal aspects of learning (generalization, overfitting) Decision trees Bayes classifier (naive Bayes, Bayesian networks) instance based Classification advanced classification methods (e.g. support vector machines, neuronal Networks, Gaussian classifiers, logistic regression) rule-based classifiers and inductive logical programming deep learning Regression: Problem definition (Evaluation of regression functions) Simple linear regression Basic methods for multivariate regression Advanced regression methods (e.g. kernel based regression, instance-based regression) Clustering: Problem definition (aims, difference to classification) Partitioning clustering methods ( k-means, expectation maximization, further methods e.g. PAM, CLARANCE, k-modes) Density-based and hierarchical clustering (e.g. DBSCAN, OPTICS, Single Link) Self organizing maps Graph-based clustering and spectral clustering Evaluation of clusterings Outlier Detection:

General setting (various outlier definitions, differences to clustering and classification) statistic outliers distance-based outliers local outlier (e.g. LOF) Advanced methods for outlier detection (e.g. ABOD) Evaluation of outlier detection methods Frequent Itemset Mining and Association Rules: Introduction to Pattern Mining (Frequency, Confidence, Monotony) Frequent Itemset Mining (Search space, apriori method) Association rules (computation, interestingness) Advanced algorithms for frequent itemset computation Data structures to facilitate frequent itemset mining Prüfung Prüfungsleistung (benotet): -Klausur: 90 min Wiederholungsklausur zu Ende des Semesters. Details werden zu Beginn des Moduls bekannt gegeben. In der Klausur weisen die Studierenden nach, inwieweit sie die vorgestellten Prozesse, Modelle und Verfahren verstanden haben, komprimiert wiedergeben und anwenden sowie auf verwandte Problemstellungen übertragen können. In der Klausur werden 7 bis 10 Aufgaben gestellt, die eine eigenständige Beschreibung der Prozessdefinition, Auswahl und Anwendung grundlegender Verfahren (wie zum Beispiel die Anwendung von Klassifikatoren, Clustering Verfahren und Methoden des Frequent Itemset Mining), Evaluierung von Ergebnissen und Entwurf eines Knowledge Discovery Prozesses erfordern. Examination Examination requirements (graded): - written exam: 90 min A makeup exam will be offered at the end of the semester, details will be announced at the beginning of the course. Within the written exam, students demonstrate that they understand the presented processes, models, and

methods, that they can reproduce and apply them as well as that they can transfer and extend models and methods to similar problems. The written exam consist of 7 to 9 assignments, which require the description of process definitions, selection and application of the basic methods (e.g. the application of classifiers, clustering methods and method for frequent itemset mining etc.), the evaluation of the results and the development of a KDD process for a given task. Literatur/Literature Medienformen Media Lehr- und Lernmethode Teaching and Learning Methods Turnus Modulverantwortlicher Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques, 3. Auflage, Morgan Kaufmann, 2011 Tan P.-N., Steinbach M., Kumar V.: Introduction to Data Mining, Addison-Wesley, 2006 Mitchell T. M.: Machine Learning, McGraw-Hill, 1997 Ester M., Sander J.: Knowledge Discovery in Databases: Techniken und Anwendungen, Springer Verlag, 2000 Witten I. H., Frank E., Hall M. A.: Data Mining: Practical Machine Learning Tools and Techniques 3. Auflage, Morgan Kaufmann, 2011 Beamer-Präsentation, Tafelpräsentation, Handout slides show, blackboard presentation, handouts Vorlesung, Übung, Aufgaben zum Selbststudium. Das Modul besteht aus einer Vorlesung und Übungen in kleinen Gruppen (als Tutorübungen). In den Hausaufgaben, die freiwillig abzugeben sind, analysieren die Studierenden die in der Vorlesung vorgestellten Prozesse, Modelle und Verfahren, wenden diese auf konkrete Daten an und erweitern diese für ähnliche Problemstellungen. In den Hausaufgaben werden selbständig anspruchsvolle Übungsaufgaben bearbeitet, die ähnlich zu den Klausuraufgaben sind (siehe oben) und daher zur Vorbereitung darauf dienen. In der Übung werden mögliche Lösungsstrategien der Aufgaben zum Selbststudium diskutiert. Lecture, tutorial, assignments for individual study. Within the assignments (the submission is optional) students analyze the processes, models, and methods presented in the corresponding lectures, apply them to real data, and extend these to similar problems. The assignments consist of demanding problems similar to the assignments in the written exam (for details see above) and serve as a preparation for the exam. Within the tutorials possible approaches for solutions of the assignments will be discussed. Sommersemester PD Dr. Matthias Schubert

Dozenten PD Dr. Matthias Schubert