Proseminar - Data Mining



Ähnliche Dokumente
Proseminar - Data Mining

Proseminar - Data Mining

(Pro-)Seminar - Data Mining

Exploration und Klassifikation von BigData

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Prof. Dr.-Ing. Rainer Schmidt 1

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Text Mining Praktikum. Durchführung: Andreas Niekler Zimmer: Paulinum (P) 818

WEKA A Machine Learning Interface for Data Mining

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Online-Dienste des EPA

Die Naturwissenschaftlich-Technische Fakultät 6 der Universität des Saarlandes Fachrichtung Informatik

Herzlich Willkommen. Der Weg zur eigenen Homepage. vorgestellt von Frank Kullmann

Professionelle Seminare im Bereich MS-Office

Data Mining und maschinelles Lernen

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Elementare Bildverarbeitungsoperationen

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Entscheidungsunterstützende Systeme

Einführung in die Programmierung Laborübung bei Korcan Y. Kirkici. 12.Übung bis

Text-Mining: Einführung

Seminar aus Netzwerke und Sicherheit

FEHLER! TEXTMARKE NICHT DEFINIERT.

Apache HBase. A BigTable Column Store on top of Hadoop

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

ERSTE SCHRITTE.

Internationales Altkatholisches Laienforum

Anleitung für die Umstellung auf das plus Verfahren mit manueller und optischer Übertragung

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Einrichten des Elektronischen Postfachs

bitte auf den Button Baudaten-Fenster öffnen klicken. (oder über das Menü -> STAMMDATEN -> BAUDATEN anklicken)

Mining High-Speed Data Streams

Download unter:

UserManual. Handbuch zur Konfiguration einer FRITZ!Box. Autor: Version: Hansruedi Steiner 2.0, November 2014

Gut zu wissen: Hilfe für ereader-einsteiger Leitfaden Nr. 2: Wie lade ich meine ebooks in das Programm Adobe Digital Editions?

PRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer

Big & Smart Data. bernard.bekavac@htwchur.ch

Lizenz Verwaltung. Adami Vista CRM

Das neue Tech Data Software Download Portal

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Leitfaden E-Books Apple. CORA E-Books im ibook Store kaufen. Liebe Leserinnen und Leser, vielen Dank für Ihr Interesse an unseren CORA E-Books.

Online bezahlen mit e-rechnung

Benutzerverwaltung Business- & Company-Paket

Digitale Schule vernetztes Lernen. Berlin, 07. Mai 2014

Handbuch - Mail-Sheriff Verwaltung

FAQ Kunden - elektronischer Kontoauszug (eka)

Fragebogen: Abschlussbefragung

Updatehinweise für die Version forma 5.5.5

Seminar Programmierung und Reaktive Systeme

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Für die Einrichtung des elektronischen Postfachs melden Sie sich wie gewohnt in unserem Online-Banking auf an.

Das Stationsportal der DB Station&Service AG - Das Rollenkonzept. DB Station&Service AG Vertrieb Stationsportal Berlin, Juli 2015

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

Content Management System mit INTREXX 2002.

BITte ein BIT. Vom Bit zum Binärsystem. A Bit Of Magic. 1. Welche Werte kann ein Bit annehmen? 2. Wie viele Zustände können Sie mit 2 Bit darstellen?

Business Analytics im E-Commerce

Titel BOAKdurch Klicken hinzufügen

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Google Analytics einrichten

NODELOCKED LIZENZ generieren (ab ST4)

Internet Explorer Version 6

Anbieter auf dem Foto-Marktplatz werden

Elektronischer Kontoauszug

Leitfaden für E-Books und Reader von Sony

Anleitung für die Synchronisation aus einem iphone-backup

Verborgene Schätze heben

Kurzanweisung für Google Analytics

Fragebogen zur Nutzung des Angebots der Hochschulbibliothek an elektronischen Medien:

DOKUMENTATION VOGELZUCHT 2015 PLUS

Quick Guide Mitglieder

vinsight BIG DATA Solution

Das Roaming Cockpit. Inhalt. 1 Das Roaming Cockpit Aufrufen des Roaming Cockpit über den Browser... 3

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Executive Information. SAP HANA Ihr Weg zum In-Memory-Computing

Online - Zusammenarbeit bei Google

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Operator Guide. Operator-Guide 1 / 7 V1.01 / jul.12

Vorlesung Automotive Software Engineering Prüfung Sommersemester 2015

Tutorials für ACDSee 12: Hochladen von Fotos auf Ihren Account bei ACDSeeOnline.com

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Referenzprojekt Lenka B. Seite 1

Durch Drücken des Buttons Bestätigen (siehe Punkt 2) wird Ihre an Ihr Outlookpostfach weiterleiten.

Institut für Telematik Universität zu Lübeck. Programmieren. Kapitel 0: Organisatorisches. Wintersemester 2008/2009. Prof. Dr.

Kleine Einführung in die lineare Regression mit Excel

Installationshinweise und Systemvoraussetzungen

teischl.com Software Design & Services e.u. office@teischl.com

Dokumentation Typo3. tt - news - Nachrichtenmodul

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

schiller software PLUS vollkomm vdms Vollstreckungs-DokumentenManagement Effektives Vollstreckungsmanagement!

Einführung Web-GIS. Schmidt/Kelz: GIS an Schulen 1

RT Request Tracker. Benutzerhandbuch V2.0. Inhalte

Workshop für das Präsentations-Tool Prezi

UNIGLAS - Handbuch zum Forum

Übersichtlichkeit im Dokumentenmanagement

Transkript:

Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1

Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen aus Daten extrahieren Planung. Finden des Problems. Was soll gemacht werden? Dafür nötige Daten sammeln. Aufbereitung. Rohdaten (unvollständig, redundant, verschiedene Formate, Einheiten, etc.) werden in eine brauchbare Form gebracht. Modellbildung. Daten werden mit verschiedenen Methoden (Regression, Klassifikation, Clustering, etc.) analysiert. Auswertung. Interpretation und Auswertung der Ergebnisse., SS 2012 2

Warum Data Mining? We are drowning in information and starving for knowledge. (Rutherford D. Roger) The future belongs to the companies and people that turn data into products. (Mike Loukides, O Reilly) Rank 5 in Computerworld s Top IT skills wanted for 2012 Rank 1 in Computerworld s IT skills that employers can t say no to, SS 2012 3

Beispiele (1) Handschrifterkennung (Klassifikation), SS 2012 4

Beispiele (2) Image Segmentation (Clustering), SS 2012 5

Beispiele (3) Ähnliche Gene (Clustering) [Hastie et al.], SS 2012 6

Beispiele (4) Ähnliche Verschiebungen bei Crash (Clustering), SS 2012 7

Themen (1) Überblick Genauere Darstellung der Data Mining Pipeline Beispiele wo Data Mining verwendet wird Einsatz von Data Mining in Industrie Software: Matlab und R Software: Weka Software: RapidMiner Software: Google Prediction API Überblick: Data at Scale Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop, Cassandra, BigTable,... Aufbereitung von Daten, Pre-Processing, SS 2012 8

Themen (2) Lineare Modelle für Regression Was sind lineare Modelle? Wieso lineare Modelle? Welche? Was ist Regression? Beispiele. Lineare Modelle und Logistische Regression für Klassifikation Klassifikation mit Thresholding Vergleich mit z.b. k-nearest Neighbor Entscheidungsbäume Merkmale in Reihenfolge der Wichtigkeit überprüfen Es entsteht ein Baum, SS 2012 9

Themen (3) Association Rules Finde gemeinsame Belegung von Variablen die möglichst oft in Datenbank auftritt Z.B.: Bier und Windeln werden of zusammen gekauft Clustering Finde Struktur in Daten, kein outcome vorhanden k-means, mixture of gaussians Dichteschätzung Schätzen der Dichte P eines gegebenen Datensatzes X = {x 1,..., x M }. Histogram, Kerndichteschätzer, etc. Reinforcement Learning Das System bekommt sofort Feedback und reagiert darauf Welche Verfahren gibt es? Anwendungsbeispiele?, SS 2012 10

Themen (4) Neuronale Netze I Neuronale Netze II Ensemble Learning Verbinde mehrere verschiedene Algorithmen Gewichte einzelne Antworten entsprechend AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss), SS 2012 11

Themen (5) Hauptkomponentenanalyse Natural Language Processing Latent Semantic Indexing Latent Dirichlet allocation Big Learning Stochastic Gradient Descent Map-Reduce Parallelization Spam Filtering with Naive Bayes Classifier Recommender Systems with Colaborative Filtering Sequential Data, SS 2012 12

Themen (6) Support Vector Machines Classification with Sparse Grids Semi-Supervised Learning Time Series Non-Linear Clustering Non-Linear Dimensionality Reduction (1) (Kernel PCA, ICA) Non-Linear Dimensionality Reduction (2) (Spectral Methods), SS 2012 13

Tipps zur Recherche 1. Google Scholar und Google (filetype:pdf) 2. eaccess Zugriff mit MyTUM Account http://www.ub.tum.de/eaccess#bookmarklet%20f%c3%bcr% 20eAccess Funktioniert für Springer, ACM, IEEE (nicht Computer Society!), etc. 3. Zeitschriften/Proceedings über EZB suchen http://www.ub.tum.de/ejournals 4. Manche Bücher elektronisch über OPAC-Katalog abrufbar ( Volltext Button), SS 2012 14

Organisatorisches Jedem Teilnehmer wird ein Betreuer zugewiesen Vortrag: ca. 20min + Diskussion Ausarbeitung: 5 Seiten (L A T E X) im IEEE Format (Webseite), excl. Quellenangaben. Vortragstermin wird (geblockt) zugeteilt Kein Vortrag vor dem 15. Juni 2012! Webseite: http://www5.in.tum.de/wiki/index.php/proseminar_data_mining_-_summer_12 oder http://www5.in.tum.de Teaching Summer 12 Proseminar - Data Mining, SS 2012 15