Proseminar - Data Mining

Größe: px

Ab Seite anzeigen:

Download "Proseminar - Data Mining"

Silke Melsbach
vor 8 Jahren
Abrufe

1 Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS

2 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen aus Daten extrahieren Planung. Finden des Problems. Was soll gemacht werden? Dafür nötige Daten sammeln. Aufbereitung. Rohdaten (unvollständig, redundant, verschiedene Formate, Einheiten, etc.) werden in eine brauchbare Form gebracht. Modellbildung. Daten werden mit verschiedenen Methoden (Regression, Klassifikation, Clustering, etc.) analysiert. Auswertung. Interpretation und Auswertung der Ergebnisse., SS

Rohdaten (unvollständig, redundant, verschiedene Formate, Einheiten, etc.) werden in eine brauchbare Form gebracht.

3 Warum Data Mining? We are drowning in information and starving for knowledge. (Rutherford D. Roger) The future belongs to the companies and people that turn data into products. (Mike Loukides, O Reilly) Rank 5 in Computerworld s Top IT skills wanted for 2012 Rank 1 in Computerworld s IT skills that employers can t say no to, SS

Roger) The future belongs to the companies and people that turn data into products.

4 Beispiele (1) Handschrifterkennung (Klassifikation), SS

5 Beispiele (2) Image Segmentation (Clustering), SS

6 Beispiele (3) Ähnliche Gene (Clustering) [Hastie et al.], SS

7 Beispiele (4) Ähnliche Verschiebungen bei Crash (Clustering), SS

8 Themen (1) Überblick Genauere Darstellung der Data Mining Pipeline Beispiele wo Data Mining verwendet wird Einsatz von Data Mining in Industrie Software: Matlab und R Software: Weka Software: RapidMiner Software: Google Prediction API Überblick: Data at Scale Wie große Datenmengen speichern und verwalten? Welcher Einsatzbereich? Hadoop, Cassandra, BigTable,... Aufbereitung von Daten, Pre-Processing, SS

Software: Google Prediction API Überblick: Data at Scale Wie große Datenmengen speichern und verwalten?

9 Themen (2) Lineare Modelle für Regression Was sind lineare Modelle? Wieso lineare Modelle? Welche? Was ist Regression? Beispiele. Lineare Modelle und Logistische Regression für Klassifikation Klassifikation mit Thresholding Vergleich mit z.b. k-nearest Neighbor Entscheidungsbäume Merkmale in Reihenfolge der Wichtigkeit überprüfen Es entsteht ein Baum, SS

Lineare Modelle und Logistische Regression für Klassifikation Klassifikation mit

10 Themen (3) Association Rules Finde gemeinsame Belegung von Variablen die möglichst oft in Datenbank auftritt Z.B.: Bier und Windeln werden of zusammen gekauft Clustering Finde Struktur in Daten, kein outcome vorhanden k-means, mixture of gaussians Dichteschätzung Schätzen der Dichte P eines gegebenen Datensatzes X = {x 1,..., x M }. Histogram, Kerndichteschätzer, etc. Reinforcement Learning Das System bekommt sofort Feedback und reagiert darauf Welche Verfahren gibt es? Anwendungsbeispiele?, SS

: Bier und Windeln werden of zusammen gekauft Clustering Finde Struktur in Daten, kein outcome vorhanden k-means, mixture of

11 Themen (4) Neuronale Netze I Neuronale Netze II Ensemble Learning Verbinde mehrere verschiedene Algorithmen Gewichte einzelne Antworten entsprechend AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss), SS

einzelne Antworten entsprechend AdaBoost Kann als Ensemble

12 Themen (5) Hauptkomponentenanalyse Natural Language Processing Latent Semantic Indexing Latent Dirichlet allocation Big Learning Stochastic Gradient Descent Map-Reduce Parallelization Spam Filtering with Naive Bayes Classifier Recommender Systems with Colaborative Filtering Sequential Data, SS

Gradient Descent Map-Reduce Parallelization Spam Filtering with Naive Bayes

13 Themen (6) Support Vector Machines Classification with Sparse Grids Semi-Supervised Learning Time Series Non-Linear Clustering Non-Linear Dimensionality Reduction (1) (Kernel PCA, ICA) Non-Linear Dimensionality Reduction (2) (Spectral Methods), SS

Clustering Non-Linear Dimensionality Reduction (1) (Kernel PCA,

14 Tipps zur Recherche 1. Google Scholar und Google (filetype:pdf) 2. eaccess Zugriff mit MyTUM Account 20eAccess Funktioniert für Springer, ACM, IEEE (nicht Computer Society!), etc. 3. Zeitschriften/Proceedings über EZB suchen 4. Manche Bücher elektronisch über OPAC-Katalog abrufbar ( Volltext Button), SS

de/eaccess#bookmarklet%20f%c3%bcr% 20eAccess Funktioniert für Springer, ACM, IEEE (nicht Computer

15 Organisatorisches Jedem Teilnehmer wird ein Betreuer zugewiesen Vortrag: ca. 20min + Diskussion Ausarbeitung: 5 Seiten (L A T E X) im IEEE Format (Webseite), excl. Quellenangaben. Vortragstermin wird (geblockt) zugeteilt Kein Vortrag vor dem 15. Juni 2012! Webseite: oder Teaching Summer 12 Proseminar - Data Mining, SS

Vortragstermin wird (geblockt) zugeteilt Kein Vortrag vor dem 15. Juni 2012! Webseite: http://www5.in.tum.

Ähnliche Dokumente

Proseminar - Data Mining

Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,