(Pro-)Seminar - Data Mining Vorbesprechung SCCS, Fakultät für Informatik Technische Universität München SS 2018
Data Mining: Beispiele (1) Hausnummererkennung (Klassikation) Source: http://arxiv.org/abs/1312.6082
Data Mining: Beispiele (2) Image Segmentation (Clustering)
Data Mining: Beispiele (3) Ähnliche Gene (Clustering) [Hastie et al.]
Data Mining: Beispiele (4) Vorausschauender Versand (Klassikation) Source: http://1.usa.gov/19x75t9
Warum Data Mining? Data Scientist: The Sexiest Job of the 21st Century (Harvard Business Review) We are drowning in information and starving for knowledge. (Rutherford D. Roger) The future belongs to the companies and people that turn data into products. (Mike Loukides, O'Reilly) Rank 5 in Computerworld's Top IT skills wanted for 2012 Rank 1 in Computerworld's IT skills that employers can't say no to http://www.itjobswatch.co.uk/jobs/uk/datascientist.do http: //www.itjobswatch.co.uk/jobs/uk/softwaredeveloper.do
Finding Data Science Unicorn
Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen aus Daten extrahieren Planung. Finden des Problems. Was soll gemacht werden? Dafür nötige Daten sammeln. Aufbereitung. Rohdaten (unvollständig, redundant, verschiedene Formate, Einheiten, etc.) werden in eine brauchbare Form gebracht. Modellbildung. Daten werden mit verschiedenen Methoden (Regression, Klassikation, Clustering, etc.) analysiert. Auswertung. Interpretation und Auswertung der Ergebnisse.
Themen I Überblick Data Mining Pipeline Software: Spark und Zeppelin Software: Python Software: R Hardware: GPUs Hardware: CPUs und TPUs Autodi Statistics for Datamining Numerische Optimierung
Themen II Aufbereitung von Daten, Pre-Processing Lineare Modelle für Regression und Klassikation Lernen mit Kernels Support Vector Machines Entscheidungsbäume Association Rules Graph Mining
Themen III Clustering Dichteschätzung Neuronale Netze I: Grundlagen Neuronale Netze II: Deep Learning Neuronale Netze III: Deep Learning Software (TensorFlow) Ensemble Learning Principal Component Analysis
Themen IV Bayesian Machine Learning Markov Chain Monte Carlo Spam Filtering with Naive Bayes Classier Recommender Systems Data Mining in Science Data Mining für soziale Netzwerke Data Mining und Gesellschaft: Datenschutz, Verantwortung, usw.
Reviews Jede Ausarbeitung wird von zwei anderen Teilnehmern überprüft. Dabei wird geachtet auf: Inhaltliches: Wissenschaftlichkeit, Verständlichkeit, Zusammenhänge klar, Beispiele hilfreich,... Formelles: Sinnvolle Struktur der Ausarbeitung, Richtig zitiert, Graken mit Quelle versehen,... Sprachliches: Rechtschreib- und Grammatikfehler (sollten eigentlich keine vorhanden sein ;-) ) Damit der Review-Prozess funktionniert, muss die Ausarbeitung zur Deadline abgegeben werden! Der Stand der Ausarbeitung ist dabei "Release Candidate", nicht alpha oder beta Nach Abgabe der Reviews: Einarbeitung der Anmerkungen in die eigene Ausarbeitung Dann: Abgabe der nalen Ausarbeitung beim Betreuer
Organisatorisches I Jedem Teilnehmer wird ein Betreuer zugewiesen Vortrag: ca. 20min + Diskussion Ausarbeitung: mind. 5 und max. 6 Seiten (L A TEX) im IEEE Format (Webseite), excl. Quellenangaben. Wichtige Termine: Anmeldung bei Betreuern (3 Themen) bis 14. Februar, über das Anmeldeformular (LS Webseite) Anmeldung im Matching System 9.02.18 bis 14.02.18 http://www.in.tum.de/en/current-students/modules-and-courses/ practical-courses-and-seminar-courses.html Themenzuteilung: 22.2.18 oder 23.2.18
Organisatorisches II Webseite: Obligatorische Termine: 1. Kick-O Veranstaltung am voraussichtlich 10.4. 2. Literaturrecherche Workshop am 17.4. 3. Vortragstermin wird (geblockt) zugeteilt, voraussichtlich 12.-14.6. 4. Am Tag des ersten Vortrages - Abgabe der Ausarbeitung 5. 1 Woche nach dem ersten Vortrag - Einreichung der Reviews 6. 2 Wochen nach dem ersten Vortrag - Einreichung der fertigen Ausarbeitung http://www5.in.tum.de/wiki/index.php/proseminar_data_mining_-_summer_18 oder http://www5.in.tum.de Teaching Summer 18 Proseminar - Data Mining
Die ersten Schritte im Seminar Kontaktiere deinen Betreuer wegen dem Thema und Referenzen (falls noch keine erhalten). Mache ein LaTeX Tutorial, z.b. online. Lade das IEEE Template und lerne die Struktur kennen. Lese das IEEE Editorial Style Manual, markiere für diese Arbeit relevante Teile und nutze es später als Nachschlagewerk. Vor der ersten Abgabe der Ausarbeitung Mache eine automatische Rechtschreibkorrektur. Gehe durch die Checkliste auf der LS Webseite. Hast du alle Punkte berücksichtigt? Überprüfe ob die Regeln aus IEEE Editorial Style Manual berücksichtigt sind. Vor der letzten Abgabe der Ausarbeitung Mache die gleichen Schritte wie bei der ersten Abgabe. Überprüfe ob die Angaben im Literaturverzeichnis korrekt sind.