Data Science (WS 2017/2018) Klaus Berberich

Größe: px

Ab Seite anzeigen:

Download "Data Science (WS 2017/2018) Klaus Berberich"

Simon Kopp
vor 6 Jahren
Abrufe

1 1

2 Data Science (WS 2017/2018) Klaus Berberich

3 0. Organisation

4 Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Neuronale Netze 6. Assoziationsanalyse 7. Visualisierung Data Science / Kapitel 0: Organisation 4

5 Vorlesung und Übung Vorlesung und Übung Mittwoch, 08:15 09:45 (1. Stunde), Raum 7110 Mittwoch, 10:00 11:45 (2. Stunde), Raum 7110 Übungen etwa alle 14 Tage in der 2. Stunde Data Science / Kapitel 0: Organisation 5

6 Prüfung Schriftliche Klausur am Ende des Semesters 120 Minuten Hilfsmittel: drei von Hand beschriebene DIN-A4 Blätter nicht programmierbarer Taschenrechner Modul Data Science ersetzt bisheriges Vertiefungsmodul Entscheidungsunterstützende Systeme Data Science / Kapitel 0: Organisation 6

7 Webseite Webseite zur Vorlesung: Ankündigungen Folien und Übungsblätter zum Download Sonstige Ressourcen (z.b. Code und Daten) Data Science / Kapitel 0: Organisation 7

8 Literatur zur Vorlesung M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 [Online] C. C. Agarwal: Data Mining, The Textbook, Springer, 2015 [Online] Data Science / Kapitel 0: Organisation 8

9 Literatur zur Vorlesung S. Raschka: Python Machine Learning, Packt Publishing, 2015 [Online] S. Raschka: Machine Learning with Python, mitp, 2017 [Online] Data Science / Kapitel 0: Organisation 9

10 Literatur zur Vorlesung F. Provost and T. Fawcett: Data Science for Business, Cambridge University Press, 2014 [Online] J. D. Kelleher, B. Mac Namee, A. D Arcy: Fundamentals of Machine Learning for Predictive Analytics, MIT Press, 2015 [Online] Data Science / Kapitel 0: Organisation 10

11 1. Einführung

12 Was ist Data Science? Data Science 12

13 Was ist Data Science? Data Science zielt darauf ab, aus Daten Erkenntnisse zu gewinnen, aus denen sich oft geschäftsrelevante Handlungsempfehlungen ableiten lassen (actionable insights) Data Science greift Methoden auf z.b. aus den Gebieten Statistik Machine Learning Data Mining Datenbanken Quelle: [KDnuggets] 13

14 Was ist Data Science? Begriff Data Science existiert seit mehr als 20 Jahren, hat in den letzten fünf Jahren an Popularität gewonnen, u.a. aufgrund von wachsenden Mengen verfügbarer Daten (z.b. explizit oder implizit durch Benutzer erzeugte Daten) gestiegenes Bewusstsein für den Wert von Daten ( data is the new oil ) gewachsene Speicherkapazität und Rechenleistung ermöglichen Bewahren und Analyse (großer) Datenmengen breite Verfügbarkeit von Softwarepaketen zur Speicherung und Analyse (großer) Datenmengen 14

15 Datenwachstum Jährliches Datenwachstum wie aktuell prognostiziert von International Data Corporation (IDC) Zettabytes Data created Quelle: [IDC] (1 Zettabyte entsprechen Byte also 10 9 Terabytes) 15

16 Strukturierte und unstrukturierte Daten Strukturierte Daten haben festgelegte Struktur (Schema) Beispiele: Artikel- und Kundendaten aus ERP-System Formate: gespeichert in RDBMS, CSV-Dateien ~10% Unstrukturierte Daten haben keine festgelegte Struktur Beispiele: Zeitungsartikel, s, Office-Dokumente, etc. Formate: Textdateien, HTML-Dateien, Office-Formate, etc. Semistrukturierte Daten als Mischformen ~80% Beispiele: s (Absender, Betreff und Text) Formate: XML, JSON ~10% 16

17 Strukturierte Daten als Ausgangslage Großteil existierender und neuer Daten unstrukturiert Verfahren erwarten in der Regel strukturierte Daten m Merkmale (features) n Datenpunkte (data points) f 1 f 2... f m n Unstrukturierte Daten können häufig in strukturierte Daten umgewandelt werden (vgl. Kapitel 4) 17

18 Merkmalsarten Merkmale lassen sich hinsichtlich ihrer Skalenniveaus unterscheiden, d.h. welche mathematischen Operationen sinnvoll auf ihren Werten anwendbar sind nominal (z.b. Geschlecht, Herkunft) keine Ordnung, Gleichheit überprüfbar, Häufigkeiten ordinal (z.b. Güteklasse, Kleidergröße) Ordnung definiert, vergleichbar, Häufigkeiten metrisch (z.b. Alter, Gewicht) vergleichbar, Häufigkeiten, Mittelwert, etc. 18

19 Kapitel 2: Regression (3 VL) Vorhersage eines abhängigen metrischen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Mietpreise in Saarbrücken Größe (m 2 ) Entfernung (km) Miete (Euro/Monat) m 6.5 g e Anwendungen: Vorhersage (z.b. Mietpreis, Energieverbrauch) Faktorenanalyse 19

Kapitel 3: Klassifikation (4 VL) Vorhersage eines abhängigen nominalen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Erkennen von Spam in E-Mails Viagra Kino Rezept Übung Kategorie 4 0

20 Kapitel 3: Klassifikation (4 VL) Vorhersage eines abhängigen nominalen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Erkennen von Spam in s Viagra Kino Rezept Übung Kategorie Spam kein Spam Spam kein Spam Spam..... [Rezept < 3] [Viagra < 1] S Anwendungen: S ks Erkennen von handgeschriebenen Ziffern Vorhersage von Kundenabwanderungen 20

21 Kapitel 4: Clusteranalyse (4 VL) Aufteilung von Datenpunkten (z.b. Kunden, Dokumente) in möglichst homogene Gruppen Beispiel: Kunden eines Filmportals KundenNr Action Drama Family Horror {1, 4} {2, 3, 5} Anwendungen: Kundensegmentierung Datenexploration und -zusammenfassung 21

Kapitel 5: Neuronale Netze (4 VL) Neuronale Netze können u.a. für Regressionsund Klassifikationsprobleme verwendet werden q Neuronale Netze sind ein vielseitiges Werkzeug und aktuell eines der

22 Kapitel 5: Neuronale Netze (4 VL) Neuronale Netze können u.a. für Regressionsund Klassifikationsprobleme verwendet werden q Neuronale Netze sind ein vielseitiges Werkzeug und aktuell eines der spannendsten Gebiete der Informatik exzellente Ergebnisse z.b. in Computer Vision, NLP benutzerfreundliche Bibliotheken (z.b. Keras, Gluon) und effizientes Training auf GPUs (z.b. TensorFlow) 22

23 Kapitel 6: Assoziationsanalyse (3 VL) Erkennen von Mustern (Assoziationen) in Datenmengen Beispiele: Einkäufe von Kunden KundenNr Artikel 1 { Äpfel, Bananen, Bier, Windeln } 2 { Bier, Windeln, Chips } 3 { Bier, Chips } 4 { Chips, Windeln } 5 { Äpfel, Bananen, Bier, Chips, Windeln } 6 { Bananen, Chips, Windeln }.. {Bier, Chips} {Äpfel, Bananen} Anwendungen: Generieren von Empfehlungen (z.b. Produkte) Datenexploration und -zusammenfassung 23

Kapitel 7: Visualisierung (2 VL) Geschickte

Darstellung hochdimensionaler Daten Visualisierung

24 Kapitel 7: Visualisierung (2 VL) Geschickte Visualisierung kann zu neuen Erkenntnissen über die Daten führen, aber auch helfen, anders gewonnene zu kommunizieren Dimensionsreduktion zur Darstellung hochdimensionaler Daten Visualisierung dynamischer Daten Interaktive Visualisierungen Quelle: [seaborn] 24

25 Überwachtes vs. unüberwachtes Lernen Verfahren des maschinellen Lernens lassen sich in verschiedene Kategorien einteilen, zwei wichtige sind überwachtes Lernen (supervised learning) mit Klassifikations- und Regressionsverfahren als Beispielen verwendet Trainingsdaten (z.b. klassifizierte Datenpunkte) unüberwachtes Lernen (unsupervised learning) mit Verfahren zur Clusteranalyse als Beispiel erkennt Zusammenhänge in gegebenen Daten 25

Python Python (3.6) als Programmiersprache für Codebeispiele in dieser Vorlesung Essentielle Bibliotheken für Data Science mit Python pandas (http://pandas.pydata.

26 Python Python (3.6) als Programmiersprache für Codebeispiele in dieser Vorlesung Essentielle Bibliotheken für Data Science mit Python pandas ( numpy ( scikit-learn ( keras ( Anaconda ( als Distribution, welche alle genannten Bibliotheken mitbringt 26

27 Software und Bibliotheken Neben Python gibt es eine Reihe empfehlenswerter Softwarepakete und Bibliotheken für Data Science R als Programmiersprache für statistische Berechnungen KNIME und RapidMiner als GUI-basierte Werkzeuge tra tra tra tra tra tra SVM tra mod exa Generalized Linear M... tra mod Gradient Boosted Tr... tra mod exa wei tra tra exa wei tra W-IBk mod W-J48graft exa tra mod exa W-LMT 27

28 Software und Bibliotheken Weka (für Java) Spark MLlib (für Spark als verteilte Plattform) 28

29 Ressourcen Wettbewerbe, Datensätze und Diskussionen Newsletter zum Thema Data Science

30 Zusammenfassung Data Science zielt darauf ab, verwertbare Erkenntnisse aus (großen) Datenmengen zu gewinnen Strukturierte (10%), semi-strukturierte (10%) und unstrukturierte Daten (80%) Merkmale werden nach Skalenniveaus eingeteilt in nominale (z.b. Name), ordinale (z.b. Kleidergröße) und metrische (z.b. Gewicht) Überwachtes und unüberwachtes Lernen als zwei Kategorien von Verfahren des maschinellen Lernens 30

31 Literatur [1] D. Reinsel, J, Gantz, J. Rydning: Data Age 2025, IDC Whitepaper, 2017 [Online] 31

Ähnliche Dokumente

Entscheidungsunterstützende Systeme

Entscheidungsunterstützende Systeme (WS 015/016) Klaus Berberich (klaus.berberich@htwsaar.de) Rainer Lenz (rainer.lenz@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)