Data Science (WS 2018/2019) Klaus Berberich

Größe: px
Ab Seite anzeigen:

Download "Data Science (WS 2018/2019) Klaus Berberich"

Transkript

1 1

2 Data Science (WS 2018/2019) Klaus Berberich

3 0. Organisation

4 Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Assoziationsanalyse 6. Neuronale Netze Data Science / Kapitel 0: Organisation 4

5 Vorlesung und Übung Vorlesung und Übung Mittwoch, 08:15 09:45 (1. Stunde), Raum 7110 Mittwoch, 10:00 11:45 (2. Stunde), Raum 7110 Übungen etwa alle 14 Tage in der 2. Stunde Data Science / Kapitel 0: Organisation 5

6 Prüfung Schriftliche Klausur am Ende des Semesters 120 Minuten Hilfsmittel: drei von Hand beschriebene DIN-A4 Blätter nicht programmierbarer Taschenrechner Modul Data Science ersetzt bisheriges Vertiefungsmodul Entscheidungsunterstützende Systeme Data Science / Kapitel 0: Organisation 6

7 Webseite Webseite zur Vorlesung: Ankündigungen Folien und Übungsblätter zum Download Sonstige Ressourcen (z.b. Code und Daten) Data Science / Kapitel 0: Organisation 7

8 Literatur zur Vorlesung M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 [Online] C. C. Agarwal: Data Mining, The Textbook, Springer, 2015 [Online] Data Science / Kapitel 0: Organisation 8

9 Literatur zur Vorlesung S. Raschka und V. Mirajalili: Python Machine Learning, Packt Publishing, 2017 S. Raschka: Machine Learning with Python, mitp, 2017 Data Science / Kapitel 0: Organisation 9

10 Literatur zur Vorlesung F. Provost and T. Fawcett: Data Science for Business, Cambridge University Press, 2014 [Online] J. D. Kelleher, B. Mac Namee, A. D Arcy: Fundamentals of Machine Learning for Predictive Analytics, MIT Press, 2015 [Online] Data Science / Kapitel 0: Organisation 10

11 1. Einführung

12 Was ist Data Science? Data Science 12

13 Was ist Data Science? Data Science zielt darauf ab, aus Daten Erkenntnisse zu gewinnen, aus denen sich oft geschäftsrelevante Handlungsempfehlungen ableiten lassen (actionable insights) Data Science greift Methoden auf z.b. aus den Gebieten Statistik Machine Learning Data Mining Datenbanken Quelle: [KDnuggets] 13

14 Was ist Data Science? Begriff Data Science existiert seit mehr als 20 Jahren, hat in den letzten fünf Jahren an Popularität gewonnen, u.a. aufgrund von wachsenden Mengen verfügbarer Daten (z.b. explizit oder implizit durch Benutzer erzeugte Daten) gestiegenes Bewusstsein für den Wert von Daten ( data is the new oil ) gewachsene Speicherkapazität und Rechenleistung ermöglichen Bewahren und Analyse (großer) Datenmengen breite Verfügbarkeit von Softwarepaketen zur Speicherung und Analyse (großer) Datenmengen 14

15 Datenwachstum Jährliches Datenwachstum wie aktuell prognostiziert von International Data Corporation (IDC) Zettabytes Data created Quelle: [IDC] (1 Zettabyte entsprechen Byte also 10 9 Terabytes) 15

16 Strukturierte und unstrukturierte Daten Strukturierte Daten haben festgelegte Struktur (Schema) Beispiele: Artikel- und Kundendaten aus ERP-System Formate: gespeichert in RDBMS, CSV-Dateien ~10% Unstrukturierte Daten haben keine festgelegte Struktur Beispiele: Zeitungsartikel, s, Office-Dokumente, etc. Formate: Textdateien, HTML-Dateien, Office-Formate, etc. Semistrukturierte Daten als Mischformen ~80% Beispiele: s (Absender, Betreff und Text) Formate: XML, JSON ~10% 16

17 Strukturierte Daten als Ausgangslage Großteil existierender und neuer Daten unstrukturiert Verfahren erwarten in der Regel strukturierte Daten m Merkmale (features) n Datenpunkte (data points) f 1 f 2... f m n Unstrukturierte Daten können häufig in strukturierte Daten umgewandelt werden (vgl. Kapitel 2) 17

18 Merkmalsarten Merkmale lassen sich hinsichtlich ihrer Skalenniveaus unterscheiden, d.h. welche mathematischen Operationen sinnvoll auf ihren Werten anwendbar sind nominal (z.b. Geschlecht, Herkunft) keine Ordnung, Gleichheit überprüfbar, Häufigkeiten ordinal (z.b. Güteklasse, Kleidergröße) Ordnung definiert, vergleichbar, Häufigkeiten metrisch (z.b. Alter, Gewicht) vergleichbar, Häufigkeiten, Mittelwert, etc. 18

19 Kapitel 2: Regression Vorhersage eines abhängigen metrischen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Mietpreise in Saarbrücken Größe (m 2 ) Entfernung (km) Miete (Euro/Monat) m 6.5 g e Anwendungen: Vorhersage (z.b. Mietpreis, Energieverbrauch) Faktorenanalyse 19

20 Kapitel 3: Klassifikation Vorhersage eines abhängigen nominalen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Erkennen von Spam in s Viagra Kino Rezept Übung Kategorie Spam kein Spam Spam kein Spam Spam..... [Rezept < 3] [Viagra < 1] S Anwendungen: S ks Erkennen von handgeschriebenen Ziffern Vorhersage von Kundenabwanderungen 20

21 Kapitel 4: Clusteranalyse Aufteilung von Datenpunkten (z.b. Kunden, Dokumente) in möglichst homogene Gruppen Beispiel: Kunden eines Filmportals KundenNr Action Drama Family Horror {1, 4} {2, 3, 5} Anwendungen: Kundensegmentierung Datenexploration und -zusammenfassung 21

22 Kapitel 5: Assoziationsanalyse Erkennen von Mustern (Assoziationen) in Datenmengen Beispiele: Einkäufe von Kunden KundenNr Artikel 1 { Äpfel, Bananen, Bier, Windeln } 2 { Bier, Windeln, Chips } 3 { Bier, Chips } 4 { Chips, Windeln } 5 { Äpfel, Bananen, Bier, Chips, Windeln } 6 { Bananen, Chips, Windeln }.. {Bier, Chips} {Äpfel, Bananen} Anwendungen: Generieren von Empfehlungen (z.b. Produkte) Datenexploration und -zusammenfassung 22

23 Kapitel 6: Neuronale Netze Neuronale Netze können u.a. für Regressionsund Klassifikationsprobleme verwendet werden q Neuronale Netze sind ein vielseitiges Werkzeug und aktuell eines der spannendsten Gebiete der Informatik exzellente Ergebnisse z.b. in Computer Vision, NLP benutzerfreundliche Bibliotheken (z.b. Keras, Gluon) und effizientes Training auf GPUs (z.b. TensorFlow) 23

24 Überwachtes vs. unüberwachtes Lernen Verfahren des maschinellen Lernens lassen sich in verschiedene Kategorien einteilen, zwei wichtige sind überwachtes Lernen (supervised learning) mit Klassifikations- und Regressionsverfahren als Beispielen verwendet Trainingsdaten (z.b. klassifizierte Datenpunkte) unüberwachtes Lernen (unsupervised learning) mit Verfahren zur Clusteranalyse als Beispiel erkennt Zusammenhänge in gegebenen Daten 24

25 Python Python (3.7) als Programmiersprache für Codebeispiele in dieser Vorlesung Essentielle Bibliotheken für Data Science mit Python pandas ( numpy ( scikit-learn ( keras ( Anaconda ( als Distribution, welche alle genannten Bibliotheken mitbringt 25

26 Software und Bibliotheken Neben Python gibt es eine Reihe empfehlenswerter Softwarepakete und Bibliotheken für Data Science R als Programmiersprache für statistische Berechnungen KNIME und RapidMiner als GUI-basierte Werkzeuge tra tra tra tra tra tra SVM tra mod exa Generalized Linear M... tra mod Gradient Boosted Tr... tra mod exa wei tra tra exa wei tra W-IBk mod W-J48graft exa tra mod exa W-LMT 26

27 Software und Bibliotheken Weka (für Java) DeepLearning4J (für Java) Spark MLlib (für Spark als verteilte Plattform) 27

28 Ressourcen Wettbewerbe, Datensätze und Diskussionen Newsletter zum Thema Data Science

29 Zusammenfassung Data Science zielt darauf ab, verwertbare Erkenntnisse aus (großen) Datenmengen zu gewinnen Strukturierte (10%), semi-strukturierte (10%) und unstrukturierte Daten (80%) Merkmale werden nach Skalenniveaus eingeteilt in nominale (z.b. Name), ordinale (z.b. Kleidergröße) und metrische (z.b. Gewicht) Überwachtes und unüberwachtes Lernen als zwei Kategorien von Verfahren des maschinellen Lernens 29

30 Literatur [1] D. Reinsel, J, Gantz, J. Rydning: Data Age 2025, IDC Whitepaper, 2017 [Online] 30

Data Science (WS 2017/2018) Klaus Berberich

Data Science (WS 2017/2018) Klaus Berberich 1 Data Science (WS 2017/2018) Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisation Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Neuronale Netze 6. Assoziationsanalyse

Mehr

Entscheidungsunterstützende Systeme

Entscheidungsunterstützende Systeme Entscheidungsunterstützende Systeme (WS 015/016) Klaus Berberich (klaus.berberich@htwsaar.de) Rainer Lenz (rainer.lenz@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Informatikgrundlagen (WS 2016/2017)

Informatikgrundlagen (WS 2016/2017) Informatikgrundlagen (WS 2016/2017) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde

Mehr

Informatik 1 (WS 2018/2019)

Informatik 1 (WS 2018/2019) Informatik 1 (WS 2018/2019) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde

Mehr

Datenbanken & Informationssysteme (WS 2016/2017)

Datenbanken & Informationssysteme (WS 2016/2017) Datenbanken & Informationssysteme (WS 2016/2017) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische

Mehr

Maschinelle Sprachverarbeitung Übung

Maschinelle Sprachverarbeitung Übung Maschinelle Sprachverarbeitung Übung Aufgabe 3: SPAM-Klassifikation Mario Sänger Aufgabe Rund 50% des weltweiten Email-Verkehrs ist Spam* Spam- und Phishing-Mails stellen eines der größten Sicherheitsrisiken

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen. Tobias Scheffer Michael Brückner

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen. Tobias Scheffer Michael Brückner Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Tobias Scheffer Michael Brückner Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Mo 10:00-11:30

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Übungssitzung 1: Organisation und Orientierung Julian Hitschler ICL, Universität Heidelberg, WiSe 2016/17 27.10.2016 1 / 1 Inhalt Vorstellung Organisatorisches

Mehr

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech Analytic im Einsatz! Betrugserkennung auf Basis von Big Data Karol Sobiech 2 ACCENTURE GLOBAL DELIVERY NETWORK 3 4 AGENDA 1 MOTIVATION & ZIEL 2 METHODEN FRAUD MANAGEMENT SYSTEM 4 ARCHITEKTUR & TOOLS 3

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

6.2 Feed-Forward Netze

6.2 Feed-Forward Netze 6.2 Feed-Forward Netze Wir haben gesehen, dass wir mit neuronalen Netzen bestehend aus einer oder mehreren Schichten von Perzeptren beispielsweise logische Funktionen darstellen können Nun betrachten wir

Mehr

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer?

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer? ASQF Automation Day 2018 - Predictive Analytics Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer? Vasilij Baumann Co-Founder/Co-CEO vasilij.baumann@instrunext.com +49 931

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Business Intelligence & Machine Learning

Business Intelligence & Machine Learning AUSFÜLLHILFE: BEWEGEN SIE DEN MAUSZEIGER ÜBER DIE ÜBERSCHRIFTEN. AUSFÜHRLICHE HINWEISE: LEITFADEN MODULBESCHREIBUNG Business Intelligence & Machine Learning Kennnummer Workload Credits/LP Studiensemester

Mehr

Mustererkennung und Klassifikation

Mustererkennung und Klassifikation Mustererkennung und Klassifikation WS 2007/2008 Fakultät Informatik Technische Informatik Prof. Dr. Matthias Franz mfranz@htwg-konstanz.de www-home.htwg-konstanz.de/~mfranz/heim.html Grundlagen Überblick

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

SKOPOS Webinar 22. Mai 2018

SKOPOS Webinar 22. Mai 2018 SKOPOS Webinar 22. Mai 2018 Marktforschung 2020: Künstliche Intelligenz und automatische Text Analysen? Christopher Harms, Consultant Research & Development 2 So? Terminator Exhibition: T-800 by Dick Thomas

Mehr

Data Science mit Python

Data Science mit Python Data Science mit Python Vertiefung von Algorithmen und Einführung in die Data Science- Programmiersprache Python Kurzbeschreibung Python ist eine Programmiersprache, welche im Bereich Data Science immer

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation. Literatur. Inhalt und Ziele der Vorlesung. Beispiele aus der Praxis. 2 Organisation Vorlesung/Übung + Projektarbeit.

Mehr

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta Multivariate Lineare Regression Christian Herta Oktober, 2013 1 von 34 Christian Herta Multivariate Lineare Regression Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

Supervised & Unsupervised Machine Learning

Supervised & Unsupervised Machine Learning Machine Learning-Algorithmen in Python mit scikit-learn Machine Learning-Algorithmen in Python mit scikit-learn Kurzbeschreibung Machine Learning-Algorithmen sind ein elementares Element von Künstlicher

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

CAS Data Science. Die Datenanalyse spielt für Unternehmen eine immer wichtigere Rolle.

CAS Data Science. Die Datenanalyse spielt für Unternehmen eine immer wichtigere Rolle. Die Datenanalyse spielt für Unternehmen eine immer wichtigere Rolle. Geschäftsreleante Informationen aus einer grossen gesammelten Datenmenge herauslesen! 1 Hauptkursziel: Das Ziel des Kurses ist die Vermittlung

Mehr

Maschinelles Lernen II

Maschinelles Lernen II Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.

Mehr

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day Machine Learning Dr. Bartholomäus Wissmath 3. Swiss Innovation Day Artificial Intelligence (AI) Teilgebiet der Informatik, welches sich mit der Automatisierung von intelligenten Verhalten und dem Maschinenlernen

Mehr

Statistik I (Deskriptive Statistik)

Statistik I (Deskriptive Statistik) Folien zur Vorlesung Statistik I (Deskriptive Statistik) Wintersemester 2011/2012 Donnerstag, 10.15-11.45 Uhr Hörsaal: Aula am Aasee Dr. Andrea Beccarini Westfälische Wilhelms-Universität Münster Inhalt

Mehr

Workload: 150 h ECTS Punkte: 5

Workload: 150 h ECTS Punkte: 5 Modulbezeichnung: Modulnummer: DLBINGDABD Modultyp: Pflicht Data Analytics und Big Data Semester: -- Dauer: Minimaldauer 1 Semester Regulär angeboten im: WS, SS Workload: 150 h ECTS Punkte: 5 Zugangsvoraussetzungen:

Mehr

Informatikgrundlagen (WS 2015/2016)

Informatikgrundlagen (WS 2015/2016) Informatikgrundlagen (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde

Mehr

Neuronale Netze. Christian Böhm.

Neuronale Netze. Christian Böhm. Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch

Mehr

Watson Services on Bluemix Workshop

Watson Services on Bluemix Workshop Watson Services on Bluemix Workshop Beate Melcher Klaus-Peter Schlotter Urs Witzig IBM Business Partner Solution Hub Agenda 09:00-09:45 Welcome and IBM Watson Overview 09:45-10:10 Watson Services 1/2 10:10

Mehr

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule

Mehr

Ökonometrie für Wirtschaftswissenschaftler

Ökonometrie für Wirtschaftswissenschaftler Ökonometrie für Wirtschaftswissenschaftler Sommersemester 2016 Prof. Dr. Martin Wagner Lehrstuhl Statistik und Ökonometrie 21. April 2016 Fakultät Statistik 21. April 2016 1 / 14 Ökonometrie für Wirtschaftswissenschaftler

Mehr

Gold schürfen im Marketing mit Data Science

Gold schürfen im Marketing mit Data Science Gold schürfen im Marketing mit Data Science SOMEXcircle 9. Mai 2017 Dr. Patricia Feubli Erfahrung 9 Jahre Economic Research und Data Science, 4 davon als Senior Economist im Credit Suisse Swiss Industries

Mehr

Ökonometrie für Wirtschaftswissenschaftler

Ökonometrie für Wirtschaftswissenschaftler Ökonometrie für Wirtschaftswissenschaftler Sommersemester 2017 Prof. Dr. Martin Wagner Lehrstuhl Ökonometrie und Statistik 18. April 2017 18. April 2017 1 / 15 Organisation Ökonometrie für Wirtschaftswissenschaftler

Mehr

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16 Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:

Mehr

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen Einführung in die Informatik für Hörer aller Fakultäten Prof. Jürgen Wolff von Gudenberg (JWG) Prof. Frank Puppe (FP) Prof. Dietmar Seipel (DS) Vorlesung (Mo & Mi 13:30-15:00 im Zuse-Hörsaal): FP: Form

Mehr

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

IMPULSVORTRAG KÜNSTLICHE INTELLIGENZ & HELMHOLTZ

IMPULSVORTRAG KÜNSTLICHE INTELLIGENZ & HELMHOLTZ IMPULSVORTRAG KÜNSTLICHE INTELLIGENZ & HELMHOLTZ PROF. DR. ING. MORRIS RIEDEL, JUELICH SUPERCOMPUTING CENTRE (JSC) / UNIVERSITY OF ICELAND GRUPPENLEITER HIGH PRODUCTIVITY DATA PROCESSING & CROSS-SECTIONAL

Mehr

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,

Mehr

Studienplan FIW Bachelor Informatik 2017ws. Inf 1 Algebra (sem. Unterricht) 4 5 sp Kl90 ein beidseitig handbeschr.,

Studienplan FIW Bachelor Informatik 2017ws. Inf 1 Algebra (sem. Unterricht) 4 5 sp Kl90 ein beidseitig handbeschr., Bachelor Informatik 2017ws Inf 1 Algebra (sem. Unterricht) 4 5 sp Kl90 ein beidseitig handbeschr., nicht kopiertes DIN-A4 Blatt; nicht prog. Taschenrechner Inf 1 Algorithmen und Datenstrukturen I (Übung)

Mehr

:21 Uhr Modulbeschreibung #1290/1 Seite 1 von 5

:21 Uhr Modulbeschreibung #1290/1 Seite 1 von 5 04.12.2015 16:21 Uhr Modulbeschreibung #1290/1 Seite 1 von 5 Modulbeschreibung Maschinelles Lernen 1 Modultitel: Maschinelles Lernen 1 Machine Learning 1 URL: Leistungspunkte: 9 Sekretariat: Modulsprache:

Mehr

Anwendungen der KI / SoSe 2018

Anwendungen der KI / SoSe 2018 Anwendungen der KI / SoSe 2018 Organisatorisches Prof. Dr. Adrian Ulges Angewandte Informatik / Medieninformatik / Wirtschaftsinformatik / ITS Fachbereich DSCM Hochschule RheinMain KursWebsite: www.ulges.de

Mehr

Fischen im Datensee FOLIO Reporting

Fischen im Datensee FOLIO Reporting Fischen im Datensee FOLIO Reporting Ingolf Kuss, hbz NRW FOLIO Informationstage, Göttingen 26. April 2018 Reporting SIG trifft sich seit April 2017 wöchentlich z.zt. 29 Mitglieder 2 Mitglieder aus Deutschland

Mehr

Diskrete Strukturen WS 2010/11. Ernst W. Mayr. Wintersemester 2010/11. Fakultät für Informatik TU München

Diskrete Strukturen WS 2010/11. Ernst W. Mayr. Wintersemester 2010/11.  Fakultät für Informatik TU München WS 2010/11 Diskrete Strukturen Ernst W. Mayr Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2010ws/ds/ Wintersemester 2010/11 Diskrete Strukturen Kapitel 0 Organisatorisches Vorlesungen:

Mehr

Maschinenlernen mit XML-Daten. und Weka

Maschinenlernen mit XML-Daten. und Weka Maschinenlernen mit XML-Daten und Weka + Buzzword Bingo Data Mining Künstliche Intelligenz Knowledge Discovery Mustererkennung Statistik Big Data ML-Teilbereich: Klassifikation Der Computer lernt, Daten

Mehr

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung Website Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig (Aktuelle) Informationen

Mehr

Vertiefungsmodul Machine Learning mit Python

Vertiefungsmodul Machine Learning mit Python Wissenschaftliche Weiterbildung Berufsbegleitend. Zukunftsorientiert. Vielfältig. Vertiefungsmodul Machine Learning mit Python Berufsbegleitende Weiterbildung der Agentur für wissenschaftliche Weiterbildung

Mehr

Machine Learning & Künstliche Intelligenz

Machine Learning & Künstliche Intelligenz Dr. med. Christina Czeschik Serapion www.serapion.de Machine Learning & Künstliche Intelligenz Eine kurze Einführung Künstliche Intelligenz intelligent nutzen Essen, 08.06.2018 Künstliche Intelligenz Turing-Test

Mehr

Vorlesung Statistisches Lernen

Vorlesung Statistisches Lernen Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 20 Organisatorisches

Mehr

VON BIG ZU SMART DATA

VON BIG ZU SMART DATA VON BIG ZU SMART Daten sind das Öl des digitalen Zeitalters. Doch erst moderne Verfahren der Datenanalyse verwandeln es in Treibstoff für neue Geschäftsmodelle. Big Data, die Vernetzung von Geräten über

Mehr

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation

Mehr

Ontologie-Management Kapitel 0: Organisatorisches

Ontologie-Management Kapitel 0: Organisatorisches Ontologie-Management Kapitel 0: Organisatorisches Wintersemester 2013/14 Anika Groß Universität Leipzig, Institut für Informatik Abteilung Datenbanken http://dbs.uni-leipzig.de Die Folien zur Vorlesung

Mehr

Machinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG

Machinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG Machinelles Lernen «Eine kleine Einführung» @ZimMatthias Matthias Zimmermann BSI Business Systems Integration AG «Welcher Unterschied besteht zum Deep Blue Schachcomputer vor 20 Jahren?» AlphaGo Hardware

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Mathematisch-algorithmische Grundlagen für Big Data

Mathematisch-algorithmische Grundlagen für Big Data Mathematisch-algorithmische Grundlagen für Big Data Numerische Algorithmen für Datenanalyse und Optimierung Prof. Dr. Peter Becker Fachbereich Informatik Hochschule Bonn-Rhein-Sieg Sommersemester 2017

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Neue Erkenntnisse aus unstrukturierten Daten gewinnen Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.

Mehr

Sports Data Mining. The Field and Methodology. Sublogo. 24.05.2014 Fachbereich Informatik Prof. Johannes Fürnkranz 1

Sports Data Mining. The Field and Methodology. Sublogo. 24.05.2014 Fachbereich Informatik Prof. Johannes Fürnkranz 1 Sports Data Mining The Field and Methodology 24.05.2014 Fachbereich Informatik Prof. Johannes Fürnkranz 1 Definition Hierarchie für Sport und Sportdatenbeziehungen Eins kein Zusammenhang Zwei Domain-Experten

Mehr

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Grundseminar HAW Master Informatik 18.04.2017 Inhaltsübersicht Data Mining & Begriffswelt des Data Mining Klassifikation & Klassifikatoren

Mehr

(Pro-)Seminar - Data Mining

(Pro-)Seminar - Data Mining (Pro-)Seminar - Data Mining Vorbesprechung SCCS, Fakultät für Informatik Technische Universität München SS 2018 Data Mining: Beispiele (1) Hausnummererkennung (Klassikation) Source: http://arxiv.org/abs/1312.6082

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen 1 J. Fürnkranz Data Mining und maschinelles Lernen Johannes Fürnkranz juffi@ke.tu-darmstadt.de 2 J. Fürnkranz Inhalt Einführung in maschinelles Lernen und Data Mining mit Schwerpunkt auf symbolisch/logischen

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

Schnelles Denken - Maschinelles Lernen mit Apache Spark 2

Schnelles Denken - Maschinelles Lernen mit Apache Spark 2 Schnelles Denken - Maschinelles Lernen mit Apache Spark 2 Heiko Spindler Apache Spark - Components Machine Learning Machine learning explores the construction and study of algorithms that can learn from

Mehr

Bring your own Schufa!

Bring your own Schufa! Bring your own Schufa! Jan Schweda Senior Softwareengineer Web & Cloud jan.schweda@conplement.de @jschweda Ziele des Vortrags Die Möglichkeiten von maschinellem Lernen aufzeigen. Azure Machine Learning

Mehr

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2004 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

Inhalt. Vorwort der Autoren

Inhalt. Vorwort der Autoren Inhalt Vorwort der Autoren V 1 Einleitung 1 1.1 Ein motivierendes Beispiel 1 1.2 Für wen ist dieses Buch und wie kann man es lesen? 8 1.3 Smart Data Solutions statt Big Data 10 1.4 Das Smart Data Solution

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

Microsoft Azure Deutschland ist jetzt verfügbar -

Microsoft Azure Deutschland ist jetzt verfügbar - MANAGEMENT = intuitives Bedienen von Stellschrauben? Betriebswirtschaftliches Optimum Lieber: MANAGEMENT = systematisches Bedienen von Stellschrauben unter Nutzung von Hilfsmitteln. Stellschraube 1 S

Mehr

A1.1 Organisatorisches

A1.1 Organisatorisches Algorithmen und Datenstrukturen 28. Februar 2018 A1. Organisatorisches Algorithmen und Datenstrukturen A1. Organisatorisches A1.1 Organisatorisches Marcel Lüthi and Gabriele Röger Universität Basel A1.2

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr