CAS Datenanalyse
Inhaltsverzeichnis 1 Umfeld 3 2 Zielpublikum 3 3 Voraussetzungen 3 4 Ausbildungsziele 3 5 Kursübersicht 4 6 Kompetenzprofil 5 7 en 6 7.1 Tooling und Datenmanagement 6 7.2 Deskriptive Statistik und mathematische Grundlagen 7 7.3 Statistisches Testen 7 7.4 Grafische Datenexploration und Datenvisualisierung 8 7.5 Open Data 8 7.6 Regressionsanalyse 9 7.7 Zeitreihen und Prognosen 10 7.8 Data Mining 11 7.9 Produkt-Workshops 11 8 Kompetenznachweise 12 9 13 10 Dozierende 14 11 Organisation 14 12 Termine 14 Study Guide CAS DA 2/15
Daten fallen heute in grossen Mengen an. Im CAS Datenanalyse (CAS DA) lernen Sie Methoden und Werkzeuge, um diese gezielt für Ihre Zwecke zu nutzen beispielweise für die Optimierung von Prozessen und Dienstleistungen, für das Qualitätsmanagement, für strategische Entscheide. 1 Umfeld Daten sammeln allein bringt noch keine Erkenntnisse. Entscheidend ist das «Making Sense out of Data»: Wie können Daten beschrieben und analysiert werden, welche Aussagen kann man mit ihnen machen und welche Schlussfolgerungen kann man aus ihnen ziehen? Auf dem Markt stehen leicht bedienbare Software-Tools zur Aufbereitung von Daten, zur Analyse und zur Visualisierung zur Verfügung. Das CAS DA vermittelt einen praktischen Grundstock an Wissen, wissenschaftlichen Vorgehensweisen und Werkzeugen für die Datenanalyse. 2 Zielpublikum Das CAS DA richtet sich an Verantwortliche für Datenanalyse-Projekte: an Informatikerinnen und Informatiker, die in Datenanalyse-Projekten arbeiten sowie an wissenschaftliche Mitarbeitende, welche beim Erstellen von Analysen und Studien beraten und selber Daten auswerten. 3 Voraussetzungen Sie können mit mathematischen Gesetzen umgehen und haben die Bereitschaft zur anwendungsorientierten Arbeit mit statistischer Software. 4 Ausbildungsziele Sie überblicken das Gebiet der Datenanalyse. Sie können Daten methodisch aufbereiten, analysieren und visualisieren. Sie kennen Methoden wie die Regressionsanalyse, die Analyse von Zeitreihen, das Data Mining und das mächtige Open Source-Framework R (r-project.org). Study Guide CAS DA 3/15
5 Kursübersicht Kurs/Lehreinheit Lektionen Dozierende Tooling und Datenmanagement 24 Rudolf Farys, UniBe Dorian Kessler, BFH Deskriptive Statistik und mathematische Grundlagen 12 Michel Krebs, BFH Statistisches Testen 28 Michel Krebs, BFH Grafische Datenexploration und Datenvisualisierung 24 Oliver Hümbelin, BFH Fabienne Kilchör, Emphase Open Data 8 Oleg Lavrovsky Regressionsanalyse 20 Raul Gimeno, BFH Zeitreihenanalyse und Prognosen 16 Raul Gimeno, BFH Data Mining 32 Andrea Giovannini, IBM Produkt-Workshops Einzelne Tage Gemäss Stundenplan Total 164 Das CAS umfasst insgesamt 12 ECTS Punkte. Für die einzelnen Kurse ist entsprechend Zeit für Selbststudium, Prüfungsvorbereitung etc. einzurechnen. Das CAS ist Teil des 'Master of Advanced Studies in Data Science' der Berner Fachhochschule. Study Guide CAS DA 4/15
6 Kompetenzprofil Legende: 1. Kenntnisse von Begriffen, Definitionen und Regeln; Faktenwissen 2. Verstehen von Zusammenhängen, Erklären von Sachverhalte erklären können 3. Anwendung des Wissens in einfachen Situationen 4. Analyse der eigenen Lösung 5. Synthese neuer Lösungen und Anwendung in komplexen Situationen 6. Beurteilung der Anwendbarkeit für bestimmte Probleme und Situationen, methodische Abwägung und Evaluation von Alternativen, Beziehungen zu anderen Fachgebieten Study Guide CAS DA 5/15
7 en Nachfolgend sind die einzelnen Kurse 1 dieses Studienganges beschrieben. 7.1 Tooling und Datenmanagement Themen Einführung in das Statistiksoftwarepaket R, welches sich zunehmend zu einer Standardsprache der Datenanalyse entwickelt. Folgende Themen sollen behandelt werden: Grundlegende Funktionsweise von R, Datenmanagement, einfache Auswertungen sowie die Einbindung von R in den persönlichen Workflow (Umgang mit unterschiedlichen Datenquellen/-formaten und Einbindung von Resultaten in die Textverarbeitung (Word/Latex/HTML). Die Teilnehmenden werden befähigt, R für eigene Anwendungen einzusetzen, und kennen die wichtigsten Anlaufstellen (Literatur und Onlinehilfen) um das bestehende Wissen weiterzuentwickeln und auf neue Anwendungen auszuweiten. Einführung in R Grundlegende Funktionen der Datenmanipulation und Objektsprache R. Benutzung von R-Studio. Einlesen und Aufbereitung von Daten mit R Studio: Datensätze laden, verbinden, umformen, aggregieren (u.a. mit dplyr/data.table, reshape2) und exportieren. Berechnung von Verteilungs- und Zusammenhangs-Massen, statistischer Unsicherheit, Darstellung in Tabellen. Erstellen und Interpretation von Kennzahlen. Grafische Darstellung von Ergebnissen: built-in plot Befehle, Library ggplot2. Skript/Readings auf elearning Plattform Literaturempfehlungen: R in Action data analysis and graphics with R, siehe -Liste Nr. [2] An R Companion to Applied Regression, siehe -Liste Nr. [4] http://tryr.codeschool.com/ http://shiny.rstudio.com/ R Instructor on Android, S. Murphy Onlinehilfen: Generell: Suchmaschinen Speziefische Websites (stackoverflow, Quick R (statmethods.net), R mailing lists, google groups, you tube channels ) 1 Der Begriff Kurs schliesst alle Veranstaltungstypen ein, es ist ein zusammenfassender Begriff für verschiedene Veranstaltungstypen wie Vorlesung, Lehrveranstaltung, Fallstudie, Living Case, Fach, Studienreise, Semesterarbeiten usw. Study Guide CAS DA 6/15
7.2 Deskriptive Statistik und mathematische Grundlagen Die Teilnehmenden: Erlernen die grundlegenden Konzepte der deskriptiven Statistik. Nach Absolvierung des Moduls sind sie in der Lage, Daten aufzubereiten und zu präsentieren. Kennen Matrizen und sind in der Lage, elementare Matrizenoperationen korrekt durchzuführen. Themen Statistische Kennzahlen Verteilungen Lage- und Streuungsmasse Quantile Bivariate Datenanalyse Matrizen und Matrizenoperationen Folien/Skript/Readings auf elearning Plattform Literaturempfehlung: Statistik ohne Angst vor Formeln, siehe -Liste Nr. [1] 7.3 Statistisches Testen Die Teilnehmenden: Erlernen die Grundlagen der Wahrscheinlichkeitsrechnung und der schliessenden Statistik. Kennen insbesondere die statistischen Konzepte der Schaẗzung, des Hypothesentests sowie des Vertrauensintervalls und können diese in der Praxis anwenden. Themen Wahrscheinlichkeitsrechnung Zufallsvariable Summen von Zufallsvariablen Vertrauensintervalle und Hypothesentests Lineare Einfachregression Schätzen Bestimmtheitsmass Prognose Folien/Skript/Readings auf elearning Plattform Literaturempfehlung: Statistik ohne Angst vor Formeln, siehe -Liste Nr. [1] Study Guide CAS DA 7/15
7.4 Grafische Datenexploration und Datenvisualisierung Die Teilnehmenden: Können den Nutzen von explorativer Datenanalyse und Datenvisualisierungen im Prozess der Datenanalyse einschätzen. Sind mit den zentralen Techniken der Datenexploration vertraut und können diese mit R umsetzen. Sind fähig basierend auf den Gestaltungs-Prinzipien der Datenvisualisierung, anschauliche Graphiken zu erstellen. Lernen die Möglichkeiten von interaktiven Datenvisualisierungen kennen und können eigene, einfache Applikationen programmieren. Themen Bedeutung und Funktion von explorativer Datenanalyse und Datenvisualisierungen: Von Tukey über Tufte zu Quealy Techniken der Datenexploration mit R Univariate Techniken: Stem-and-Leaf_plot, Barcharts, Histogramme, Wahrscheinlichkeitsverteilungen, Boxplots, Zeitreihen Bi- und multivariate Techniken: Streudiagramme, Heat-Maps und Vergleich von Verteilungen Erkennen räumlicher Muster Visualisierungen als Mittel der Kommunikation Gestalt-Prinzipien der Datenvisualisierung und Umsetzung mit ggplot Interaktive Graphiken als Webapplikationen Folien/R-Skripte und über e-learning bereitgestellte Texte Literaturempfehlungen: R Graphics Cookbook, Practical Recipes for Vsiualizing Data, siehe -Liste Nr. [6]. Visualize This: The Flowing Data Guide to Design, siehe -Liste Nr. [3]. 7.5 Open Data Die Teilnehmenden setzen sich mit den Möglichkeiten global verfügbarer Daten auseinander. Themen Die Relevanz von Daten in einer zunehmend digitalisierten Welt für ein globales Wissenssystem für Ökonomie und Wirtschaft Open Data in der Schweiz Öffentlich zugängliche Daten Open Data nutzen (Gruppenarbeit) Study Guide CAS DA 8/15
7.6 Regressionsanalyse Die Teilnehmenden: Lernen die Regressionsanalyse als vielseitiges und klassisches Instrument kennen, mit dem Beziehungen zwischen abhängigen und unabhängigen Grössen hergestellt und Prognosen erstellt werden können. Können Methoden und Kriterien zur Überprüfung eines Modells, möglicher Einschränkungen, möglicher Modellfehler und zur Einschätzung der Prognosequalität anwenden. Themen Lineare Regression Multiple lineare Regression Lineare Restriktionen Prognose und Prognosequalität Analyse der Modellstruktur: Multikollinearität Heteroskedastizität Autokorrelation Mehrgleichungssysteme Nichtlineare Zusammenhänge Folien/Buch/Readings auf elearning Plattform Study Guide CAS DA 9/15
7.7 Zeitreihen und Prognosen Die Teilnehmer: Kennen die Eigenschaften und Charakteristika von Moving-Average, Autoregressiven und ARIMA Prozessen. Können eine Zeitreihe anhand verschiedener Methoden glätten. Können zwischen trend-stationären und differenz-stationären Prozessen unterscheiden. Verstehen die Problematik des sogenannten spurious-regression- Problem. Können die Unit-root-Tests (Einheitswurzel-Test) anwenden. Themen Glättungsverfahren: Gleitende Durchschnitte Exponentielle Glättung Holt-Verfahren Saisonbereinigung: Additives und multiplikatives Modell Regressionsverfahren Holt-Winters Verfahren Stochastische Prozesse Unit roots-tests Korrelogramm Folien/Readings auf elearning Plattform Study Guide CAS DA 10/15
7.8 Data Mining Die Teilnehmenden: Können selbständig ein unstrukturiertes Datenset bereinigen und in eine strukturierte Form bringen. Können sich selbständig anhand der vorhandenen Daten und der aktuellen Fragestellung für die richtige Data Mining Disziplin sowie einen geeigneten Algorithmus entscheiden. Verstehen quantitative Kennzahlen um die Genauigkeit der Ergebnisse zu überprüfen. Vertiefen die Anwendung von Standard-Software zur Datenanalyse (R und ApacheSpark). Kennen Alternativen um grosse Datenmengen, die nicht auf eine einzelne Maschine passen, zu analysieren. Themen Überblick Supervised vs. Non-Supervised Machine Learning Pre-Processing / Feature Extraction / Dimension Reduction Wiederholung: Regression Association Rule Mining Clustering Classification Bewertung von Ergebnissen Muster in Daten erkennen, Explorative Datenanalyse Neuronale Netzwerke und Deep Learning Parallelisierung von Algorithmen mit ApacheSpark Ausflug 1: Erkennung von handschriftlichen Zahlensymbolen mit neuronalen Netzen Ausflug 2: Neural-Art: Wie neuronale Netze lernen berühmte Maler zu imitieren Ausflug 3: Kaggle Wettbewerb: Treten Sie gegen die internationalen Meister des Fachs an Folien/Skript/Readings auf elearning Plattform 7.9 Produkt-Workshops Produkt-Workshops werden durch die BFH optional angeboten und CAS übergreifend organisiert. Die Durchführung richtet sich nach Anzahl Interessierten Teilnehmern (Einschreibeliste auf elearning Plattform) und nach Verfügbarkeit entsprechender Experten der jeweiligen Firma. Die Teilnehmenden lernen marktführende Produkte im Bereich Datenanalyse, Data Mining, Machine Learning kennen. Themen Einführung und Hands On Workshop Folien/Skript/Readings auf elearning Plattform Study Guide CAS DA 11/15
8 Kompetenznachweise Für die Anrechnung der 12 ECTS-Punkte ist das erfolgreiche Bestehen der Qualifikationsnachweise (Prüfungen, Projektarbeiten) erforderlich, gemäss folgender Aufstellung: Kompetenznachweis Gewicht Art der Qualifikation Erfolgsquote Studierende Tooling und Datenmanagement Deskriptive Statistik und statistisches Testen Grafische Datenexploration und Datenvisualisierung Regressionsanalyse, Zeitreihen und Prognosen 2 Übungen / Hausaufgabe 0 100 % 2 Übungen + Schriftlich 0 100 % 2 Übungen + Schriftlich 0 100 % 2 Übungen + Schriftlich 0 100 % Data Mining 2 Übungen + Schriftlich 0 100 % Gesamtgewicht / Gesamterfolgsquote ECTS Note 10 0 100 % A - F Die Termine sind im Stundenplan aufgeführt. Studierende können in einem Kompetenznachweis eine Erfolgsquote von 0 bis 100% erarbeiten. Die gewichtete Summe aus den Erfolgsquoten pro Thema und dem Gewicht des Themas ergibt eine Gesamterfolgsquote zwischen 0 und 100%. Die Gesamterfolgsquote wird in eine ECTS Note A bis E umgerechnet, gemäss Studienreglement. Weniger als 50% Gesamterfolgsquote ergibt eine ungenügende Note F. Study Guide CAS DA 12/15
9 Für das Einlesen und als Begleitmaterial werden folgende Bücher empfohlen: Nr Titel Autoren Verlag Jahr ISBN Nr. Typ [1] Statistik ohne Angst vor Formeln Andreas Quatember Pearson Studium 2014 ISBN: 978-3-86894-218-7 P [2] R in Action data analysis and graphics with R Robert I. Kabacoff Manning 2015 ISBN: 978-1-61729-138-8 E [3] Visualize This: The Flowing Data Guide to Design, Visualization, and Statistics Nathan Yau John Wiley & Sons Inc 2011 ISBN: 978-0-470-94488-2 E [4] An R Companion to Applied Regression John Fox, Harvey Sanford Weisberg SAGE Publications Inc 2011 ISBN: 978-1-4129-7514-8 E [5] Introduction to Modern Time Series Analysis Uwe Hassler, Gebhard Kirchgässner, Jürgen Wolters Springer 2014 ISBN: 978-3-642-44029-8 E [6] R Graphics Cookbook Practical Recipes for Vsiualizing Data Winston Chang O'Reilly UK Ltd. 2013 ISBN: 978-1-4493-1695-2 E Weitere Empfehlungen und Hinweise bei den einzelnen Lehrveranstaltungen. Legende Typ: P = Pflichtlektüre mit Beschaffung durch Teilnehmende E = empfohlen Study Guide CAS DA 13/15
10 Dozierende Kursverantwortliche Dozierende sind: Vorname Name Firma E-Mail Michel Krebs BFH michel.krebs@bfh.ch Oliver Hümbelin BFH oliver.huembelin@bfh.ch Rudolf Farys UniBe rudolf.farys@soz.unibe.ch Fabienne Kilchör BFH fabienne@emphase.ch Raul Gimeno BFH rauldiego.gimeno@bfh.ch Andrea Giovannini IBM andrea.giovannini@ch.ibm.com Dorian Kessler BFH dorian.kessler@bfh.ch Oleg Lavrovsky datalets.ch oleg@datalets.ch + Weitere Experten, Betreuer und Gastreferenten aus Unternehmen und Hochschulen 11 Organisation CAS-Leitung: Prof. Dr. Arno Schmidhauser, Departement Technik und Informatik Tel: +41 31 84 83 275 E-Mail: arno.schmidhauser@bfh.ch Dr. Oliver Hümbelin, Departement Wirtschaft, Gesundheit und Soziale Arbeit Tel: +41 31 848 36 97 E-Mail: oliver.huembelin@bfh.ch CAS-Administration: Andrea Moser Tel: +41 31 84 83 211 E-Mail: andrea.moser@bfh.ch 12 Termine Daten: KW 43 2017 bis KW 14 2018 Donnerstags, von 08:30 bis 16:15 Uhr Stundenplan siehe Webseite "Durchführungsdaten" Details Study Guide CAS DA 14/15
Dokumenteninformation Study Guide CAS DA 2017-06-28 Dieser Study Guide gilt für die Publikation ab Herbstsemester 2017. Während der Durchführung des CAS können sich Anpassungen bezüglich Inhalten, n, Dozierenden und Kompetenznachweisen ergeben. Es liegt in der Kompetenz der Dozierenden und der Studienleitung, aufgrund der aktuellen Entwicklungen in einem Fachgebiet, der konkreten Vorkenntnisse und Interessenslage der Teilnehmenden, sowie aus didaktischen und organisatorischen Gründen Anpassungen im Ablauf eines CAS vorzunehmen. Berner Fachhochschule Technik und Informatik Weiterbildung Wankdorffeldstrasse 102 CH-3014 Bern Telefon +41 31 848 31 11 Email: office.ti-be@bfh.ch ti.bfh.ch/weiterbildung ti.bfh.ch/cas-da Study Guide CAS DA 15/15