CAS Big Data Frühlingssemester 2014

Ähnliche Dokumente
Inhaltsverzeichnis. Study Guide CAS Big Data 2/16

CAS Big Data Frühlingssemester 2015

CAS Applikationsentwicklung mit JavaScript & HTML5

CAS Mobile Application Development

CAS Enterprise Application Development.NET

Inhaltsverzeichnis. Study Guide CAS Big Data 2/17

CAS Embedded Linux und Android

Certificate of Advanced Studies. Big Data (CAS BGD)

Prof. Dr.-Ing. Rainer Schmidt 1

Big Data Informationen neu gelebt

CAS Systemisches Projektmanagement

CAS Mobile Application Development

Virtual Roundtable: Business Intelligence - Trends

2. Psychologische Fragen. Nicht genannt.

Spezialisierung Business Intelligence

Seminar Wirtschaftsinformatik II B.Sc.

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

PHP Kurs Online Kurs Analysten Programmierer Web PHP

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Allgemeines zu Datenbanken

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Titel BOAKdurch Klicken hinzufügen

OUTSOURCING ADVISOR. Analyse von SW-Anwendungen und IT-Dienstleistungen auf ihre Global Sourcing Eignung. Bewertung von Dienstleistern und Standorten

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Einführung in die Informatik II

SERVICE SUCHE ZUR UNTERSTÜTZUNG

ANSPRECHPARTNER. Film Mathematik statt Rechnen (Quelle: Hochschule Merseburg) Prof. Dr. Axel Kilian Fachbereich Informatik und Kommunikationssysteme

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Möglichkeiten für bestehende Systeme

EXASOL Anwendertreffen 2012

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Reporting Services und SharePoint 2010 Teil 1

Seminar: Moderne Web Technologien (MWT)

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Outsourcing und Offshoring. Comelio und Offshoring/Outsourcing

Individuelles Bachelorstudium. Software Engineering for Physics

Hinweise für das Schreiben einer Bachelor-Arbeit im Fachbereich Wirtschaftspsychologie

Überblick und Vergleich von NoSQL. Datenbanksystemen

Pilotierung von Unterrichtsbeispielen

Apache HBase. A BigTable Column Store on top of Hadoop

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Probleme kann man nie mit derselben Denkweise lösen, durch die sie entstanden sind. Albert Einstein BERATUNG

Was ist neu in Sage CRM 6.1

Sof o t f waretechn h o n l o og o i g en n f ü f r ü v e v rteilte S yst s eme Übung

Vorbereitungsseminar. Hochschule Darmstadt Fachbereich Informatik. Wintersemester 2011/2012 Prof. Dr. B. Kreling, Prof. Dr. J.

Workflow Systeme mit der Windows Workflow Foundation

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Software Qualität: Übung 3

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Softwaremanufaktur AW-SYSTEMS Kompetenzprofil Boreas

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

Big & Smart Data. bernard.bekavac@htwchur.ch

CAS Betriebswirtschaft

Beraten? Begeistern!

Grundbegriffe der Informatik

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

Seminar C16 - Datenmodellierung für SAP BW

Fragen und Antworten

Checkliste zur Vorbereitung für die Führungskraft

Ein Vorwort, das Sie lesen müssen!

Projekte für reale Herausforderungen Projektarbeit: Einleitung und Gliederung. Projekte für reale Herausforderungen

Big Data Kundendaten im 2015 Michael Gisiger Wortgefecht Training & Beratung

Checkliste zur qualitativen Nutzenbewertung

BETTER.SECURITY AWARENESS FÜR INFORMATIONSSICHERHEIT

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Wege zur Patientensicherheit - Fragebogen zum Lernzielkatalog für Kompetenzen in der Patientensicherheit

Exploration und Klassifikation von BigData

ecommerce als Projekt im Mittelstand: Tut Beratung Not? Bereiche, Formen, Auswahl!

Social Media Intelligence - eine neue Form der Informationsbeschaffung

Auswahl alter Klausuraufgaben aus einer ähnlichen Vorlesung Maßgeblich für die Prüfung sind die Vorlesungsinhalte!

Klausur WS 2006/07 Programmiersprache Java Objektorientierte Programmierung II 15. März 2007

Ein Leitfaden für hochschulexterne Betreuer von Bachelor- und Masterarbeiten aus Unternehmen und anderen Organisationen

Big Data Mythen und Fakten

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Content Management System mit INTREXX 2002.

Pflegende Angehörige Online Ihre Plattform im Internet

Bachelor Prüfungsleistung

Definition Informationssystem

!!!!T!!! Systems!() Multimedia Solutions

Der Einsatz von Social Media im Stadtmarketing. Alexander Masser, Hans-Jürgen Seimetz, Peter Zeile

Mitarbeiterbefragung als PE- und OE-Instrument

CAS Software Development

Interview zum Thema Management Reporting &Business Intelligence

Web Mining Übung. Aufgaben. Umfang

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

15 Social-Media-Richtlinien für Unternehmen!

IT mit klarer Linie. C R M - M i g r a t i o n. informatik ag. ilum:e informatik ag. Customer Relationship Management Migration

Leitfaden zum Erstellen der Projektarbeit

PMP Rezertifizierung: PMI ändert mit Wirkung zum sein Rezertifizierungs-System die wichtigsten Änderungen im Überblick

SharePoint Portal für eine effiziente Zusammenarbeit

MOBILE DEVICE MANAGEMENT BERATUNG Mehr Sicherheit für Ihre Entscheidung

Kompetenzvermittlung durch semesterbegleitende Studienleistungen in virtuellen Studiengängen

Transkript:

CAS Big Data Frühlingssemester 2014

1. Abstract 3 2. Umfeld und Motivation 3 3. Zielgruppe 5 4. Ausbildungsziele 5 5. Voraussetzungen 5 6. Kursübersicht 6 7. Kompetenzprofil 7 8. Organisation 7 9. Kursbeschreibungen 8 9.1. Einführung in Big Data 8 9.2. Apache Hadoop und das Hadoop Ecosystem 9 9.3. InMemory und ColumnStore Datenbanken, NoSQL 10 9.4. Hardware, Architektur, Cloud 11 9.5. Stream- & Event-Processing, Realtime 12 9.6. Special Analytics, Statistics, Machine Learning, Visualisation 13 9.7. Textdokumente, soziale Netze und Open Data 14 10. Projektarbeit 15 10.1. Zielsetzung und Thema 15 10.2. Ablauf 16 10.3. Ergebnis und Bewertung 17 11. Kompetenznachweise 18 12. Dozierende 18 13. Lehrmittel 19 13.1. Online Lehrmittel 19 13.2. Ergänzende Lehrmittel 19 14. Termine 19 Study Guide CAS Big Data Frühlingssemester 2014 2/20

1. Abstract Grosse Datenmengen in Echtzeit analysieren und nutzbar machen? Big Data ist eine der wichtigsten IT- Technologien des Jahrzehnts. Im Fokus stehen möglichst präzise und rasche Vorhersagen für Geschäftsentscheide, das Auffinden kritischer Ereignisse und Muster oder das Auffinden komplexer Zusammenhänge durch Auswertung eigener und globaler Datenquellen. 2. Umfeld und Motivation Die Methoden und Werkzeuge von Big Data ermöglichen die Beschaffung und Analyse grosser Datenmengen. Die Komplexität der Analysen und die oft kurze Lebensdauer der Daten machen eine massiv parallele und stream-orientierte Verarbeitung der Quellen notwendig, beispielsweise mit einem Hadoop-Cluster. Gegenüber klassischen BI-Methoden ist vor allem die Verschiedenartigkeit und Volatilität der Datenquellen ein wichtiges Merkmal von Big Data. Erläuterung zur Abbildung: Big Data wird oft über die 3V-Metapher definiert: Volume: Hohe zu verarbeitenden Datenmenge. Velocity: Hohe Verarbeitungsgeschwindigkeit, aber auch hohe Alterungsgeschwindigkeit der Quelldaten. Realtime-Ansprüche. Variety: Unterschiedlichste Quellen, die gleichzeitig und ad hoq angezapft werden müssen, komplexe Verarbeitungslogik, z.b. Textmining Study Guide CAS Big Data Frühlingssemester 2014 3/20

Zwischen den klassischen Business Intelligence-/Data Warehouse-Methoden und Big Data gibt es ausserdem Unterschiede, die je nach Projekt mehr oder weniger hervortreten: Data Warehouse Vordefinierte Ablagestruktur, Star- und Snowflake-Schema, Datenwürfel. Daten werden möglichst rasch nach dem Entstehen verarbeitet (ETL), gereinigt, normiert und mit Metadaten beschrieben. Daten haben einen gesicherten und hohen Informationsgehalt pro Byte. Firmeninterne Datenquellen. Quellenstruktur oft strikt, Zahlen und Werte mit klarer und einfacher Syntax und Semantik. Data at Rest Daten sind meist langlebig und als Pool vorliegend. Für die Verwertung relevante Daten werden möglichst schnell eingegrenzt. Indexbasierte Verarbeitung als Effizienz-Mittel. Zweckbestimmung der Daten im Voraus bekannt, z.b. Verkäufe, Kundendaten, Finanzkennzahlen, Produktqualitätszahlen usw. Klare Fragestellungen, z.b. Mittelwerte, Summen, Min/Max Berechnungen. Einmalige, gegenwarts-orientierte Analyse der Daten (Cockpit). Transaktionales Umfeld. Konsistenz und Integrität über Gesamtdatenbestand gewährleistet. Gültigkeitsgrenzen. Abfragen reproduzierbar. Big Data Daten werden ad hoq ab Quellen ausgewertet. Geordnete Ablage nach der Analyse ist zweitrangig. Daten werden während der Analyse aufbereitet. Informationsgehalt unsicher und pro Byte eher gering. Firmeninterne kombiniert mit globalen oder öffentliche Datenquellen (open data). Die Quellenstruktur der Daten kann lose und schwach beschrieben sein. Nicht immer klar definierte Syntax und Semantik. Textdaten sind häufig. Daten werden beim Gebrauch verarbeitet, da Art der Analyse ad hoq. Data in Motion Daten oft kurzlebig und müssen aus Streams verarbeitet werden. Realtime Anforderungen, zum Beispiel beim Bezug aus Sensornetzwerken. Gesamter Datenbestand wird für die Verwertung benötigt. Massive Parallelisierung der Verarbeitung als Effizienz-Mittel. Fragestellung manchmal kompliziert und offen ("Gibt es einen Zusammenhang zwischen X und Y"). Iterative Analyse der Daten mit stark prognostischen, zukunftsorientierten Ansprüchen. Komplexe und anspruchsvolle Visualisierung, Alarmierung, Entscheidungsunterstützung usw. Transaktionale Verarbeitung nicht gewährleistet. Daten fliessend. Zu keinem Zeitpunkt gesicherter integrer und konsistenter Zustand vorhanden. Study Guide CAS Big Data Frühlingssemester 2014 4/20

Applikationsbereiche von Big Data sind beispielsweise: Ereignis-Detektion und Überwachung von grossen Sensor-Netzwerken im Bereich Energie, Transport, Gesundheitswesen, Kommunikation usw. Logfile-Analyse zur Erhebung von Benutzer- und Systemverhalten, Systemsicherheit, Intrusion Detection usw. Sentiment-Analyse von Kunden und Märkten durch Kombination von Firmendaten mit Social Media und öffentlichen Daten. 3. Zielgruppe Fach- und Führungskräfte in Unternehmen und IT-Bereichen, die für den Aufbau, die Planung und die Umsetzung von Big Data Projekten verantwortlich sind. 4. Ausbildungsziele Die Teilnehmenden: kennen die methodischen und technologischen Grundlagen von Big Data. lernen Einsatzmöglichkeiten kennen, und können im eigenen beruflichen Umfeld neue Ideen zur Nutzung von Big Data und zum Erzeugen eines Business Value entwickeln. besitzen eine fundierte Übersicht über die Architektur von Big Data Lösungen. können Big Data-Projekte in ihrem Unternehmen planen, umsetzen und betreiben. können die Einbettung von Big Data Lösungen in die eigene IT-Architektur beurteilen und konzipieren. können globale und firmeninterne Datenquellen und Datenströme in eine Big Data Appliance integrieren. kennen moderne Methoden und Werkzeuge zur Aufbereitung, Analyse und Darstellung von Realtime-Datenströmen. In einer umfassenden Fallstudie wird die Konzeption oder Realisierung eines Big Data Projektes im eigenen Betrieb erarbeitet. 5. Voraussetzungen Die Teilnehmer bringen IT-Vorkenntnisse im Rahmen einer Informatik- oder Wirtschaftsinformatik- Ausbildung mit, insbesondere über Datenbanksysteme, Abfragesprachen (SQL), Modellierung, Reporting und Analyse. Projekterfahrung im Bereich Informationssysteme ist wünschenswert. In der Semesterarbeit erarbeiten die Teilnehmer ein eigenes Thema, typischerweise aus dem beruflichen Umfeld. Eine Unterstützung durch die eigene Firma ist für die Fallstudie erforderlich. Verständnis einer objektorientierten Programmiersprache wie Java ist nützlich. Study Guide CAS Big Data Frühlingssemester 2014 5/20

6. Kursübersicht Nr. Kurs/Lehreinheit Lektionen Stunden Dozierende 1. Einführung in Big Data Übersicht 8 Heinz Steiner Nutzenaspekte und betriebliche Bewertung von Big Data Projekten 2. Apache Hadoop und das Hadoop Ecosystem 3. InMemory und ColumnStore Datenbanken, NoSQL Enabling Technologies 8 Heinz Steiner 24 Guido Schmutz 16 Guido Schmutz 4. Hardware, Architektur, Cloud 8 Daniel Steiger 5. Stream- & Event-Processing, Realtime 6. Special Analytics, Statistics, Machine Learning, Visualisation 7. Textdokumente, soziale Netze und Open Data Special Topics 16 Guido Schmutz 32 Werner Dähler 16 Jürgen Vogel 8. Projektarbeit Projektarbeit 16 90 Verschiedene Betreuer Total 144 90 Das CAS umfasst insgesamt 12 ECTS Punkte. Für die einzelnen Kurse ist entsprechend Zeit für Selbststudium, Prüfungsvorbereitung etc. einzurechnen. Study Guide CAS Big Data Frühlingssemester 2014 6/20

7. Kompetenzprofil Legende: 1. Kenntnisse von Begriffen, Definitionen und Regeln; Faktenwissen 2. Verstehen von Zusammenhängen, Erklären von Sachverhalte erklären können 3. Anwendung des Wissen in einfachen Situationen 4. Analyse der eigenen Lösung 5. Synthese neuer Lösungen und Anwendung in komplexen Situationen 6. Beurteilung der Anwendbarkeit für bestimmte Probleme und Situationen, methodische Abwägung und Evaluation von Alternativen, Beziehungen zu anderen Fachgebieten 8. Organisation CAS-Leitung: Prof. Dr. Arno Schmidhauser Tel: +41 31 84 83 275 E-Mail: arno.schmidhauser@bfh.ch CAS-Administration: Andrea Moser Tel: +41 31 84 83 211 E-Mail: andrea.moser@bfh.ch Daten: KW 17 2014 bis KW 40 2014 Dienstag, von 08:30 bis 16:15 Kosten: Weblink zur Preisseite Ort: Berner Fachhochschule, Technik und Informatik, Wankdorffeldstrasse 102. Studienreglement: Es gilt das Studienreglement für alle MAS/DAS/CAS Studiengänge. Study Guide CAS Big Data Frühlingssemester 2014 7/20

9. Kursbeschreibungen Nachfolgend sind die einzelnen Kurse dieses Studienganges beschrieben. Der Begriff Kurs schliesst alle Veranstaltungstypen ein, es ist ein zusammenfassender Begriff für verschiedene Veranstaltungstypen wie Vorlesung, Lehrveranstaltung, Fallstudie, Living Case, Fach, Studienreise, Semesterarbeiten usw. 9.1. Einführung in Big Data Kursbeschreibung : Einführung in Big Data Lernziele Die Teilnehmer: wissen, wann man von einem Big Data Problem spricht kennen das Potential von Big Data Technologien für Unternehmen kennen den wirtschaftlichen Nutzen von Big Data gewinnen eine Übersicht, wann der Einsatz von Big Data sinnvoll ist Themen Block 1: Wann sprechen wir von Big Data? Methodik, Denkweise, 3V Konzept. Unterschiede gegenüber klassischen Informationssystemen Die Rolle des Data Scientists im Unternehmen Das Big Data Ökosystem Typische Use Cases und Anwendungsbeispiele Block 2: Was macht ein typisches Big Data-Projekt aus? Nutzen und Abgrenzung von Big Data Projekten beurteilen Welche Fallen gilt es zu umschiffen? Bei Big Data-Projekten stellt die Heterogenität der Teammitglieder eine besondere Herausforderungen dar: Welche Vorteile bieten Pilot-Projekte beim Thema Big Data? Projektpolitik. Was ist bei der Kommunikation der Projekte zu beachten? Lehrmittel Folien/Skript Literaturempfehlungen: [1] Study Guide CAS Big Data Frühlingssemester 2014 8/20

9.2. Apache Hadoop und das Hadoop Ecosystem Kursbeschreibung : Apache Hadoop und das Hadoop Ecosystem Lernziele Die Teilnehmer: lernen die Architektur von Apache Hadoop kennen kennen die Kernkomponenten von Hadoop und dem Hadoop Ökosystem wissen wie HDFS und MapReduce funktioniert können mit MapReduce einfache Big Data Anwendungen entwickeln lernen die Mittel für die Definition von Datenworkflows kennen lernen die Grenzen von Hadoop kennen und sehen für welche Art von Problemen sich MapReduce bzw. Hadoop eignet Themen Warum und wozu Hadoop verwendet wird Eigenschaften der Hadoop Architektur Kernkonzepte von Hadoop Funktionalität von MapReduce Die wichtigsten Komponenten des Hadoop Ökosystem: HDFS, MapReduce, Pig, Hive, HBase, Zookeeper, Flume, Cascading, usw. Entwicklung von MapReduce Anwendungen Daten-Import und Export Automatisierung von Datenworkflows Datenserizalisierung/Deseralisierung mit Avro Hadoop APIs Best Practices und Patterns Lehrmittel Folien/Skript Literaturempfehlungen: [2] Study Guide CAS Big Data Frühlingssemester 2014 9/20

9.3. InMemory und ColumnStore Datenbanken, NoSQL Kursbeschreibung : InMemory und ColumnStore Datenbanken, NoSQL Lernziele Die Teilnehmer: erwerben ein grundlegendes Verständnis von alternativen Datenbankkonzepten verstehen die Konzepte hinter den neuen, modernen NoSQL und NewSQL Datenbanken kennen die Unterschiede zu den relationalen Datenbanken kennen lernen die verschiedenen Arten von NoSQL kennen können erfolgsversprechende Einsatzszenarien erkennen Themen Was ist NoSQL? Was ist NewSQL? Warum gibt es diese neuen Datenbankarten? Relevante Datenbankkonzepte wie BASE, ACID, CAP, Partitionierung, Sharding, Replikation, usw. Eigenschaften der NoSQL und NewSQL Datenbanken Klassifikation der NoSQL und NewSQL Datenbanken Anwendungsfälle für NoSQL und NewSQL Datenbanken Was geschieht mit den traditionellen, relationalen Datenbanken? Schema-Less vs. Schema Ausgewählte, populäre NoSQL und NewSQL Datenbanken: MongoDB, HBase, Redis, Cassandra, Neo4J, u.a. NoSQL und NewSQL in einer BigData Architektur Lehrmittel Folien/Skript Literaturempfehlungen: [3] Study Guide CAS Big Data Frühlingssemester 2014 10/20

9.4. Hardware, Architektur, Cloud Kursbeschreibung : Hardware, Architektur, Cloud Lernziele Die Teilnehmer: lernen die Big Data -spezifischen Infrastrukturanforderungen kennen und sind in der Lage diese methodisch und vollständig zu formulieren. kennen die wesentlichen Architekturmerkmale eines Big-Data-Systems (Blueprints) und die aktuellen Big-Data-Plattformen und -Appliances der grossen Hersteller wie Oracle, Microsoft, IBM, u.a.m. kennen die wichtigsten Integrationsprinzipien kennen die betrieblichen Aspekte einer Big-Data-Infrastruktur und sind in der Lage ein Betriebskonzept zu erstellen können die Vor-/Nachteile, sowie Kosten/Nutzen einer cloud-basierten Big-Data-Infrastruktur beurteilen Themen Anforderungen und Architekturtreiber im Big-Data-Umfeld RASP Reliability, Availability, Scaleability and Performance Big Data Infrastruktur-Blueprints Big-Data-Plattformen eine Bestandesaufnahme Integration von Big-Data-Systemen in die bestehende IT-Landschaft Lifecycle einer Big-Data-Infrastruktur (Aufbau, Betrieb, Optimierung) Überlegungen zu Big Data in der Cloud Lehrmittel Eigene Vorlesungsunterlagen Aktuelle wissenschaftliche Papers Whitepapers von Big Data-Keyplayers Study Guide CAS Big Data Frühlingssemester 2014 11/20

9.5. Stream- & Event-Processing, Realtime Kursbeschreibung : Stream- & Event-Processing, Realtime Lernziele Die Teilnehmer: lernen die Prinzipien des Stream- und Event-Processing kennen können die Komponenten einer Event-Driven Architecture (EDA) beschreiben lernen die Unterschiedlichen Sprachen für die Erkennung und Verarbeitung von Events kennen können Probleme mit Hilfe von Event-Processing lösen können abschätzen, wann sich der Einsatz von Event-Processing lohnt kennen die Positionierung von Event Processing interhalb einer Big Data Architektur Themen Was ist ein Event, was ist eine Message? Was ist Complex Event Processing (CEP)? Historie und Prinzipien von Stream- und Complex Event Processing Event Processing Design Patterns Erkennen von Events Aggregation von Events wie können Business Events von den Raw Events abgeleitet werden Internet of Things und Machine to Machine (M2M) was hat dies mit Event-Processing zu tun? Welche Sprachen für das Event-Processing gibt es? Plattformen und Frameworks für Event-Processing: Twitter Storm bzw. Trident, Esper, usw. Lehrmittel Folien/Skript Literaturempfehlungen: [4] Study Guide CAS Big Data Frühlingssemester 2014 12/20

9.6. Special Analytics, Statistics, Machine Learning, Visualisation Kursbeschreibung : Special Analytics, Statistics, Machine Learning, Visualisation Lernziele Die Teilnehmer: kennen die Konsequenzen von Map-Reduce auf die Analyse-Algorithmen können die verschiedenen Methoden von Feature Extracion unterscheiden kennen die wichtigsten Clustering-Methoden kennen die wichtigsten Methoden der Dimensions-Reduktion kennen die wichtigsten Visualisierungsmöglichkeiten für Massive Datasets Themen Einführung in "konventionelle" Statistik und Data Mining Analyse-Algorithmen unter der Berücksichtigung von Map-Reduce Gruppieren und Aggregieren Matrix-Vector Multiplikation Distanz und Ähnlichkeitsmasse Euklidische Distanz Jaccard-Index Feature Extraction Frequent Itemsets Similar Items finden Clusteranalyse Hierarchisches Clustering k-means Clustering andere Clustering-Verfahren Dimensionsreduktion Eigenwerte und Eigenvektoren Hauptkomponentenanalyse (PCA) Maschinelles Lernen div. Klassifikationsmethoden Datenvisualisierungen (Beyond Pies & Charts) Arbeiten mit Stichproben Beispiele von Visualisierungen Lehrmittel Folien/Skript Literaturempfehlungen: [5] Study Guide CAS Big Data Frühlingssemester 2014 13/20

9.7. Textdokumente, soziale Netze und Open Data Kursbeschreibung : Textdokumente, soziale Netze und Open Data Lernziele Die Teilnehmer: lernen Algorithmen und Werkzeuge zur Analyse unstrukturierter Daten (insbesondere von Textdokumenten) und sozialer Netzwerke (Twitter, Facebook, etc.) kennen kennen aktuelle technologische Entwicklungen im Web (Open Data, Semantic Web) und haben einen Überblick über die verschiedenen Web- Standards für Daten (HTML/XML, RDF,...) können anwendungsbezogen die passenden Algorithmen und Werkzeuge auswählen, umsetzen und evaluieren Themen Analyse von Textdokumenten (Natural Language Processing) mit unterschiedlichen Methoden aus der (Computer-) Linguistik und dem maschinellen Lernen: Reguläre Ausdrücke, Named Entity Recognition, Syntax, Semantik Information Retrieval und Web Mining: Text Classification, PageRank kurze Einführung in die Analyse von multimedialen Daten: Audio, Bilder und Videos Analyse von sozialen Netzwerken auf der Basis von Graphenalgorithmen und Natural Language Processing: Sentiment Analysis, Prestige Publizieren und konsumieren von Datensätzen im Web nach dem Open Data-Prinzip Linked Open Data und Semantic Web Lehrmittel Folien/Skript Literaturempfehlungen: [6], [7] Study Guide CAS Big Data Frühlingssemester 2014 14/20

10. Projektarbeit 10.1. Zielsetzung und Thema In der Semesterarbeit bearbeiten die Teilnehmer ein Projekt oder eine Fragestellung aus ihrer Firma. Mit dem gewählten Thema vertiefen die Studierende die im Studium erlernten Methoden. Das Thema der Semesterarbeit kann umfassen: Machbarkeitsstudie Umsetzung oder Implementation von Analytics-Anforderungen Evaluation und Projektierung Algorithmen- oder Software-Entwicklung IT-Architektur Konzeption Optimierung von Lösungen usw. Study Guide CAS Big Data Frühlingssemester 2014 15/20

10.2. Ablauf Die Semesterarbeit beinhaltet folgende Meilensteine: 1. In der Firma ein Thema suchen, und mit Vorteil einen Ansprechpartner/Betreuer in der Firma definieren. 2. Erstellen einer Projektskizze (siehe unten), Eingabe an die SWS 3. Individuelle Kurzpräsentation ( 10' ) und Diskussion (10') des Themas an der SWS vor einer Dozierendengruppe. 4. Eventuell Überarbeitung der Projektskizze gemäss Feedback an der Präsentation. 5. Zuordnung eines Experten durch die SWS für die Begleitung. 6. Durchführung der Arbeit in eigener Terminplanung, 1-3 Zwischenreviews mit dem Experten. 7. Schlusspräsentation der Arbeit (Plenum mit allen Kursteilnehmern). Dauer ca. 15 Min. Präsentation + 15 Min. Diskussion. 8. Abgabe des Berichtes an den Experten. 9. Beurteilung durch den Experten. Die Projektskizze umfasst eine ein- bis zweiseitige Aufgabenstellung und eine 10-minütige Power-Point Präsentation mit folgenden Teilen: 1. Titel 2. Umfeld 3. Problemstellung 4. Lösungsansatz (Vorgehen, Methoden) 5. Name und Kontaktadressen der Gruppenmitglieder, und des Ansprechpartners/Betreuers in der Firma Gruppenarbeiten sind, wo möglich, erwünscht und je nach Rahmenbedingungen sogar von Vorteil. Study Guide CAS Big Data Frühlingssemester 2014 16/20

10.3. Ergebnis und Bewertung Der Bericht ist in elektronischer Form als PDF-Dokument an den Betreuer und den CAS- Verantwortlichen zu schicken. Auf Verlangen des Betreuers ist zusätzlich eine gedruckte Version abzugeben. Bericht: ca. 20-30 Seiten, Source Code soweit notwendig für die Projektbeurteilung. Die Semesterarbeit wird nach folgender Richtlinie bewertet (Durch den Experten entsprechend dem Thema und dem Ablauf der Arbeit anpassbar). Nr. Kriterium Beschreibung Max. Punkte 1. Bericht 80 Punkte 2. Präsentationen 20 Punkte Genereller Eindruck 16 Umfang, Vollständigkeit, Präsentation Komplexität, Stringenz Darstellung, Sprache 8 verständlich, nachvollziehbar Stil, ohne Fachjargon Grammatik, Orthografie etc. Ziele, Ausgangslage, Aufgabenstellung 8 klar und verständlich beurteilbare Ziele Methoden 16 Aus der ersten Beschreibung wird das Problem nachvollziehbar analysiert und strukturiert. Die Methodenauswahl ist begründet und nachvollziehbar. Angemessene Literatur- und Quellenrecherche Ergebnisse 24 Methodik korrekt und professionell angewendet Fundierter Vergleich Zielsetzung vs. Erreichtes Neue Erkenntnisse und eigene Beiträge Stringente Schlussfolgerungen Management Summary, Fazit 8 vollständig, nur Wichtiges ohne Nachschlagen verständlich Formal 8 Zeitmanagement Aufbau Zielsetzung genannt Zusammenfassung Inhaltlich 12 logisch, nachvollziehbar Sprache, Rhetorik, Hilfsmittel Publikumsgerecht Wesentliches hervorgehoben 3. Total 100 Study Guide CAS Big Data Frühlingssemester 2014 17/20

11. Kompetenznachweise Für die Anrechnung der 12 ECTS-Punkte ist das erfolgreiche Bestehen der Kompetenznachweise (Prüfungen, Projektarbeiten) erforderlich, gemäss folgender Aufstellung: Kompetenznachweis Gewicht Art der Qualifikation Erfolgsquote Studierende Enabling Technologies 2 Prüfung (Zu Kurs/Lehreinheit 1, 2, 3, 4, 7, nicht 5) 0 100 % Special Topics 2 Prüfung (Zu Kurs/Lehreinheit 6) 0 100 % Semesterarbeit 6 Projektarbeit (Kurs/Lehreinheit 8) 0 100 % Gesamterfolgsquote 0 100 % Gesamtgewicht 10 ECTS Note A - F Jeder Studierende kann in einem Kompetenznachweis eine Erfolgsquote von 0 bis 100% erarbeiten. Die gewichtete Summe aus den Erfolgsquoten pro Thema und dem Gewicht des Themas ergibt eine Gesamterfolgsquote zwischen 0 und 100%. Die Gesamterfolgsquote wird in eine ECTS Note A bis E umgerechnet, gemäss Studienreglement. Weniger als 50% Gesamterfolgsquote ergibt eine ungenügende Note F. 12. Dozierende Vorname Name Firma E-Mail Heinz Steiner Trivadis AG heinz.steiner@bfh.ch Guido Schmutz Trivadis AG guido.schmutz@bfh.ch Daniel Steiger Trivadis AG daniel.steiger@bfh.ch Werner Dähler SECO Bern werner.daehler@seco.admin.ch Jürgen Vogel BFH juergen.vogel@gmail.com + Weitere Experten, Betreuer und Gastreferenten aus Unternehmen und Lehre Study Guide CAS Big Data Frühlingssemester 2014 18/20

13. Lehrmittel 13.1. Online Lehrmittel Learning from Data https://www.edx.org/course/caltechx/cs1156x/learning-data/1120 Big Data and Web Intelligence https://www.coursera.org/course/bigdata 13.2. Ergänzende Lehrmittel Ergänzende Lehrmittel sind Empfehlungen, um den Stoff zu vertiefen oder zu erweitern. Die Beschaffung liegt im Ermessen der Studierenden: Nr Titel Autoren Verlag Jahr ISBN Link zur Bestellung [1] Big Data für IT- Entscheider Pavlo Baron Hanser Fachbuchverlag 2013 ISBN-10: 3-446-43339-2 [2] Hadoop: The Definitive Guide Tom White O' Reilly Press 2012 ISBN-10: 1-4493-1152-0 [3] NoSQL Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken Markus Brückner, Benjamin Brauer, Jens Hampe Hanser Fachbuchverlag 2011 ISBN-10: 3-446-42753-8 [4] Event Processing in Action [5] Mining of Massive Datasets [6] Natural Language Processing with Python [7] A Semantic Web Primer Peter Niblett, Opher Etzion Jeffrey David Ullman, Anand Rajaraman Edward Loper, Ewan Klein, Steven Bird Frank van Harmelen, Paul Groth, Grigoris Antoniou Manning Press 2010 ISBN-10: 1-935182-21-8 Cambridge University Press 2011 Gratis herunterladen ISBN-10: 1-107-01535-9 O'Reilly Media 2009 ISBN-10: 0-596-51649-5 MIT Press 2012 ISBN-10: 0-262-01828-4 14. Termine Stundenplan CAS BGD siehe Durchführungsdaten Frühling 2014 Study Guide CAS Big Data Frühlingssemester 2014 19/20

CAS BGD FS 14 V1.13.docx 2014-03-13 22:24 Die Inhalte und Angaben in diesem Study Guide können sich bis zum Studienstart noch verändern. Berner Fachhochschule Technik und Informatik Weiterbildung Wankdorffeldstrasse 102 CH-3014 Bern Telefon +41 31 848 31 11 Email: office.ti-be@bfh.ch ti.bfh.ch/weiterbildung ti.bfh.ch/cas-bgd Study Guide CAS Big Data Frühlingssemester 2014 20/20