FRAUNHOFER-INSTITUT FÜR INTELLIGENTE ANALYSE- UND INFORMATIONSSYSTEME DATA SCIENTIST SCHULUNGEN UND COACHING IN UNTERNEHMEN KATALOG
Unser Data-Scientist-Schulungsprogramm macht Mitarbeiterinnen und Mitarbeiter ihres Unternehmens fit für die Arbeit mit Big-Data-Anwendungen. Dabei passen wir die Schulungen individuell an die Bedürfnisse ihres Unternehmens an und erarbeiten gemeinsam mit ihnen»ihr«individuelles Schulungs- oder Coaching-Programm. Die möglichen, frei kombinierbaren en sind in diesem Katalog beschrieben. (E) Big Data und Data Science Überblick und Potenziale... 3 (A) Big Data Architecture... 4 (BA) Basic Analytics... 6 (BDA) Big Data Analytics... 7 (SMA) Social Media Analytics... 8 (MMA) Multimedia Analytics... 10 (LED) Linked Enterprise Data Integration... 12 (TA) Text Analytics... 13 (VA) Visual Analytics... 15 Beispiel für eine Inhouse-Schulung von 5 Tagen... 17 Schulungsleiterin: Dr. Angelika Voss Schloss Birlinghoven 53757 Sankt Augustin Telefon 02241 14-2726 angelika.voss@iais.fraunhofer.de http://www.iais.fraunhofer.de/data-scientist.html Stand: April 2014 Data-Scientist-Schulungen und Coaching 2
(E) Big Data und Data Science Überblick und Potenziale Überblick und Potenziale Ziel: In diesem Executive Seminar erhalten Sie einen Überblick über Big-Data- Technologien, Architekturen, Analytik und Anwendungsbeispiele und damit über die wichtigsten Kompetenzen von Data-Science-Teams. Optional entwickeln wir mit Ihnen eine individuelle Roadmap für Ihr Unternehmen, um zukünftige Anwendungs- und Handlungsfelder im Kontext Big Data zu erarbeiten und zu strukturieren. Denn»Big Data«ist ein Management-Thema. Wer seine Daten richtig und schnell nutzen kann, gewinnt an Effizienz durch datengestützte Entscheidungen, vorausschauendes Handeln und beschleunigte Unternehmensprozesse oder überzeugt Kunden durch smarte Produkte, individualisierte Angebote oder Dienstleistungen. Um das Potenzial von Big Data zu erschließen, ist Wissen aus Analytik, IT und dem jeweiligen Fachbereich gefragt. Bislang gibt es nur wenige Fachkräfte, die diese Kompetenzen kombinieren. Solche»Data Scientists«werden jedoch dringend gesucht. In den USA gehören sie schon zu den meistgesuchten technisch-wissenschaftlichen IT- Fachleuten und McKinsey sagt eine Lücke von über 50 Prozent für die nächsten Jahre voraus. Data Scientists machen für Ihr Unternehmen mehr Daten schneller nutzbar. Sie analysieren sie mit wissenschaftlichen Verfahren und entwickeln prädiktive Modelle. Damit beobachten sie Datenströme und extrahieren auch aus unstrukturierten Daten wie Text, Bilder, Video, Audio geschäftsrelevante Informationen und Signale. Automatisierte Klassifikationen und Prognosen ermöglichen individualisierte Angebote an die Kunden in Sekundenbruchteilen, schnellere Reaktionen als der Wettbewerb, effizientere Geschäfts- und Produktionsprozesse, vorausschauendes Handeln und datengestützte Planungen. Zielgruppe: Projektleiter und Führungskräfte Voraussetzung: keine en: Deutsch Unterlagen: Deutsch Basis Dauer Mit Übungen E0 1,5 Einführung: Big Data, Data Science, Anwendungen, Potenziale E1 E0 1,5 Big Data Architektur E2 E0 1,5 Basic Analytics E3 E0 1,5 Text Analytics E4 E0 1,5 Visual Analytics in Raum und Zeit E5 E0 2x1,5 Entwicklung einer individuellen Roadmap Stand: April 2014 Data-Scientist-Schulungen und Coaching 3
(A) Big Data Architecture Ziel: Die Teilnehmer können anschließend die Einsatzmöglichkeiten von Big-Data- Technologien für verschiedene Einsatzszenarien fundiert bewerten und mit eigenen Experimenten beginnen. Die unter dem Begriff»Big Data«entstehenden Konzepte und Techniken eröffnen neue Fragestellungen und Anwendungsbereiche bei der Auswertung von Daten. Allerdings muss zur Auswertung eines Big-Data-Pools eine geeignete Infrastruktur vorhanden sein. Hier gibt es großen Handlungsbedarf, bestehende Infrastrukturen auf- oder umzurüsten oder sogar vollkommen neu aufzubauen. Der Markt ist unübersichtlich, die Anforderungen sind zu Beginn oft unklar. In kurzen Abständen erscheinen neue Produkte zur technischen Unterstützung von Big-Data-Anwendungen, andere geraten wieder in Vergessenheit. Der Entwurf von Architekturen für Big-Data-Anwendungen muss eine Vielzahl fachlicher, technischer und nicht funktionaler Anforderungen berücksichtigen. Typischerweise können die Anforderungen erst durch die geeignete Kombination unterschiedlicher technischer Komponenten erfüllt werden. Im Kontext von Big Data realisieren das Map Reduce Konzept sowie die Open-source- Projekt-Familie um Hadoop einen wichtigen, unverzichtbaren Aspekt bei der parallelen Aufbereitung umfangreicher Datenflüsse. Für eine fachlich vollständige Anwendung sind sie aber nicht unbedingt ausreichend und für manche Aspekte gar nicht geeignet. Ein Realtime-Einsatz erfordert den wahlfreien Lese/Schreib-Zugriff in großen Datenbeständen und begründet beispielsweise den Einsatz von NoSQL-Datenbanken. Das Schulungsmodul vermittelt einen qualifizierten und konzentrierten Überblick über die technischen Big-Data-Komponenten von Architekturentwürfen. Auf der Basis von Berechnungskonzepten wie Map Reduce, theoretischen Einsichten wie dem CAP- Theorem, sowie nicht funktionalen Anforderungen wie Echtzeitfähigkeit werden Big- Data-Produkte vorgestellt und klassifiziert. Die Konfiguration einer Beispielanwendung wird im fachlichen Zusammenhang begründet. Stand: April 2014 Data-Scientist-Schulungen und Coaching 4
Zielgruppe: Software-Architekten und Entwickler, die Big-Data-Anwendungen entwerfen, konfigurieren und den Betrieb steuern. Voraussetzung: Grundkenntnisse in Datenbank- und Softwaretechnik en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer A1 2 * 1,5 Einführung Big Data - Grundlagen, Begriffe Komponenten für Big-Data-Anwendungen CAP Theorem, eventual consistency Batch- und Echtzeitprozesse Lambda Architektur A2 A1 2 * 1,5 Batch-Verarbeitung Map Reduce Workflow Organisation No-SQL Key-Value-Stores A3 1,5 Übungen zu Batch-Verarbeitung A4 A1 2 * 1,5 Echtzeitdatenströme Message Passing Stream Processing No-SQL-Datenbank Cassandra A5 1,5 Übungen zu Echtzeitdatenströmen Stand: April 2014 Data-Scientist-Schulungen und Coaching 5
(BA) Basic Analytics Ziel: Nach der Schulung sind Sie in der Lage, erste eigene Analysefragestellungen zu bearbeiten. Dieses Modul vermittelt Fachleuten mit Grundkenntnissen im Bereich quantitativer Analytik und erster Programmiererfahrung wesentliche Grundlagen der modernen Datenanalyse. Dazu werden in einem ersten Teil Techniken aus dem Bereich Clustering, Regression und Klassifikation anhand einfacher und praktisch relevanter Fragestellungen erarbeitet und angewendet. Der zweite Teil beschäftigt sich mit der praktischen Umsetzung des Gelernten. Zum Einsatz kommen Open Source Werkzeuge, insbesondere die statistische Programmiersprache»R«sowie das Desktop Data-Mining-Tool»RapidMiner«. Die Techniken werden in einer Fallstudie exemplarisch an einer realen Problemstellung (Empfehlungssystem) demonstriert. Zielgruppe: Analysten, die ihre Fähigkeiten zur Auswertung von Datenbestände ausweiten wollen Softwareentwickler/-architekten, die Systeme mit analytischen Fragestellungen (mit-) entwickeln Interessierte aus der Forschung, die eine Orientierung im Bereich Data Science suchen Voraussetzungen: Grundkenntnisse in Statistik und Programmierung en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer BA1 1,5 Einführung: Überblick und Einordnung Projekt Management für Data Analytics BA2 3 * 1,5 Grundlegende Konzepte der Datenanalyse demonstriert mit Rapid Miner Datentypen Datenaufbereitung Explorative Datenanalyse Einfache statistische Modelle Validierung von Modellen BA3 BA2 2 * 1,5 Modellierungstechniken demonstriert mit Rapid Miner Clusteranalyse Decision Trees Support Vector Machines K-Nearest Neighbour BA4 1,5 Einführung in R BA5 BA4 1,5 R Übungen zu Modellierungstechniken Stand: April 2014 Data-Scientist-Schulungen und Coaching 6
(BDA) Big Data Analytics Ziel: Nach der Schulung verstehen Sie, wie Analysealgorithmen für eine skalierbare Big- Data-Architektur implementiert werden können und haben Beispiele für Batch- und Streaming-Verarbeitung kennen gelernt. Dieses Modul führt die Module "Big Data Architecture" und Basic Analytics" fort. Fachleute mit Programmiererfahrung und Grundkenntnissen in quantitativer Analytik lernen Methoden und Werkzeuge zur Analyse von Big Data kennen. Nach einer Einführung in Sampling Ansätze und ihre Übertragung auf große Datenmengen wird zunächst gezeigt, wie man mit konventionellen SQL-basierten Methoden in Big-Data Systemumgebungen arbeiten kann. Anschließend wird die Modellentwicklung und -anwendung in einer Big-Data Systemarchitektur mit Batch- und Stream Verarbeitung gezeigt. Es wird an einer beispielhaften Analyseanwendung (Online-Empfehlungssystem) gezeigt, wie mit Cascading und Hadoop ein Modell gebaut werden kann, das als Grundlage für Empfehlungen dient. Im letzten Teil geht es darum, das Beispielsystem mit Storm um die Analyse von Online-Datenströmen zu erweitern. Zielgruppe: Analysten, die ihre Fähigkeiten zur Auswertung von Datenbestände ausweiten wollen Softwareentwickler/-architekten, die Systeme mit analytischen Fragestellungen (mit-) entwickeln Voraussetzungen: Grundkenntnisse in Statistik und Programmierung. Die Teilnahme an den Modulen "Big Data Architecture" und "Data Scientist: Basic Analytics" wird empfohlen. en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer BDA1 1,5 Einführung Sampling als Ansatz zur Analyse großer Datenmengen BDA2 BDA1 1,5 Analyse großer Datenmengen in existierenden IT-Umgebungen Ansätze in existierenden IT-Landschaften Transport der Daten zwischen existierenden und Big-Data- Umgebungen Analysen mit SQL Integration verschiedener Quellen mit Lingual BDA3 BDA4 BDA2 (A2) BDA3 (A4) 1,5 Modellentwicklung und -anwendung in Big-Data-Umgebungen Batch-Workflows und Jobausführung mit Cascading Modellanwendung am Beispiel eines Online- Empfehlungssystems 1,5 Analyse von Datenströmen Datenstromverarbeitung mit Storm Ranking nach Popularität als Anwendungsbeispiel Stand: April 2014 Data-Scientist-Schulungen und Coaching 7
(SMA) Social Media Analytics Ziel: Sie verstehen die wichtigsten Verfahren der Social Media Analytics aus Anwendersicht, lernen exemplarische Workflows zur zielgerichteten Analyse von Social Media Texten kennen und erfahren Best Practices zur Analyse Sozialer Netzwerke. Social Media Analytics erlaubt es Unternehmen zu verstehen, welche Auswirkungen Soziale Netze auf ihre Produkte, Marken, Märkte, Mitarbeiter und Partner haben. Dabei werden Millionen von Beiträgen und Bewertungen in Social Media analysiert und in Hinblick auf die Unternehmensziele aggregiert und dargestellt. In diesem Schulungsmodul wird gezeigt, wie Texte aus Sozialen Netzen wie Twitter, Facebook und Nutzerforen untersucht werden können. Besonders wichtig ist es hierbei, die ausgedrückten Meinungen oder Emotionen von Internetnutzern in Hinblick auf bestimmte Themen, Produkte, Personen oder Firmen zu erkennen. Diese Erkenntnisse können in vielfältige Anwendungen einfließen, z.b. in die Begleitung politischer Kampagnen, in die Entwicklung von Produktverbesserungen, in Werbestrategien oder in die Reaktion auf Produktprobleme. Im Kurs werden Social Media e mit Hilfe aktueller Analyseverfahren exemplarisch untersucht und die Ergebnisse in Hinblick auf die Anwendung aufbereitet und visualisiert. Es werden zum Teil Open Source Werkzeuge (Gensim, CRFsuite, scikit-learn, Gephi) aber auch proprietäre Analysemethoden eingesetzt. Möchte man zusätzlich Techniken zur Analyse von Multimedia-e in Sozialen Netzen kennenlernen, so sollte man an dem Kurs "Data Scientists Multimedia Analytics" teilnehmen. Die Slots aus dem Modul Text Analytics überschneiden sich teilweise mit denen von Social Media Analytics und führen sie fort. Bei Interesse an beiden Modulen bitten wir um Rücksprache, um Ihre Interessen bestmöglich zu berücksichtigen. Zielgruppe: Sales- und Marketing-Manager, Product-Manager Analysten, Entwickler Voraussetzungen: Mathematische Kenntnisse auf Abiturniveau. Elementare Kenntnisse in Python sind von Vorteil, aber nicht Bedingung. en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer SMA1 1,5 Einführung Anwendungsszenarien: Mögliche Ergebnisse von Social Media Analytics Warum ist Social Media Analytics schwierig? Social Media Analytics: Definition und Teilaufgaben Überblick und Stand der Kunst Stand: April 2014 Data-Scientist-Schulungen und Coaching 8
SMA2 SMA1 1,5 Crawling und Monitoring Einfache Online-Analysen Crawling Monitoring SMA3 SMA1 1,5 Repositories und Vorverarbeitung Speicherung und Dokumentstrukturen Morphologische Vorverarbeitung Syntaktische Annotation: Tokenisierung SMA4 SMA3 1,5 Analyse von kompletten Social Media Beiträgen Klassifikation: Problemstellung Relevante Klassifikationsmethoden Praxisorientierte Bewertung der Eigenschaften und Performanz Anwendung zur Social Media Analyse und Opinion Mining SMA5 SMA3 1,5 Semantische Ähnlichkeit von Begriffen, z.b. Bewertungen Gruppierung von Meinungs- und Emotionsausdrücken Darstellung der Gruppierungsverfahren Graphische Exploration von Themen in großen Textsammlungen Praxisorientierte Bewertung der Eigenschaften und Performanz Anwendung zur Social Media Analyse und Sentiment Analyse SMA6 SMA4 1,5 Erkennung von Namen, Produkten und Firmen, usw. Einführung: maschinelle Annotation von relevanten Phrasen im Satz Darstellung der Erkennungsverfahren Praxisorientierte Bewertung der Eigenschaften und Performanz Anwendung zur Social Media Analyse SMA7 SMA5, SMA6 1,5 Beispiele für den praktischen Einsatz: Marketing im Automotive Bereich Professionelle Autotests o Wie verschaffe ich mir einen schnellen Überblick? o Wie identifiziere ich die wichtigen Textstellen? SMA8 SMA5, SMA6 1,5 Beispiele für den praktischen Einsatz: Forenanalyse Analyse von Emotionen im Automotive Forum Motortalk o Welche Emotionen sind relevant? o Welche Einsichten ergeben sich aus der Emotionsanalyse? Diskussion von Best Practices Stand: April 2014 Data-Scientist-Schulungen und Coaching 9
(MMA) Multimedia Analytics Ziel: Sie bekommen einen Technologie-Überblick zu Multimedia-Analyse Verfahren, die sich z.b. für Marktforschung und Medienbeobachtung einsetzen lassen. Für diese Technologien lernen sie einzuschätzen unter welchen Bedingungen und für welche Anwendungen sie nützlich sind und wie sich eine Umsetzung realisieren lässt. In diesem Schulungsmodul werden ausgewählte multimediale Verfahren (z.b. für Videos) gegenübergestellt. Dazu erfolgt jeweils ein theoretischer Einblick in die Verfahrensidee sowie die Vorstellung eines dazu passenden open-source Werkzeugs. Mit dem Schwerpunkt der Marktforschung wird dieses Werkzeug dann in der Praxis auf Vorund Nachteile untersucht und in einer begleitenden Übung von den Teilnehmern angewendet. Möchte man zusätzlich Techniken zur Analyse von Textbeiträgen in Sozialen Netzen kennenlernen, so sollte man an dem Modul "Social Media Analytics" teilnehmen. Zielgruppe: Analysten, Projektleiter, Entwickler Voraussetzungen: Um in diesem Modul einen guten Überblick über Theorie und Praxis zu erlangen, sind keine Vorkenntnisse notwendig. Je nach Schwerpunkt des praktischen Teils ist Vorerfahrung im Umgang mit (häufig konsolenbasierter) Software von Vorteil. Für die vertiefenden theoretischen Abschnitte ist mathematisches Wissen, insbesondere in der Stochastik, ebenfalls von Vorteil. en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer MMA1 1,5 Automatische Spracherkennung Einführung, Technologie-Überblick Audio-Merkmale Phoneme und Sprachmodelle Fehlerquellen und Best Practice Einsatzszenarien Praktischer Einsatz MMA2 1,5 Audio-Fingerprinting Einführung, Technologie-Überblick Audio-Merkmale, Fingerprints, Coding Robustheit und Invarianzeigenschaften Indexierung, Hashing und Matching Einsatzszenarien Praktischer Einsatz MMA3 1,5 Optische Zeichenerkennung in Videos Einführung, Technologie-Überblick Textlokalisation und Texterkennung Mischverteilungen, Markov-Modelle Einsatzszenarien Stand: April 2014 Data-Scientist-Schulungen und Coaching 10
Praktischer Einsatz MMA4 1,5 Logo-Erkennung Einführung, Technologie-Überblick Extraktion und Repräsentation durch Bildmerkmale Robustheit und Invarianzeigenschaften Indexierung, Hashing und Matching Einsatzszenarien Praktischer Einsatz Stand: April 2014 Data-Scientist-Schulungen und Coaching 11
(LED) Linked Enterprise Data Integration Ziel: Diese Schulung vermittelt Ihnen ein grundlegendes Verständnis von Linked Data Standards, Technologien und versetzt sie in die Lage, potentialträchtige Einsatzmöglichkeiten für Linked Data im Unternehmen zu identifizieren. Semantische Technologien und Linked Data haben sich mit Initiativen wie Schema.org, Google s Knowledge Graph oder DBpedia bereits fest im Web etabliert. Auch in den Intranets großer Organisationen und Unternehmen gibt es ähnlich wie im Web eine Vielzahl verschiedener, heterogener Informationssysteme, Portale und Datenbanken. Ähnlich wie im Web können Linked Data und semantische Technologien zur Vernetzung dieser verteilten heterogenen Datenbestände genutzt werden, um bessere Suchfunktionen anzubieten, Daten auszutauschen oder dynamisch und interaktiv zu integrieren. Linked Data ist dabei ein auf W3C Web Standards (HTTP, RDF, SPARQL) basierender, pragmatischer Datenintegrationsansatz, der sich gut mit Service-orientierten Architekturen und anderen Datenintegrationsparadigmen kombinieren lässt. Zielgruppe: Analysten, die ihre Fähigkeiten zur Integration von verteilten und heterogenen Datenbestände ausweiten wollen Softwareentwickler/-architekten, die datengetriebene, verteilte Systeme (mit-) entwickeln Interessierte aus der Forschung, die eine Orientierung im Bereich Data Science suchen Voraussetzungen: Grundkenntnisse in Web-Technologien und evtl. Datenbanken. en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer LED1 1,5 Linked Data Grundlagen Linked Data Paradigma RDF Datenmodell RDF Serialisierungen: N3/Turtle, RDF/XML, RDFa, JSON LD Einfache Vokabulare LED2 LED2 1,5 Semantic Web Wissensbasen und SPARQL Anfragesprache OWL Ontologien SPARQL Anfragesprache für RDF LED3 1,5 Mapping und Verlinkung von Daten Arten von Mappings und Verknüpfungen Mapping relationaler Daten auf RDF mit dem W3C R2RML Instanzmatching mit Link Discovery Werkzeugen LED4 1,5 Anwendungsfälle Semantische Suche Enterprise Data Integration Linked (Open) Data und DBpedia Semantische Suchmaschinenoptimierung mit Google Rich- Snippets, RDFa und schema.org Stand: April 2014 Data-Scientist-Schulungen und Coaching 12
(TA) Text Analytics Ziel: Im Rahmen dieses Kurses verstehen Sie die wichtigsten Text-Analytics- Algorithmen auf Anwenderniveau, lernen exemplarische Workflows zur zielgerichteten Analyse von Textkollektionen kennen und erfahren Best Practices zum Text-Mining. Unter Anwendung von Open-Source-Werkzeugen (NLTK, Gensim, CRFsuite, scikitlearn, Gephi, R) werden Textquellen beispielhaft analysiert. Der erste Block von Modulen (TA1-TA5) bietet eine Einführung in wichtige Text- Analytics-Techniken. Unter Verwendung von Open-Source-Python-Modulen werden realistische Analysen durchgeführt und die Ergebnisse interpretiert und bewertet. Der zweite Block von Modulen (TA6-TA8) beschäftigt sich mit Sequenzmodellen. Dieses Modul eignet sich als Vertiefung zu Social Media Analytics. Die Slots aus dem Modul Text Analytics überschneiden sich teilweise mit denen von Social Media Analytics und führen sie fort. Bei Interesse an beiden Modulen bitten wir um Rücksprache, um Ihre Interessen bestmöglich zu berücksichtigen. Zielgruppe: Analysten, Projektleiter, Entwickler Voraussetzung: Mathematische Kenntnisse auf Abiturniveau, elementare Kenntnisse in Python, elementare Kenntnisse in R sind von Vorteil, aber nicht Bedingung en: Deutsch oder Englisch Unterlagen: Deutsch Basis Dauer TA1 1,5 Einführung Anwendungs-Szenarien Warum ist Text Analytics schwierig Text Mining: Definition und Teilaufgaben Überblick und State-of-the Art TA2 TA1 1,5 Vorverarbeitung unstrukturierter Textdaten Vorverarbeitung: Tokenisierung, Sentence Splitting Normalisierung, Stemming, Lemmatisierung Übungen Einzelne Vorverarbeitungsschritte in Python und NLTK TA3 TA2 1,5 Klassifikation Problemstellung Methoden: Naïve Bayes, logistische Regression-Messung der Performanz: Precision, Recall, F-Wert Generalisierung, Überanpassung Modellbewertung, Kreuzvalidierung Übungen Anwendung mehrer Klassifikatoren in Python Beurteilung der Klassifikationsgüte Stand: April 2014 Data-Scientist-Schulungen und Coaching 13
TA4 TA3 1,5 Klassifikation Supportvektormaschine (SVM) Generalisierung, Überanpassung Einführung und Eigenschaften der SVM-Selektion von Merkmalen Praktische Hinweise zur Textklassifikation Übungen Anwendung der SVM in Python TA5 TA2 1,5 Text-Cluster und Topic Themen Clustern semantisch ähnlicher Worte zu Topics LDA: Training, Interpretation und Anwendung Semantische Ähnlichkeit und Disambiguierung Übungen Anwendung LDA in Python Interpretation Sequenzmodelle TA6 TA2, TA3 1,5 Sequenzmodelle Einführung, Chunking, Named Entity Recognition Klassifikation mit gleitendem Fenster Conditional Random Field theoretische und praktische Eigenschaften TA7 TA6 1,5 Übungen zu Sequenzmodellen Vorverarbeitung, Definition der Merkmale Verschiedene Anwendungen in Python Modellbewertung Stand: April 2014 Data-Scientist-Schulungen und Coaching 14
(VA) Visual Analytics Ziel: Visuelle Analytik bezeichnet Analyseprozesse, in denen Anwender und Computer synergetisch kooperieren und dazu mittels interaktiver Visualisierungen kommunizieren. In diesem Modul werden neben Kernidee und Vorteilen dieser Herangehensweise für die Exploration komplexer Datensätze auch die wesentlichen Grundlagen anschaulich vermittelt. Den thematischen Schwerpunkt stellt dabei die Analyse räumlicher Verteilungen und zeitlicher Muster in großen Datenmengen und deren Formalisierung für die weitere Verarbeitung dar. Je nach Teilnehmerinteressen werden anhand eines Twitter-Datensatzes aus Seattle bzw. Verkehrsdaten einer Großstadt konkrete Beispiele für Analysen und Modellierung (Ergebnisformalisierung) von raumzeitlichen Ereignissen, Zeitreihen und Trajektorien demonstriert. Zielgruppe: Analysten, Projektleiter, Entwickler Voraussetzung: Grundkenntnisse der Datenanalyse en: Deutsch oder Englisch Unterlagen: Englisch Basis Dauer VA1 1,5 Einführung in die visuelle Analytik (VA) Kernidee und Definition der visuellen-analytik-abgrenzung (Visual Analytics in Wissenschaft und Industrie) und Bezug zum CRISP-DM Einführende Beispiele VA2 VA1 1,5 Grundlagen I ( VA Fundamentals ) Data Fundamentals: Strukturen, Komponententypen, Attribute und Referenzen; prinzipielle Taxonomie raumzeitlicher Daten (Events, Zeitreihen, Trajektorien) Visualization Fundamentals: visuelle Variablen, visuelles Mapping, Standardvisualisierungen Interaction 101: koordinierte Ansichten, Abfragen, Filtern, Gruppieren Analysis Fundamentals: Typisierung von Analyseaufgaben, Ebenen der Analyse VA3 VA1 1,5 Grundlagen II Grundlegende Datentransformationen: Simplifikation, Generalisieren, Aggregation, Extraktion Transformation raumzeitlicher Daten: Events <-> Zeitreihen <-> Trajektorien Clustering in der visuellen Analyse: Arten des Clustering, interaktiv-visuelle Unterstützung des Clusterprozesses, progressivvisuelles Clustern Vorbereitung praktische Übungen Kurzeinführung in das Werkzeug V-Analytics Designphilosophie und Arbeitsprinzipien Stand: April 2014 Data-Scientist-Schulungen und Coaching 15
VA4 VA3 1,5 Anwendungsbeispiel I: Analyse von raumbezogenen Zeitreihen demonstriert an einer Verkehrsanalyse mit GPS-Daten von Mailand Datenkonvertierung: Trajektorien Events verortete Zeitreihen Iterativ-interaktives Clustern von Zeitreihen Ergebnisvisualisierung auf Karten und mittels Zeitgraphen Zeitreihenanalyse und Vorhersagemodelle Analyse und Prädiktion von Abhängigkeiten zwischen mehreren zeitabhängigen Variablen VA5 VA2 1,5 Anwendungsbeispiel II: Social-Media-Analyse in Raum und Zeit demonstriert an Twitter-Themen Strukturierung von Tweet-en: Kategorisieren nach Themen Räumliche Aggregation Clustern nach Themen in Raum und Zeit; Ergebnisinterpretation Von Tweets zu Trajektorien Verfahren und Anwendungsmöglichkeiten Stand: April 2014 Data-Scientist-Schulungen und Coaching 16
Beispiel für eine Inhouse-Schulung von 5 Tagen Programm Tag 1 Tag 2 Tag 3 Tag 4 Tag 5 30 min. Erwartungen Erwartungen Erwartungen Erwartungen Erwartungen 1. Slot A1 Big-Data- Architecture Einführung A4 Big-Data- Architecture Streaming BA2 Basic Analytics Konzepte mit Rapid Miner BDA2 Big Data Analytics Sampling SMA1 Social Media Analytics Einführung Kurze Pause BA3 2. Slot A1 Big-Data- Architecture Einführung A4 Big-Data- Architecture Streaming Basic Analytics Modellierungstechniken BDA2 Big Data Analytics In existierenden Umgebungen SMA2 Social Media Analytics Crawling & Vorverarbeitung Mittagspause 3. Slot A2 BA2 Basic Analytics Konzepte mit Rapid Miner BA3 Big-Data- Architecture Batch Basic Analytics Modellierungstechniken BDA3 Big Data Analytics Batch SMA3 Social Media Analytics Komplette Analyse Kurze Pause 4. Slot A2 Big-Data- Architecture Batch BA2 Basic Analytics Konzepte mit Rapid Miner BDA1 Big Data Analytics Sampling BDA4 Big Data Analytics Streaming SMA4 Social Media Analytics Namenserkennung 30 min. Feedback Feedback Feedback Feedback Feedback Gerne unterstützen wir Sie bei der Zusammenstellung Ihres individuellen Schulungsprogramms. Schulungsleiterin: Dr. Angelika Voss Schloss Birlinghoven 53757 Sankt Augustin Telefon 02241 14-2726 angelika.voss@iais.fraunhofer.de http://www.iais.fraunhofer.de/data-scientist.html Stand: April 2014 Data-Scientist-Schulungen und Coaching 17