Data Science (WS 2017/2018) Klaus Berberich
|
|
- Simon Kopp
- vor 6 Jahren
- Abrufe
Transkript
1 1
2 Data Science (WS 2017/2018) Klaus Berberich
3 0. Organisation
4 Agenda 1. Einführung 2. Regression 3. Klassifikation 4. Clusteranalyse 5. Neuronale Netze 6. Assoziationsanalyse 7. Visualisierung Data Science / Kapitel 0: Organisation 4
5 Vorlesung und Übung Vorlesung und Übung Mittwoch, 08:15 09:45 (1. Stunde), Raum 7110 Mittwoch, 10:00 11:45 (2. Stunde), Raum 7110 Übungen etwa alle 14 Tage in der 2. Stunde Data Science / Kapitel 0: Organisation 5
6 Prüfung Schriftliche Klausur am Ende des Semesters 120 Minuten Hilfsmittel: drei von Hand beschriebene DIN-A4 Blätter nicht programmierbarer Taschenrechner Modul Data Science ersetzt bisheriges Vertiefungsmodul Entscheidungsunterstützende Systeme Data Science / Kapitel 0: Organisation 6
7 Webseite Webseite zur Vorlesung: Ankündigungen Folien und Übungsblätter zum Download Sonstige Ressourcen (z.b. Code und Daten) Data Science / Kapitel 0: Organisation 7
8 Literatur zur Vorlesung M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 [Online] C. C. Agarwal: Data Mining, The Textbook, Springer, 2015 [Online] Data Science / Kapitel 0: Organisation 8
9 Literatur zur Vorlesung S. Raschka: Python Machine Learning, Packt Publishing, 2015 [Online] S. Raschka: Machine Learning with Python, mitp, 2017 [Online] Data Science / Kapitel 0: Organisation 9
10 Literatur zur Vorlesung F. Provost and T. Fawcett: Data Science for Business, Cambridge University Press, 2014 [Online] J. D. Kelleher, B. Mac Namee, A. D Arcy: Fundamentals of Machine Learning for Predictive Analytics, MIT Press, 2015 [Online] Data Science / Kapitel 0: Organisation 10
11 1. Einführung
12 Was ist Data Science? Data Science 12
13 Was ist Data Science? Data Science zielt darauf ab, aus Daten Erkenntnisse zu gewinnen, aus denen sich oft geschäftsrelevante Handlungsempfehlungen ableiten lassen (actionable insights) Data Science greift Methoden auf z.b. aus den Gebieten Statistik Machine Learning Data Mining Datenbanken Quelle: [KDnuggets] 13
14 Was ist Data Science? Begriff Data Science existiert seit mehr als 20 Jahren, hat in den letzten fünf Jahren an Popularität gewonnen, u.a. aufgrund von wachsenden Mengen verfügbarer Daten (z.b. explizit oder implizit durch Benutzer erzeugte Daten) gestiegenes Bewusstsein für den Wert von Daten ( data is the new oil ) gewachsene Speicherkapazität und Rechenleistung ermöglichen Bewahren und Analyse (großer) Datenmengen breite Verfügbarkeit von Softwarepaketen zur Speicherung und Analyse (großer) Datenmengen 14
15 Datenwachstum Jährliches Datenwachstum wie aktuell prognostiziert von International Data Corporation (IDC) Zettabytes Data created Quelle: [IDC] (1 Zettabyte entsprechen Byte also 10 9 Terabytes) 15
16 Strukturierte und unstrukturierte Daten Strukturierte Daten haben festgelegte Struktur (Schema) Beispiele: Artikel- und Kundendaten aus ERP-System Formate: gespeichert in RDBMS, CSV-Dateien ~10% Unstrukturierte Daten haben keine festgelegte Struktur Beispiele: Zeitungsartikel, s, Office-Dokumente, etc. Formate: Textdateien, HTML-Dateien, Office-Formate, etc. Semistrukturierte Daten als Mischformen ~80% Beispiele: s (Absender, Betreff und Text) Formate: XML, JSON ~10% 16
17 Strukturierte Daten als Ausgangslage Großteil existierender und neuer Daten unstrukturiert Verfahren erwarten in der Regel strukturierte Daten m Merkmale (features) n Datenpunkte (data points) f 1 f 2... f m n Unstrukturierte Daten können häufig in strukturierte Daten umgewandelt werden (vgl. Kapitel 4) 17
18 Merkmalsarten Merkmale lassen sich hinsichtlich ihrer Skalenniveaus unterscheiden, d.h. welche mathematischen Operationen sinnvoll auf ihren Werten anwendbar sind nominal (z.b. Geschlecht, Herkunft) keine Ordnung, Gleichheit überprüfbar, Häufigkeiten ordinal (z.b. Güteklasse, Kleidergröße) Ordnung definiert, vergleichbar, Häufigkeiten metrisch (z.b. Alter, Gewicht) vergleichbar, Häufigkeiten, Mittelwert, etc. 18
19 Kapitel 2: Regression (3 VL) Vorhersage eines abhängigen metrischen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Mietpreise in Saarbrücken Größe (m 2 ) Entfernung (km) Miete (Euro/Monat) m 6.5 g e Anwendungen: Vorhersage (z.b. Mietpreis, Energieverbrauch) Faktorenanalyse 19
20 Kapitel 3: Klassifikation (4 VL) Vorhersage eines abhängigen nominalen Merkmals anhand unabhängiger metrischer Merkmale Beispiel: Erkennen von Spam in s Viagra Kino Rezept Übung Kategorie Spam kein Spam Spam kein Spam Spam..... [Rezept < 3] [Viagra < 1] S Anwendungen: S ks Erkennen von handgeschriebenen Ziffern Vorhersage von Kundenabwanderungen 20
21 Kapitel 4: Clusteranalyse (4 VL) Aufteilung von Datenpunkten (z.b. Kunden, Dokumente) in möglichst homogene Gruppen Beispiel: Kunden eines Filmportals KundenNr Action Drama Family Horror {1, 4} {2, 3, 5} Anwendungen: Kundensegmentierung Datenexploration und -zusammenfassung 21
22 Kapitel 5: Neuronale Netze (4 VL) Neuronale Netze können u.a. für Regressionsund Klassifikationsprobleme verwendet werden q Neuronale Netze sind ein vielseitiges Werkzeug und aktuell eines der spannendsten Gebiete der Informatik exzellente Ergebnisse z.b. in Computer Vision, NLP benutzerfreundliche Bibliotheken (z.b. Keras, Gluon) und effizientes Training auf GPUs (z.b. TensorFlow) 22
23 Kapitel 6: Assoziationsanalyse (3 VL) Erkennen von Mustern (Assoziationen) in Datenmengen Beispiele: Einkäufe von Kunden KundenNr Artikel 1 { Äpfel, Bananen, Bier, Windeln } 2 { Bier, Windeln, Chips } 3 { Bier, Chips } 4 { Chips, Windeln } 5 { Äpfel, Bananen, Bier, Chips, Windeln } 6 { Bananen, Chips, Windeln }.. {Bier, Chips} {Äpfel, Bananen} Anwendungen: Generieren von Empfehlungen (z.b. Produkte) Datenexploration und -zusammenfassung 23
24 Kapitel 7: Visualisierung (2 VL) Geschickte Visualisierung kann zu neuen Erkenntnissen über die Daten führen, aber auch helfen, anders gewonnene zu kommunizieren Dimensionsreduktion zur Darstellung hochdimensionaler Daten Visualisierung dynamischer Daten Interaktive Visualisierungen Quelle: [seaborn] 24
25 Überwachtes vs. unüberwachtes Lernen Verfahren des maschinellen Lernens lassen sich in verschiedene Kategorien einteilen, zwei wichtige sind überwachtes Lernen (supervised learning) mit Klassifikations- und Regressionsverfahren als Beispielen verwendet Trainingsdaten (z.b. klassifizierte Datenpunkte) unüberwachtes Lernen (unsupervised learning) mit Verfahren zur Clusteranalyse als Beispiel erkennt Zusammenhänge in gegebenen Daten 25
26 Python Python (3.6) als Programmiersprache für Codebeispiele in dieser Vorlesung Essentielle Bibliotheken für Data Science mit Python pandas ( numpy ( scikit-learn ( keras ( Anaconda ( als Distribution, welche alle genannten Bibliotheken mitbringt 26
27 Software und Bibliotheken Neben Python gibt es eine Reihe empfehlenswerter Softwarepakete und Bibliotheken für Data Science R als Programmiersprache für statistische Berechnungen KNIME und RapidMiner als GUI-basierte Werkzeuge tra tra tra tra tra tra SVM tra mod exa Generalized Linear M... tra mod Gradient Boosted Tr... tra mod exa wei tra tra exa wei tra W-IBk mod W-J48graft exa tra mod exa W-LMT 27
28 Software und Bibliotheken Weka (für Java) Spark MLlib (für Spark als verteilte Plattform) 28
29 Ressourcen Wettbewerbe, Datensätze und Diskussionen Newsletter zum Thema Data Science
30 Zusammenfassung Data Science zielt darauf ab, verwertbare Erkenntnisse aus (großen) Datenmengen zu gewinnen Strukturierte (10%), semi-strukturierte (10%) und unstrukturierte Daten (80%) Merkmale werden nach Skalenniveaus eingeteilt in nominale (z.b. Name), ordinale (z.b. Kleidergröße) und metrische (z.b. Gewicht) Überwachtes und unüberwachtes Lernen als zwei Kategorien von Verfahren des maschinellen Lernens 30
31 Literatur [1] D. Reinsel, J, Gantz, J. Rydning: Data Age 2025, IDC Whitepaper, 2017 [Online] 31
Entscheidungsunterstützende Systeme
Entscheidungsunterstützende Systeme (WS 015/016) Klaus Berberich (klaus.berberich@htwsaar.de) Rainer Lenz (rainer.lenz@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)
MehrCitizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016
Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrProseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,
MehrInformatikgrundlagen (WS 2015/2016)
Informatikgrundlagen (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde
MehrData-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den
MehrProseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
MehrFachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß
Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche
MehrDatenbanken (WS 2015/2016)
Datenbanken (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde
MehrInformationsflut bewältigen - Textmining in der Praxis
Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland
MehrML-Werkzeuge und ihre Anwendung
Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig
MehrÜbersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen
Einführung in die Informatik für Hörer aller Fakultäten Prof. Jürgen Wolff von Gudenberg (JWG) Prof. Frank Puppe (FP) Prof. Dietmar Seipel (DS) Vorlesung (Mo & Mi 13:30-15:00 im Zuse-Hörsaal): FP: Form
MehrProseminar - Data Mining
Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:
MehrMethodenkurs Text Mining 01: Know Your Data
Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1 Eva EnderichsSoSe2015 01: Know Your Data 2 Typen von Korpora annotiert VS naturbelassen wenige
MehrWeb Data Mining. Alexander Hinneburg Sommersemester 2007
Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining
MehrSession: 1 SO Selbstoptimierte Zustandsüberwachung für die Prognose von Fehlzuständen für Windkraftanlagen SO-Pro (Resolto)
Session: 1 SO Selbstoptimierte Zustandsüberwachung für die Prognose von Fehlzuständen für Windkraftanlagen SO-Pro (Resolto) 06. Juli 2016 Bielefeld www.its-owl.de Agenda Abschlusspräsentation Einführung
MehrData Mining und maschinelles Lernen
1 J. Fürnkranz Data Mining und maschinelles Lernen Johannes Fürnkranz juffi@ke.tu-darmstadt.de 2 J. Fürnkranz Inhalt Einführung in maschinelles Lernen und Data Mining mit Schwerpunkt auf symbolisch/logischen
MehrSocial Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG
Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem
MehrExtensible Visualization
Extensible Visualization Oliver Linder Client Technical Professional 2013 IBM Corporation Agenda Vergleich von Visualierungsansätzen IBM Rapidly Adaptive Visualization Engine Ablauf Quelle (Analyticszone.com)
MehrMythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011
Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ
MehrSports Data Mining. The Field and Methodology. Sublogo. 24.05.2014 Fachbereich Informatik Prof. Johannes Fürnkranz 1
Sports Data Mining The Field and Methodology 24.05.2014 Fachbereich Informatik Prof. Johannes Fürnkranz 1 Definition Hierarchie für Sport und Sportdatenbeziehungen Eins kein Zusammenhang Zwei Domain-Experten
Mehr0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen
MehrDipl.-Ing. Martin Vogel Büro: A2-18 b Telefon: Sprechzeit: dienstags & donnerstags, 13:30-15:30 Uhr
Vorstellung Prof. Dr.-Ing. Gudrun Breitzke Lehrgebiete im Bachelor-Studiengang: Ingenieurinformatik (1. Semester) Mathematik (1. und 2. Semester) CAD (2. Semester) Büro: A2-18 a Telefon: 0234 32-10206
MehrBachelorarbeit Erkennung von Fließtext in PDF-Dokumenten
Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei
MehrManagement Support Systeme
Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte
MehrData Mining SAS Mining Challenge Einführung in SAS Enterprise Miner
Agenda Universitätsrechenzentrum Heidelberg Data Mining SAS Mining Challenge Einführung in 14. November 2003 Hussein Waly URZ Heidelberg Hussein.Waly@urz.uni-heidelberg.de SAS Mining Challenge Generelle
MehrInformation Mining - Einführung
Information Mining - Einführung Norbert Fuhr Abteilung Informatik und Angewandte Kognitionswissenschaften Fachgebiet Informationssysteme norbert.fuhr@uni-due.de 1 Aufgabenstellungen im Data Mining Klassifikation
MehrIdeen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik
Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrAlgorithmische Geometrie 1. Einführung
Algorithmische Geometrie 1. Einführung JProf. Dr. Heike Leitte Computergraphik und Visualisierung Algorithmische Geometrie Veranstaltung: 2 SWS Vorlesung: Mi, 9:15 10:45 1 SWS Übung: Do 14:00 16:00 Übungen:
MehrMS SQL Server 2012 (4)
MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql
MehrFortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
MehrEinführung in die Praktische Informatik WS 09/10
Einführung in die Praktische Informatik WS 09/10 Prof. Dr. Christian Sengstock Institut für Informatik Neuenheimer Feld 348 69120 Heidelberg http://dbs.ifi.uni-heidelberg.de sengstock@informatik.uni-heidelberg.de
MehrSAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH
SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH GERHARD SVOLBA COMPETENCE CENTER ANALYTICS WIEN, 17. NOVEMBER 2015 SAS CONTEXTUAL ANALYSIS 14.1 EIN BLICK IN DIE PRODUKTBESCHREIBUNG
MehrAdvanced Analytics. Michael Ridder. Copyright 2000-2014 TIBCO Software Inc.
Advanced Analytics Michael Ridder Was ist Advanced Analytics? 2 Was heißt Advanced Analytics? Advanced Analytics ist die autonome oder halbautonome Prüfung von Daten oder Inhalten mit ausgefeilten Techniken
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrData Mining (ehem. Entscheidungsunterstützungssysteme)
Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE
MehrAlles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein
Alles für den Kunden Analyse von Kundendaten Katrin Plickert, Heiko Hartenstein Zum Verständnis 9. Februar 2007 Heiko Hartenstein, Katrin Plickert 2 Quelle: Heilmann, Kempner, Baars: Business and Competitive
MehrAnwendung der Predictive Analytics
TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg
MehrBig Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.
Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen
MehrSoftware und Visualisierungen. Erich Schubert, Dr. Arthur Zimek. 2013-0X-XX KDD Übung
Software und Visualisierungen Erich Schubert, Dr. Arthur Zimek Ludwig-Maximilians-Universität München 2013-0X-XX KDD Übung Ein recht einfacher Datensatz, online unter: http://aima.cs.berkeley.edu/data/iris.csv
MehrQuantitative Methoden der Betriebswirtschaftslehre I Überblick
Quantitative Methoden der Betriebswirtschaftslehre I Überblick Prof. Dr. Norbert Trautmann Universität Bern Frühjahrssemester 2016 Gliederung 1 2 3 4 5 Prof. Dr. Norbert Trautmann, Frühjahrssemester 2016
MehrAngewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
MehrKapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen
Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrRisiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe
Risiken bei der Analyse sehr großer Datenmengen Dr. Thomas Hoppe Datenaufbereitung Datenanalyse Data Mining Data Science Big Data Risiken der Analyse Sammlung Integration Transformation Fehlerbereinigung
MehrComputer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10
Computer Vision: AdaBoost D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Idee Gegeben sei eine Menge schwacher (einfacher, schlechter) Klassifikatoren Man bilde einen guten durch eine geschickte Kombination
Mehr9 Resümee. Resümee 216
Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls
MehrBegleitendes Praktikum zu Computer Vision und Mustererkennung: Vertiefung
Begleitendes Praktikum zu Computer Vision und Mustererkennung: Vertiefung WS11/12 Übersicht Kontakt Aufgaben Bibliotheken Hinweise zu C# Kontakt Internet: http://cvpr.unimuenster.de/teaching/ws11/praktikumcomputervisionundmustererkennungws11/
MehrZusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück
Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware 14. März 2013, IHK Osnabrück-Emsland-Grafschaft Bentheim Geschichte Kassenbuch des Liederkranz, 1886 Hutmachergesangvereins
MehrDiskrete Strukturen Tutorium I 29. Oktober Tim Weißker
Diskrete Strukturen Tutorium I 29. Oktober 2015 Tim Weißker Willkommen Chennaiyin FC vs. Athlético de Kolkata, Chennai, Indien (Oktober 2015) 2 Diskrete Strukturen - Tutorium I Willkommen Chennaiyin FC
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrPersonalisierung internetbasierter Handelsszenarien. Matthias Pretzer
Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de http://diko-project.de/ Fachbereich Informatik Abteilung Informationssysteme Prof. Dr. Appelrath Inhalt: Motivation Grundlagen Anwendungsszenario
MehrDatenbanken und Informationssysteme. Datenbanken und Informationssysteme
Datenbanken und Informationssysteme Wolfgang Menzel: Natürlichsprachliche Systeme (NATS) Norbert Ritter: Datenbanken und Informationssysteme (IS) NATS Ziele der Vorlesung (1) Vermittlung von Grundlagen-
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Wolfgang Menzel: Natürlichsprachliche Systeme (NATS) Norbert Ritter: Datenbanken und Informationssysteme (IS) NATS Ziele der Vorlesung (1) Vermittlung von Grundlagen-
MehrSentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser
Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung
MehrEinführung in die Wissensverarbeitung und Data Mining
Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen
MehrSeminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006
Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet
MehrProgrammieren I. Überblick. Institut für Angewandte Informatik. KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Programmieren I Überblick KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft www.kit.edu Übersicht Modul Programmieren Programmieren I (1. Semester) 4 Vorlesungs- und Übungsstunden / Woche 1 Stunde
Mehr2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung
2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg
Mehrkultur- und sozialwissenschaften
Bernward Tewes unter Mitarbeit von Hans-Joachim Mittag und Hans-Georg Sonnenberg Einführung in SPSS mit Ausblicken auf die freie Statistiksoftware R kultur- und sozialwissenschaften Das Werk ist urheberrechtlich
MehrVorlesung Software Engineering
Vorlesung Software Engineering Kapitel 4 Qualitätsmanagement und Software-Metriken Software-Metriken mittels Werkzeug Understand - 1 - Neues Projekt anlegen New Project... - 2 - Neues Projekt anlegen Auswahl
MehrNI-TDM-Datenformat. Komfortables Arbeiten mit TDM-Dateien in LabVIEW
NI-TDM-Dateiformat NI-TDM-Datenformat Im Verlauf des gesamten Entwicklungsprozesses für ein neues Produkt werden große Mengen technischer Daten erzeugt sei es bei der Simulation bestimmter Vorgänge oder
MehrProf. Dr.-Ing. Rainer Schmidt 1
Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2
MehrStatistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
MehrWas ist Data Mining... in der Fundraising Praxis?
Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten
MehrPPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.
PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt
MehrSports Data Mining. Tools and Systems for Sports Data Analysis
Sports Data Mining Tools and Systems for Sports Data Analysis Inhalt 1. Überblick 2. Tools a. Spezielle b. Allgemeine 3. Anwendungsbeispiel Wieso spezielle Tools? Video Analysen Benutzbarkeit Vorschläge
MehrComputergraphik I. Organisatorisches. G. Zachmann University of Bremen, Germany cgvr.informatik.uni-bremen.de
Computergraphik I Organisatorisches G. Zachmann University of Bremen, Germany cgvr.informatik.uni-bremen.de Voraussetzungen Ein wenig Mathematik Trigonometrie Lineare Algebra: Rechnen mit Vektoren und
MehrForschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013
Forschunsprojekte und Independent Coursework Prof. Dr. Christian Herta 29. Januar 2013 Forschungsgebiete Suchtechnologie, Text- und Webmining Verarbeitung unstrukturierter Daten, insbesondere Text Large
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrEinladung zu den IBM SPSS Data und Text Mining Tagen. Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining
Einladung zu den IBM SPSS Data und Text Mining Tagen Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining Lassen Sie Daten und Texte für sich arbeiten mit Smarter Analytics
MehrKundenwissen für den Energieversorger der Zukunft
Kundenwissen für den Energieversorger der Zukunft Dr. Leading Tobias customer Graml insights CTO company tobias.graml@ben-energy.com for utilities in Europe Sechs Jahre Expertise in Datenanalyse und Kundenverhalten
MehrRichtlinien und Hinweise für. Seminararbeiten
Richtlinien und Hinweise für Seminararbeiten Lehrstuhl für VWL (Wirtschaftspolitik, insbes. Industrieökonomik) Ökonomie der Informationsgesellschaft Prof. Dr. Peter Welzel Gliederung Die folgenden Richtlinien
MehrDynamische Optimierung im Dienstleistungsbereich
Dynamische Optimierung im Dienstleistungsbereich Univ.-Prof. Dr. Jochen Gönsch Universität Duisburg-Essen Mercator School of Management Lehrstuhl für Betriebswirtschaftslehre, insb. Service Operations
MehrNeue Studie zum digitalen Universum entdeckt Big Data Gap
13. Dezember 2012 Neue Studie zum digitalen Universum entdeckt Big Data Gap Big Data Gap 23 Prozent (643 Exabyte) des digitalen Universums könnten nützliche Erkenntnisse bringen. Derzeit sind nur drei
MehrKünstliche Neuronale Netze und Data Mining
Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung
MehrDISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374
DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne
MehrPersonalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
MehrEnterprise Content Management
Enterprise Content Management Dr.-Ing. Raymond Bimazubute Lehrstuhl für Künstliche Intelligenz Friedrich Alexander Universität Erlangen-Nürnberg Email: raymond.bimazubute@informatik.uni-erlangen.de Vorbemerkungen
MehrEinführung in die Informatik
Einführung in die Informatik Einleitung Organisatorisches, Motivation, Herangehensweise Wolfram Burgard 1.1 Vorlesung Zeit und Ort: Mittwochs 16.00 18.00 Uhr Gebäude 101 HS 00-036 Informationen zur Vorlesung,
MehrInhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden
Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse
Mehrfh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Angewandte Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines einfachen Beispieles Häufigkeitsauswertungen Grafiken Datenmanipulationen
MehrPredictive Modeling Markup Language. Thomas Morandell
Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrBei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:
18 3 Ergebnisse In diesem Kapitel werden nun zunächst die Ergebnisse der Korrelationen dargelegt und anschließend die Bedingungen der Gruppenbildung sowie die Ergebnisse der weiteren Analysen. 3.1 Ergebnisse
MehrAlgorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6.
Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6. November 2014 (O-Notation, Theta, Omega) Junior-Prof. Dr. Olaf Ronneberger
MehrBORRMA-web. Boschung Road & Runway Management
BORRMA-web Boschung Road & Runway Management Die Software BORRMA-web sammelt die Daten von Glatteisfrühwarnsystemen, Taumittelsprühanlagen und Fahrzeugen in einer zentralen Datenbank. Die Daten werden
MehrVisual Business Analytics Visueller Zugang zu Big Data
Visual Business Analytics Visueller Zugang zu Big Data Dr.-Ing. Jörn Kohlhammer Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) Fraunhoferstraße 5 64283 Darmstadt Tel.: +49 6151 155-646 Fax:
MehrFragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrInterdisziplinäres Seminar. Multivariate Statistik bei psychologischen Fragestellungen. Markus Bühner und Helmut Küchenhoff WS 2008/09
Interdisziplinäres Seminar Multivariate Statistik bei psychologischen Fragestellungen Markus Bühner und Helmut Küchenhoff WS 2008/09, Homepage: http://www.stat.uni-muenchen.de/~helmut/seminar_0809.html
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrBusiness Breakfast im Café Landtmann. 22. November 2016
Business Breakfast im Café Landtmann 22. November 2016 9:00 Uhr: EINLASS 9:30 Uhr: BEGRÜßUNG Wolfgang Kern / Qlik Elfriede Harrer / Harrer & Partner 10:00 Uhr QLIK SENSE // NEUE FEATURES UND MEHR Christof
MehrBioinformatik I (Einführung)
Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00
MehrDatenvisualisierung ohne Grenzen?
Datenvisualisierung ohne Grenzen? Zürich explorer Schweizer Tage der öffentlichen Vaduz 20. September 2012 Marco Sieber Agenda Ausgangslage Evaluation von Standardprogrammen Möglichkeiten und Grenzen von
MehrSemantic Web Technologies I
Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
Mehr