KI in der Praxis: das Data Science Startup d:ai:mond Prof. Dr. Jens Dittrich Big Data Analytics Group Saarland Informatics Campus d:ai:mond GmbH twitter.com/jensdittrich
Jens Dittrich: Short CV Developer at SAP BW/Trex, Associate Professor, Saarland University Ph.D. in Databases Postdoc at ETH Zurich Full Professor, Saarland University 2000 2005 2010 2015 2018 Indexing Systems large-scale data management!2
Jens Dittrich: Short CV Developer at SAP BW/Trex, Associate Professor, Saarland University Ph.D. in Databases Postdoc at ETH Zurich Full Professor, Saarland University 2000 2005 2010 2015 2018 Join processing Data Warehousing main-memory databases Dataspaces Column Stores Blockchain Streams Join processing Applied ML Crazy Stuff Hadoop&Cloud Database Architectures main-memory databases Indexing Systems large-scale data management!3
kiwi, kirsche, bikini [jeweils durchgestrichen] KIwi 8,57 pro Stück Kiwi 0,75 pro Stück CC BY-SA 4.0 4 Thomon
KIrschen 458,57 pro kg Kirschen 2,75 pro kg CC BY-SA 3.0 Fir0002 5
KIches 76,27 pro kg Quiches 5,50 pro kg CC BY Tamorlan 6
KI keri KI! Muhammad Mahdi Karim 7
AI Data Science Quacksalber Big Data löst alle Ihre Probleme! das gemeine Volk
Big Data! AI! Data Science! ML!
Problem: Mehrdeutige Kommunikation 10
Symbol Bedeutung große Datenmengen 4Vs Big Data! NSA Spark MapReduce NoSQL 11
Symbol Bedeutung Symbol große Datenmengen Big Data! 4Vs NSA Spark Er hat Big Data gesagt MapReduce NoSQL 12
Symbol Bedeutung Symbol große Datenmengen Big Data! 4Vs NSA Spark Er hat Big Data gesagt MapReduce NoSQL 13
große Datenmengen übersetzt zu: MapReduce 14
Symbol Bedeutung deep learning knowledge representation symbolic AI AI machine learning planning NLP robots statistical learning deductive databases computer vision logics 15
Symbol Bedeutung Das Gerät hat eine KI. Algorithmus Informatik 16
KI übersetzt zu: Informatik 17
Die Buzzword Bullshit Bingo Landschaft relational algebra große Datenmengen Big Data predicate pushdown Data Science ML AI relational Deep Learning model NoSQL data layout MapReduce cloud cost-based optimization Hadoop Blockchain 1 wenige viele Anzahl der Bedeutungen
d:ai:mond Data Science Consulting We speak both Big Data and AI. http://daimond.ai 19
Data Science and Ethics Satzung der d:ai:mond GmbH: [..] Desweiteren werden Dienstleistungen für politische oder kirchliche Institutionen [..] sowie Datenanalyse mit dem Zweck der politischen oder gesellschaftlichen Beeinflussung - insbesondere die Datenanalyse personenbezogener Daten - ausgeschlossen. [..] 20
Beispiel Business Case 21
Business Case 1: Welches Fahrzeug ist optimal bezüglich des Dieselverbrauchs für eine gegebene Ladung von x Tonnen auf Strecke y? Flottenoptimierung istock.com vanspasic 22
Datengrundlage: LKW-Daten Truckinvest 4.0 mit: htw saar, mfund, qivalon GmbH alle 10 Minuten X Y Zeitstempel Gesamtgewicht Temperatur, Wind, Luftwiderstand (mit cw-wert) Höhenmeter geplante Erweiterungen: Lkw ID Straßentyp Fahrer ID Dieselverbrauch Varianz der Geschwindigkeit vorhanden (X): vorhergesagt (Y): Durchschnittsgeschwindigkeit 23
Vorhersagemodell istock.com jgroup
Beispiel: Fahrt von Saarbrücken nach Frankfurt Abfahrt: Dienstag, 14 Uhr 1. Streckenplanung mit Navi 2. Unterteilung des Streckenplans in 10Minutenabschnitte 25
Beispiel: Fahrt von Saarbrücken nach Frankfurt Abfahrt: Dienstag, 14 Uhr 1. Streckenplanung mit Navi 2. Unterteilung des Streckenplans in 10Minuntenabschnitte 3. Für jeden 10Minuntenabschnitt eine Vorhersage unseres Modells machen: Verbrauch für diesen Abschnitt 26
Beispiel: Fahrt von Saarbrücken nach Frankfurt Abfahrt: Dienstag, 14 Uhr 1. Streckenplanung mit Navi 2. Unterteilung des Streckenplans in 10Minuntenabschnitte 3. Für jeden 10Minuntenabschnitt eine Vorhersage unseres Modells machen: Verbrauch für diesen Abschnitt geschätzter Verbrauch: 72 Liter 4. Vorhersage: Summe über alle Abschnitte aus 3. 27
Beispielergebnisse 28
Einzelvorhersagen vorhergesagter vs gemessener Verbrauch
Abhängigkeit des Verbrauchs vom Gewicht
Business Case: Welches Fahrzeug ist optimal für eine gegebene Ladung von x Tonnen auf Strecke y? BC 2(i): im Stadtverker? BC 2(ii): bei Stau? BC 2(iii): bei schlechtem Wetter/Schnee/Wind? istock.com vanspasic Erweiterte Business Cases 31
BC 2(i): welches Fahrzeug hat einen ungewöhnlichen hohen Verbrauch? BC 2(vii): Um welche Art von Schaden könnte es sich handeln? BC 2(ii): klaut jemand Diesel? BC 2(vii): Welche Art von Schaden kündigt sich an? BC 2(iii): füllt jemand heimlich Diesel nach? BC 2(iv): benötigt der Fahrer eine Schulung? BC 2(v): ist das Fahrzeug defekt? BC 2(vi): ist das Fahrzeug vermutlich bald defekt? (aka Predictive Maintenance) istock.com vanspasic BC 2(viii): korrelieren defekte Fahrzeuge mit bestimmte Fahrern (EU-DSGVO) oder Fahrergruppen? usw. Zusätzliche Business Cases 32
33
BC 3(i): was ist die optimale Flotte? BC 3(ii): unter Einbeziehung sich ändernder Auftragslagen? BC 3(iii): defekter Fahrzeuge? BC 3(iv): bald defekter Fahrzeuge? BC 3(v): wieviele eigene vs Leihfahrzeuge sind optimal? istock.com vanspasic Zusätzliche Business Cases 34
Wie identifiziere ich einen Business Case? 35
Potenzialanalyse 36
Projektrealisierung 37
Fallstricke: 38
Wo ist ML? hier! [Sculley et al. Hidden Technical Debt in Machine Learning Systems, NIPS 2015] 39
The Data Science Cake Da an M ta ag en em deep learning is this strawberry only / e c n e g g n i ni l l e ar t n e I L l a i e c n i i f i t ch r A Ma Ingredients: 50g statistics 120g linear algebra 200g programming 1kg visualisation 300g software engineering t Da ta M ini ng n o i t a c i l n i p a Ap om D istock.com sasilsolutions Additional skills: creativity out of the box thinking grit team spirit
Example Projects: 41
Assembly Line Optimization istock.com Yayasya 42
Data Silo Integration istock.com disorderly 43
d:ai:mond Data Science Consulting We speak both Big Data and AI. http://daimond.ai 44
Backup: 45
Machine Learning Big Data No SQL