Big Data als Ökosystem datengetriebener Unternehmen Präsentation im CINIQ Center for Data and Information Intelligence, Fraunhofer Heinrich-Hertz-Institut in Berlin 10.09.2013 von Dr. Peter Lauf
Zur Person
Zur Person Datanom: Wirtschaftswissenschaftler mit über 25 Jahren Erfahrung im Umfeld von Datenmanagement, Statistik, Intelligence und Analyse Anwenderperspektive in der Beurteilung aktueller Entwicklungen Lehrbeauftragter der HTW Berlin Supporting Member Foundation Beratung und Projekte: www.datanomie.de
Drei Fragen: Big Data? Ökosystem? datengetrieben?
Dicke Daten? Standardantwort: große Mengen hohes Tempo vielfältige Daten (Volume) (Velocity) (Variety)
Dicke Daten? Mengen Die Menge der zu verarbeitenden Daten wächst dynamisch. Facebook verarbeitet pro Tag hunderte TeraByte. Zum Vergleich: Der Informationsgehalt der größten Bibliothek der Welt wird auf nur 2,7 TeraByte geschätzt.
Dicke Daten: Geschwindigkeit In 60 Sekunden werden weltweit: 600 Videos auf YouTube hochgeladen 1500 Blog Beiträge gepostet und mehr als 60 Blogs neu eröffnet. 700.000 Suchanfragen bei Google abgesetzt Quelle: http://practicalanalytics.files.wordpress.com/2012/10/60seconds.jpg
Dicke Daten: Vielfalt Quelle: VINT Research Report, Creating Clarity with Big Data, Groningen: The Sogeti Trend Lab VINT 2012, S. 5
Dicke Daten: Produktion und Konsum Quelle: VINT Research Report, Creating Clarity with Big Data, Groningen: The Sogeti Trend Lab VINT 2012, S. 13
Big Data? Ja, aber wir haben keinen Teilchenbeschleuniger, betreiben keine Suchmaschine und sind kein soziales Netzwerk
Big Data? Aber wir nutzen vielleicht die Ergebnisse großer Datenproduzenten, wollen in Suchmaschinen etwas finden oder selbst gefunden werden und sind in sozialen Netzwerken präsent.
Dicke Daten sind relativ und individuell!
Ökosystem Peter Lauf
Ökosystem Bitte beachten: Es geht hier um die Unternehmung in einer Welt voller Daten, nicht um die technische Infrastruktur von Big Data.
Was gehört zum Ökosystem Big Data? Daten als Rohstoff frei zugängliches Wissen freie / demokratisierte Software
Daten als Rohstoff: Gestern In der Vergangenheit wurde vielfach in Einzelprojekten nach Nuggets gesucht. Einzelne Fakten oder Zusammenhänge sollten einen stabilen Wettbewerbsvorteil begründen.
Daten als Rohstoff: Heute Die Aufgabe besteht darin, aus sich ständig verändernden Datenbergen relevante Informationen zu gewinnen. Die Situation ist analog zum modernen Goldbergbau. Eine Tonne Erz enthält nur wenige Gramm des Edelmetalls.
Ökosystem: Rohstoff + Nachhaltigkeit Nachhaltigkeit ist keine Eigenschaft der Natur. Sie ist das Ergebnis planvollen und rückgekoppelten menschlichen Handelns.
Ökosystem: Rohstoff + Nachhaltigkeit Nachhaltigkeit ist eine ökonomische Kategorie Aus einem Rohstoff soll dauerhaft und effizient, mit einem optimalen Verhältnis von Aufwand zu Ertrag, Nutzen gezogen werden. Nachhaltigkeit ist intelligent und analytisch.
Ökosystem Big Data Frei zugängliches Wissen
Ökosystem Big Data Frei zugängliches Wissen z.b. durch Massive Open Online Courses (MOOCs)
SAPs erster MOOC: 40.000 Studenten 158 Länder 500.000 Tests Quelle: http://scn.sap.com/community/business trends/blog/2013/08/08/higher educationin the digital age moocs insidious threat or incredible breakthroug 28.08.2012 11:45 Uhr
frei zugängliches Wissen Coursera, Udacity, edx und andere Provider bieten Plattformen für hochwertige, von international führenden Universitäten entwickelte Lerninhalte an. Zu den Themen gehören Data Science, Analytics,, Statistik.
frei zugängliches Wissen Soziale Netzwerke für Entwickler stellen wertvolles Wissen zur Programmierung von Algorithmen zur Diskussion. Beispiel: GitHub.
Quelle: https://gist.github.com/kaidence/4715283 28.08.2013 11:36 Uhr
Freie / demokratisierte Software Freie Software steht unentgeltlich zur Verfügung und wird von einer großen Zahl von Freiwilligen entwickelt und gepflegt.
Freie / demokratisierte Software Demokratisierte Software wird von einem gewinnorientierten Unternehmen günstig zur Verfügung gestellt. Beispiel: Microsoft PowerBI
Freie / demokratisierte Software Quelle: http://www.zdnet.com/microsofts big data strategy democratize in memory and thecloud 7000012223/, 03.09.2013, 10:11 Uhr
Freie / demokratisierte Software
Was ist R? R ist eine freie Implementation von S. S entstand als statistische Programmiersprache im Umfeld der Bell Labs. Eines der wenigen Unternehmen, das schon in den 1970er Jahren mit Big Data konfrontiert war.
R gilt heute als die wichtigste Sprache für Data Scientists. R löst traditionelle Programmpakete (SAS, SPSS) mehr und mehr ab.
Quelle: http://www.kdnuggets.com/2013/08/languages for analytics data mining data science.html, 03.09.2013, 10:38 Uhr
Freie / demokratisierte Software Python ist eine Programmiersprache, mit der auch datenanalytische Projekte vollständig bearbeitet werden können.
Jetzt wächst zusammen, was zusammengehört Freie und kommerzielle Software stehen sich nicht mehr unversöhnlich in getrennten Welten gegenüber. Beispiel: Microsoft bindet R ein und R enthält selbstverständlich Schnittstellen zu Microsoft
Open Source und kommerzielle Software werden zunehmend komplementär eingesetzt Quelle:Breunung, Julian, Engels, Oliver, M versus P versus R,
Ökosystem: Leben in der Wolke Peter Lauf
Ökosystem: Leben in der Wolke Wenige Programmzeilen erzeugen ein komplettes Rechenzentrum. Die Kosten sind überschaubar. Deutschen Datenschutzvorschriften wird (formal) entsprochen.
Ökosysteme schaffen Innovation Die gewaltigste Innovation aller Zeiten: Der genetische Code. Die Entwicklung allen Lebens ist an die Speicherung und Weitergabe von Information gebunden. Evolution heißt Informationsverarbeitung.
Ökosysteme schaffen Innovation Die Innovation des Ökosystems Big Data: Scale without Mass (E. Brynjolfsson) Größe ohne Masse Die neuen Möglichkeiten stehen allen, auch Kleinen und Mittleren Unternehmen, offen.
Was heißt datengetrieben? Ein gutes Beispiel bildet das amerikanische Modeunternehmen Modcloth. Zu diesem Unternehmen und seiner datengetriebenen Strategie finden sich zahlreiche Beispiele im Internet.
datengetrieben Modcloth (250 Mitarbeiter) Be the Buyer Kampagne über Pinterest Sentimentanalyse der Kommentare
datengetrieben Modcloth Geotargeting Kunden außerhalb Nordamerikas werden direkt auf Liefermöglichkeiten hingewiesen.
datengetrieben Modcloth Exklusive Angebote über locked content der nur über Twitter / Facebook erreichbar ist.
datengetrieben Modcloth Komplette Restrukturierung der internen Abläufe. Mitarbeiter sehen die Produkte auf jeder Stufe der Supply Chain.
datengetrieben Modcloth Gesamte Infrastruktur in der Cloud
Live Demonstration Power Query
Ich danke für Ihre Aufmerksamkeit: Dr. Peter Lauf, www.datanomie.de 030 / 83 22 07 47