How to work with Big Data? Dr. M. Nagel, n³ GmbH & Co.KG & Reimund Willig, EMC²



Ähnliche Dokumente
Positionspapier Big Data

Kundenbefragung als Vehikel zur Optimierung des Customer Service Feedback des Kunden nutzen zur Verbesserung der eigenen Prozesse

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

Social Media Monitoring Was wird über Sie und Ihre Wettbewerber gesagt?

Europäischer Fonds für Regionale Entwicklung: EFRE im Bundes-Land Brandenburg vom Jahr 2014 bis für das Jahr 2020 in Leichter Sprache

ERGEBNISSE Spendenumfrage: Wissen, wer gibt! ONLINE BEFRAGUNG. Februar Die Online Marktforscher

Alle gehören dazu. Vorwort

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Leichte-Sprache-Bilder

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Analyse der Patientenströme von Zuweisern an Spitäler

Social Media Ranking

Prof. Dr.-Ing. Rainer Schmidt 1

Mehr Geld verdienen! Lesen Sie... Peter von Karst. Ihre Leseprobe. der schlüssel zum leben. So gehen Sie konkret vor!

Integrierte Dienstleistungen regionaler Netzwerke für Lebenslanges Lernen zur Vertiefung des Programms. Lernende Regionen Förderung von Netzwerken

Die Invaliden-Versicherung ändert sich

Das Persönliche Budget in verständlicher Sprache

Content Management System mit INTREXX 2002.

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data Kundendaten im 2015 Michael Gisiger Wortgefecht Training & Beratung

Das Internet Marketing Fundament

Die Post hat eine Umfrage gemacht

Papa - was ist American Dream?

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Wechselbereitschaft von. Bevölkerungsrepräsentative Umfrage vom 09. Januar PUTZ & PARTNER Unternehmensberatung AG

Lernwerkstatt 9 privat- Freischaltung

Feedback in Echtzeit. Social Media Monitoring Services von Infopaq. SOCIAL MEDIA

Wir machen neue Politik für Baden-Württemberg

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

bestens ENDLICH: DIE PRAXISSOFTWARE, DIE BESTENS FUNKTIONIERT klar aktuell mobil einfach alles alles WIE SIE ES SICH WÜNSCHEN!

IT-Trend-Befragung Xing Community IT Connection

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

Datenschutz bei kleinräumigen Auswertungen Anforderungen und Grenzwerte 6. Dresdner Flächennutzungssymposium. Sven Hermerschmidt, BfDI

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Behindert ist, wer behindert wird

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

Welcome to Trend Micro Leitfaden Deal-Registration

Internet online Update (Internet Explorer)

SICHERN DER FAVORITEN

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Meinungen zur Altersvorsorge

Was ist Sozial-Raum-Orientierung?

Unsere Ideen für Bremen!

Darum geht es in diesem Heft

Ärzte befürchten Engpässe bei der Patientenversorgung

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

Warum kann ein Flugzeug fliegen?

Anwendungsbeispiele Buchhaltung

Auswertung des Jahresabschlusses Bilanzanalyse 2

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Was meinen die Leute eigentlich mit: Grexit?

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Befragt wurden Personen zwischen 14 und 75 Jahren von August bis September Einstellung zur Organ- und Gewebespende (Passive Akzeptanz)

Erklärung zu den Internet-Seiten von

Big & Smart Data. bernard.bekavac@htwchur.ch

Vorlesungen: Abschaffen oder besser verpacken?

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Umfrage in den 5er-Klassen zu Hausaufgaben in den Nebenfächern im Schuljahr 2014/15

Business-Master Unternehmer-Training

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Grundlagen der Theoretischen Informatik, SoSe 2008

Auszug aus der Auswertung der Befragung zur Ermittlung der IT-Basiskompetenz

Besser leben in Sachsen

Vorrangig ein gutes Google Ranking sorgt für hohe Spenden bei der Frankfurter Stiftung für krebskranke Kinder.

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Leseprobe - Seite 5 - Kapitel 5 Fragetechniken - Einfürung

Mitarbeiterbefragung zur Führungsqualität und Mitarbeitermotivation in Ihrem Betrieb

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

aktuell einfa Das kann easymedx: WIE SIE ES SICH WÜNSCHEN! alles alles

Anleitung über den Umgang mit Schildern

Telefonmodem ISDN DSL VDSL. Telekom 1&1 Telefónica/O2. Vodafone Unitymedia HSE Medianet

Kinderarmut. 1. Kapitel: Kinderarmut in der Welt

Welches Übersetzungsbüro passt zu mir?

Checkliste zur Planung einer Webseite

Swisscom TV Medien Assistent

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb

Tipps & Tricks Neuerungen Nr. 5/ Externe Web-Shops im UniKat für Laborverbrauchsmaterial & Chemikalien

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz von der Bundesvereinigung Lebenshilfe. in Leichter Sprache

Die Mehrheit der deutschen Erwerbstätigen sieht Defizite im Hinblick auf die soziale Gerechtigkeit

Ugra Proof Certification Tool

Test zur Bereitschaft für die Cloud

Repräsentative Bevölkerungsbefragung Wasserstoffmobilität

Fragen und Antworten

Anzeige von eingescannten Rechnungen

Professionelle Seminare im Bereich MS-Office

Tourismus Online Monitor Kurzfassung -

Das Leitbild vom Verein WIR

Ihren Kundendienst effektiver machen

Einstellungen der Deutschen gegenüber dem Beruf der Putzfrau

Umsatzturbo Internet. So gelangen Sie auf die erste Seite bei Google, gewinnen neue Patienten, gleichzeitig Ihre (Adwords) Kosten

Transkript:

How to work with Big Data? Dr. M. Nagel, n³ GmbH & Co.KG & Reimund Willig, EMC² 47. Kongress der Deutschen Marktforschung 21. bis 22. Juni 2012, Berlin Glaubwürdigkeit, Reputation und Relevanz Marktforschung für das Markenmanagement und Marketing in Zeiten sozialen, wirtschaftlichen und technischen Umbruchs How to Work with BIG DATA? 1

Wie groß ist BIG DATA? Leben im Datenzeitalter How to Work with BIG DATA? 2

Wie viel sind 1,8 Zettabyte? 57 Mrd. ipads 90% der Daten wurden in den letzten zwei Jahren erzeugt How to Work with BIG DATA? 3

Massendaten, unstrukturiert, vielfältig Informationen sind darin oft nicht sofort erkennbar, weil nicht strukturiert Relationale Datenbanken eignen sich nicht zu deren Bearbeitung: Menge und Format der Informationen Gleichwohl gibt es heute Möglichkeiten, damit zu arbeiten. RDBMS MapReduce Volumen Gigabytes Petabytes Zugriff Interaktive & Batch Batch Updates Lesen / wiederholtes Schreiben 1x Schreiben / wiederholtes Lesen Struktur Statisches Schema Dynamisches Schema Integrität Hoch Niedrig Skalierung Nicht-Linear Linear How to Work with BIG DATA? 4

BIG DATA Anwendungsbeispiel Analyse von Maschinendaten How to Work with BIG DATA? 5

Prozess-, Maschinen- & Diagnosedaten Prozessinformationen in Form von Log-Files Beispiel: Befunde aus der Fahrzeugdiagnostik How to Work with BIG DATA? 6

Anwendungsfälle sind beliebig erweiterbar: Werkstattübergreifende Sammlung ermöglicht globale Auswertung und liefern Rückschlüsse, um die Produktion zu verbessern: Qualitätssicherung Analyse der Netzauslastung SLA, Pricing Analyse des Speicherbedarfs Kündigungsanalyse Erneuerungsstrategien Prozess-Mining (Log-Files) Befund A kommt zusammen mit Befund B bei Ausstattung C mit einer Wahrscheinlichkeit 0,991 vor How to Work with BIG DATA? 7

BIG DATA Anwendungsbeispiel Extraktion von Informationen How to Work with BIG DATA? 8

Immobilienbewertung bei Immobilienscout24 Immobilienscout24: 1997gegründet 500 Mitarbeiter 7 Mio. Besucher / Monat >1,5 Mio. Exposés / Monat >180 Mio. Exposés im Bestand In D und 10 anderen Ländern How to Work with BIG DATA? 9

Immobilienbewertung bei Immobilienscout24 Wertermittlung aus Schätzung von Immobilien aus der Umgebung Methode: hedonistische Regression Benötigte Informationen: Baujahr, Sanierungsjahr, Objektzustand, Energieeffizienz, Altersgerecht, Nutzwert, Lage usw: Problem: ca. 30% der Exposès ohne Stammdaten - nicht nutzbar Ziel: Extraktion der fehlenden Informationen aus Texten der Exposès. Die Ausstattung ist normal. 2002 wurden neue Fenster mit Rolläden eingebaut, 2004 eine neue Ölheizung, 2006 wurde das Dach neu gedeckt. Das Bad und die Türen sind noch in altem Zustand. Das Grundstück befindet sich am Dorfanfang genau gegenüber dem Schloß. Im hinteren Bereich grenzt es an den Friedhof. Schönow gehört zur Gemeinde Passow und ist bekannt durch seinen Reitverein und bundesweit durch den Bogensport. Bis Schwedt sind es circa 15 km, bis zur Autobahn sind es circa 25 km, bis in die Kreisstadt Prenzlau circa 45 km. Bei dem Gebäude handelt es sich um ein Fertigteilhaus von 1983. Es ist komplett unterkellert, das Dach ist noch ausbaufähig. Auf dem Grundstück befinden sich noch ein Nebengebäude und eine Garage.,Haftungsausschluss Alle Angaben haben wir vom Auftraggeber erhalten. Für deren Richtigkeit können wir keine Gewähr übernehmen. Einen Zwischenverkauf behält sich der Auftraggeber/Verkäufer ausdrücklich vor How to Work with BIG DATA? 10

Suche nach semantischen Konzepten How to Work with BIG DATA? 11

zu Ergebnissen für das Data Warehouse PoC: Analyse von 40 000 unstrukturierten Exposés Validierungsdatensatz zur Beurteilung der Güte Anzahl an Exposés im Validierungsdatensatz: 498 Stk. darin sind bekannte Baujahre (laut IS24): 108 Stk. enthalten Ermittlungsquote Baujahr von 96,97% Ergebnis: Anreicherung der Datenbasis, u.a. für Bewertung How to Work with BIG DATA? 12

Alternativen zu Erhebungen Mit Risiken & Nebenwirkungen Nutzung von Daten aus dem Web How to Work with BIG DATA? 13

Daten aus dem Datenwald Fehlen Daten, werden bisher aufgrund einer Hypothese Erhebungen bzw. Versuche geplant. Solche Erhebungen sind teuer, zeitaufwändig, risikobehaftet Ökonomische Alternativen bei der Datenerhebung gesucht! Aus der Vielfalt vorhandener Daten aus unterschiedlichen Quellen müssen Informationen aufbereitet und angereichert werden. How to Work with BIG DATA? 14

Massendaten - Datenmassen Was will ich wissen / erreichen? Heute findet man vielfältigste Informationen im WEB und den sozialen Medien. An diese sind Fragen zu stellen: Vertrauenswürdig? Vollständig? Manipulation? Verzerrung? Qualität? How to Work with BIG DATA? 15

Statistik verliert bei BIG DATA an Bedeutung Stichprobe vs. Daten aus dem Web vs. Gesamterhebung Für den sinnvollen Einsatz der Inferenzstatistik ist es erforderlich, dass vor Untersuchungsbeginn eine theoretisch gut begründete Hypothese oder Fragestellung formuliert wurde." (Bortz, 1994, S. 2) How to Work with BIG DATA? 16

Nicht alles was geht, muss gemacht werden! Grundsätzlich: Wie sind Äußerungen im sozialen Netz zu bewerten? Oder: Die Forderung nach PKW-Maut über Satellit 1. Es gibt preiswertere Lösungen: 2. Quizz: Wie viel Mautbrücken sind aktuell im Betrieb? 3. Wer ist der Treiber der Idee von der gerechten Lösung? Daten-Ethik ist erforderlich How to Work with BIG DATA? 17

BIG DATA Anwendungsfall BIG DATA & Marktforschung How to Work with BIG DATA? 18

Wie sind die Preise der Mitbewerber? Immer ein Thema: X-Selling Preise der Mitbewerber Beispiel Apotheken: verdienen an freien Artikeln, die auch in Drogerien etc. erhältlich sind Konkurrenz durch Versandapotheken How to Work with BIG DATA? 19

Woher kommen die Daten? Bon-Daten aus Kassensystemen Robots holen Daten zu: Preise von Versandapotheken Web Angebote von Apotheken im Umkreis Preise von Drogerien und Discountern Data Warehouse How to Work with BIG DATA? 20

Analysen zu X-Selling & Benchmarks Dynamische Analysen mit dem VisualCockpit: X-Selling mit zusätzlichem Rohertrag Wie stehen wir im Vergleich zum Wettbewerb? Wie wirken sich die Preise auf X-Selling aus? Ergebnis: Tagesaktuelle Preispositionierung How to Work with BIG DATA? 21

To know News before they are News: Vorsprung durch Kombination neuer Techniken Neue Dimensionen für die Marktforschung durch Analyse sozialer Netz: Trend Meinung Beinflusser Preise der Mitbewerber tagesaktuell vergleichen ohne Befragung oder Erhebung How to Work with BIG DATA? 22

Der Teufel steckt im Detail. Auch bei BIG DATA. BIG DATA erfordert ein hohes Datenverständnis! How to Work with BIG DATA? 23

Datenverständnis ist ein Muss! Aggregationen erst ganz am Schluss der Analysen Zuvor sind Fehler zu isolieren und Verteilungen zu analysieren, Methodenvielfalt, die zum Ziel führt How to Work with BIG DATA? 24

Fragwürdige Aussagen durch Aggregation Non BIG DATA: Versorgungsforschung How to Work with BIG DATA? 25

Medizinische Versorgung Versorgungsforschung Ende 2010 praktizierten in Deutschland über 121 000 Vertragsärzte, das sind 16% mehr als 1993 Trotzdem Wartezeiten, lange Wege, Unterversorgung im ländlichen Raum. Regionale Gesundheitsversorgung in starkem Wettbewerb: Viele Player mit ganz unterschiedlichen Interessen: How to Work with BIG DATA? 26

Der Teich ist 30 cm tief. Die Kuh ist ertrunken.? Versorgungsforschung arbeitet mit aggregierten Daten: Krankheiten richten sich nicht nach Kreisen Aggregierte Daten liefern fragwürdige Ergebnisse Sinnvoll: Patientenströme mit regionaler Alters- und Morbiditätsstruktur abgleichen How to Work with BIG DATA? 27

Versorgungsforschung Medizinische Routinedaten sind BIG DATA und (prinzipiell) an ganz unterschiedlichen Orten verfügbar: a) Kassenärztliche Vereinigungen (ambulanten Leistungen der KV) b) Kassen (eigene Kassenmitglieder: ambulant, stationär, ) c) Institut für das Entgeltsystem im Krankenhaus (InEK, stationär)) d) Medikamente sehr viel später bei a) und b) (Lag: >1 Jahr) Patientenbezogene Daten sind sensibel. Datenschutz & Rohdaten kein Widerspruch Die Datenschutzproblematik ist lösbar. gemeinsame Medizin-Projekte EMC² & n³ How to Work with BIG DATA? 28

BIG DATA 1996: Lungenkrebs und Radon Detaillierte raumbezogene Analysen How to Work with BIG DATA? 29

Vorbeugung durch Wissen: Radon ist ein natürlich vorkommendes Edelgas, das in allen Böden, Gesteinen, Gewässern und in der Luft vorhanden ist. Es zerfällt unter Aussendung von Alpha- Strahlung in Elemente, die ebenfalls radioaktiv sind. Über Undichtigkeiten und Risse in der Bausubstanz kann Radon leicht in Gebäude eindringen und sich dort anreichern. Die Inhalation von Radon und seinen radioaktiven Folgeprodukten ist nach dem Tabakrauch die wichtigste Ursache für Lungenkrebs. weibl. Lungenkrebsfälle, aggregiert auf Kreise: völlig unauffällig How to Work with BIG DATA? 30

Anwendung Geographical Analysis Machine GAM-Analyse: Krebscluster Aus dem Spiegel-Artikel Krebsfälle in der Altstadt und im Neubaugebiet von Schneeberg Datengröße bei BIG DATA ist relativer Begriff. 1996 war 1 GB mit verfügbarer Technik (PC 80486) und komplexen Algorithmen wie GAM in der Matrixsprache PC ISP sicher BIG DATA! Diese Analysen sind nur mit Rohdaten machbar. Rohdaten müssen kein Widerspruch zum Datenschutz sein! Ergebnis: Ermittlung von Krankheitsclustern ermöglicht Prävention How to Work with BIG DATA? 31

Definitionen & Erläuterungen zu einem komplexen Thema Was ist eigentlich BIG DATA? How to Work with BIG DATA? 32

Was ist BIG DATA? Volume: Größenordnung für BIG DATA: groß. Unternehmen versinken in einer Datenflut, vielfach Tera- oder sogar Petabytegröße Auch komplexe Gigabyte können BIG DATA sein! Velocity: BIG-DATA-Daten sind oftmals zeitkritisch und müssen sofort verarbeitet werden, damit ihr Wert optimal genutzt wird. Variety: BIG DATA geht über strukturierte Daten hinaus und umfasst unstrukturierte Daten aller Art: Text, Audio, Video, Klickstreams, Protokolldateien usw. Heute sind bereits mehr als 80% der Daten unstrukturiert. How to Work with BIG DATA? 33

BIG DATA erfordert Spezialisten Data Scientists, die absolut sattelfest in Datenanalyse sind, kreativ sind und Querdenken können (erfordert große und breite Erfahrung), die richtigen Fragen stellen können, Systeme beherrschen, die auch mit der höchsten Granularität und unterschiedlichen Datentypen klarkommen und in der Lage sind, unstrukturierte Daten zur Informationsanreicherung aus dem Netz (oder anderswo) zu beziehen. Teamarbeit wir groß geschrieben! Offene Fragen bei BIG DATA: Erschließung der semantischen Dimension Visualisierung & Informationsdarstellung How to Work with BIG DATA? 34

BIG DATA in ihrem Umfeld Ist damit über BIG DATA alles gesagt? How to Work with BIG DATA? 35

Nein! Zu BIG DATA gehört noch viel mehr: Technik {Verteiltes Rechnen, Parallelisierung, Verfügbarkeit, } Cloud & Sandbox Methodenvielfalt & Algorithmen {Machine Learning, Data Mining; } Forschung {Data Scientist & Teams, Data Journalism, Collaboration} Datenqualität & Vertrauenswürdigkeit Datenquellen {Unternehmensdaten; Open Data; Internet der Dinge; Social Media; Web; } Integration der Ergebnisse in BI Datenschutz Daten Ethik How to Work with BIG DATA? 36

BIG DATA steht erst am Anfang. Daten sind überall. Wichtig ist es, an sie die richtigen Fragen zu stellen. Wir von n³ & EMC² haben die Systeme und das Knowhow, um Antworten zu finden. Am Schluss wird oft ein Produktivsystem erstellt, welches das erlangte Wissen immer wieder sinnvoll aggregiert und über Visualisierung einem breiteren Nutzerkreis verfügbar macht. How to Work with BIG DATA? 37

Wir haben das Knowhow und die Systeme. Dr. Matthias Nagel, n³ Reimund Willig, EMC² Mathematiker & Datenanalytiker Analyse von Massendaten Eigene BI-Produkte: VisualCockpit DataWarehouseBuilder Damit Realisierung von Branchenlösungen für Healthcare, Industry, Financial Service, Energy & Telecommunication, Reserch & Development, Government matthias.nagel@nhochdrei.de Senior Technology Consultant EMC: Speichern, Schützen, Verwalten von Informationen Informations Infrastrukturen Analysewerkzeuge Data Scientist Ausbildung reimund.willig@emc.com How to Work with BIG DATA? 38