Big Data und Predictive Analytics Frühzeitiges Erkennen von Chancen und Risiken Referat Herbstfachtagung Die-DING 15. Oktober Seite 1
Big Data und predictive Analytics Analytik von nice to have zu unverzichtbar Datenbasierte Unternehmenssteuerung Die Nutzung von neuen Analytik -Technologien zur Prozessoptimierung und Entscheidungsfindung ist von höchstem strategischem Wert für die Unternehmensführung Seite 2
Big Data und predictive Analytics Analytik Stellenwert Zitat Samuel J. Palmisano Chairman IBM.Big data will help to solve the world s problems. The information is already out there. You just have to do some predictive modeling and solve problems which face us every day. Samuel J. Palmisano, Chairman IBM, The Economic Times, New Dehli, Friday, 14th September 2012 Seite 3
Inhalt Begriffsdefinitionen Big Data Predictive Analytics Anwendungsbereiche Herausforderungen, Lösungen und Projektbeispiele Nutzen Seite 4
Big Data Begriffsdefinition Wikipedia Big Data bezeichnet Daten-Mengen, die zu groß, oder zu komplex sind, oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. 3 Dimensionen: Datenvolumen Komplexität der Datenstrukturen Anzahl Felder pro Datensatz strukturierte / unstrukturierte Daten Dynamik der Änderung: Zeitdimension Seite 5
Predictive Analytics Begriffsdefinition Wikipedia Predictive analytics encompasses a variety of statistical techniques from modeling, machine learning and data mining that analyze current and historical facts to make predictions about future, or otherwise unknown, events. In business, predictive models exploit patterns found in historical and transactional data to identify risks and opportunities. Models capture relationships among many factors to allow assessment of risk or potential associated with a particular set of conditions, Guiding decision making for candidate transactions. Predictive analytics is used in actuarial science, marketing, financial Services, insurance, telecommunications, retail, travel, healthcare, pharmaceuticals and other fields. Seite 6
Big Data und predictive Analytics Beispiele von Anwendungsbereichen Nutzen von Chancen Identifikation und Nutzung von Chancen Potenzialorientierte Prozesse in Marketing und Vertrieb Kampagnenoptimierung Minimierung von Streuverlusten Erkennung und Nutzung von cross selling und upselling Potenzialen Kundenwertanalysen Kundenbindung Personalisierte Kundeninteraktion- und kommunikation Individualisierte Services Produkte Produktpositionierung Ermittlung von Kaufwahrscheinlichkeiten risikobasiertes Pricing Optimierte Preise durch Modellierung von Preissensitivitäten Seite 7
Big Data und predictive Analytics Beispiele von Anwendungsbereichen Früherkennung von Risiken (1) Früherkennung von Risiken Marketing und Vertrieb Früherkennung von absprunggefährdeten Kunden Schadenrisiken Früherkennung von Schadenrisiken Betrugsverhinderung von z.b.: Falschdeklarationen Abrechungsmanipulationen Betrug im elektronischen Zahlungsverkehr (z.b. Kartengeschäft) Betrug im Internet (z.b. Betrug im Onlinehandel oder in Bewertungsportalen) Seite 8
Big Data und predictive Analytics Projektbeispiel: Verhinderung von Missbrauch im Kartengeschäft Benchmark musterbasierte Erkennung gegen regelbasiertes System Resultat Erhöhung der Betrugserkennungsrate: 100% 79% der betrügerischen Transaktionen erkannt, welche das regelbasierte System nicht erkannt hat Mehr als 70% der Verluste verhindert Seite 9
Big Data und predictive Analytics Projektbeispiel: Verhinderung von Missbrauch im Kartengeschäft -warum ist die musterbasierte Erkennung besser? Transactions of Customer2 executed over a period of 3 days PAN Score Alert UID BillingAmount ResponseCode MerchantName AvailableAmount TxnDate_d Country MCC MCC_Groupe ACC_blocked CUSTOMER2 0.0124392 0 8439476 1.49 0 Www.clickandbuy.com 5087.01 2009-04-02 12:38:21.000 UnitedKingdom 8999 Other 0 CUSTOMER2 0.0190372 0 8439495 0.76 0PAYPAL 5086.25 2009-04-02 12:38:56.000 Singapore 8699 Other 0 CUSTOMER2 0.017833401 0 8501115 34.8 0PAYPAL *NPESZHOU 5051.45 2009-04-02 12:39:39.000 Singapore 8999 Other 0 CUSTOMER2 0.0251949 0 8686077 10 0 WWW.SKYPE.COM 5041.45 2009-04-02 12:44:08.000 UnitedKingdom 4814 Telephone 0 CUSTOMER2 0.022685699 0 9611052 0.02 0Apple Asia LLC,Taiwan 5041.43 2009-04-02 13:01:54.000 Taiwan 4816 Internet 0 CUSTOMER2 0.037675899 0 10599358 68.01 0EA STORE 4973.42 2009-04-02 13:11:13.000 UnitedStates 5734 Retail 0 CUSTOMER2 0.0360263 010726385 1.09 0 Www.clickandbuy.com 4689.68 2009-04-02 13:15:02.000 UnitedKingdom 8999 Other 0 CUSTOMER2 0.272852987 110784960 37.82 0 WWW.TRYMEDIASYSTEMS.CO 4935.6 2009-04-02 13:15:57.000 UnitedKingdom 7994 Leisure 0 CUSTOMER2 0.957331002 1 10846806 68.01 0EA STORE 4867.59 2009-04-02 13:16:57.000 UnitedStates 5734 Retail 0 CUSTOMER2 0.977172971 1 3189681 0.76 0SQUARE ENIX/PLAY ONLIN 4866.83 2009-04-02 15:41:56.000 UnitedStates 7372 Office Service 0 CUSTOMER2 0.95540297 1 3189682 18.4 0SQUARE ENIX/PLAY ONLIN 4848.43 2009-04-02 15:41:58.000 UnitedStates 7372 Office Service 0 CUSTOMER2 0.953971028 1 6036834 10 0 WWW.SKYPE.COM 4678.59 2009-04-03 13:48:42.000 UnitedKingdom 4814 Telephone 0 CUSTOMER2 0.95676899 1 9742623 0.75 0SQUARE ENIX/PLAY ONLIN 4686.79 2009-04-04 06:31:01.000 UnitedStates 7372 Office Service 0 Transaction of Customer3 executed 6 days later PAN Score Alert UID BillingAmount ResponseCode MerchantName AvailableAmount TxnDate_d Country MCC MCC_Groupe ACC_blocked CUSTOMER3 0.891897023 1 14154250 0.76 41 SQUARE ENIX/PLAY ONLIN 16.74 2009-04-10 04:15:32.000 UnitedStates 7372 Office Service 1 Transactions of Customer1 executed another 2 and 6 days later PAN Score Alert UID BillingAmount ResponseCode MerchantName AvailableAmount TxnDate_d Country MCC MCC_Groupe ACC_blocked CUSTOMER1 0.020630701 0 2986729 19.95 0AMAZON EU 4980.05 2009-04-12 15:13:02.000 UnitedKingdom 5969 Mail 0 CUSTOMER1 0.0101448 0 5644459 46.89 0AMAZON SVCS EU-DE 4933.16 2009-04-12 16:27:23.000 UnitedKingdom 5942 Retail 0 CUSTOMER1 0.039121699 0 5782940 1.56 0 Www.clickandbuy.com 4931.6 2009-04-16 07:54:39.000 UnitedKingdom 8999 Other 0 CUSTOMER1 0.977172971 1 4299957 83.24 0EA STORE 4848.36 2009-04-16 12:47:30.000 UnitedStates 5734 Retail 0 CUSTOMER1 0.891897023 1 4547296 83.24 0EA STORE 4765.12 2009-04-16 12:52:50.000 UnitedStates 5734 Retail 0 CUSTOMER1 0.201320007 1 4609233 0.76 0SQUARE ENIX/PLAY ONLIN 4764.36 2009-04-16 12:53:55.000 UnitedStates 7372 Office Service 0 CUSTOMER1 0.199994996 1 4609234 42.36 0SQUARE ENIX/PLAY ONLIN 4722 2009-04-16 12:53:58.000 UnitedStates 7372 Office Service 0 Detectionparameters/ patterns Increased velocity of transactions Pattern of a firstsmallamount smallamount (fortesting) and an immediate subsequenthigherone High risk merchant (parameter that will be realtime updated by permanent merchand profiling) Solution characteristics On 1 st st day, 1 st st and 3 rd rd pattern have already been automatically recognized derived from Customer2, profiles been updated and transactions been detected After 1 st st day, suspicious transactionshave beendetectedfrom Customer1 basedon profiles derivedfrompatterns of Customer2 11 Betrugstransaktionen von unterschiedlichen Kunden werden aufgrund von in Echtzeit angepassten, verdächtigen Profilen erkannt 72 Seite 10
Big Data und predictive Analytics Projektbeispiel: Verhinderung von Missbrauch im Kartengeschäft - Erkenntnis Erkenntnis Regelbasierte Systeme stossen an Grenzen Komplexe verdächtige Muster müssen erkannt werden der kritische Zeitfaktor erfordert eine automatisierte Anpassung und Kalibrierung der Erkennungslogik in Echtzeit Seite 11
Big Data und predictive Analytics Beispiele von Anwendungsbereichen Früherkennung von Risiken (2) Früherkennung von Risiken Monitoring von Prozessen mit Früherkennung von z.b.: Qualitätsrisiken Engpässen Ausfallrisiken (Kreditgeschäft, für vorbeugende Instandhaltung) Lieferverzögerungen Diagnostische Klassifikation Krankheitsrisiken Biomarker Frühwarnungsystem für die Verbesserung der Diagnose- und Servicequalität und effizienz) Geeignetste Heilungsverfahren Seite 12
Big Data und predictive Analytics Projektbeispiel: Kredit Rating Vergleich von Frühwarnmodell gegen existierendes Ratingmodell Seite 13
Big Data und predictive Analytics Projektbeispiel: Kredit Rating Vergleich von Frühwarnmodell gegen existierendes Ratingmodell Seite 14
Big Data und predictive Analytics Projektbeispiel: Kredit Rating Vergleich von Frühwarnmodell gegen existierendes Ratingmodell analytische Erkenntnis Analytische Erkenntnis Alles berücksichtigen, was für die Analysefrage Relevanz haben könnte Der musterbasierte analytische Ansatz kann komplexe Datenstrukturen analysieren und verborgene und nicht-lineare Zusammenhänge aufdecken der Mehrgehalt an Evidenz führt zu besseren Modellen und businessrelevanten Erkenntnissen Seite 15
Big Data und predictive Analytics Die generelle Herausforderung Komplexität beherrschen durch Mustererkennung PROSPERO Seite 16
Big Data und predictive Analytics Herausforderungen und Lösung Datenqualität und aufbereitung leistungsfähiges Modul Datenqualität, -bereinigung und -aggregation Modul für Datenbereinigung, -anreicherung und -aggregation Behandlung und Transformation von Daten (z.b. missing Values, Ausreisser) Mehr als 80 Methoden und Verfahren zur Datentransformation und anreicherung; Bibliothek mit Templates Verarbeitung von komplexen Datenstrukturen Zeitreihen Aggregation von gruppenbasierten Daten Aufdecken von versteckten Abhängigkeiten Anreicherung mit abgeleiteten Attributen Definition von Simulationsszenarien Berücksichtigung von beliebigen Inputdaten (intern, extern, Makro-, Mikrodaten) absolute Änderungen probabilistisch ermittelte Änderungen basierend auf Verteilungsannahmen Definition von Zufallsvariablen, Generierung von Zufallsdaten auf Basis von prototypischen Datensätzen, Entrauschen der existierenden Daten z.b. für die Anwendung der Monte Carlo Simulation Seite 17
Big Data und Predictive Analytics Herausforderungen und Lösung Prognosequalität Prognosequaliät Intelligente Mustererkennung Kombinierte Anwendung von unterschiedlichen Methoden der Mustererkennung und des maschinellen Lernens auf der Basis eines evolutionären Optimierungsprozesses Mehrschichtiger Ansatz, in welchem die beste Methodenkombination und -parametrisierung vom System automatisch gefunden wird Die relevanten Muster werden in einem selbst lernenden Prozess gefunden Analyse der Evidenz und des Verhaltens in den Daten inklusive Peergroup- und Linkanalysen Finden der relevanten Businesstreiber Automatisiertes Feedback Lernen Maximierte Richtigerkennungen bei gleichzeitig minimierten Falscherkennungen Seite 18
Big Data und predictive Analytics Projektbeispiel: Intensivmedizin Benchmark gegen SAPS2 Score Modellqualitäten ROC-Kurve Model: SAPS2_Score Model: Prospero integrated Area under ROC: 0.90140 Area under ROC: 0.97624 Gini: 0.80273 Gini: 0.95243 Seite 19
Big Data und predictive Analytics Projektbeispiel: Intensivmedizin Benchmark gegen SAPS2 Score Aussagen für sicher überleben und sicher sterben 90.00% 80.00% 81.70% 70.00% Prospero integrated model SAPS2_Score 60.00% 50.00% 40.00% 39.32% 30.00% 20.00% 10.00% 0.00% 1.87% Definitely alive 7.28% Definitely dead Seite 20
Big Data und predictive Analytics Projektbeispiel: Intensivmedizin Benchmark gegen SAPS2 Score Erkenntnis Erkenntnis Die Leistungsfähigkeit der Analytik ist für den Businessnutzen entscheidend Die Kombination von Multilevel- und Multimethoden liefert signifikant bessere Ergebnisse als eine einzelne Methode Der musterbasierte analytische Ansatz findet verborgene Abhängigkeiten und identifiziert bisher unbekannte relevante Einflussfaktoren der Mehrgehalt an Evidenz führt zu besseren Modellen und businessrelevanten Erkenntnissen Seite 21
Big Data und Predictive Analytics Herausforderungen und Lösung Volumen und Dynamik grosse Datenvolumen verteilte, parallele Verarbeitung in-memory Technologie Echtzeit Monitoring Grid Technologie Cloud enabled Dynamik Das automatisierte Feedback Lernen kalibriert und verbessert die Qualität in einem laufenden Prozess Die Modelle, Profile und Muster adaptieren in Echtzeit Seite 22
Big Data und predictive Analytics Projektbeispiel: Gridcomputing Grid Computing Pharmaindustrie Projekt: Identifikation von freuquent Hittern im F&E - Prozess Datensätze mit 1800 Feldern (Attributen) pro Datensatz Anforderung: Bildung von Modell mit best möglicher Qualität und gleichzeitig möglichst wenig relevante Attributen Modellbildung in Grid mit 500 vernetzten PC s Resultat: in drei Stunden wurden mehr als 900 000 Modellvarianten durchgerechnet und robuste Modelle gefunden mit über 87% Vorhersagequalität, welche nur zwischen 18 und 48 relevante Attribute haben Seite 23
Big Data und Predictive Analytics Herausforderungen und Lösung Komplexität der Datenstrukturen Komplexe Datenstrukturen Evolutionärer Optimierungsprozess zur Lösung des Dimensionalitätsproblems ermöglicht die Kombination von heterogenen Inputinformationen und die Integration des Modellierungs Outputs Die higher Level Modelle werden automatisiert vom System durch die Integration der Resultate von mehreren Modellen oder manuell auf Basis vom Anwender definierter Regeln erstellt (definierte Anwenderstrategien) Seite 24
Big Data und Predictive Analytics Modellbildung Schritt 1 und 2: Definition der Analysefrage und der Ausgangsdaten Schritt 1 Fragestellung: Wie hoch ist die Wahrscheinlichkeit, dass ein Kunde das Produkt 2 in den nächsten sechs Monaten kauft? Schritt 2 Ausgangsdaten (Rohdaten) Parameter = Kundenbestands- und Bewegungsdaten Seite 25
Wie geht es? Schritt 3: Modellerstellung mit Historiedaten für Lernen und Validieren Historiedaten Kunde mit Produkt 2 Kunde ohne Produkt 2 lernen validieren Seite 26
Big Data und Predictive Analytics Iterativer Lernprozess im multidimensionalen Datenraum Erkennungsqualität Modell n optimiertes, fehlerminimiertes Modell Modell 2 Modell 1 Iterativer Lernprozess Seite 27
Big Data und Predictive Analytics Die Herausforderung des Dimensionaltätenproblems: Die Vielzahl möglicher Modelle zeigt die hohe Komplexität 1 2 3 4 5 6 7 8 9...n n = Anzahl Parameter pro Datensatz, mit n = 30 536 Mio. mögliche Modelle n = 100 6.33E29 n = 1000 5.36E300 n = 10 000 9.97E3009 Formel: 2^(N-1)-1 Seite 28
Big Data und Predictive Analytics Projektbeispiel komplexe Datenstrukturen Komplexe Datenstrukturen Projekt: Life Science: Proteomik/Genomik Anzahl Attribute (=Felder) pro Datensatz (= Person): 30 000 Analysefrage: welche Attribute sind relevant für eine Krankheit? Das System hat 22 Attribute identifiziert und ein prädiktives Modell für die Vorhersage des Risikos dieser Krankheit gebildet Seite 29
Big Data und Predictive Analytics Herausforderungen und Lösung kontrollierte Anwendung Kontrollierte Anwendung Administration versionsgeführtes Modell-, Filter- und Listenmanagement Parameterisierung und Konfiguration Management der Anwenderberechtigungen Notifikationsmanagement Simulationsumgebung Transparenz und Nachvollziehbarkeit Alle Aktionen, Modelle und Resultate sind gespeichert für die komplette Transparenz und Nachvollziehbarkeit keine Black Box Datenverarbeitung und Monitoring Automatisierter Datenverarbeitungs und monitoring Workflow inklusive Feedback Lernen Seite 30
Big Data und Predictive Analytics Herausforderungen und Lösung Einbindung in bestehende Umgebungen Scoring Infrastruktur Web basiertes online Scoring Hoch performantes Echtzeit - Monitoring von Transaktionen Batch Scoring Infrastruktur Datenverarbeitung und Datenmonitoring Automatisierter Datenverarbeitungs und monitoring Workflow inklusive Feedback Lernen Integrations Services Web Services TCP/IP DB basiert via Staging Area Rohdatenfile Exchange Seite 31
Nutzenbeispiele Beispiele von Nutzen mit predictive Analytics Betrugsprävention: Kartengeschäft mit secured internet Transaktionen im Vergleich mit regelbasiertem System Erhöhung der Bertrugserkennungsrate: 100% 79% der bertügerischen Transaktionen erkannt Mehr als 70% der Verluste verhindert Vertriebsoptimierung: Erkennung von upselling und cross-selling Potenzialen Erhöhung der Erfolgsraten um 16% bis 52% Kredit Rating: Optimierung von existierenden Ratingmodellen Reduktion der Ausfallraten um 15% - 45% Seite 32
Big Data und predictive Analytics Ausblick wohin geht die Reise? Ausblick Systeme werden selber Hypothesen formulieren und diese überprüfen Systeme werden nicht nur Chancen und Risiken aufzeigen, sondern selber geeignete Massnahmen einleiten, um die Chancen zu nutzen bzw. Schäden zu verhindern Seite 33
Business Nutzen Zusammenfassung der Business Nutzen von Big Data und predictive Analytics optimierte Kosteneffizienz höhere Erträge Prozesssicherheit Know How Vorsprung Seite 34
Big Data und predictive Analytics Pilotprojekt: Proof of Value Durchlaufzeit ab Datenbereitstelllung ca. 4 Wochen Projektschritt / Aufgabe Konzeption Kick-off, Ausgangslage, Zieldefinition, Datenanalyse, Definition des Dateninputs Bereitstellung Datenbereitstellung Durchführung der Modellierung Datenübernahme und -transformation, Erstellung der Scoring-/Ratingmodelle Durchführung des Scorings/Ratings Prospero X X X Kunde X X Ergebnisaufbereitung Ergebnispräsentation ev. Benchmarkvergleich X X X X Seite 35
Kundenaussagen Was unsere Kunden sagen Die Qualität der Erkenntnisgewinnung von Prospero führt uns in eine neue Dimension von Effektivität in unseren Vertriebsprozessen. Thomas Bahc, Head of Multichannel Management, Member of the Board Switzerland, Swiss Life Insurance In unserem Benchmarktest in der Anbieterevaluation erzielte Prospero signifikant die besten Ergebnisse. Die Qualität der Erkennungsraten zusammen mit dem anwenderfreundlichen Workflow optimieren unsere Prozesse. Beat Hess, Business Analyst Partnersysteme, Zürich Financial Services Die kompetente Unterstützung durch Prospero war ein Schlüsselfaktor für die schnelle und erfolgreiche Projekteinführung. Albert Vendrami, Leiter Verkaufs-Services, Generali Die Lösung der Prospero hat uns ermöglicht, eine optimal trennende Ratingfunktion zu entwickeln, welche sich sowohl in der Anwendung bei den Banken als auch in der Modellvalidierung bestens bewährt hat. Professor Dr. Markus Heusler, CEO, RSN Risk Solution Network Seite 36
Kontakt Kontakt Christian Schaefle c.schaefle@prospero.ch phone: +41 44 552 02 40 Mobile: +41 79 431 82 32 Seite 37