</SimpleRule> <SimpleRule ruleid=""> <CompoundPredicate booleanoperator="and"> <CompoundPredicate booleanoperator="or"> <SimplePredicate field="merch_cat_cd" operator="startswith" value="48" /> </CompoundPredicate> <CompoundPredicate booleanoperator="or"> <HistoricalPredicate operator="greaterthan" value="5"> <Count> <Condition starttime="-8h"> <SameFieldValueConstraint field="card_num" /> </Condition> </Count> </HistoricalPredicate> </CompoundPredicate> <CompoundPredicate booleanoperator="or"> <HistoricalPredicate operator="equal" value="true"> <Exists> <Condition starttime="-8h"> <SameFieldValueConstraint field="card_num" /> <SimplePredicate field="pos_atnd" operator="equal" value="0" /> <SimplePredicate field="pos_crdhldr_prsnc" operator="equal" value="5" /> </Condition> </Exists> </HistoricalPredicate> </CompoundPredicate> </CompoundPredicate> TXN HISTORY
Big Data und Fraud Mining Lessons Learned Stefan Rüping Fraunhofer IAIS Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Übersicht Big Data Ansätze Lessons Learned Dies ist erst der Anfang! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Herausforderung Regelbasiert + verständlich, erste Schritte schnell umsetzbar - hoher manueller Aufwand, explodierende Komplexität, träge Klassisches Data Mining + flexibel, automatisch - nicht verständlich, schwer zu pflegen und zu erweitern Neuer Ansatz Kombination beider klassischer Ansätze: Fraud Mining findet automatisch aus Daten verständliche Regeln Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Technologie: Subgroup Discovery Finden lokaler Muster Ungewöhnlich viel Geld Ungewöhnlich hohe Betrugsaktivität Neu aufgetretene Muster Verständliche Regeln Nachvollziehbar Plausibilität Vollständige Regeln Finden aller in den Daten vorhandenen Muster Verfahren ist klar, aber wie wird es auf den großen Daten umgesetzt? Wenn Produkt = X und Neukunde dann Betrugswahrscheinlichkeit = 90% Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Brauche ich Big Data Techniken? 1. Problem reduzieren Werden wirklich alles Daten gebraucht? Grenznutzen der Daten: Was bringt es, über die Grenze eines einzelnen Rechners hinauszugehen? Techniken: statistisches Sampling 2. Berechnung skalieren Insbesondere falls alle Daten potentiell relevant sind Fraud Detection benötigt 2. Ansatz! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Big Data Techniken Map-Reduce Googles Ansatz Begrenztes Rechenmodell: Verteilte Berechung wird in zwei vorgegebene Schritte (Map & Reduce) aufgeteilt In-Memory Datenbank Daten so geschickt speichern, dass alles in den Hauptspeicher passt Parallelisierung auf Thread-Ebene GPU Computing Umsetzung auf sehr schneller paralleler Hardware (Grafikkarten-Chips) Erfordert spezielle Programmierkenntnisse. Mittels Bibliotheken Speziallösungen Algorithmus wird von Hand auf viele Rechner verteilt Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Map/Reduce Suchmaschine ist prototypische Anwendung für Big Data Computing Big Data: Jede Webseite ist potentiell relevant Gut parallelisierbar: Die Relevanz jeder Webseite für eine Suchanfrage kann unabhängig von allen anderen Webseiten bestimmt werden Wenig globaler Overhead: lediglich Sortierung der Ergebnisse nach Relevanzscore Googles Lösung Google File System: redundante, parallele Datenhaltung ermöglicht Speicherung auf Low-Cost-Hardware Map-Reduce-Paradigma: einfaches Verteilungsschema ermöglicht Optimierung der parallelen Berechnung Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Vergleich: Map-Reduce vs. Sequentielles Processing Text Preprocessing Text Clustering Map/Reduce signifkant schlechter. Evt. Bei extrem hoher Anzahl von Prozessoren besser Map/Reduce signifikant besser Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Parallelisierung auf Thread-Ebene Parallele Berechnung in einem Rechner Aktuelles Beispiel: Parallele Recheneinheiten auf Grafikkarten (GPU Computing, z.b. Nvidia CUDA) Vorteile Umsetzung durch Bibliotheken in Standardsoftware, z.b. Matlab Gut geeignet für numerisch intensive Probleme, z.b. Klimaforschung Nachteile Hauptspeicher- und Festplattengrenzen existieren weiterhin www.nvidia.com Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Unser Ansatz Effiziente In-Memory Datenbank Für >1 Mio. Transaktionen 1 TB Rechner bei einem Kunden Verteilung auf Thread- und Clusterebene Speziallösung, da Algorithmus kontinuierlichen Austausch von Prozessinformationen benötigt Bottleneck: Datentransfer Rechenzeiten 30-1d Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Big Data: Lessons Learned I Don t do it Es sei denn, es ist wirklich nötig Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Big Data: Lessons Learned II Software & Project Quality Big Data tendiert dazu, alles unhandlicher zum machen Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Big Data: Lessons Learned III Technologie gezielt auswählen Viele Tools, wenige grundlegende Prinzipien Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Ausblick: Big Data Fraud Detection Volume (klar!) Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Ausblick: Big Data Fraud Detection Velocity (auch klar!) Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Ausblick: Big Data Fraud Detection Variety! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Herausforderung: Komplexe Daten Integration aller verfügbaren Informationsquellen ergibt ein deutlich detaillierteres Lagebild Issuer-Sicht Issuer = Bank des Kunden Fraud: Kartendiebstahl Daten: Transaktionsinformationen, Kundenhistorie Standardsicht Akquirer-Sicht Akquirer = Bank des Händlers Fraud: Kartenkopien, falsche Abrechnungen, Geldwäsche Daten: Historie, ähnliche Händler Neue Sicht auf Transaktionsdaten Textdaten Beispiel: Auftragstext bei Überweisungen, Beschreibung des Händlers im Internet Bisher nicht auswertbar Geodaten Beispiel: wie schnell müsste Kunde zwischen zwei Transaktionen reisen? Plausibilität der Transaktionshistorie Bisher nur in Spezialfällen auswertbar Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Beispiel Der Data Mining Technik Rule Creator findet automatisch verständliche und interessante Muster in den Daten. Der Experte sieht auf einen Blick die wichtigen Muster, statt aufwändig selbst suchen zu müssen. Smart Semantics Textmining Tools extrahieren wichtige Themen aus geschriebenem Text und machen Dokumente so einer statistischen Analyse zugänglich. Privacy-preserving Data Mining verhindert, dass personenbeziehbare Informationen aus dem Analyseergebnis erschließbar sind. Geodaten liefern Informationen über externe Einflussfaktoren. Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS
Zusammenfassung Big Data: Do it but do it right! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS