Ähnliche Dokumente
WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Die Post hat eine Umfrage gemacht

Grundlagen der Künstlichen Intelligenz

Apache HBase. A BigTable Column Store on top of Hadoop

Sicherheits-Tipps für Cloud-Worker

Taking RM Agile. Erfahrungen aus dem Übergang von traditioneller Entwicklung zu Scrum

Konzentration auf das. Wesentliche.

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

PQ Explorer. Netzübergreifende Power Quality Analyse. Copyright by Enetech Alle Rechte vorbehalten.

Online bezahlen mit e-rechnung

Corporate Design leicht gemacht. officeatwork für Microsoft Dynamics AX und Microsoft Dynamics CRM

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Hilfe-Blatt: Ausgabenkontrolle

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Zimmertypen. Zimmertypen anlegen

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

File Carving für Mediendateien. Multimedia Sicherheit, Martin Steinebach

Was macht Layer2 eigentlich? Erfahren Sie hier ein wenig mehr über uns.

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

PCC Outlook Integration Installationsleitfaden

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Speicher in der Cloud

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Wie Google Webseiten bewertet. François Bry

TTS - TinyTimeSystem. Unterrichtsprojekt BIBI

Was meinen die Leute eigentlich mit: Grexit?

Entwicklung von Visualisierungskomponenten

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Das System sollte den Benutzer immer auf dem Laufenden halten, indem es angemessenes Feedback in einer angemessenen Zeit liefert.

Übersicht. Nebenläufige Programmierung. Praxis und Semantik. Einleitung. Sequentielle und nebenläufige Programmierung. Warum ist. interessant?

Der beste Plan für Office 365 Archivierung.

Primzahlen und RSA-Verschlüsselung

Erfahrungen mit Hartz IV- Empfängern

Windows 10 > Fragen über Fragen

Formica 2.0: Montageauftrag erfassen: Auftragsgruppe

Big Data Mythen und Fakten

Summer Workshop Mehr Innovationskraft mit Change Management

Anspruchsvolle Dreierausdrücke zum selbstständigen Lernen

Internes Web-Portal der AK-Leiter

Ratgeber Stromanbieter wechseln

Prof. Dr.-Ing. Rainer Schmidt 1

Schritte 4. Lesetexte 13. Kosten für ein Girokonto vergleichen. 1. Was passt? Ordnen Sie zu.

Local Control Network

Einführung in PHP. (mit Aufgaben)

= = = = = = = = = = = = = = = = = =

Affiliate Marketing Schnellstart Seite 1

Data Quality Management: Abgleich großer, redundanter Datenmengen

Titel BOAKdurch Klicken hinzufügen

Spotlight 5 Gründe für die Sicherung auf NAS-Geräten

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Das Persönliche Budget in verständlicher Sprache

Übungen zur Softwaretechnik

Google ist mehr als eine Suchmaschine

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Super rechnen ohne Superrechner Oder: Was hat das Grid mit Monte Carlo zu tun?

7 Schritte durch. Think out of the box. Think Auditor.

Datenanalyse - Schnittstellendesign

IT-Unternehmensarchitektur Übung 01: IT-Strategie

Die Invaliden-Versicherung ändert sich

Das von MTS-Italia entwickelte Content Management System mit 1:1 seekda Integration.

MSSQL Server Fragen GridVis

Cad-OasEs Int. GmbH. 20 Jahre UG/NX Erfahrung prägen Methodik und Leistungen. Nutzen Sie dieses Wissen!

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

Softwaretests in Visual Studio 2010 Ultimate Vergleich mit Java-Testwerkzeugen. Alexander Schunk Marcel Teuber Henry Trobisch

Fragen zur GridVis MSSQL-Server

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Idimager ein Bildverwaltungsprogramm-DAM Software

Mikrocontroller Grundlagen. Markus Koch April 2011

Das muss drin sein. Hallo, wir sind die Partei: DIE LINKE.

YouTube: Video-Untertitel übersetzen

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Warum Sie jetzt kein Onlinemarketing brauchen! Ab wann ist Onlinemarketing. So finden Sie heraus, wann Ihre Website bereit ist optimiert zu werden

Leichte-Sprache-Bilder

Makigami, Prozessmapping und Wertstromdesign. erstellt von Stefan Roth

Internationales Altkatholisches Laienforum

SDD System Design Document

Rule the principal.

Warum Suche (trotzdem) bedeutend ist

Web Analytics Kontrolle von Online Aktivitäten

Der schnelle Weg zu Ihrer eigenen App

Einführung in. Logische Schaltungen

Drucken von Webseiten Eine Anleitung, Version 1.0

- Google als Suchmaschine richtig nutzen -

Gesetzliche Aufbewahrungspflicht für s

Die Ergebnisse dazu haben wir in der beiliegenden Arbeit zusammengestellt.

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

Alle gehören dazu. Vorwort

Multichannel Challenge: Integration von Vertriebsorganisation und Contact Center in der Versicherung

WIE ENTSCHEIDEN SICH KUNDEN HEUTZUTAGE FÜR IHR UNTERNEHMEN?

Transkript:

</SimpleRule> <SimpleRule ruleid=""> <CompoundPredicate booleanoperator="and"> <CompoundPredicate booleanoperator="or"> <SimplePredicate field="merch_cat_cd" operator="startswith" value="48" /> </CompoundPredicate> <CompoundPredicate booleanoperator="or"> <HistoricalPredicate operator="greaterthan" value="5"> <Count> <Condition starttime="-8h"> <SameFieldValueConstraint field="card_num" /> </Condition> </Count> </HistoricalPredicate> </CompoundPredicate> <CompoundPredicate booleanoperator="or"> <HistoricalPredicate operator="equal" value="true"> <Exists> <Condition starttime="-8h"> <SameFieldValueConstraint field="card_num" /> <SimplePredicate field="pos_atnd" operator="equal" value="0" /> <SimplePredicate field="pos_crdhldr_prsnc" operator="equal" value="5" /> </Condition> </Exists> </HistoricalPredicate> </CompoundPredicate> </CompoundPredicate> TXN HISTORY

Big Data und Fraud Mining Lessons Learned Stefan Rüping Fraunhofer IAIS Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Übersicht Big Data Ansätze Lessons Learned Dies ist erst der Anfang! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Herausforderung Regelbasiert + verständlich, erste Schritte schnell umsetzbar - hoher manueller Aufwand, explodierende Komplexität, träge Klassisches Data Mining + flexibel, automatisch - nicht verständlich, schwer zu pflegen und zu erweitern Neuer Ansatz Kombination beider klassischer Ansätze: Fraud Mining findet automatisch aus Daten verständliche Regeln Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Technologie: Subgroup Discovery Finden lokaler Muster Ungewöhnlich viel Geld Ungewöhnlich hohe Betrugsaktivität Neu aufgetretene Muster Verständliche Regeln Nachvollziehbar Plausibilität Vollständige Regeln Finden aller in den Daten vorhandenen Muster Verfahren ist klar, aber wie wird es auf den großen Daten umgesetzt? Wenn Produkt = X und Neukunde dann Betrugswahrscheinlichkeit = 90% Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Brauche ich Big Data Techniken? 1. Problem reduzieren Werden wirklich alles Daten gebraucht? Grenznutzen der Daten: Was bringt es, über die Grenze eines einzelnen Rechners hinauszugehen? Techniken: statistisches Sampling 2. Berechnung skalieren Insbesondere falls alle Daten potentiell relevant sind Fraud Detection benötigt 2. Ansatz! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Big Data Techniken Map-Reduce Googles Ansatz Begrenztes Rechenmodell: Verteilte Berechung wird in zwei vorgegebene Schritte (Map & Reduce) aufgeteilt In-Memory Datenbank Daten so geschickt speichern, dass alles in den Hauptspeicher passt Parallelisierung auf Thread-Ebene GPU Computing Umsetzung auf sehr schneller paralleler Hardware (Grafikkarten-Chips) Erfordert spezielle Programmierkenntnisse. Mittels Bibliotheken Speziallösungen Algorithmus wird von Hand auf viele Rechner verteilt Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Map/Reduce Suchmaschine ist prototypische Anwendung für Big Data Computing Big Data: Jede Webseite ist potentiell relevant Gut parallelisierbar: Die Relevanz jeder Webseite für eine Suchanfrage kann unabhängig von allen anderen Webseiten bestimmt werden Wenig globaler Overhead: lediglich Sortierung der Ergebnisse nach Relevanzscore Googles Lösung Google File System: redundante, parallele Datenhaltung ermöglicht Speicherung auf Low-Cost-Hardware Map-Reduce-Paradigma: einfaches Verteilungsschema ermöglicht Optimierung der parallelen Berechnung Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Vergleich: Map-Reduce vs. Sequentielles Processing Text Preprocessing Text Clustering Map/Reduce signifkant schlechter. Evt. Bei extrem hoher Anzahl von Prozessoren besser Map/Reduce signifikant besser Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Parallelisierung auf Thread-Ebene Parallele Berechnung in einem Rechner Aktuelles Beispiel: Parallele Recheneinheiten auf Grafikkarten (GPU Computing, z.b. Nvidia CUDA) Vorteile Umsetzung durch Bibliotheken in Standardsoftware, z.b. Matlab Gut geeignet für numerisch intensive Probleme, z.b. Klimaforschung Nachteile Hauptspeicher- und Festplattengrenzen existieren weiterhin www.nvidia.com Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Unser Ansatz Effiziente In-Memory Datenbank Für >1 Mio. Transaktionen 1 TB Rechner bei einem Kunden Verteilung auf Thread- und Clusterebene Speziallösung, da Algorithmus kontinuierlichen Austausch von Prozessinformationen benötigt Bottleneck: Datentransfer Rechenzeiten 30-1d Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Big Data: Lessons Learned I Don t do it Es sei denn, es ist wirklich nötig Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Big Data: Lessons Learned II Software & Project Quality Big Data tendiert dazu, alles unhandlicher zum machen Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Big Data: Lessons Learned III Technologie gezielt auswählen Viele Tools, wenige grundlegende Prinzipien Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Ausblick: Big Data Fraud Detection Volume (klar!) Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Ausblick: Big Data Fraud Detection Velocity (auch klar!) Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Ausblick: Big Data Fraud Detection Variety! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Herausforderung: Komplexe Daten Integration aller verfügbaren Informationsquellen ergibt ein deutlich detaillierteres Lagebild Issuer-Sicht Issuer = Bank des Kunden Fraud: Kartendiebstahl Daten: Transaktionsinformationen, Kundenhistorie Standardsicht Akquirer-Sicht Akquirer = Bank des Händlers Fraud: Kartenkopien, falsche Abrechnungen, Geldwäsche Daten: Historie, ähnliche Händler Neue Sicht auf Transaktionsdaten Textdaten Beispiel: Auftragstext bei Überweisungen, Beschreibung des Händlers im Internet Bisher nicht auswertbar Geodaten Beispiel: wie schnell müsste Kunde zwischen zwei Transaktionen reisen? Plausibilität der Transaktionshistorie Bisher nur in Spezialfällen auswertbar Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Beispiel Der Data Mining Technik Rule Creator findet automatisch verständliche und interessante Muster in den Daten. Der Experte sieht auf einen Blick die wichtigen Muster, statt aufwändig selbst suchen zu müssen. Smart Semantics Textmining Tools extrahieren wichtige Themen aus geschriebenem Text und machen Dokumente so einer statistischen Analyse zugänglich. Privacy-preserving Data Mining verhindert, dass personenbeziehbare Informationen aus dem Analyseergebnis erschließbar sind. Geodaten liefern Informationen über externe Einflussfaktoren. Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS

Zusammenfassung Big Data: Do it but do it right! Fraunhofer Institut für intelligente Analyse- und Informationssysteme IAIS