Effektive Analyse großer Datenmengen im Public Sector Dr.-Ing. Jörn Kohlhammer Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) Fraunhoferstraße 5 64283 Darmstadt Tel.: +49 6151 155-646 Fax: +49 6151 155-139 Email: joern.kohlhammer@igd.fraunhofer.de http://www.igd.fraunhofer.de/iva
Erstes deutschsprachiges Buch zum Thema Visualisierung im BI-Bereich Anwendung der besten Visual Business Analytics-Techniken zur Verarbeitung massiver Datenmengen und für den Einblick in komplexe Strukturen Verwendung von Visual Business Analytics für ein effizientes und verständliches Informationsmanagement Erscheinungstermin: Ende Q3/2013 2
Ausbaustufen von Visual Business Analytics Informationsdesign Gutes Verständnis und adäquate Verwendung von visuellen Elementen im Reporting Informationsvisualisierung Dynamische Informationen interaktiv und visuell zugänglich machen Visuelle Analyse (Visual Analytics) Neue Erkenntnisse durch das abgestimmte Zusammenspiel von Mensch und System 3
Informationsvisualisierung Wir benutzen auf natürliche Weise unsere Augen, um die Welt zu verstehen... Daten Informations- Wissen visualisierung Ein Bild sagt mehr als 1000 Worte. 4
Interaktive Visualisierung Grafische Unterstützung macht uns klüger. (Stuart Card) Zwei Ziele der grafischen Unterstützung Bessere Kommunikation vorhandener Ideen Entdeckung neuer Ideen Nutzung von visuellen Hilfsmitteln zum Denken und Entscheiden Allein Stift und Papier reduzieren die Rechenzeit um den Faktor 5 34 x 72 68 23 2 80 2448 5
Herkunft der Informationsvisualisierung Wissenschaftliche Visualisierung Informationsvisualisierung Visual Analytics 6
Beispiel: Tree Maps Hier: Darstellung der Entwicklung von Börsenkursen (2001) Übersicht über aktuelle Börsentrends Branchenklassifikation Fokus auf relevante Informationen 7
Informationsvisualisierung Beachtung der menschlichen Wahrnehmung Beispiel: Change Blindness 8
Informationsvisualisierung Change Blindness 9
Informationsvisualisierung Beachtung der menschlichen Wahrnehmung Beispiel: Change Blindness Vorsicht bei: Animation und interaktiven Visualisierungen Springen zwischen Darstellungen Mehrseitigen Darstellungen 10
Menschliche Wahrnehmung Hervorspringen von Informationen Ein Hervorspringen erfolgt, wenn das Zielobjekt eine Eigenschaft besitzt, die kein anderes ablenkendes Objekt besitzt. (Suchen Sie das blaue T ) 11
Menschliche Wahrnehmung 12
Menschliche Wahrnehmung (Suchen Sie das / ) 13
Menschliche Wahrnehmung 14
Menschliche Wahrnehmung Ein Hervorspringen erfolgt, wenn das Zielobjekt eine Eigenschaft besitzt, die kein anderes ablenkendes Objekt besitzt. 15
Menschliche Wahrnehmung Eine serielle Suche ist nötig, wenn jede visuelle Eigenschaft des Zielobjekts auch unter den ablenkenden Objekten vorkommt. (Suchen Sie das grüne T ) 16
Menschliche Wahrnehmung 17
Interaktive Visualisierung Besseres Verständnis durch Interaktion und bewegte Daten Hans Rosling (Gapminder) at TED Talks 18
Interaktive Visualisierung: Beispiel Gapminder 19
Daten, Information, Wissen Daten Rohform Information Bedeutung Kontext Wissen Zusammenhänge 20
Informationsvisualisierung Modell von Card et al. 21
Datenarten Rohdaten in vielfältiger Form Datentabellen Datenströme Bilder, Videos, Audio etc. Texte Text Text Text 22
Informationsvisualisierung Modell von Card et al. 23
Informationsvisualisierung Vier grundlegende Typen von sichtbaren Dingen im Raum 24
Sichtbare Eigenschaften 25
Informationsvisualisierung Modell von Card et al. 26
Beispiel: Gapminder 27
Informationsvisualisierung Modell von Card et al. 28
Interaktive Visualisierung Wie erstellt man gute, interaktive Visualisierungen? Shneiderman-Vorgehen 1. Überblick über alle Daten 2. Zoom und Filter 3. Details auf Anfrage 29
Informationsvisualisierung Shneiderman-Vorgehen 1. Überblick aller Daten 2. Zoom und Filter 3. Details auf Anfrage Filmfinder, Ahlberg&Shneiderman 30
Informationsvisualisierung Gegenbeispiel aus dem Notfallmanagement 1. Immer alle Details 2. Scroll und Select 3. Größere und mehr Monitore für den besseren Überblick 31
Big Data Zu viele Daten für den Überblick nach Shneiderman 100 Mio. FedEx Transaktionen pro Tag Über 1800 Gbps über DE-CIX peak traffic 7,2 Mrd. VISA Kreditkartentransaktionen pro Jahr 32
Beispiel: Kreditkarten Real-Time Online Switch Acquirer POS Geldautomaten Host / Issuer 33
Beispiel: Kreditkarten Datenbank Regeln und Abfragen Alerts! Visualisierung Reports 34
Beispiel: Kreditkarten 50 und mehr Attribute Amount Merchant# Location Local Transaction Time Country Code POS PAN MCC Expiry Date Card# Große Anzahl Transaktionen (z.b. 7,2 Mrd. VISA-Transaktionen in 2009) Problem: Fixe Regeln erkennen nur bekannte Betrugsschemata Wie erkennt man neue Fälle möglichst rasch und proaktiv? 35
Histogramm für ein Attribut Beispiel: Zeit der Kreditkartentransaktion 1-dimensionales Histogramm Time of Day 05:00-08:59 09:00-11:59 12:00-15:59 16:00-18:59 19:00-22:59 23:00-01:59 02:00-04:59 36
Histogramme und Tabelle für zwei Attribute -$9 $10-$99 4 6 10 25 12 15 16 10 10 28 23 13 16 12 Beispiel: Zeit der Transaktion abgebildet auf Zahlungsbetrag $100-$299 $300-$499 $500-$699 $700-$999 $1000-4 2 0 1 0 32 31 5 1 2 41 35 6 12 6 28 20 6 8 5 14 10 30 17 5 8 4 9 6 3 5 3 0 2 0 Zwei 1-dimensionale Verteilungen kombiniert in einer Tabelle (Zahlen stehen für die Größe der verschiedenen Gruppen) 37
Mustererkennung -$9 $10-$99 $100-$299 $300-$499 4 2 10 25 32 31 12 15 16 10 10 28 41 35 23 28 20 13 16 12 Abbildung der Gruppengröße auf Helligkeit Interessante Bereiche können auf einen Blick erkannt werden. $500-$699 0 5 6 6 $700-$999 1 1 12 8 $1000-0 2 6 5 38
pos atm pos atm pos atm pos atm pos atm pos atm pos atm Herausforderung: Sehr viele Attribute -$9 $10-$99 $100-$299 $300-$499 Verwobene Darstellung von drei (und mehr) Attributen Hier zusätzliches Attribut: POS oder ATM $500-$699 $700-$999 $1000-39
Visualisierung mehrdimensionaler Beziehungen KVMap: 100.000 Datensätze in sechs Dimensionen 40
KVMap-System Komplexe Muster von 10 und mehr Dimensionen als farbige Muster Erkennen von neuen Zusammenhängen ohne kognitiven Aufwand Automatische Methoden im Hintergrund Identifizierung interessanter Muster aus Datenbank oder DWH Mächtige Analysetechnik für das Back Office Experten im Zentrum der Analyse 41
Visual Analytics 42
Heutige Graphiken für große Datenmengen? USA EU Japan Portugal Spanien Frankreich Großbritannien Polen Slowakei Tschechien Slowenien Schweiz Italien Österreich Irland Ungarn Rumnänien Deutschland Dänemark Kroatien Schweden Finnland 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 43
Warum Visual Analytics, warum heute? Große und wachsende Datensammlungen (Big Data) Notwendigkeit schneller und informierter Entscheidungsfindung auf Basis dieser Daten Reine Visualisierungsmethoden (Informationsvisualisierung) nicht adäquat für Milliarden von Datensätzen Vollautomatische Knowledge Discovery-Ansätze/Modelle nur für wohldefinierte und eindeutig spezifizierbare Probleme Beispiel: Abwehrsituationen: Betrug, Viren, SPAM, DOS-Angriffe, Wettbewerb, 44
Was ist das Neue an Visual Analytics? Was gibt es schon? Automatisches Knowledge Discovery & Data Mining Interaktive visuelle Daten-Exploration Was brauchen wir? Enge Integration visueller und automatischer Datenanalysemethoden mit Datenbanktechnologien für skalierbare interaktive Entscheidungsunterstützung Visuelle Daten-Exploration Visualisierung Daten Wissen Modelle Data Mining Feedback Loop 45
Visual Analytics ein neuer Ansatz Kombination aus Informationsvisualisierung, Statistik, Data Mining, Business Intelligence und anderen Gebieten Informationsvisualisierung Wahrnehmungstheorie Interaktivität Benutzerfreundlichkeit Visual Analytics Data Mining Statistik Datenbankmanagement Wissensmanagement 46
Big Data und Visual Analytics Visual Analytics Neue Möglichkeiten durch Integration mit automatischen Verfahren Stärkerer Einfluss der menschlichen Erfahrung und Ideen in den Gesamtprozess Effektiverer Umgang mit Big Data Erste Ansätze in heutigen Tools in Erweiterungen zur interaktiven Exploration, Prediction oder Simulation Projekte im Bereich Policy Modeling 47
Visual Analytics im Public Sector Allgemeiner Policy-Making-Lifecycle Need for a policy Policy Impacts of the policy 48
Projekt epolicy (Engineering the policy making life-cycle) Forschungsprojekt gefördert durch die Europäische Kommission Bereich: egovernment und Policy Modeling Ziel: Unterstützung von Politikern und deren Teams bei der komplexen, globalen Entscheidungsfindung durch integrierte Optimierungsmodelle, Simulationen, Meinungsanalyse- und Visualisierungstechniken Use Case: Entwicklung eines nachhaltigen regionalen Energieplans 49
Vorteile bei der Verwendung von Visualisierung Policy Maker Policy Idea Policy Analyst Requirements Modeling Expert Model Validation Modeling Expert Analytical Model Modeling Expert Analysis Results Policy Analyst Solutions Policy Maker Decision Visualizations Visualization Visualization Policy Analyst Policy Maker 50
Demo 51
Weitere Einsatzgebiete von Visual Analytics Wähleranalysen Analysen von Fragebögen Trendanalysen Sicherheit Medizin Überall, wo massive Datenmengen anfallen 52
Informationsvisualisierung und Visual Analytics Verkürzung des Weges von Daten zur Entscheidung Daten Interaktive Informationen und Erkenntnisse Entscheidung Handlung 2012 Fraunhofer IGD 53
Kontakt Dr. Jörn Kohlhammer Fraunhofer IGD Fraunhoferstraße 5 64283 Darmstadt Deutschland Tel.: +49 (6151) 155 646 Fax: +49 (6151) 155 139 Email: joern.kohlhammer@igd.fraunhofer.de http://www.igd.fraunhofer.de 54