Big Data und Analytics: Erweiterung der Business Intelligence-Möglichkeiten mittels Technologien zur Textexploration Volker Hofmann, Senior Account Manager InterSystems GmbH
Agenda InterSystems Big Data Alle Daten Die Bedeutung von Text Analyse von Texten Klassische Textanalyse vs.textexploration Umsetzung mit InterSystems iknow Beispiele aus der Praxis Use Cases 2
InterSystems 1,300 Mitarbeiter, 35 Büros, 6 Kontinente
InterSystems steht für. A"Creative"Technology"Partner" With"a"Passion" For"Excellence" And"Customer"Success"
Stärke für strategisches Invest 500 400 300 200 Durchgängiges Wachstum (16%) und Profitabilität Privat gehalten, keine Investoren, keine Schulden Kunden in 90+ Ländern $443M 100 0
InterSystems steht für. Interoperabilität Wissen Daten
InterSystems steht für... Agieren Erfassen Verstehen Teilen Erfassen der Daten von Systemen, Geräten, Menschen. Teilen der Information zwischen Nutzern, Apps und Communities Verstehen aller Daten, strukturierte und unstrukturierte Aktivitäten auslösen Mobile Big Data Cloud
Do We Agree On What Big Data Is? 8 Copyright 1991-2013 R20/Consultancy B.V., The Hague, The Netherlands 17
Trendthema Big Data
Enormes Anwachsen von Daten Merrill Lynch: Unstrukturierte Daten accounts machen 80%+ aller Unternehmensdaten aus und 95% aller täglich erzeugten Daten Strukturierte Daten Unstrukturierte Daten Business transaction data Web application data Exabyte 1800 Relational Komplex, unstrukturiert Text Bilder Audio Video 0 2005 2015 Jahr 1 9 7 0 1 9 8 0 1 9 9 0 2 0 0 0 2 0 1 0 10
Entscheidungsgrundlage -> Ist / Soll Basis für herkömmliche Business Intelligence > 80 % der Daten nicht automatisiert analysierbar Basis für Geschäftsentscheidungen Strukturierte Daten Unstrukturierte Daten
Was bedeutet alle Daten?! Entscheidung/Suche basierend auf strukturierten Daten: Kaufe ein Buch der Kategorie Fiktion aus der aktuellen Top 10 Verkaufsliste, welches weniger als 20 EUR kostet! Entscheidung/Suche basierend auf allen Daten: Kaufe das Buch der Kategorie Fiktion aus der aktuellen Top 10 Verkaufsliste, welches weniger als 20 EUR kostet und sich am deutlichsten von den Büchern, die ich bereits besitze, unterscheidet
Was bedeutet alle Daten?! Entscheidung/Suche basierend auf strukturierten Daten: Welche Patienten haben in den letzten 3 Jahren die Hauptdiagnose xyz gehabt, das Medikament abc eingenommen und im Laufe des KH-Aufenthaltes ein Fieber über 40 Grad bekommen?! Entscheidung/Suche basierend auf allen Daten: Welcher Entlassbrief aus den letzten 3 Jahren ist dem eines aktuellen Patienten vom Therapieverlauf und der Behandlungsempfehlung her am ähnlichsten gewesen? Welche Nebenwirkungen traten in den Textbefunden der Kardiologie häufig in Zusammenhang mit Medikation abc auf?
Big Data nach Branchen Big Data ist immer auch Text! Quelle: www.datastax.com
Warum ist Text so interessant? But What About Text?! Interne Systeme Email Systeme (mehr als 144 Milliarden pro Tag) Internal systems Email systems; studies show that 144 billion emails are Vertragsmanagement Systeme sent per day Dokumenten Management Systeme Contract management systems Mit gescannter Korrespondenz u.a. Dokumenten Document management systems that contain scanned correspondence Besuchsberichte and other documents Customer Call Center visit reviews Log Files Call center log files Chat or instant messaging transcripts Voice transcripts from customer calls Chats oder Instant Messaging-Aufzeichnungen! Externe Systeme Facebook (mehr als 200 Millionen Nachrichten pro Tag) Twitter (mehr als 340 Millionen Tweets pro Tag SMS (7,8 Trillionen SMS messages in 2011) External systems Facebook: over 200 million messages are sent per day. Twitter: more than 340 million tweets are sent per day. SMS: 7.8 trillion SMS text messages were sent in 2011. Copyright 1991-2013 R20/Consultancy B.V., The Hague, The Netherlands 46
Beispiele für Text Queries Wie oft treten bestimmte Symptome und Medikationen zusammen in einer Patientendatei auf? Hat ein Text eine positive oder eine negative Attitüde? Wieviele Texte beschäftigen sich mit dem Konkurs der Bank XYZ? Gib mir für jeden Monat die Anzahl der texte, in denen es um Gehirnoperationen geht Welche sind die häufigsten Konzepte, die im Zusammenhang mit dem Konzept Kreditkartenbetrug in den vorliegenden Texten vorkommen? Welches Buch ist bezogen auf die im Inhalt des Buchs verwendeten Konzepte, dem Buch Der Schatz im Silbersee von Karl May am ähnlichsten und welches ist am unterschiedlichsten?
Der klassische Ansatz für Textanalyse: Top-Down (mit Dictionary)
Textexploration Traditionelle Textanalyse Vorarbeiten Analyse
Textexploration Traditionelle Textanalyse Vorarbeiten Analyse Textexploration Vorarbeiten Analyse
2011 TDWI BI Benchmark Report Developing a complex report or dashboard with about 20 dimensions, 12 measures, and 6 user access rules, took on average 6.3 weeks in 2009, 6.6 weeks in 2010, and 7 weeks in 2011. 30% of the respondents indicated they needed at least 3 months or more for such a development exercise. The average time needed to add a new data source was 8.4 weeks in 2009, 7.4 weeks in 2010, and 7.8 weeks in 2011. 33% needed more than 3 months. Copyright 1991-2013 R20/Consultancy B.V., The Hague, The Netherlands 10
Textexploration Die drei Anforderungen an moderne Textexploration: Analyse ohne Vorarbeiten Analyse ohne Zieldefinition Selbständige Analyse
Textexploration Die drei Anforderungen an moderne Textexploration: Analyse ohne Vorarbeiten Analyse ohne Zieldefinition Selbständige Analyse
Textexploration Die drei Anforderungen an moderne Textexploration: Analyse ohne Vorarbeiten Analyse ohne Zieldefinition Selbständige Analyse Big Data der Film?
Textexploration Die drei Anforderungen an moderne Textexploration: Analyse ohne Vorarbeiten Analyse ohne Zieldefinition Selbständige Analyse
Vorgehensmodell: Klassisch (z.b. NLP) vs. Modern (explorativ) Klassische Ansätze Moderner Ansatz Text in Sätze aufteilen. Text in Sätze aufteilen. Sätze in Wörter aufteilen. Relationen basierend auf sehr kompakten Sprachmodellen identifizieren. Wörterbuchbasierende statistische Verfahren oder syntaktische Parser verwenden, um Zusammenhänge zu raten. Relationale Elemente identifizieren bedeutungstragende Elemente automatisch Korrigieren und Anreichern mit Wörterbüchern oder Ontologien. Optional: Anreichern mit Wörterbüchern oder Ontologien. 25
Vorgehensmodell: Klassisch (z.b. NLP) vs. Modern (explorativ) Klassische Ansätze InterSystems i.know Ansatz Text in Sätze aufteilen. Text in Sätze aufteilen. Sätze in Wörter aufteilen. Relationen basierend auf sehr kompakten Sprachmodellen identifizieren. Wörterbuchbasierende statistische Verfahren oder syntaktische Parser verwenden, um Zusammenhänge zu raten. Relationale Elemente identifizieren bedeutungstragende Elemente automatisch Korrigieren und Anreichern mit Wörterbüchern oder Ontologien. Optional: Anreichern mit Wörterbüchern oder Ontologien. 26
Bevorzugen Sie dieses Modell? i.know ermöglicht bahnbrechende Applikationen durch entfernen der Hindernisse zum Wissen. Wissen Hindernisse der Applikationen durch entfernen zum ermöglicht i.know bahnbrechende
Oder vielleicht dieses Modell? iknow ermöglicht bahnbrechende Applikationen durch Entfernen der Hindernisse zum Wissen 28
Die Ergebnisse von iknows Textexplorationsansatz iknow enables breakthrough applications by removing the barriers to knowledge
Der iknow-ansatz: Bottom-Up (ohne Dictionary)
Der klassische Ansatz für Textanalyse: Top-Down (mit Dictionary)
Anreicherung mit bekannten Informationen " bessere Ergebnisse!
Zusammenfassung! Ich habe ein Problem, aber ich weiß nicht, wo ich nach der Antwort suchen soll? Wie kann ich intuitives Wissen in Ontologien ableiten?! Exploration (Erkundung, Erforschung) ist # Das Erkunden bestimmter Sachverhalte und Stimmungen oder die ergebnisoffene Suche nach Ressourcen oder Informationen auf unbekanntem Gebiet/Gelände (Wikipedia)! Anforderungen an explorative Werkzeuge für Text-Analyse: # Self-Service & Benutzerfreundlich, keine Einschränkungen/Ergebnisoffen, # Minimale IT-Unterstützung notwendig # Domain-unabhängig, Mehrsprachig und vielfältig einsetzbar # Erkennt automatisch Konzepte und Beziehungen und erzeugt Wissen. # Benötigt keine vordefinierten Ontologien/Thesauri - wie die traditionellen Textanalyse- und natürlichen Sprachverarbeitungslösungen (NLP)
Anwendungsbeispiele Textexploration Peter W. Mengel, Senior Account Executive InterSystems GmbH
Wertermittlung - Freitexte analysieren und qualifizieren Es wurde eine Applikation entwickelt, welche Freitextdaten aus den von den Immobilienbesitzern eingestellten Exposés und Angeboten "erschließt" und die fehlenden Metadaten ergänzt, die der Bewertungsalgorithmus benötigt. Auf diese Weise können nun auch Objekte mit nur wenig Metadaten für die Wertermittlung berücksichtigt werden. 35
Inhalts- und qualifikationsabhängiges Routing Es wurde im Zuge eines Piloten eine Applikation entwickelt, welche die Freitextdaten der eingehenden Schadensmeldungen dem richtigen Sachbearbeiter (Schadensgebiet, Höhe des Betrages, Skills) im Workflow automatisiert zuweist bzw. Kleinbeträge direkt zur Zahlung anweist. Schnelle Reaktionszeit zum Kunden. Skills erfassen. Machine Learning. 36
Web Intelligenz Es wurde eine Applikation entwickelt, welche Tonalitäten (Sentiments) aus Quellen des Internets erschließt und Stimmungen für den Fragenden herausfiltert. Warum kaufen Kunden von mir? Was denken meine Kunden von meinem Wettbewerb? Was mögen meine Kunden nicht an meiner Marke? Wie sehen die Trends zu diesen und vielen weiteren Fragestellungen aus? Erkenntnisse aus Social Media Konversationen in Echtzeit. 37
Automatische Referenzen zu Texten in Echtzeit Ein führendes Redaktionssystem wurde um die Fähigkeit erweitert, die Substanzen eines Verlages und die Daten des Internet in Echtzeit in Bezug zu dem Artikel zu bringen, an dem der Redakteur gerade schreibt. Der Redakteur kann sich via Kopieren und Einsetzen die Textvorschläge auswählen, die zu seinem Artikel passen. Die Tag Cloud für seinen neuen Artikel wird automatisch und sinnvoll gebildet. 38
Tonalitäten (Sentiments) in der Strafverfolgung Es wurde eine Applikation entwickelt, welche Freitextdaten (SMS, Email, Speech2Text) aus der Kommunikation von Gruppen der organisierten Kriminalität auf Tonalitäten (Aggressions-anstieg etc..) analysiert. Damit ermitteln belgische Fahnder den optimalen Zeitpunkt des Zugriffe. Diese wertfreien Beweise sind in Belgien bei Gericht verwertbar. 39
Time2Market Medikamente schneller entwickeln Durch assoziative Aufbereitung von Wissen in klinischen Daten und Dokumenten (Freitext) werden MÖGLICHE Patienten für klinische Studien ermittelt. In klinischen Studien untersuchen Ärzte den Wirkstoff erstmals am Menschen. Sie prüfen ihn auf seine Sicherheit und Verträglichkeit sowie auf sein Verhalten im Körper. Dies geschieht in der Regel an kleinen Gruppen von freiwilligen Studienteilnehmern, den sogenannten Probanden. In den jeweiligen Berichten werden Freitexte analysiert, um zusätzliches Wissen und Abhängigkeiten zu erschließen. 40
Compliance Management für Banken Das erste Thema in der Kooperation: Eine spezielle Softwarelösung (in der Entwicklung) hilft Banken, ihren gesamten E-Mail-Verkehr nach gesetzlichen Anforderungen revisionssicher zu speichern. Anfragen und Prüfungen können so inhaltlich recherchierbar gemacht werden. Zudem sind Nutzer in der Lage nicht offensichtlich auffindbare Geschäftsvorfälle und weniger eindeutige inhaltliche Zusammenhänge in der E-Mail- Kommunikation etwa in verklausulierten Hinweisen aufzuspüren. 41
Vielen Dank für Ihre Aufmerksamkeit Kontakt: Volker Hofmann, Manager Healthcare and Senior Account Manager Volker.Hofmann@intersystems.com Peter Mengel, Senior Account Executive Peter.Mengel@intersystems.com