Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014



Ähnliche Dokumente
Event Recognition Engine

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Big Data Informationen neu gelebt

Prof. Dr.-Ing. Rainer Schmidt 1

Softwaretechnologie für die Ressourcenlinguistik

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

BitDefender Client Security Kurzanleitung

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

8 Juli Transparenz durch Governance Data Governance als kritischer Erfolgsfaktor für Predictive Analytics

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

Wie der IBM Supercomputer Watson zum besten Freund von Human Resources werden könnte!

Echtzeitanomalieerkennung für Internetdienste (Abschlussvortrag)

Installation SQL- Server 2012 Single Node

Logo MIA. Ein cloud basierter Marktplatz für Informationen und Analysen auf dem deutschsprachigen Web

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Übersicht. Eclipse Foundation. Eclipse Plugins & Projects. Eclipse Ganymede Simultaneous Release. Web Tools Platform Projekt. WSDL Editor.

Executive Information. SAP HANA Ihr Weg zum In-Memory-Computing

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Big Data Mythen und Fakten

Lokale Installation von DotNetNuke 4 ohne IIS

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten

Apache HBase. A BigTable Column Store on top of Hadoop

Big Data Projekte richtig managen!

Sie müssen sich für diesen Fall mit IHREM Rechner (also zeitgut jk o.ä.) verbinden, nicht mit dem Terminalserver.

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

Intelligent Traveller Early Situation Awareness itesa

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Haben Sie schon einmal aus einem ScreenCobol Requestor ein Java Programm aufgerufen?

Gesetzliche Aufbewahrungspflicht für s

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Sof o t f waretechn h o n l o og o i g en n f ü f r ü v e v rteilte S yst s eme Übung

Meine Entscheidung zur Wiederaufnahme der Arbeit

Zentrum. Zentrum Ideenmanagement. Zentrum Ideenmanagement. Umfrage zur Nutzung von mobilen Endgeräten im Ideenmanagement

Oracle 9i Real Application Clusters

ETL in den Zeiten von Big Data

Instruktionsheft für neue Webshop Hamifleurs

Entwicklungen bei der Linux Clustersoftware

Windows Server 2012 R2 Essentials & Hyper-V

Reporting Services und SharePoint 2010 Teil 1

Projektsteuerung Projekte effizient steuern. Welche Steuerungsinstrumente werden eingesetzt?

Python SVN-Revision 12

Klasse aus Masse. vom Information Retrieval zu BigData Seite. DATEV eg, alle Rechte vorbehalten

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Sehr geehrter Herr Pfarrer, sehr geehrte pastorale Mitarbeiterin, sehr geehrter pastoraler Mitarbeiter!

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

Kurzleitfaden für Schüler

Neue Funktionen in Innovator 11 R5

Was ist das Tekla Warehouse

Part-of-Speech- Tagging

Soziale Netze (Web 2.0)

Begeisterung und Leidenschaft im Vertrieb machen erfolgreich. Kurzdarstellung des Dienstleistungsangebots

Checkliste. zur Gesprächsvorbereitung Mitarbeitergespräch. Aktivität / Frage Handlungsbedarf erledigt

Überblick Produkte. ORACLE AS 10g R3 JAVA Programming. (5 Tage)

Herausforderungen des Enterprise Endpoint Managements

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Elasticsearch aus OPS-Sicht Teil1. Markus Rodi Karlsruhe,

Java Entwicklung für Embedded Devices Best & Worst Practices!

Installation von NetBeans inkl. Glassfish Anwendungs-Server

Eine Anwendung mit InstantRails 1.7

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

ROI Facebook. Social Media als Puzzleteil Ihrer Unternehmenskommunikation

Bei der Benutzung des NetWorker Client Configuration Wizards könnten Sie die Namen Ihrer Datenbanken verlieren

Konzept Projekt Lisa

Web-Marketing und Social Media

EIDAMO Webshop-Lösung - White Paper

Loggen Sie sich in Ihrem teamspace Team ein, wechseln Sie bitte zur Verwaltung und klicken Sie dort auf den Punkt Synchronisation.

DP ITS Vorgehensmodell Build und Microsoft Team Foundation Server

Die Programmiersprache Java. Dr. Wolfgang Süß Thorsten Schlachter

Einführung in die Informatik Tools

Wie starte ich mit meinem Account?

PCC Outlook Integration Installationsleitfaden

NEWSLETTER // AUGUST 2015

WARENWIRT- SCHAFT UND ERP BERATUNG Mehr Sicherheit für Ihre Entscheidung

BigData Wie wichtig ist die Datenqualität bei der Analyse und Auswertung von großen Daten Praxisbeispiel. Christin Otto

Howto. Einrichten des TREX Monitoring mit SAP Solution Manager Diagnostics

Big Data Kundendaten im 2015 Michael Gisiger Wortgefecht Training & Beratung

Smap3D PDM 10. Installation. Stand-Alone-Migration-Analyzer

Anleitung über den Umgang mit Schildern

atcsv2ctm Ein Tool für die Foldergenerierung mittels Excel/CSV in einem CONTROL-M Umfeld

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Backup-Server einrichten

Swisscom TV Medien Assistent

Bewerbertraining. Herzlich Willkommen! Referenten: Susanna Obermaier. Andreas Niebergall. Raiffeisenbank Westallgäu eg. Marketing der RB Westallgäu eg

Copyright 2014 Delta Software Technology GmbH. All Rights reserved.

white sheep GmbH Unternehmensberatung Schnittstellen Framework

Erstellen eines Formulars

Installation des GeoShop Redirector für Apache (Stand ) ================================================================

Transkript:

Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung der Forscher bei Textanalyse auf großen Datenmengen Entwicklung dkpro-bigdata zur Ausführung von UIMA auf Hadoop 2005-2011: European Media Lab, Heidelberg u.a. Entwicklung eines Frameworks für Speech Analytics (Textanalyse auf den Ergebnissen von automatischer Spracherkennung) 2

Die drei V s in heutigen BigData Architekturen Volume Hadoop, NoSQL, HDFS, Velocity Storm, Spark, Kafka, Variety Clickstream, Clickstream,? Clickstream 3

Mehr als Weblogs: Strukturiert Unstrukturiert Transaktionale Daten Stammdaten DWH Mails Web Videoclips XML TV Logdaten Mitschnitte Social Media Semistrukturiert 4

Agenda Motivation: Textanalyse & Machine Learning Pipelines mit Apache UIMA Skalierung von UIMA Pipelines Tools Best Practices und Alternativen 5

Textanalyse Klassifikation Sentiment Analyse, Spamdetection, Mailpriorisierung Informations- Extraktion Verschlagwortung, Zusammenfassung, Zuordnung von Worten zu Konzepten Exploration Visualisierung, Suche, Trendanalyse 6

Welche Mail möchte ich sehen? The health test result for NAME_NODE_WEB_METRIC_COLLECTION has become bad: The Cloudera Manager Agent is not able to communicate with this role's web server. Dear Sir, I am requesting for your help, to assist me in getting 42,000,000.00 to your account. please do indicate your interest for more information's. Yours Truly, From Daniel Klimowicz 7

Maschinelles Lernen Apotheke CLEAN 5 Apotheke Einladung SPAM CLEAN 31 20 billig SPAM CLEAN 40 10 CLEAN SPAM 35 71 8

Vorverarbeitung Tokenisierung Chunking Guten Satz Tag Mein Name ist Satz Stemming Lemmatisierung Part-of- Speech Guten Tag Mein Name ist gut Tag Mein Name sein Guten Tag Mein Name ist ADJ N PRP N V 9

Apache UIMA Entwickelt von IBM Der Apache Foundation gespendet (in 2006) OASIS Standard Technologie DeepQA hinter IBM s Watson ( Jeopardy ) 10

UIMA Komponenten Collection Reader CAS Analysis Engine CAS CAS Consumer Type System Typesystem Interoperabilität CAS Common Annotation Structure Collection Reader XML, PDF etc Analysis Engine Chunker Parser Sentiment-Analyse CAS Consumer File Webservice Datenbank 11

von Komponenten zur Pipeline Konfiguration von Komponenten Per XML: Component Descriptor Programmatisch: UIMAFit nutzt z.t. Spring Automatische Erzeugung von Deskriptoren aus Java- Annotationen. JCas jcas = JCasFactory.createJCas(); jcas.setdocumenttext("some text"); AnalysisEngine tokenizer = createengine(mytokenizer.class); AnalysisEngine tagger = createengine(mytagger.class); runpipeline(jcas, tokenizer, tagger); for(token token : iterate(jcas, Token.class)) System.out.println(token.getTag()); 12

Skalierung: UIMA on Hadoop UIMA Corpus Workstation Results Collection Reader NLP Pipeline Writer Corpus HDFS Results Workstation Collection Reader with HDFSResourceLocator NLP Pipeline HDFSWriter 13

Sklalierung: UIMA on Hadoop Corpus Results Collection Reader Workstation HDFS Mapper NLP Pipeline Writer Mapper NLP Pipeline Writer Mapper NLP Pipeline Writer Cluster 14

Skalierung: UIMA AS/DUCC Collection Reader POS Tagger QA1 Verschiedene Resultate werden parallel erzeugt QA2 UIMA AS: Asyncronous Scaleout - Verteilt CAS per Message Queue an Workernodes DUCC ist ein Cluster-Manager für UIMA AS 15

Batch/Realtime kombiniert Ähnlich einer Lambda-Architektur Batch Web Wikipedia UIMA MR HDFS UIMA MR HDFS UIMA MR HDFS Cache Realtime Frage UIMA UIMA UIMA UIMA Antwort 16

Verfügbare Komponenten UIMA Components Dictionary Annotator, Stemmer, Chunker Grundfunktionalität UIMA Ruta Regelbasiert Informationsextraktion DKPro Core OpenNLP Sammlung von NLP Komponenten des UKP Lab der TU Darmstadt Sammlung von NLP Komponenten - Apache Projekt Hauptsächlich Vorverarbeitung 17

Tools: CAS Editor und Eclipse Plugin 18

Alternativen NLTK Python Lucene besitzt einige Analyzer, wird beispielsweise von Mahout genutzt GATE Ähnlich zu UIMA Eher akademisches Umfeld 19

Anwendungsfall: Mehrwort-Ausdrücke Multiword-Extraction Beispielsweise für automatische Vervollständigung von Suchbegriffen Statistische Signifikanz einer des paarweisen Auftretens Word-count, mittels Map/Reduce, Hive, Spark Normalisierung, z.b. Tippfehlernormalisierung, Umlaute ist Vorverarbeitung 20

Was ist realistisch? Kann ich das selbst? Einfach anfangen Regelbasiert, Lexikonbasiert Wenn ML, vorgefertigte und einfache Algorithmen Domäne eingrenzen Offene Domäne (Watson) extrem schwierig, Forschungsgebiet Wenige Klassen (Spam/Kein Spam) Datenanalyse/Annotationsexperiment Können Menschen diese Aufgabe überhaupt konsistent lösen? Trotzdem: steep learning curve, sicher kein Wochenendprojekt. 21

Schritt für Schritt zur Textanalyse Was möchte ich wissen? Kenne ich meine Zielklassen? Habe ich Trainingsdaten? Wie kann ich evaluieren? In welchem Format liegen meine Eingangsdaten vor? Wie schnell brauche ich die Resultate? 22

Zusammenfassung Auch unstrukturierte Daten sind erschließbar Textanalyse ist oft Maschinelles Lernen Vorgefertigte Komponenten existieren Apache UIMA bietet eine Platform um solche Komponenten zu einer Applikation zu kombinieren UIMA und Hadoop sind gut integrierbar. 23

Ressourcen UIMA: https://uima.apache.org/ OpenNLP: http://opennlp.apache.org/ DKPro Core: https://code.google.com/p/dkpro-core-asl/ DKPro BigData: https://code.google.com/p/dkpro-bigdata/ 24

Vielen Dank für Ihre Aufmerksamkeit Kontakt Hans-Peter Zorn Big Data Solutions inovex GmbH Office Karlsruhe Ludwig-Erhard-Allee 6 D-76131 Karlsruhe hzorn@inovex.de 25