INSTITUT FÜR ARTIFICIAL INTELLIGENCE [050010 VU Ernst Buchberger ] Textanalyse als Standardsoftware IBM Content Analytics with Enterprise Search Mag. Alberto Brabenetz, Bakk. IT Spezialist @ IBM Software Group 1
Agenda Einführung zur Textanalyse und UIMA UIMA und IBM Content Analytics SW Praxis: IBM Content Analytics Studio 2
IBM Corporation Key Figures Company Headquarters Armonk, New York, USA CEO Virginia M Rometty Employees 2012 434,246 Revenue 2012 104,507 billion US-Dollar Homepage ibm.com CEO Virginia M Rometty Headquarters Armonk, New York With revenues of 104.5 billion US-Dollar in 2012, IBM is one of the world s largest providers of information technology (hardware, software and services) and B2B solutions. The company employs 434,246 employees worldwide and is active in more than 170 countries. In 2012 IBM submitted 6.478 U.S.patents and is therefore the most innovative company in the U.S. On June 16, 2011, IBM celebrated its 100th anniversary as a corporation. 3 3
Die Herausforderungen der Informationsflut Es scheint, als ob Sie alle Daten hätten was ist also das Problem?! 4
Ein neues Computerzeitalter beginnt... System Intelligenz Kognitives System Zeitalter Programmierbares System Zeitalter Rechner Zeitalter Lochkarten Eine Aufgabe 1900 5 5 21. Jänner 2014 Unternehmensdaten Big Data Programmiersprache Natürliche Sprache Deterministisch Probabilistisch Strukturierte Daten Strukt. & unstrukturiert 1950 2011
Technologie Rückblick am 16.02.2011 gewinnt WATSON die Quizshow Jeopardy! Jeopardy! stellt die ultimative Herausforderung für ein Computersystem (Watson), denn es verlangt: breites Wissen (ohne Internet) aus einer breiten Palette von Themen: Geschichte, Literatur, Politik, Kunst, Unterhaltung, Wissenschaft, feine Analyse der Sprache und Verstehen von subtilen Bedeutungsunterschieden, Ironie, Rätseln, Wortspielen etc. hohe Geschwindigkeit beim Ermitteln der korrekten Antwort (max. 3 Sec.) richtige Einschätzung der Verlässlichkeit der Antwort, um Entscheiden zu können ob die Frage beantwortet werden soll Verständnis der Frage & das Finden der richtigen Antwort in möglichst kurzer Zeit 6 6 Am 16. Februar 2011 gewann Watson gegen Ken Jennings und Brad Rutter die bis dahin IBM Industry Solutions erfolgreichsten Teilnehmer, die jemals bei Jeopardy! mitgespielt haben
Was macht es aus sich mit den besten Jeopardy! Spielern zu messen? 7
DeepQA: Incremental Progress in Answering Precision on the Jeopardy Challenge: 6/2007-11/2010 IBM Watson Playing in the Winners Cloud v0.8 11/10 V0.7 04/10 v0.6 10/09 v0.5 05/09 v0.4 12/08 v0.1 12/07 v0.3 08/08 v0.2 05/08 Baseline 12/06 8
Der alte Ansatz reicht nicht aus In May 1898 Portugal celebrated the 400th anniversary of this explorer s arrival in India. In May, Gary arrived in India after he celebrated his anniversary in Portugal. arrived in celebrated In May 1898 Keyword Matching Keyword Matching celebrated In May Erkennen von zeitlichen Zusammenhängen ( 400 Jahre, Mai 1898, nur Mai) 400th anniversary anniversary Keyword Matching Portugal in Portugal Keyword Matching arrival in Geographische Zusammenhänge (Portugal, Indien, auch erkennen von Regionen oder Städten) Keyword Matching India India Inhalte verstehen - es geht um den Entdecker, nicht um Gary Gary 9 9 explorer
Learning by reading = Preprocessing... die Bedeutung von sprachlichen Ausdrücken in Bezug zum Weltwissen 10
Beziehungen und Entitäten Beziehungen Weichteilverletzung Konzepte Person Verletzung Körperteil Ort Wörter und Phrasen (Entitäten) Substantiv Klaus 11 Verb Verb Nominalphrase Präpostitionalphrase verstauchte seinen Knöchel auf der Treppe
IBM Watson brings together a set of transformational technologies to drive optimized outcomes 2 Generates and evaluates hypothesis for better outcomes 1 Understands natural language and human speech 99% 60% 10% 3 Adapts and IBM Content Analytics with Enterprise Search Learns from user selections and responses 12 12 Enterprise Search Secure, robust and scalable Search and Analyze Content Content Analytics Natural Language Processing Context-driven using NLP Fact and Relationship Extraction (Annotation) Content Classification Content Classification
13 13 21. Jänner 2014 IBM & ELGA GmbH ConfidentialIBM Industry Solutions
14 14 21. Jänner 2014 IBM & ELGA GmbH ConfidentialIBM Industry Solutions
15 15 21. Jänner 2014 IBM & ELGA GmbH ConfidentialIBM Industry Solutions
16 16 21. Jänner 2014 IBM & ELGA GmbH ConfidentialIBM Industry Solutions
Trendthema unstrukturierte Daten Daten enthalten Information und menschliches Wissen Strukturierte Daten: zb in Datenbanken, Warehouse, BI-Tools, etc.. Semi-strukturierte Daten: XML, Metadaten in Dokumenten Management Systemen, Eigenschaften von Word-Datein, etc.. Unstrukturierte Daten: Text, Audio, Video *UIMA Whitepaper by IBM 17
UIMA - Unstructured Information Management Architecture UIMA beschreibt die Architektur und das Framework zu Erzeugung von UIMA konformen Applikationen UIMA definiert eine einheitliche Schnittstelle zur Integration von Analyseschritten Ermöglicht Interoperabilität verschiedener Analyselösungen und Unternehmensanwendungen DARPA (Forschungseinrichtung des US Verteidigungsministeriums) benutzt UIMA UIMA Projekt wurde von IBM gestartet und als Open Source frei gegeben Heute definiert UIMA ein OASIS Standard und wird seit 2006 von Apache betreut (http://uima.apache.org/) Apache UIMA is an Apache-licensed open source implementation of the UIMA specification Grundidee (by IBM): Einheitlicher Standard zur Strukturierung von unstrukturierten Informationen Data Representation: Artefakte und Metadaten unabhängig vom Quell-Objekt Data Modeling and Interchange: Plattform unabhängige Analyse und Austausch Discovery, Reuse and Composition: der Analytischen Komponenten (zb Annotator) Service Level Interoperability: WSDL: XML Repräsentation für SOAP Services 18
UIMA Pipeline in IBM Content Analytics (ICA) Custom Annotator Custom Annotator Regular Expression Dictionary Named Entity Identify Languages Crawled Documents Find Words & Roots Text Analytic Annotators Annotated Documents UIMA Framework and Pipeline Unstrukturierte Information Herr E. wurde aus dem Klinikum XX zur Koronarangiografie übernommen. Die Untersuchung ergab eine koronare Dreigefäßerkrankung. Zudem fiel eine höhergradige, symptomatische Mitralinsuffizienz auf,... 19 19 21. Jänner 2014 IBM & ELGA GmbH Confidential Text Analytic Collection annotations Strukturierte Information Diagnosen Dreigefäßerkrankung, Mitralinsuffizienz Leistungen Koronarangiografie Körperregion Koronargefäße
UIMA Pipeline & IBM Content Analytics (ICA) Annotator- a software component that performs linguistic analysis tasks and produces and records annotations 20
(UIMA) Erstellen von Custom Annotators UIMA SDK: Apache UIMA Java Framework stellt eine Java-basierte Runtime Environment bereit (zahlreiche BSP) IBM UIMA SDK: Eclipse-based development environment auf IBM DeveloperWorks Java based IBM LRW: IBM LanguageWare Resource Workbench stellt eine zu ICA voll integrierte Entwicklungsumgebung bereit Heute IBM Content Analytics Studio Apache UIMA: stellt noch weitere Frameworks bereit (z.b. C++ framework ) und teilweise werden z.b. Perl, Python, and TCL annotators unterstützt. 21
Entwicklung mit IBM Content Analytics Studio IBM Content Analytics Studio ist eine Technologie für Textanalyse auf Dokumentenebene. Es setzt dabei den Schwerpunkt auf die linguistische Analyse von Textdaten. Ziel ist das einfache Entwickeln und Abbilden von sog Domänenwissen Eine komplette Entwicklungsumgebung zur Erstellung und Manipulation von sog. Dictionaries, Rules und UIMA compliant Annotatoren Der Fokus von Content Analytics Studio liegt auf den folgenden drei Bereichen des Natural Language Processing (NLP): Entitäten- und Konzept-Erkennung Erkennen und herstellen von Beziehungen innerhalb von Dokumenten Extraktion von Wissen aus textuellen Daten 22
ICA Studiobasis: Wie kommt die Intelligenz in den Text? Welche Technologien setzt die IBM Content Analytics Studio im Detail ein? Spracherkennung: Erkennung von 23 Sprachen, voll-linguistisch 15 Sprachen Segmentierung: Segementieren von Text in Sätze und lexikalische Einheiten mit unterschiedlicher Bedeutung (z.b. Phrasen, einzelne Wörter, Wortteile) Normalisierung: Normalisieren von lexikalischen Einheiten und mappen unterschiedlicher Varianten (z.b. verschiedene Flexionen eines Wortes) auf eine gemeinsame Form (Grundformenreduktion) Anreicherung: Lexikalische Einheiten werden mit zusätzlichen Informationen wie z.b. Part of Speech Informationen ergänzt Wörterbücher: Integration individueller (Fach)-Wörterbücher zur Erzeugung von Entitäten, die mit Zusatzinformationen angereichert werden können Regeln: Extraktion von Mustern (z.b. reguläre Ausdrücke) und Konzepten (z.b. Personen) aus den Textdaten bis hin zu komplexen Beziehungen (z.b. Welche Personen arbeiten in welchem Unternehmen?) Zusätzlich: Einbau von Java UIMA kompatiblen Annotatoren möglich, deren Outputs in der pipeline verwendet werden können 23
ICA Studiobasis: Wie kommt die Intelligenz in den Text? Spracherkennung Segmentierung Normalisierung Anreicherung Regeln ergab = ergeben deutsch Untersuchung = Nomen Einzelne Wörter: z.b. Untersuchung Sätze: z.b. Die Untersuchung ergab eine koronare Dreigefäßerkrankung. Wörterbücher Fachwörter: Koronare=koronar z.b. koronar, ergeben = Verb Dreigefäßerkrankung 10.Jän.2013=10.01.2013 koronare = Adv. Dreigefäßerkrankung = Nomen Diagnose: z.b. Koronare Dreigefäßerkrankung Herr Mustermann wurde nach akutem Koronarsyndrom aus dem Klinikum XX zur Koronarangiografie übernommen. Die Untersuchung ergab eine koronare Dreigefäßerkrankung. Zudem fiel eine höhergradige, symptomatische Mitralinsuffizienz auf, so dass der Patient am 10.Jän.2013 sich einer Bypass-Versorgung mit Mitralklappenersatz unterziehen wird. Hinweis: Die Ableitung der Sätze bzw. Satzteile erfolgt automatisch... 24
Modellierungswerkzeug für linguistische Komponenten Content Analytics Studio ist eine Eclipse-basierte Oberfläche Entwicklung- und Test Outline Explorer Status- und Detailanzeigen 25
Modellierungswerkzeug für linguistische Komponenten Supported languages 15 voll-linguistisch unterstützte Sprachen Four new languages supported making 15 in total: 26 Arabic (ar) Chinese (zh) Czech (cs) Danish (da) Dutch (nl) English (en) French (fr) German (de) Hebrew (he) Italian (it) Japanese (ja) Polish (pl) Portuguese (pt) Russian (ru) Spanish (es)
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Morphologie - Erkennen der Part-of-Speech Information wird automatisiert u.a. auf Basis von mitgelieferten Wörterbüchern durchgeführt - Flexionen werden auf Basis mitgelieferter Wörterbücher erkannt. Darüber hinaus besteht die Möglichkeit eigene Wörterbücher aufzubauen und die Flexionen manuell oder automatisch zu erzeugen - Einzahl und Mehrzahl. Möglich über Wörterbücher oder custom Annotator der auf Basis des Lemmas agiert 27
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Ober- und Unterbegriffe (Hyperonyme und Hyponyme) - Via Wörterbücher abzubilden - Beispiel einer Überbegriff-Unterbegriffbeziehung Überbegriff: Möbel Unterkategorie: Sitzmöbel Unterbegriffe: Stuhl, Bank, etc. Beliebige Ausprägungen zu einem Begriff können gepflegt werden. 28
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Lexiko-syntaktische Satzmuster nach Hearst: Eine weitere Möglichkeit, neue Konzepte zu extrahieren und hierarchisch anzuordnen, beruht auf einem regelbasierten Ansatz. Dieser versucht automatisiert Hyponyme (Unterbegriffe) zu einem erkannten Hyperonym (Oberbegriff) zu finden. 29
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Lexiko-syntaktische Satzmuster nach Hearst: - Definition von Oberbegriffen (Hyperonym) und Unterbegriffen (Hyponym) via Dictionaries - Aufbau der Hearst-Pattern mittels einer Parsing Rule Abbildung der Regel nach Hearst 30 Definition eines Listen-Features
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Lexiko-syntaktische Satzmuster nach Hearst: Nähere Betrachtung der Annotationseigenschaften: Dynamische Listengenerierung 31
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Synonyme - Via Wörterbücher abzubilden - Beispiel für die Abbildung von Synonymen 32
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Subjekt Prädikat Objekt (Konzept Triple Store ) x (Person) y (Beziehung) zu z (Unternehmen) Abbildung als Regel 33 Annotationen im Text
Modellierungswerkzeug für linguistische Komponenten Extraktion linguistischer Features Phonetik - Die phonetische Transkription kann in Wörterbüchern als Feature gepflegt werden 34
Modellierungswerkzeug für linguistische Komponenten Extraktion syntaktischer/struktureller Features Länge von Dokumenten, Paragraphen, Sätzen und Wörtern Beginn und Ende des Dokuments, Paragraphen und Sätzen kann über den UIMA Typ uima.tcas.annotation:begin und uima.tcas.annotation.end festgestellt werden (uima.tcas.documentannotation, uima.tt.paragraphannotation, uima.tt.sentenceannotation, uima.tt.tokenannotation). Hierzu ist ein custom Annotator notwendig Anzahl (Nummer) von Paragraphen und Sätzen Zusätzlich können zu Paragraphen und Sätzen deren Anzahl (Nummer) annotiert werden via uima.tt.paragraphannotation:paragraphnumber und uima.tt.sentenceannotation:sentencenumber Auf Basis von sogenannten Break-Rules kann innerhalb des CA Studio für einen Annotator festgelegt werden, wie die Struktur des Dokumentes zu verarbeiten ist. 35
Modellierungswerkzeug für linguistische Komponenten Beispiel: UIMA Annotator in Java zur Integration in das Modellierungswerkzeug 36
Modellierungswerkzeug für linguistische Komponenten Text Miner Applikation IBM Content Analytics: Ergebnisse analysieren (1) Diese Annotationen wurden durch die im Studio definierte Parsing Rule erzeugt 37
Modellierungswerkzeug für linguistische Komponenten Text Miner Applikation IBM Content Analytics: Ergebnisse analysieren (2) Diese Annotationen wurden durch den custom Annotator erzeugt 38
Modellierung: Erkennung von Körperteilen, deren Lage und Größendaten 39
Daten im Zeitverlauf: Betroffene Körperteile 40
Linguistik: Verlauf / Veränderung der Erkrankung 41
Modellierungswerkzeug für linguistische Komponenten Bsp der Miner Oberfläche: Medikamente aus den Befunden geordnet nach Befunddatum 42
Modellierungswerkzeug für linguistische Komponenten Demo by Katharina Salzlechner, IBM SWG 43
Modellierungswerkzeug für linguistische Komponenten Demo by Katharina Salzlechner, IBM SWG 44
Modellierungswerkzeug für linguistische Komponenten Demo by Katharina Salzlechner, IBM SWG 45
Seton Healthcare Family Reducing CHF readmission to improve care IBM Content and Predictive Analytics for Healthcare uses the same type of natural language processing as IBM Watson, enabling us to leverage information in new ways not possible before. We can access an integrated view of relevant clinical and operational information to drive more informed decision making and optimize patient and operational outcomes. Charles J. Barnett, FACHE, President/Chief Executive Officer, Seton Healthcare Family Business Challenge Seton Healthcare strives to reduce the occurrence of high cost Congestive Heart Failure (CHF) readmissions by proactively identifying patients likely to be readmitted on an emergent basis. What s Smart? IBM Content and Predictive Analytics for Healthcare solution will help to better target and understand high-risk CHF patients for care management programs by: Utilizing natural language processing to extract key elements from unstructured History and Physical, Discharge Summaries, Echocardiogram Reports, and Consult Notes Leveraging predictive models that have demonstrated high positive predictive value against extracted elements of structured and unstructured data Providing an interface through which providers can intuitively navigate, interpret and take action 46 46 Smarter Business Outcomes Seton will be able to proactively target care management and reduce re-admission of CHF patients. Teaming unstructured content with predictive analytics, Seton will be able to identify patients likely for readmission and introduce early interventions to reduce cost, mortality rates, and improved patient quality of life. IBM solution IBM Content and Predictive Analytics for Healthcare IBM Cognos Business Intelligence IBM BAO solution services
Anwendungsgebiete von IBM Content Analytics LE E I P S BEI Customer Service Product Management Corporate Reputation Churn Alerts Voice of the Customer Monitor FAQs CSR Training and Monitoring Market Sentiment Service Management Sales Partners Marketing Industry Reports 47 Market Research Transcripts CSR Logs Email Internal Docs and Reports Web Blogs
48
Literatur IBM Red Book: http://www.redbooks.ibm.com/redbooks/pdfs/sg247877.pdf IBM ICA Information Center: v2.2: http://publib.boulder.ibm.com/infocenter/analytic/v2r2m0/index.jsp IBM ICA Information Center: v3.0: http://publib.boulder.ibm.com/infocenter/analytic/v3r0m0/index.jsp IBM ICA Product Website: http://www-01.ibm.com/software/ecm/content-analytics/ UIMA: http://uima.apache.org/ UIMA Whitepaper by IBM: http://domino.research.ibm.com/library/cyberdig.nsf/papers/1898f3f640fef47e8525723c00551250/$file/rc24122.pdf UIMA IBM SDK: http://www.ibm.com/developerworks/data/downloads/uima/ IBM LRW Education: http://publib.boulder.ibm.com/infocenter/ieduasst/imv1r0/index.jsp? topic=/com.ibm.iea.lrw/plugin_coverpage.html IBM LRW @IBM DeveloperWorks: https://www.ibm.com/developerworks/community/groups/service/html/communityview? communityuuid=6adead21-9991-44f6-bdbb-baf0d2e8a673 IBM Watson & IBM ICA Whitepaper: http://public.dhe.ibm.com/common/ssi/ecm/en/zzb03003usen/zzb03003usen.pdf 49
Trademarks and notes Copyright IBM Corporation 2013 IBM Software Group One Rogers Street Cambridge, MA 02142 U.S.A. Produced in the United States of America February 2011 All Rights Reserved IBM, the IBM logo, and ibm.com are trademarks of International Business Machines Corp., registered in many jurisdictions worldwide. Other product and service names might be trademarks of IBM or other companies. A current list of IBM trademarks is available on the Web at Copyright and trademark information at ibm.com/legal/copytrade.shtml. References in this publication to IBM products or services do not imply that IBM intends to make them available in all countries in which IBM operates. Client success stories are available at ibm.com/software/success/cssdb.nsf. The information contained in this documentation is provided for informational purposes only. While efforts were made to verify the completeness and accuracy of the information contained in this documentation, it is provided as is without warranty of any kind, express or implied. In addition, this information is based on IBM s current product plans and strategy, which are subject to change by IBM without notice. IBM shall not be responsible for any damages arising out of the use of, or otherwise related to, this documentation or any other documentation. Nothing contained in this documentation is intended to, nor shall have the effect of, creating any warranties or representations from IBM (or its suppliers or licensors), or altering the terms and conditions of the applicable license agreement governing the use of IBM software. IBM customers are responsible for ensuring their own compliance with legal requirements. It is the customer s sole responsibility to obtain advice of competent legal counsel as to the identification and interpretation of any relevant laws and regulatory requirements that may affect the customer s business and any actions the customer may need to take to comply with such laws. 50
51