Text-Mining und Metadaten-Anreicherung Eine Einführung. Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten

Text-Mining und Metadaten-Anreicherung Eine Einführung Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten 26.05.2015

Inhalt Zeit ist Geld. Das gilt auch für die Recherche....3 Kann ein Computer Texte verstehen?...3 Technologische Textanalyse...4 Natural Language Processing (NLP)...4 Mit Mathematik zur Lösung...4 Entitätenerkennung und andere Stolpersteine...5 Sprachmodelle, Konzepte und Beziehungen...5 Verborgene Wissensschätze zur Anreicherung nutzen...5 Die passende Software zur Lösung dieser Aufgaben...6 2

Mit welchen Verfahren Verlage ihre Daten fü r eine bessere Rechercheqüalita t anreichern kö nnen. DIE SEMANTISCHE ERSCHLIESSUNG VON INHALTEN FÜR EINE VERBESSERTE SUCHQUALITÄT IN DER FACHINFORMATIONS-RECHERCHE ZÄHLT ZU DEN WICHTIGSTEN HERAUSFORDERUNGEN IN DER VERLAGSBRANCHE. DIESES WHITEPAPER GIBT EINEN EINFÜHRENDEN ÜBERBLICK ÜBER DIE TECHNOLOGISCHEN MÖGLICHKEITEN ZUR SEMANTISCHEN ANREICHERUNG VON DATEN. Zeit ist Geld. Das gilt auch für die Recherche. Im digitalen Informationszeitalter sind immer größere Mengen reiner Textinformationen frei und kostenlos verfügbar. Für die Vermarktung von Fachinformationen geht es daher immer weniger um die Information an sich, es geht viel mehr darum, aus Informationen verfügbares und praktisch anwendbares Wissen zu machen. Dabei spielt der Faktor Zeit eine gewaltige Rolle. Ein Überangebot an Fachinformationen steigert die Produktivität nicht, sondern mindert sie. Die Qualität von Entscheidungen im Arbeitsalltag wird nicht zwangsläufig besser, wenn sie erst nach zeitraubenden Informationsrecherchen getroffen werden. Darum streben immer mehr Fachinformationsanbieter nach einer semantischen Erschließung ihrer Inhalte, die im Idealfall keine Trefferlisten auf eine reine Volltextsuche mehr liefern, sondern passende Antworten auf die mit der Suche verbundene Fragestellung. Bloß, wie soll das funktionieren, wenn nicht ein Mensch alle nur denkbaren, sinnvollen Fragestellungen zu jedem Inhalt antizipiert und in den Daten so verankert, dass ein Computer sie nur noch auslesen muss? Kann ein Computer Texte verstehen? In der Tat ist ein Computer prinzipiell nur eine dumme Maschine, die von sich aus keine Bedeutung von Texten verstehen und daher auch keine Antworten auf Fragen geben kann. Dafür kann ein Computer aber sehr viele Informationen gleichzeitig verarbeiten und durch die Verarbeitung textbeschreibender Metadaten sowie unter Befolgung raffinierter Algorithmen erstaunliches leisten und beispielweise durchaus unterscheiden, ob eine Textstelle einen Begriff lediglich erwähnt, oder von diesem Begriff handelt. Damit dies aber auch in großen Textmengen ohne die Handarbeit von Autoren und Redakteuren möglich ist, müssen die textbeschreibenden Metadaten so weitgehend wie möglich automatisiert semantisch angereichert werden. Die dazu erforderlichen Informationen werden durch Textanalyse direkt aus den Dokumenten gewonnen. 3

Technologische Textanalyse Die heute verfügbaren Technologien der automatischen Textanalyse basieren im Kern auf computerlinguistischen Methoden der statistischen Sprachverarbeitung. Dabei werden Techniken des Natural Language Processing verwendet für die morphologische, Syntaktische und semantische Analyse zur Begriffsextraktion. Die im Textmining verwendeten Algorithmen und Techniken beruhen auf verschiedenen statistischen, mathematischen und linguistischen Grundlagen. Natural Language Processing (NLP) Beim sogenannten Natural Language Processing (NLP) wird im ersten Schritt der Text in einzelne Wörter unterteilt (Tokenisierung). Diese werden auf ihren Wortstamm zurückgeführt, das sog. Stemming. Anschließend werden die Wörter in den Metadaten markiert, sie werden annotiert. Diese Annotationen erledigen Part-of-Speech-Tagger, die den Wörtern Wortarten zuordnet, und Parser, die die Wortstellung im jeweiligen Satz ermitteln. Im Hintergrund greifen die Part-of-Speech- Tagger natürlich auf Wörterbücher zurück. Je nach Qualität dieser Wörterbücher ist sogar schon direkt nach der Tokenisierung eine Annotation der Wörter mit Wortstamm und Wortart mögliche. Das klingt zunächst einigermaßen einfach, ist in Wahrheit aber außerordentlich komplex. Der Teufel steckt nämlich im Detail der Sprache selbst, die oft alles andere als eindeutig ist. Neben den bekannten Ambiguitäten (Mehrdeutigkeit von Begriffen) gibt es eine ganze Fülle von linguistischen Herausforderungen, z.b. den Konstituenten, bei denen ganze Phrasen einen Begriff bilden. Ihre Erkennung wird als Chunking bezeichnet. Mit Mathematik zur Lösung Die Auflösung solcher linguistischer Herausforderungen und die Herstellung semantischer Zusammenhänge geschieht zum Teil im Rückgriff auf die Suchanfrage selbst, oder auch durch Heranziehung statistischer Methoden und Auswertungen, die letztlich auf Wahrscheinlichkeiten basieren. Es werden beispielsweise Worthäufigkeiten, das Auftreten von Wortkombinationen und ähnliches ermittelt, in Zahlenwerte überführt und Mittelwerte, Streubereiche und Abweichungsgrade definiert. Die Idee hinter dem stochastischen Part-of-Speech Tagging ist, dass es bestimmte Kombinationen von Wörtern und Tags gibt, die besonders häufig sind und wiederum andere Kombinationen eher unwahrscheinlich sind. Es leuchtet zum Beispiel ein, dass es sehr wahrscheinlich ist, dass ein Artikel vor einem Nomen steht und eher unwahrscheinlich, dass er einem Verb voran steht. Die automatische Spracherkennung folgt einer ganzen Reihe unterschiedlicher Modelle, die jedoch alle immer nur eine gewisse Näherung an die menschliche Spracherkennung erreichen. Um die Qualität der semantischen Anreicherung kontinuierlich zu verbessern, müssen die Algorithmen regelrecht trainiert werden, bspw. anhand eines Trainingskorpus (Auszug aus den anzureichernden Daten). Für die deutsche Sprache gibt es z.b. mit Negra einen Korpus mit mehr als 20.000 Sätzen (ca. 350.000 Wörter) in deutscher Sprache der Frankfurter Rundschau. 4

Entitätenerkennung und andere Stolpersteine Die Komplexität des Themas lässt sich nahezu endlos ausbauen. So kann es z.b. essenziell sein, sogenannte Entitäten (Bezeichnungen) auch dann zweifelsfrei zu erkennen, wenn sie gar nicht ausdrücklich benannt sind. Wenn in einem Kontext bspw. von der Firma Apple die Rede ist, an anderer Stelle aber nur noch von dem Unternehmen gesprochen wird. Dann werden die wechselseitigen Textreferenzierungen analysiert und sogenannte Koreferenzberechnungen durchgeführt. Sprachmodelle, Konzepte und Beziehungen Schließlich kommen in der semantischen Textaufbereitung die vielfach zitierten Ontologien zum Einsatz. Bei einer Ontologie handelt es sich um eine formale Beschreibung der grundlegenden existierenden Konzepte und ihrer Beziehungen zueinander. Es geht also um eine modellhafte Ordnung der Wörter eines Textes durch Konzepte, Beziehungen und Instanzen. Eine wichtige Unterklasse der Ontologien sind die sogenannten Taxonomien, die nur Unterkonzeptsbeziehungen und Instanzen enthalten. Eine weitere spezielle Ontologie ist der Thesaurus, der nur Kanten enthält, die eine Synonymbeziehung ausdrücken. Weil das manuelle Erstellen von Ontologien sehr aufwändig ist, wird versucht, Ontologien möglichst automatisch aus natürlichsprachlichen Dokumenten zu extrahieren. Dabei ist allerdings folgende Einschränkung zu beachten: Könnte man Ontologien vollständig aus Texten extrahieren, wären sie überflüssig, da man offensichtlich keine Zusatzinformation benötigte und direkt auf den Texten arbeiten könnte. Fast alle Texte setzen Hintergrundwissen (sprich: das Vorhandensein einer Ontologie) voraus, welches nicht im Text enthalten ist. Dieses Hintergrundwissen kann nicht aus diesen Texten gewonnen werden es ist bestenfalls ein iterativer Prozess möglich, der sich Hintergrundwissen aus Texten aneignet, um das Text Mining im weiteren damit anzureichern [zit.: Johannes Leitner in Textmining, Wissensgewinnung aus natürlichsprachlichen Dokumenten ]. Verborgene Wissensschätze zur Anreicherung nutzen Wie sonst auch bei der Verarbeitung natürlicher Sprache kommen beim Suchen nach Ontologiebeziehungen wiederum statistische und andere Modelle zum Einsatz. Eine besondere Bedeutung kommt dabei der Analyse möglicher externer Datenquellen zu, wie z.b. Stichwortverzeichnisse, Abkürzungsverzeichnisse u.ä. zum gleichen Themengebiet. Daher gehört zu Beginn jeder semantischen Anreicherung eine gründliche Bestandsaufnahme der bereits vorhandenen Wissens-Daten. Vielfach lässt sich mit solchen Daten ein erheblicher Teil der Arbeit bereits automatisch erledigen. 5

Die passende Software zur Lösung dieser Aufgaben Die passenden Werkzeuge für die Verarbeitung, Aufbereitung und Nutzung dieser sämtlichen Informationen für das Textmining und die Metadatenanreicherung sind so vielfältig wie die möglichen Anforderungen und Anwendungsgebiete. Wir von SHI bieten Fachverlagen umfassende Hilfestellungen bei der Verbesserung der Recherchequalität ihrer Webportale. Angefangen von der Implementierung der passenden Suchtechnologie über die Datenanreicherung bis hin zu komplexen semantischen Modellen mit Hilfe des Semaphore- Frameworks unseres Partners Smartlogic reicht unser Angebot. Wenn Sie mehr darüber erfahren möchten, beantworte ich Ihnen gerne Ihre Fragen. Ich freue mich auf Ihre Nachricht. Rufen Sie mich an, oder senden Sie mir eine E-Mail. Markus Brandt Vertriebsmanager E-Mail: markus.brandt@shi-gmbh.com Tel.: 0821/748 2633-0 6