Text-Mining und Metadaten-Anreicherung Eine Einführung. Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten

Ähnliche Dokumente
L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Leichte-Sprache-Bilder

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

4 Ideen zur Verbesserung des -Marketings!

Welchen Weg nimmt Ihr Vermögen. Unsere Leistung zu Ihrer Privaten Vermögensplanung. Wir machen aus Zahlen Werte

Was meinen die Leute eigentlich mit: Grexit?

Professionelle Seminare im Bereich MS-Office

Primzahlen und RSA-Verschlüsselung

Kollaborative Konstruktionsglossare im Fachfremdsprachenlernen Deutsch, Estnisch, Lettisch, Litauisch AntConc Arbeit mit digitalen Textsammlungen

Ein Vorwort, das Sie lesen müssen!

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Informationen als Leistung

Nutzung dieser Internetseite

Die integrierte Zeiterfassung. Das innovative Softwarekonzept

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Erstellen einer digitalen Signatur für Adobe-Formulare

Karten-Freischaltung mit dem UNLOCK MANAGER

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

Konzentration auf das. Wesentliche.

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Speicher in der Cloud

Pflegende Angehörige Online Ihre Plattform im Internet

Der Wunschkunden- Test

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Bernadette Büsgen HR-Consulting

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Gefährlich hohe Blutzuckerwerte

TESTEN SIE IHR KÖNNEN UND GEWINNEN SIE!

Die Post hat eine Umfrage gemacht

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

Platinen mit dem HP CLJ 1600 direkt bedrucken ohne Tonertransferverfahren

Überprüfung der digital signierten E-Rechnung

Fragen und Antworten

Es gilt das gesprochene Wort. Anrede

Grundlagen der Theoretischen Informatik, SoSe 2008

10.1 Auflösung, Drucken und Scannen

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Herr Müller möchte anderen Menschen helfen. Er bekommt kein Geld für diese Arbeit. Aber die Arbeit macht ihm Freude.

Der kleine große Unterschied

Das Leitbild vom Verein WIR

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Ein Immobilienverkauf gehört in sichere Hände

Widerrufsbelehrung der Free-Linked GmbH. Stand: Juni 2014

Kurzleitfaden für Schüler

2.1 Präsentieren wozu eigentlich?

Alle gehören dazu. Vorwort

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Staatssekretär Dr. Günther Horzetzky

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Die Wirtschaftskrise aus Sicht der Kinder

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Was ich als Bürgermeister für Lübbecke tun möchte

Geld Verdienen im Internet leicht gemacht

Vorgestellt von Hans-Dieter Stubben

! " # $ " % & Nicki Wruck worldwidewruck

Anleitung - Archivierung

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

Die richtigen Partner finden, Ressourcen finden und zusammenführen

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

2.1 Erstellung einer Gutschrift über den vollen Rechnungsbetrag

So erstellen Sie nützliche Beschreibungen zu Ihren Tradingdaten

Netzwerkeinstellungen unter Mac OS X

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

So gelingt Ihre Online-Bewerbung!

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

Statuten in leichter Sprache

Tutorial. Wie kann ich meinen Kontostand von meinen Tauschpartnern in. übernehmen? Zoe.works - Ihre neue Ladungsträgerverwaltung

1 Mathematische Grundlagen

Projektmanagement in der Spieleentwicklung

Mehr Geld verdienen! Lesen Sie... Peter von Karst. Ihre Leseprobe. der schlüssel zum leben. So gehen Sie konkret vor!

Die perfekte Bewerbung richtig schreiben online & klassisch

micura Pflegedienste München/Dachau GmbH

QM: Prüfen -1- KN

BERECHNUNG DER FRIST ZUR STELLUNGNAHME DES BETRIEBSRATES BEI KÜNDIGUNG

Anleitung über den Umgang mit Schildern

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

Windows 10 > Fragen über Fragen

Steganos Secure Schritt für Schritt-Anleitung für den Gastzugang SCHRITT 1: AKTIVIERUNG IHRES GASTZUGANGS

Diese Prozesse und noch viele andere Tricks werden in der Digitalfotografie mit Hilfe von Bildbearbeitungsprogrammen, wie z. B. Gimp, bewältigt.

STRATO Mail Einrichtung Mozilla Thunderbird

Die Captimizer BTZ-Datei 2015

Urlaubsregel in David

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Transkript:

Text-Mining und Metadaten-Anreicherung Eine Einführung Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten 26.05.2015

Inhalt Zeit ist Geld. Das gilt auch für die Recherche....3 Kann ein Computer Texte verstehen?...3 Technologische Textanalyse...4 Natural Language Processing (NLP)...4 Mit Mathematik zur Lösung...4 Entitätenerkennung und andere Stolpersteine...5 Sprachmodelle, Konzepte und Beziehungen...5 Verborgene Wissensschätze zur Anreicherung nutzen...5 Die passende Software zur Lösung dieser Aufgaben...6 2

Mit welchen Verfahren Verlage ihre Daten fü r eine bessere Rechercheqüalita t anreichern kö nnen. DIE SEMANTISCHE ERSCHLIESSUNG VON INHALTEN FÜR EINE VERBESSERTE SUCHQUALITÄT IN DER FACHINFORMATIONS-RECHERCHE ZÄHLT ZU DEN WICHTIGSTEN HERAUSFORDERUNGEN IN DER VERLAGSBRANCHE. DIESES WHITEPAPER GIBT EINEN EINFÜHRENDEN ÜBERBLICK ÜBER DIE TECHNOLOGISCHEN MÖGLICHKEITEN ZUR SEMANTISCHEN ANREICHERUNG VON DATEN. Zeit ist Geld. Das gilt auch für die Recherche. Im digitalen Informationszeitalter sind immer größere Mengen reiner Textinformationen frei und kostenlos verfügbar. Für die Vermarktung von Fachinformationen geht es daher immer weniger um die Information an sich, es geht viel mehr darum, aus Informationen verfügbares und praktisch anwendbares Wissen zu machen. Dabei spielt der Faktor Zeit eine gewaltige Rolle. Ein Überangebot an Fachinformationen steigert die Produktivität nicht, sondern mindert sie. Die Qualität von Entscheidungen im Arbeitsalltag wird nicht zwangsläufig besser, wenn sie erst nach zeitraubenden Informationsrecherchen getroffen werden. Darum streben immer mehr Fachinformationsanbieter nach einer semantischen Erschließung ihrer Inhalte, die im Idealfall keine Trefferlisten auf eine reine Volltextsuche mehr liefern, sondern passende Antworten auf die mit der Suche verbundene Fragestellung. Bloß, wie soll das funktionieren, wenn nicht ein Mensch alle nur denkbaren, sinnvollen Fragestellungen zu jedem Inhalt antizipiert und in den Daten so verankert, dass ein Computer sie nur noch auslesen muss? Kann ein Computer Texte verstehen? In der Tat ist ein Computer prinzipiell nur eine dumme Maschine, die von sich aus keine Bedeutung von Texten verstehen und daher auch keine Antworten auf Fragen geben kann. Dafür kann ein Computer aber sehr viele Informationen gleichzeitig verarbeiten und durch die Verarbeitung textbeschreibender Metadaten sowie unter Befolgung raffinierter Algorithmen erstaunliches leisten und beispielweise durchaus unterscheiden, ob eine Textstelle einen Begriff lediglich erwähnt, oder von diesem Begriff handelt. Damit dies aber auch in großen Textmengen ohne die Handarbeit von Autoren und Redakteuren möglich ist, müssen die textbeschreibenden Metadaten so weitgehend wie möglich automatisiert semantisch angereichert werden. Die dazu erforderlichen Informationen werden durch Textanalyse direkt aus den Dokumenten gewonnen. 3

Technologische Textanalyse Die heute verfügbaren Technologien der automatischen Textanalyse basieren im Kern auf computerlinguistischen Methoden der statistischen Sprachverarbeitung. Dabei werden Techniken des Natural Language Processing verwendet für die morphologische, Syntaktische und semantische Analyse zur Begriffsextraktion. Die im Textmining verwendeten Algorithmen und Techniken beruhen auf verschiedenen statistischen, mathematischen und linguistischen Grundlagen. Natural Language Processing (NLP) Beim sogenannten Natural Language Processing (NLP) wird im ersten Schritt der Text in einzelne Wörter unterteilt (Tokenisierung). Diese werden auf ihren Wortstamm zurückgeführt, das sog. Stemming. Anschließend werden die Wörter in den Metadaten markiert, sie werden annotiert. Diese Annotationen erledigen Part-of-Speech-Tagger, die den Wörtern Wortarten zuordnet, und Parser, die die Wortstellung im jeweiligen Satz ermitteln. Im Hintergrund greifen die Part-of-Speech- Tagger natürlich auf Wörterbücher zurück. Je nach Qualität dieser Wörterbücher ist sogar schon direkt nach der Tokenisierung eine Annotation der Wörter mit Wortstamm und Wortart mögliche. Das klingt zunächst einigermaßen einfach, ist in Wahrheit aber außerordentlich komplex. Der Teufel steckt nämlich im Detail der Sprache selbst, die oft alles andere als eindeutig ist. Neben den bekannten Ambiguitäten (Mehrdeutigkeit von Begriffen) gibt es eine ganze Fülle von linguistischen Herausforderungen, z.b. den Konstituenten, bei denen ganze Phrasen einen Begriff bilden. Ihre Erkennung wird als Chunking bezeichnet. Mit Mathematik zur Lösung Die Auflösung solcher linguistischer Herausforderungen und die Herstellung semantischer Zusammenhänge geschieht zum Teil im Rückgriff auf die Suchanfrage selbst, oder auch durch Heranziehung statistischer Methoden und Auswertungen, die letztlich auf Wahrscheinlichkeiten basieren. Es werden beispielsweise Worthäufigkeiten, das Auftreten von Wortkombinationen und ähnliches ermittelt, in Zahlenwerte überführt und Mittelwerte, Streubereiche und Abweichungsgrade definiert. Die Idee hinter dem stochastischen Part-of-Speech Tagging ist, dass es bestimmte Kombinationen von Wörtern und Tags gibt, die besonders häufig sind und wiederum andere Kombinationen eher unwahrscheinlich sind. Es leuchtet zum Beispiel ein, dass es sehr wahrscheinlich ist, dass ein Artikel vor einem Nomen steht und eher unwahrscheinlich, dass er einem Verb voran steht. Die automatische Spracherkennung folgt einer ganzen Reihe unterschiedlicher Modelle, die jedoch alle immer nur eine gewisse Näherung an die menschliche Spracherkennung erreichen. Um die Qualität der semantischen Anreicherung kontinuierlich zu verbessern, müssen die Algorithmen regelrecht trainiert werden, bspw. anhand eines Trainingskorpus (Auszug aus den anzureichernden Daten). Für die deutsche Sprache gibt es z.b. mit Negra einen Korpus mit mehr als 20.000 Sätzen (ca. 350.000 Wörter) in deutscher Sprache der Frankfurter Rundschau. 4

Entitätenerkennung und andere Stolpersteine Die Komplexität des Themas lässt sich nahezu endlos ausbauen. So kann es z.b. essenziell sein, sogenannte Entitäten (Bezeichnungen) auch dann zweifelsfrei zu erkennen, wenn sie gar nicht ausdrücklich benannt sind. Wenn in einem Kontext bspw. von der Firma Apple die Rede ist, an anderer Stelle aber nur noch von dem Unternehmen gesprochen wird. Dann werden die wechselseitigen Textreferenzierungen analysiert und sogenannte Koreferenzberechnungen durchgeführt. Sprachmodelle, Konzepte und Beziehungen Schließlich kommen in der semantischen Textaufbereitung die vielfach zitierten Ontologien zum Einsatz. Bei einer Ontologie handelt es sich um eine formale Beschreibung der grundlegenden existierenden Konzepte und ihrer Beziehungen zueinander. Es geht also um eine modellhafte Ordnung der Wörter eines Textes durch Konzepte, Beziehungen und Instanzen. Eine wichtige Unterklasse der Ontologien sind die sogenannten Taxonomien, die nur Unterkonzeptsbeziehungen und Instanzen enthalten. Eine weitere spezielle Ontologie ist der Thesaurus, der nur Kanten enthält, die eine Synonymbeziehung ausdrücken. Weil das manuelle Erstellen von Ontologien sehr aufwändig ist, wird versucht, Ontologien möglichst automatisch aus natürlichsprachlichen Dokumenten zu extrahieren. Dabei ist allerdings folgende Einschränkung zu beachten: Könnte man Ontologien vollständig aus Texten extrahieren, wären sie überflüssig, da man offensichtlich keine Zusatzinformation benötigte und direkt auf den Texten arbeiten könnte. Fast alle Texte setzen Hintergrundwissen (sprich: das Vorhandensein einer Ontologie) voraus, welches nicht im Text enthalten ist. Dieses Hintergrundwissen kann nicht aus diesen Texten gewonnen werden es ist bestenfalls ein iterativer Prozess möglich, der sich Hintergrundwissen aus Texten aneignet, um das Text Mining im weiteren damit anzureichern [zit.: Johannes Leitner in Textmining, Wissensgewinnung aus natürlichsprachlichen Dokumenten ]. Verborgene Wissensschätze zur Anreicherung nutzen Wie sonst auch bei der Verarbeitung natürlicher Sprache kommen beim Suchen nach Ontologiebeziehungen wiederum statistische und andere Modelle zum Einsatz. Eine besondere Bedeutung kommt dabei der Analyse möglicher externer Datenquellen zu, wie z.b. Stichwortverzeichnisse, Abkürzungsverzeichnisse u.ä. zum gleichen Themengebiet. Daher gehört zu Beginn jeder semantischen Anreicherung eine gründliche Bestandsaufnahme der bereits vorhandenen Wissens-Daten. Vielfach lässt sich mit solchen Daten ein erheblicher Teil der Arbeit bereits automatisch erledigen. 5

Die passende Software zur Lösung dieser Aufgaben Die passenden Werkzeuge für die Verarbeitung, Aufbereitung und Nutzung dieser sämtlichen Informationen für das Textmining und die Metadatenanreicherung sind so vielfältig wie die möglichen Anforderungen und Anwendungsgebiete. Wir von SHI bieten Fachverlagen umfassende Hilfestellungen bei der Verbesserung der Recherchequalität ihrer Webportale. Angefangen von der Implementierung der passenden Suchtechnologie über die Datenanreicherung bis hin zu komplexen semantischen Modellen mit Hilfe des Semaphore- Frameworks unseres Partners Smartlogic reicht unser Angebot. Wenn Sie mehr darüber erfahren möchten, beantworte ich Ihnen gerne Ihre Fragen. Ich freue mich auf Ihre Nachricht. Rufen Sie mich an, oder senden Sie mir eine E-Mail. Markus Brandt Vertriebsmanager E-Mail: markus.brandt@shi-gmbh.com Tel.: 0821/748 2633-0 6