NLP im Information Retrieval

Ähnliche Dokumente
Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Grundbegriffe des Information Retrieval

Stemming. Referenten: Johannes Lang Rossen Kowatschew

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Terminologie-Extraktion: Beispiel

Lexikalisch-semantische Disambiguierung mit WordNet

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

NLP Eigenschaften von Text

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Jahresschlusstest 2016

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemmingverfahren. Éva Mújdricza Ganna Syrota. Ruprecht-Karls-Universität Heidelberg WS07/08

"What's in the news? - or: why Angela Merkel is not significant

Anwendung von Vektormodell und boolschem Modell in Kombination

Information Retrieval, Vektorraummodell

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Kapitel 18 Fehlertolerantes Retrieval

Information Retrieval and Semantic Technologies

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Erkennung fremdsprachiger Ausdrücke im Text

Jahresschlusstest 2017

Information Retrieval. Peter Kolb

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Endliche Automaten zur Erkennung von Stoppwörtern

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments

Semiautomatische Erschließung von Psychologie-Information

Proseminar Linguistische Annotation

Jahresschlusstest 2018

(Bamberg)

Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung

Boolesche- und Vektorraum- Modelle

Information-Retrieval: Unscharfe Suche

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Tokenisierung und Lemmatisierung in Suchmaschinen

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Deep Web. Timo Mika Gläßer

Information Retrieval,

Zugang zum Academic Invisible Web

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Text-Mining: Datenaufbereitung und -repräsentation

Das Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree

Semantic Relations and User Interests

Nachteile Boolesches Retrieval

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05

Softwareprojektpraktikum Maschinelle Übersetzung

Einführung in die Computerlinguistik. Semantik

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion

Information Retrieval Einführung

2. Natürliche Sprache

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Die Anwendung von Morphologieanalyse in Information Retrieval- Systemen

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014

Federated Search: Integration von FAST DataSearch und Lucene

1. Vorlesung,

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Volltextsuche und Text Mining

Evaluation von IR-Systemen

Studienprojekt TaxoSearch Spezifikation

Thesaurus 1. Merkmale:

Algorithmische Anwendungen WS 05/06 Document Ranking

Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten

Ziele und Herausforderungen

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Was ist Statistik? Wozu dienen statistische Methoden?

Maschinelle Übersetzung

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

Transkript:

NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische Netze Verfügbare Software für das Deutsche

Textaufbereitung - Motivation Nicht alle Wörter als Indexterme erwünscht Kontrolliertes Vokabular z.b. Nomen wichtig, Funktionswörter nicht Index wird kleiner Textnormalisierung: Haus, Häuser, Häusern Haus, wirtschaftliche Entwicklung, Wirtschaftsentwicklung, Entwicklung der Wirtschaft Entwicklung+Wirtschaft Verbesserung von Recall und Precision

Text- und Anfrageaufbereitung

Tokenisierung Zerlegung des Eingabestroms in Wörter: Mittels regulärer Ausdrücke Tokenisierungsregeln müssen in gleicher Weise auf Dokumente und Anfragen angewandt werden dürfen nicht mehr geändert werden

Tokenisierung - Probleme Zahlen haben vage Bedeutung: 1984 Bindestriche: Chaos-Tage, B-52, das Ausder-Haut-fahren-Wollen, Staub-Ecken Punkte: weglassen oder diambiguieren? usw., x.id Groß-/Kleinschreibung: alle Wörter klein machen: GAU, Gau gau Umlaute, Akzente: Bäume Baume, český cesky

Stoppwortlisten Zu häufige Wörter haben keine Unterscheidungskraft Kommen in über 80% der Dokumente vor Dokumentenfrequenz (df) als Kriterium:,. der und die in von den des mit auch ein wird deutscher (41) ISBN (73) Stadt (75) Zeit (82) musste (662) Linguistischer Ansatz: Wörter, die keinen Bedeutungsgehalt haben, entfernen. Funktionswörter: Artikel, Konjunktionen, Pronomen,...

Stoppwortlisten Entfernen von Stoppwörtern verkleinert Index um über 40% Problem: to be or not to be Web-Suchmaschinen behalten Stoppwörter

Stemming Normalisierung von Wortvarianten Flexion, Derivation Porter-Stemmer [1]: Suffixe entfernen Stems sind keine linguistisch motivierten Einheiten: proliferate, proliferates, proliferation, proliferating proliferat Verkleinert Index:

Stemming

Stemming

Stemming Verbessert Recall, verschlechtert Precision Overstemming vs. Understemming Windows window, Papiere Papier book store book storing, booking store 25% der Anfragen besser, 50% gleich, 25% schlechter [2] Keine deutliche Verbesserung für Englisch, aber für morphologisch reichere Sprachen [3]

Stemming Wann anwenden? 1: beim Indexieren der Dokumente und auf die Anfrage 2: nur Erweiterung der Anfrage 1 verkleinert Index, ist aber aufwändig 2 weniger rechenintensiv, aber verkleinert Index nicht [2]: Ansatz 2 besser, weil flexibler Stemming kann auf ausgewählte Terme angewandt werden (vermeidet Overstemming)

Stemming Verbesserung eines Stemmers durch Korpusanalyse [4]: Per Stemmer Liste mit allen Wortvarianten zu Term t erzeugen Durch Kookkurrenzanalyse Liste semantisch ähnlicher Wörter zu t generieren Schnittmenge beider Listen bilden news new, paste past Vermeidet Overstemming, führt bei schlechter Qualität der sem. Ähnlichkeitsliste zu Understemming

Stemming Anwendung auf ausgewählte Terme in der Anfrage [2]: Ziel: running shoes price comparisons: nur Terme shoes und comparisons stemmen Zusammenhängende Bigramme per korpusbasiertem Kollokationsmaß bestimmen: [running shoes] [price comparisons] Mit einfachen Regeln Kopf der NP bestimmen: shoes, comparisons Anfrage: running shoe shoes price comparison comparisons

Morphologische Analyse Lexikonbasiert, morphologische Regeln Erstellung & Pflege kostenintensiv Für morphologisch komplexere Sprachen geringfügig besser als Stemming, für Englisch kein Unterschied [3] Notwendig: Ergebnisdarstellung: Grundformen besser als Varianten oder Stems Crosslinguales Retrieval: Nachschlagen von Grundformen im Wörterbuch

Kompositazerlegung Komposita saliente Terme Häufig in Sprachen wie Deutsch, Holländisch, Schwedisch: 25% der Nomen sind Komposita Anfrage Energie findet keine Dokumente mit Sonnenenergie, Atomenergie, Energieknappheit,... Kompositazerlegung in Dokumenten und in Anfrage: zum Term Sonnenenergie werden Sonne u. Energie eingefügt

Kompositazerlegung [7]: Hinzufügen des Bestimmungswortes zur Anfrage bzw. zum Dokumentvektor nützlicher als Hinzufügen des Hauptwortes Diamantring -> +Diamant besser als +Ring

Kompositazerlegung Einfache Algorithmen: vollständige Zerlegung in alle Wörter, die im Lexikon stehen [3] Probleme: Fugenelemente u. Elision: Nachrichtensprecher, Friedensvertrag, Birnbaum Mehrdeutigkeiten: Staubecken -> Staub Ecken, Stau Becken Ministern -> Mini Stern Flugzeuge -> Flug Zeuge Abteilungen -> Abt Ei Lungen

Kompositazerlegung Problem: Bahnhof -> Bahn Hof, Werkzeug -> Werk Zeug Korpusbasierte Zerlegung [6]: Zerlegung in Wörter aus Korpus, Frequenz berücksichtigen Nur zerlegen, wenn Frequenz der Komponenten > Frequenz des Ganzen

Kompositazerlegung Deutliche Verbesserung: [3]: +25% deutsch, +69% holländisch (inkl. Lemmatisierung) [8]: +13% deutsch

Mehrwortlexeme Englisch: Offene Komposita: prime minister Eigennamen, Fremdwörter: New York, Open Source MWL als Terme verwenden Ganzes MWL den Teilen hinzufügen Lexikonbasiert Kollokationen, signifikante Bigramme +10% avg. precision

Termselektion Studierte arbeitete fand hielt vergleiche befasste beeinflusst übersiedelte zusammenarbeitete ging lehrte lebte

Termselektion Man Ray New York Kunst Maler Bildhauer Alfred Stieglitz Fotografie Film

Termselektion Nomen tragen den Großteil des Bedeutungsgehalt eines Textes Nur Nomen (bzw. NP) als Terme akzeptieren PoS-Tagger Gas pump prices rose

Phrasen (Chunks) Flaches Parsing NP identifizieren und als eigene Terme dem Index hinzufügen Dadurch werden manche Terme erst gefunden, sonst als Stoppwort eliminiert Joint venture Verteilungsmodell tf-idf nimmt Unabhängigkeit der Terme an, gilt definitiv nicht für Phrasen

Head-modifier-Paare Weapon proliferation Proliferation of weapons Proliferate weapons -> weapon+proliferate Problem: Abdeckung, kurze Anfragen

n-gramme Alle Wörter in 5-Gramme zerlegen, nur diese bilden die Terme Vergrößert Index Ersetzt Stemming, Kompositazerlegung Verbessert Ergebnisse [9]

Thesauri und Wortnetze Wortwahlproblem -> Synonyme Thesaurus, WordNet Relationen: Synonymie, Meronymie, Hyponomie Synonyme Terme auf gemeinsame Dimension abbilden Anfrage um Synonyme erweitern Problem: geringe Abdeckung, nicht domänenspezifisch

Semantische Ähnlichkeit WordNet::Similarity (Perl-Modul) http://www.d.umn.edu/~tpederse/similarity.html Alle ähnlichen Terme der Suchanfrage hinzufügen Semantische Ähnlichkeit zwischen Anfragevektor und Dokumentvektor berechnen

Lesartendisambiguierung Homonymie-Problem: Filz, Bank, Astra Verschlechtert Precision Lesarten (Bedeutungen) als Terme, nicht bloß Wörter Benötigt Lesarteninventar: GermaNet, EuroWordNet,... Ergebnisse gut für domänenspezifische Thesauri/Wortnetze: MeSH Ergebnisse schlecht für allgemeine Resourcen wie EuroWordNet [5]

Lesartendisambiguierung Problem: in kurzen Anfragen zu wenig Kontext zur Disambiguierung dann hilft auch Disambiguierung der Texte in Dokumentensammlung nicht Für längere Anfragen unnötig

Literaturangaben [1] M. Porter (1980): An algorithm for suffix stripping. Program, 14(3), S. 130-137. [2] F. Peng et al. (2007): Context sensitive stemming for web search. SIGIR 07, Amsterdam. [3] Ch. Monz u. M. de Rijke (2001): Shallow morphological analysis in monolingual information retrieval for Dutch, German and Italian. In Proc. of CLEF 2001. [4] J. Xu u. B. Croft (1998): Corpus-based stemming using cooccurrence of word variants. ACM TOIS, 16(1), S. 61-81. [5] Th. Brants (2003): Natural language processing in information retrieval. In Proc. of CLIN 2003.

Literaturangaben [6] Ph. Koehn u. K. Knight (2003): Empirical methods for compound splitting. In EACL 2003. [7] J. Karlgren (2005): Compound terms and their constituent elements in information retrieval. NODALIDA 2005. [8] M. Braschler u. B. Ripplinger (2004): How effective is stemming and decompounding for German text retrieval? Information Retrieval, 7:291-306. [9] P. McNamee (2006): Why you should use n-grams for multilingual information retrieval. Presentation slides: http://www.umiacs.umd.edu/research/clip/colloq/abstracts/2006-10-18-s