Lexikalisch-semantische Disambiguierung mit WordNet

Ähnliche Dokumente
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

NLP Eigenschaften von Text

Mathematische Grundlagen III

Einführung Konzepte und Begriffe Ähnliche Projekte Arbeiten mit WordNet

Proseminar Linguistische Annotation

Studienprojekt TaxoSearch Spezifikation

Semantic Relations and User Interests

Lexikalisch-semantische Analyse von Korpora

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Seminar: Graph-based Methods for NLP

3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische...

Polysemie zwischen Homonymie und Generalität

Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012

Vokabular-globale lexikalische Substitution in einem Vektorraummodell

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Personalized PageRank for aligning Wikipedia articles and WordNet synsets. Bachelor-Thesis von Christian Kirschner 8. Oktober 2010

Recommender Systeme mit Collaborative Filtering

Auflösung von sprachlichen Mehrdeutigkeiten für spezifische Domänen mittels Simulated Annealing

Text Mining Wissensrohstoff Text

Übersicht über die Tests

Softwareprojekte. Anette Frank Seminar für Computerlinguistik Universität Heidelberg SS 2009

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

AutoSPARQL. Let Users Query Your Knowledge Base

Jahresschlusstest 2017

Künstliche Intelligenz Text Mining

Psycholinguistik. p. 1/28

Programmierkurs Python II

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten

Was ist Statistik? Wozu dienen statistische Methoden?

Computerlinguistik und Sprachtechnologie

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)

Softwareprojektpraktikum Maschinelle Übersetzung

Einführung in das Maschinelle Lernen I

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

Textmining Wissensrohstoff Text

Übersicht. 23. Praktische Verarbeitung natürlicher Sprache

Datenstrukturen & Algorithmen

Ontologien. Design und Beispiele. Christian Schaadt AI-Tools WS 07

QUALIA STRUKTUR NACH PUSTEJOVSKY

Einführung in die Linguistik, Teil 4

Sichtbarmachung von Geo-Daten für eine Suchmaschine

Maschinelle Übersetzung

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

GÜNTHER ÖLSCHLÄGER 3.3 MEHRDEUTIGKEIT SPRACHLICHER AUSDRÜCKE

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment

Einführung in die Computerlinguistik. Semantik

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Muster eines Unterrichtsplan Niveau A1 - A2-1 Woche, 30 Unterrichtsstunden GENERAL ENGLISH FLUENCY INTENSIVE 30 (GE30INT)

Wortbedeutungsdisambiguierung

Do Word Meanings Exist? Patrick Hanks

Testfallgenerierung aus Statecharts und Interaktionsdiagrammen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1

Das Kompositionalitätsprinzip

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

Schulaufgaben im Fach Chemie (Jgst. 8 Q12)

Anfrage Erweiterung Jan Schrader

Information Retrieval. Peter Kolb

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

IR Seminar SoSe 2012 Martin Leinberger

Tutorium Prolog für Linguisten 12

Schuljahr 2015/16. Kollegiale und vertrauensvolle Zusammenarbeit der Lehrer

Web 3.0: Suche mit Word Sense Disambiguation

Die Bearbeitung von Queries mit vager Spezifikation der Location

Jahresschlusstest 2016

Über Struktur Relationen Anwendungen WORDNET. 10. Juli Magdalena Soyka, Christoph Berkholz WORDNET

Naive Bayes für Regressionsprobleme

Algorithmen und Formale Sprachen

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

Holiday plans: ein Gespräch über Urlaubspläne

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Zur Berechnung ganzer Punkte auf Mordellkurven über globalen Körpern

Einführung in die Computerlinguistik Einführung

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin,

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Trainingsbaustein: Mind-Mapping

Merkmale und Vererbung in unifikationsbasierten Lexika

Ansätze zur Erfassung von Faktoren durch Prüfungsaufgaben. (Diskussionen in Dagstuhl sowie mit Prof. Nickolaus, Technikpädagogik, U Stuttgart)

Sprachlehr- & Sprachlernsysteme

Aufgabe 1 Probabilistische Inferenz

Aggregatfunktionen in SQL

State of the Art in Anti- Automation Technologies in Today s Web. Markus Haudum Stefan Panhuber

Leseprobe Englisch Grammatik Clever gelernt Bestell-Nr Mildenberger Verlag GmbH

Nomen-Verb-Verbindungen (NVV) / Feste Verbindungen / Funktionsverbgefüge besteht eigentlich aus zwei Gruppen: (a) NVV, die in ein Verb oder ein

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

"Niels Meyer" Definition:

Search Engine Evaluation. Franziska Häger, Lutz Gericke

Lexikalische Semantik: Strukturen und Ressourcen. Manfred Pinkal PS Lexikalische Semantik WS 2005/2006

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Transkript:

Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens

Übersicht Word Sense Disambiguation (WSD) Was ist WSD? Wozu braucht man WSD? Wie kann man WSD realisieren? Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 1

Was ist WSD? Word Sense Disambiguation (WSD) Offenes Problem in NLP Klärung der Bedeutung eines (polysemischen) Wortes in einem bestimmten Kontext Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 2

Was ist WSD? Word Sense Disambiguation (WSD) Beispiel: bank Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 3

Wozu braucht man WSD? Word Sense Disambiguation (WSD) Lösung beeinflusst andere Bereiche, z.b. Diskurs, Kohärenz, Inferenz Anwendungsgebiete z.b. in maschineller Übersetzung, Dialogsystemen, Suchmaschinen, Question Answering, usw Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 4

Lösungsansätze WSD mit machine readable dictionaries (MRD z.b. WordNet) WSD durch Training auf semantisch annotierten Korpora (z.b. SemCor) WSD durch Training auf nicht annotierten Korpora (Yarowsky-Algorithmus) WSD mit der Methode von R. Mihalcea & D. Moldovan Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 5

Übersicht Word Sense Disambiguation (WSD) Was ist WSD? Wozu braucht man WSD? Lösungsansätze Rada Mihalcea & Dan I. Moldovan Wie es funktioniert Algorithmus 1 Algorithmus 2 Evaluation Probleme / Erweiterungen Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 6

Rada Mihalcea & Dan I. Moldovan Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 7 http://www.cs.unt.edu/~rada/pictures/io-05-1.jpg http://www.hlt.utdallas.edu/~moldovan/danm.jpeg

Wie es funktioniert Betrachtet werden Wortpaare (W 1 W 2 ) W 2 wird im Kontext von W 1 disambiguiert Internet-Suche mit W 1 und verschiedenen Bedeutungen von W 2 Ranking der Bedeutungen von W 2 anhand der Treffer Algorithmus 1 Berechnung der semantischen Dichte zwischen W 1 und W 2 Algorithmus 2 Ergebnis: Ranking der Bedeutungen (z.b. Top4) Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 8

Algorithmus 1 SCHRITT 1: Erstellen einer similarity list für jede Bedeutung von W 2 mit WordNet (W 2 1 1(1), W 2, 1(2) W2,..., 1(k W2 1 ) ) (W 2 2 2(1), W 2, 2(2) W2,..., 2(k W2 2 ) )... (W 2 m m(1), W 2, m(2) W2,..., m(k W2 m ) ) Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 9

Algorithmus 1 SCHRITT 1: Erstellen einer similarity list für jede Bedeutung von W 2 mit WordNet BEISPIEL: present paper Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 10

Algorithmus 1 SCHRITT 1: Erstellen einer similarity list für jede Bedeutung von W 2 mit WordNet BEISPIEL: present paper Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 11

Algorithmus 1 SCHRITT 1: Erstellen einer similarity list für jede Bedeutung von W 2 mit WordNet (W 2 1 1(1), W 2, 1(2) W2,..., 1(k W2 1 ) ) (W 2 2 2(1), W 2, 2(2) W2,..., 2(k W2 2 ) )... (W 2 m m(1), W 2, m(2) W2,..., m(k W2 m ) ) BEISPIEL: present paper (paper, composition, report, theme) (paper, newspaper) Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 12

Algorithmus 1 (2) SCHRITT 2: Bildung von Wortpaaren (W 1 - W 2 i(s) ) (W 1 1 - W 2, 1(1) W1 W 2, 1(2) W1 - W 2, 1(k W1 W 1 ) 2 ) (W 2 1 - W 2, 2(1) W1 W 2, 2(2) W1 - W 2, 2(k W1 - W 2 ) 2 )... (W m 1 - W 2, m(1) W1 W 2, m(2) W1 - W 2, m(k W1 - W m ) 2 ) BEISPIEL: present paper (present-paper, present-composition, present-report, present-theme) (present-paper, present-newspaper) Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 13

Algorithmus 1 (3) SCHRITT 3: Internet-Suche und Sense-Ranking Suchmaschinen-Anfragen mit folgenden Mustern: i 1) ( W 1 W 2 OR i (1) W1 W 2 OR i (2) W1 W 2 OR i (k W1 W i ) 2 i 2) (( W 1 NEAR W 2 ) OR i (1) (W1 NEAR W 2 ) OR i (2) (W1 NEAR W 2 ) i (k OR (W 1 NEAR W i ) 2 )) Ranking nach Anzahl der Treffer BEISPIEL: present paper ( present paper" OR "present composition" OR "present report" OR "present theme") ("present paper" OR "present newspaper") Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 14

Algorithmus 1 (3) SCHRITT 3: Internet-Suche und Sense-Ranking Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 15

Algorithmus 1 (3) SCHRITT 3: Internet-Suche und Sense-Ranking Suchmaschinen-Anfragen mit folgenden Mustern: i 1) ( W 1 W 2 OR i (1) W1 W 2 OR i (2) W1 W 2 OR i (k W1 W i ) 2 i 2) (( W 1 NEAR W 2 ) OR i (1) (W1 NEAR W 2 ) OR i (2) (W1 NEAR W 2 ) i (k OR (W 1 NEAR W i ) 2 )) Ranking nach Anzahl der Treffer BEISPIEL: present paper ( present paper" OR "present composition" OR "present report" OR "present theme") (15.400.000) ("present paper" OR "present newspaper") (2.910.000) Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 16

Algorithmus 2 (2) SCHRITT 1: Mögliche Bedeutungen von V N: < v 1, v 2,..., v h > und < n 1, n 2,..., n l > Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 18

Algorithmus 2 (3) SCHRITT 2: Sense-Ranking von N Algorithmus 1 anwenden Die ersten t Möglichkeiten werden beibehalten (z.b. Top 4) Alle anderen Möglichkeiten werden verworfen Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 19

Algorithmus 2 (4) SCHRITT 3: Berechnen der konzeptuellen Dichte von jedem möglichen Paar v i n j Betrachtung der Glossen der Subhierachie des Verbs Die Nomen dieser Glossen bestimmen den Nomen-Kontext von v Bestimmen der Nomen in der Subhierachie von n Bilden der Schnittmenge cdij : common concepts Berechnung der konzeptuellen Dichte Cij mit folgender Formel Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 20

Algorithmus 2 (5) SCHRITT 3: Berechnen der konzeptuellen Dichte von jedem möglichen Paar v i n j Anzahl der gemeinsamen Konzepte in den Hierarchien von v i und n j Level der Nomen in der v i -Hierarchie Gesamtzahl der Wörter in der n j -Hierachie Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 21

Algorithmus 2 (6) SCHRITT 4: Ranking jedes Paares v i n j mit C i j Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 22

Algorithmus 2 (Beispiel aus Paper) Gegeben: Verb-Nomen-Kollokation revise law Algorithmus 1 (mit AltaVista) ergibt folgendes Ranking: law #2 (2829) law #3 (648) law #4 (640) law #6 (397) law #1 (224) law #5 (37) law #7 (0) t = 2 Behalten von Bedeutung #2 und #3 Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 23

Algorithmus 2 (Beispiel aus Paper) 4 mögliche Kombinationen: 1) v 1 n 2 : revise #1/2 law #2/7 2) v 1 n 3 : revise #1/2 law #3/7 3) v 2 n 2 : revise #2/2 law #2/7 4) v 2 n 3 : revise #2/2 law #3/7 Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 24

Algorithmus 2 (Beispiel aus Paper) Anzahl der gemeinsamen Konzepte in den Hierarchien von v i und n j Level der Nomen in der v i -Hierarchie Gesamtzahl der Wörter in der n j -Hierachie größte konzeptuelle Dichte: C 12 = 0.30 -> v 1 n 2 : revise #1/2 law #2/7 Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 25

Evaluation Test auf SemCor 1.6: 200 Verb-Nomen-Paare 127 Adjektiv-Nomen-Paare 57 Adverb-Verb-Paare nur Algorithmus 1 beide Algorithmen Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 26

Evaluation Vergleich mit anderen Methoden: Base line: meistgebrauchte Bedeutung (erster Eintrag in WordNet) Stetina: Diskurs-Kontext, semantische Distanz zwischen Wörtern, benutzt WordNet Yarowsky: "one sense per collocation", "one sense per discourse" Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 27

Probleme / Erweiterungen Probleme: SemCor wurde in größerem Kontext annotiert (Satzkontext, Diskurs) Wortpaare haben keinen solchen Kontext Betrachtung von allen Wortpaaren im Satz (z.b. Subjekt-Verb, Subjekt-Objekt, Verb-Subjekt, Verb-Objekt) Nomen-Nomen-Paare, Verb-Verb-Paare Suche mit NEAR Adjektive und Adverben haben keine Hierarchien (Algorithmus 2 nicht möglich) (zu) feine Bedeutungsunterscheidung in WordNet Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 28

Quellen http://www.cse.unt.edu/~rada/ http://www.hlt.utdallas.edu/~moldovan/ Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens 29