Semantic Relations and User Interests

Ähnliche Dokumente
Über Struktur Relationen Anwendungen WORDNET. 10. Juli Magdalena Soyka, Christoph Berkholz WORDNET

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Einführung Konzepte und Begriffe Ähnliche Projekte Arbeiten mit WordNet

WordNet Eine elektronische lexikalische Datenbank

Studienprojekt TaxoSearch Spezifikation

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Lexikalisch-semantische Disambiguierung mit WordNet

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Semantik. Sarah Bosch,

NLP Eigenschaften von Text

Präsentation. Bachelorarbeit: A keyword translator for Broccoli. Iradj Solouk

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Automatische Textzusammenfassung

PS Lexikalische Semantik und Korpuslinguistik. Ein paar Grundlagen. Andrea Kowalski

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

Information Retrieval. Peter Kolb

Proseminar Linguistische Annotation

Was ist Statistik? Wozu dienen statistische Methoden?

Einführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado

1 Word Sense Disambiguation - Grundlagen

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Semantik & Pragmatik. 17. April 2007

Grundlegendes zur Semantik 4. Januar 2005

Finden Sie eine Relation R und eine Menge A so dass

Bachelorarbeit: Wissensbasierte Identifikation von Wertebereichen einer aktiven Ontologie

Unit 1. Motivation and Basics of Classical Logic. Fuzzy Logic I 6

Semantische Netze Psychologische Plausibilität

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07

PRG2 Folien Zicari Teil 2 Einführung in Datenbanken SS 2007

Teil III: Wissensrepräsentation und Inferenz. Kap.8: Semantische Netze und Begriffliche Graphen. Quillian, Semantische Netze.

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten

eine (sehr) kurze Einführung in formale Ontologien

Semantik. Ending Khoerudin Deutschabteilung FPBS UPI

Computerlexikographie-Tutorium

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Terminologische Wortnetze für die Informationssuche in Fachtextcorpora

Semantik. Sebastian Löbner. Eine Einführung. Walter de Gruyter Berlin New York 2003

Semantische Klassifikation und Ähnlichkeit von Objekten (Produkten)

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Kapitel IR:III (Fortsetzung)

Datenvorverarbeitung von nominalen Daten für Data Mining

Information Retrieval and Semantic Technologies

GermaNet-Workshop. Verena Henrich & Lars Horber. Eberhard Karls Universität Tübingen Seminar für Sprachwissenschaft Düsseldorf, 19.

Semantik. Volmert: S , Kessel/Reimann: S , Dr. Marina Iakushevich

Anwendung von Vektormodell und boolschem Modell in Kombination

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Einführung in die Semantik

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

time marker cluster term term URL Link to AEC media

Einführung in die Computerlinguistik. Semantik

Berechnung semantischer Ähnlichkeit: Ein Vergleich zwischen WordNet und FrameNet

Thesaurus 1. Merkmale:

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Semantik und Pragmatik

Information Retrieval

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

Einführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting

Transkript:

Semantic Relations and User Interests WordNet Lexical Database und mögliche Anwendungen bei der Benutzerinteraktion Sebastian Blohm

Sorry...

Wie kann eine Maschine beim Suchen helfen? Was Maschinen schon können: > Schnell viel Material sichten. > Zuverlässig Ergebnisse liefern. > Arbeiten, ohne zu ermüden. Der Traum: Die Maschine versteht, was ich brauche. Probleme > Unterspezifiziertheit ( Mir ist kalt. ) > Mehrdeutigkeit (Thema Bank )

Aspekte von Pragmatik > User > Umgebung > Zweck Identifikation und Beschreibung des Users ist Kernidee von Meinetz. Die Umgebung ist hier ohnehin eine Suchumgebung. Der Zweck der Suche kann in Form von Sprache zum Ausdruck kommen. Semantische Analyse kann helfen, dem Zweck einer Anfrage gerecht zu werden.

Beispiele für Anwendung von Semantischem Wissen > Interpretieren der Suchanfrage» Mehrdeutigkeiten ausschließen» Fokus eingrenzen / erweitern > Dokumente ordnen» Zuordnung zu Themenbereichen klären» Beziehungen unter Dokumenten herstellen Achtung: Dies sind alles nur heuristische Verfahren, keine saubere Semantik.

Typen semantischer Beziehungen > zwischen Wortformen (lexical) Synonym: zwei Worte haben die gleiche Bedeutung. > zwischen Wortbedeutungen (semantic) Hyperonym, Hyponym: Oberbegriff/Spezialisierung Antonym: Gegenteil Meronym/Holonym: Bestandteil/ entsteht aus Mögliche Eigenschaften dieser Beziehungen:» transitiv» symmetrisch oder reziprok Die Beziehungen eigenen sich zum Aufbau einer Taxonomie in Graphnotation.

Beispielnyme Xnyme des Wortes Fußballspieler: Hyperonym - Sportler Hyponym - Torwart Meronym Trikot Holonym - Mannschaft Antonym - *Angler Synonym -... Symmetrie: antonym(heiß,kalt)<->antonym(kalt,heiß) Reziprozität: hyper(sportler,fussballspieler)<-> hypo(fussballspieler,sportler) Transitivität: hyper(fussballspieler,torwart) && hyper(sportler,fussballspieler) -> hyper(sportler,torwart)

Die WordNet Datenbank WordNet baut mit diesen Beziehungen eine Lexikon- Datenbank auf. Die Beziehungen entstehen zwischen Synsets: Klassen synonymer Wörter. Definition der Synonymie in WordNet: Two expressions are synonymuous in a linguistic context C if the substitution of one for the other in C does not alter the truth value. Diese Definition genügt, weil ein Wort in mehreren Synsets auftreten kann (Polysemie).

Die WordNet Datenbank - Graphen Beispiel für graphische Repräsentation der Hyponomie-Beziehungen: Ball Fussball Tennisball

Die Wordnet Datenbank: Browser Zu Nomen kann der Browser Anzeigen: > Synonyme nach Häufigkeit > Synonyme nach Ähnlichkeit > Coordinate Terms Alternative Begriffe des gleichen Hyperonyms > Hyperonyme und Hyponyme > Bekanntheit (abgeschätzt durch Polysemie) Zu den Relationen ist auch eine für Menschen lesbare Definition (gloss) gespeichert. WordNet Browser.lnk

Die Wordnet Datenbank: Datenstruktur Dies ist die Datenstruktur von Lexicographer-Files, die manuell erstellt werden. { canine, [ dog1, cat,! ], pooch, canid,@ } canid ist Hyperonym Relationen der Wortform canine gloss { collie, dog1,@ (large multi-colored dog with pointy nose) } { hound, hunting_dog, pack,#m dog1,@ } { dog, } Dog (Bedeutung 1) ist Oberbegriff des Synsets Synonyme ein hound ist *M*itglied eines packs Begriff ohne Synonyme

WordNet und Psycholinguistik WordNet wurde durch psycholinguistische Entdeckungen: > Konzeptionelle Verbindungen zwischen Worten sind durch Assoziationsforschung belegt. > Die Einteilung der Wörter in Kategorien (Nomen, Verb, usw.) entspricht u. a. Studien an Aphasiekranken.

ganz oben in WordNet Es gibt kein leeres Synset an der Spitze von WordNet. Vielmehr existieren 25 unique beginners : {act, activity} {animal, fauna} {artifact} {attribute} {body} {cognition, knowledge} {communication} {event, happening} {feeling, emotion} {food} {group, grouping} {location} {motivation, motive} {natural object} {natural phenomenon} {person, human being} {plant, flora} {possession} {process} {quantity, amount} {relation} {shape} {state} {substance} {time} Nachträglich zusammengefasst: organism, object, abstraction, psychological feature

Tiefe von WordNet Die Tiefe des Hyponomie-Graphs ist selten größer als 10 oder 12 Ebenen. Das ist also ein Tor: goal => score => success => attainment => accomplishment, achievement => action => act, human action,

Umfang von WordNet Natürlich ist WordNet eine Garagen-Erfolgsstory. > Das Projekt wurde 1985 mit drei Personen gestartet. > Es hat insgesamt ca. 3 Millionen $ US erhalten. > Es gibt industrielle Anwendungen und internationale Folgeprojekte > Enthält ca. 140.000 Wörter. Genauer: Kategorie Nomen Verb Adjektiv Adverb Formen 94474 10319 20170 4546 Bedeutungen 116317 22066 29881 5677

Grenzen von WordNet WordNet ist hauptsächlich als (Meta-) Lexikon gedacht. Möchte man es für zum NLP nutzen ergeben sich Schwierigkeiten. Denn: > Das zentrale Konzept der Synonymität ist recht starr definiert. Gewisse Abgrenzungen sind dadurch einfach nicht möglich. > Es wird davon ausgegangen, dass zu jedem Konzept auch ein Wort gehört. (z.b. Geschwister im Französischen) > Kein gutes Verhältnis zur non-monotonicity (Pinguin als Vogel) > der Graph ist teilweise willkürlich gesetzt.

Grenzen von WordNet II WordNet ist Handarbeit. > kaum Eigennamen

Vorteile von WordNet > effizientes Auffinden von verwandten Wörtern. > In einer Erweiterung liegen auch statistische Daten vor. > Glosses erlauben leichte Erfassbarkeit für User. > Vorhandensein in Sysnsets ist ein einfaches Vergleichskriterium > Viele Daten

Anwendungen von Wordnet (linguistische) > Semantic Concordances: Begriffe in Texten werden (von Hand) semantisch eindeutig gemacht. > Word-Sense Disambiguation: Distanz zwischen Wörtern= Anzahl der Nodes, die im Hyponymie- Graph dazwischen liegen. So können Umgebungswörter eingeordnet werden. (play Football ~= play Soccer) > diverse online Lexika.

Semantic Concordances > Semantic Tagging : Korpus Text, in dem Wörtern ihr Synset zugeordnet ist Polysemie disambiguiert. > Korpora: 50% der Wörter open class word. > Polysemie in 18% der Word-Types aber 83% der Word-Token. > Vorgang eignet sich zum Prüfen der Vollständigkeit eines Lexikons. > Automatische Herstellung noch nicht möglich.

Welche semantischen Beziehungen sind für Suche interessant? > Synonymie: Vor allem durch die damit implizit kodierte Polysemie (mehrere Bedeutungen eines Wortes)» Vermeiden mehrdeutiger Suchanfragen» Klassifikation von Dokumenten > Hyponymie / Meronymie: Inferenzen auf Text.» ermöglicht breiteren / schmaleren Suchfokus» Klassifikation von Dokumenten

Using WordNet in Text retrieval > Text-Suche als Vektorraummodell Mehrdeutigkeit bei der Suche: > Homographen verringern Precision > Synonyme verringern Recall Concept Matching: > Queries und Dokumente als semantic concordances > Semantic Tagging mit Hilfe von Hoods > automatisches Semantic Tagging insb. bei Query ein Problem Query Expansion: > Synsets aus der Umgebung werden der hinzugefügt. beide Verfahren scheitern am Semantic Tagging

Meinetz-Suche Korpus von Meinetz-Suchanfragen. (n=93).doc lexikon-tauglich Fächerbezeichnungen nicht erfassbar Eigennamen spezielle Pragmatik 37 16 62 42 20

Integration in Meinetz Wie kann WordNet-Wissen in Meinetz verwendet werden? > Disambiguierung der Schlüssel Schlüssel werden nicht durch eine Namen sondern einen Wordnet- Sense bestimmt. > Auch Wörter in der WordNet-Umgebung eines Begriffs können Zugehörigkeit bestimmen. Aber:» nur wenn disambiguiert (Chaos: Apfelinfos in Computer-Gruppe)» am besten mit Metrik (Anzahl der Nodes)

References http://www.cogsci.princeton.edu/~wn/» Insbesondere Five Papers on Wordnet Fellbaum, C., (1998). WordNet, an electronical lexical database. Cambride, MA: MIT Press.» Insbesondere: Voorhees E. M.. Using WordNet for Text Retrieval. Hayes, B., (1999). The web of words. In American Scientist Volume 87 Number 2, pages 108-112.