Information Retrieval und Question Answering

Ähnliche Dokumente
Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler

Information Retrieval, Vektorraummodell

Boolesche- und Vektorraum- Modelle

Verschlagwortung digitaler Texte

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Information Retrieval,

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

6. Probabilistische Retrievalmodelle. Norbert Fuhr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Boole'sches Modell <is web>

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Kapitel IR:III (Fortsetzung)

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Thema: Prototypische Implementierung des Vektormodells

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner

Algorithmische Anwendungen WS 05/06 Document Ranking

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluation von IR-Systemen

1 Boolesches Retrieval (2)

Texttechnologien: Latent Semantic Indexing

Information-Retrieval: Evaluation

Text-Mining: Datenaufbereitung und -repräsentation

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt

Erweitern von Aqqu durch AutoSklearn

HS Information Retrieval

Implementation und Evaluation des Vektormodells anhand von TREC-Daten

Implementierung des Vektor Modells

Verteiltes Information Retrieval

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Nachteile Boolesches Retrieval

Question Answering mit Support Vector Machines

Implementation eines Rankingverfahrens in Perl - Dokumentation und Evaluation -

Automatische Textzusammenfassung

Grundbegriffe des Information Retrieval

Klassifikation von Textabschnitten

5. Probabilistische Retrievalmodelle

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Implementierung eines Vektormodells

Multimedia Retrieval im WS 2011/2012

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Information-Retrieval: Vektorraum-Modell

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia

So bewerten Sie einen Test

Anwendung von Vektormodell und boolschem Modell in Kombination

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

(Bamberg)

9. Vorlesung Lineare Algebra, SVD und LSI

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Klassisches Information Retrieval Jan Schrader

Eigenschaften von Texten

Was ist Open Domain Question and Answering

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Vorlesung Information Retrieval Wintersemester 04/05

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Federated Search: Integration von FAST DataSearch und Lucene

Fallstudien der mathematischen Modellbildung Teil 3: Quanten-Operationen. 0 i = i 0

4. Nicht-Probabilistische Retrievalmodelle

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

Einführung in die Computerlinguistik

Midas Metadata yield by Data Analysis

Information Retrieval

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Seminar für Computerlinguistik Logik in der Praxis Lyubov Nakryyko

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Reduced-Rank Least Squares Modelle

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

Implementierung: Dokumentclustering

32 2 Lineare Algebra

Einführung in NLP mit Deep Learning

Information Retrieval Einführung

Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli Semesterklausur

Klassische Information Retrieval Modelle Einführung

Ähnlichkeitssuche auf XML-Daten

Lexikalisch-semantische Disambiguierung mit WordNet

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Maschinelle Sprachverarbeitung

Vorlesung Datenbanken II SS 2006

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Regelbasiertes Routing unstrukturierter Daten

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Vortrag 20: Kurze Vektoren in Gittern

Transkript:

und Question Answering Kai Kugler 19. November 2009

Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem des Benutzers der subjektiven Erwartung des Benutzers Die Anfrage ist... nicht präzise nicht formal vage/unscharf

Architektur eines ad hoc IR-Systems

Repräsentation der Dokumente Dokumente werden als Vektor ihrer Merkmale dargestellt. Beispiel (einfache Termhäufigkeit): Zeitungsartikel mit den Termen (Naumann, Kulturbeauftragte, parlamentarisch, Staatssekretär) und den Häufigkeiten (11,14,12,9) ein anderer mit den Häufigkeiten (8,0,0,0). Vektoren d 1 = (11, 14, 12, 9) und d 2 = (8, 0, 0, 0) Matrix: A = 11 8 14 0 12 0 9 0

Repräsentation der Dokumente Allgemein: dj = (w 1,j,, w n,j ) (Dokument j (aus einem Textkorpus mit n Termen) als Vektor seiner Termgewichte (w)) Ebenso: Anfrage als Vektor der Terme q = (w 1,q,, w n,q )

Repräsentation der Dokumente Allgemein: dj = (w 1,j,, w n,j ) (Dokument j (aus einem Textkorpus mit n Termen) als Vektor seiner Termgewichte (w)) Ebenso: Anfrage als Vektor der Terme q = (w 1,q,, w n,q )

Vergleich der Vektoren: Cosinus Cosinus des jeweiligen Winkels zwischen q und d 1 bzw. d 2 : sim( q, d j ) = N i=1 w i,q w i,j N i=1 w2 i,q N i=1 w2 i,j Hierbei gilt: sim( q, d j ) [0, 1] (bei identischen Vektoren 0, bei orthogonalen 1)

Vergleich der Vektoren: Cosinus

Termgewichtung Tf-idf (term frequency - inverse document frequency) ist das Produkt aus Termhäufigkeit (tf) und inverser Dokumentenhäufigkeit (idf): w i,j = tf i,j idf i = freq i,j max l (freq l,j ) log N n i (w i,j Gewicht des Terms i im Dokument j, freq i,j Häufigkeit des Terms i in Dokument j, max l (freq l,j ) Maximalhäufigkeit aller Terme im Dokument, N Anzahl der Dokumente im Korpus, n i Anzahl der Dokumente, in denen Term i vorkommt)

Beispiel: Termgewichtung term tf-idf Kulturbeauftragte 0.0412 parlamentarisch 0.0295 Naumann 0.0284 Staatssekretär 0.0233 Bundeskulturbeauftragter 0.0186 Kulturpolitik 0.0147 (Das Dokument kann z.b. entsprechend verschlagwortet werden)

Termgewichtung Diese Termgewichtung kann beim Vergleich (Cosinus) der Vektoren benutzt werden: tf w,q tf w,d (idf w ) 2 w q,d sim( q, d) = (tf qi,qidf qi ) 2 (tf di,didf di ) 2 q i q d i d

Termauswahl Stemming word stem auffallen auffall auffallend auffall auffallenden auffall auffällig auffall katz katz katze katz katzen katz Stoppwortliste z.b.: auch, auf, aus, bis,... Problem Phrasensuche: to be or not to be not

Probleme Synonyme nicht alle relevanten Dokumente Polyseme auch irrelevante Dokumente Homonyme auch irrelevante Dokumente

Evaluation von IR-Systemen Relevante vs. irrelevante Dokumente. Berechnung precision und recall: precision = recall = retrieved relevant retrieved retrieved relevant relevant (1)

Beispiel: Berechnung precision und recall Das Korpus umfasst 6 Dokumente, davon sind 4 relevant (relevant) und 2 irrelevant. Das IR-System liefert für eine bestimmte Anfrage 3 Dokumente (retrieved), von denen 2 ( retrieved relevant ) korrekt als relevant und eines fälschlicher Weise als relevant eingestuft wurde. Somit ergeben sich eine precision von 2 3 = 0. 6 und ein recall von 2 4 = 0.5.

Verbesserung der Ergebnisse Bewertung durch den Benutzer Sei q i der ursprüngliche Anfragevektor, r (relevant) und s (irrelevant) Dokumente, R die Anzahl der relevanten Dokumente und S die der irrelevanten, β, γ [0, 1]. q i+1 = q i + β R R r j γ S j=1 S s k k=1 Erweiterung des Anfragevektors durch Terme aus relevanten Dokumenten dem Umfeld der Anfrageterme (passage retrieval) einem Thesaurus (Synonyme, Hyponyme, Hyperonyme...)

Verbesserung der Ergebnisse Bewertung durch den Benutzer Sei q i der ursprüngliche Anfragevektor, r (relevant) und s (irrelevant) Dokumente, R die Anzahl der relevanten Dokumente und S die der irrelevanten, β, γ [0, 1]. q i+1 = q i + β R R r j γ S j=1 S s k k=1 Erweiterung des Anfragevektors durch Terme aus relevanten Dokumenten dem Umfeld der Anfrageterme (passage retrieval) einem Thesaurus (Synonyme, Hyponyme, Hyperonyme...)

WordNet retrieval retrieval recovery (computer science) the operation of accessing information from the computer s memory the cognitive operation of accessing information in memory the act of regaining or saving something lost (or in danger of becoming lost) Hyperonyme für retrieval (computer science): computer operation operation data processing processing

Factoid Question Answering Factiod Question Answering Fragen, die einen einfachen Fakt als Antwort haben. What currency is used in China? the yuan Where is the Louvre located? in Paris, France Ziel: Antworten mit Hilfe von IR aus Dokumenten ermitteln

Factoid Question Answering Drei Phasen des QA question processing passage retrieval answer processing

Factoid Question Answering Question processing Question processing (Vorverarbeitung der Anfrage) Query formulation Erweiterung der Anfrage (Thesaurus) oder regelbasiertes Umformulieren: Where is A A is located in where is the valley of kings? the valley of kings is located in

Factoid Question Answering Question processing Question processing Question Classification Klassifizieren der Frage (Taxonomie), z.b. regelbasiert: Hinweise auf den Typ: who {is was are were}person Fragewort z.b. Wer... Person Schlüsselwörter z.b. Welche Stadt... Ort...Geburtstag... Datum Eigennamen

Factoid Question Answering Passage Retrieval Passage Retrieval Nur Textpassagen der relevanten Dokumente beachten, die Informationen entsprechend des Fragetyps beinhalten. Diese Textpassagen werden rangiert, die irrelevanten verworfen. Rang nach: Anzahl der Eigennamen vom richtigen Typ Anzahl übereinstimmender Schlüsselwörter längste übereinstimmende Sequenz von Schlüsselwörtern Rang des Dokuments Wortabstand der Schlüsselwörter N-gram-Überlappung

Factoid Question Answering Answer processing Answer processing Extraktion der Antwort aus den relevanten Textpassagen nach Antworttyp ist der Antworttyp HUMAN, muß nur noch nach entsprechenden Entitäten gesucht werden Auffinden in den Textpassagen z.b. mit named entity taggern nach Antwortmuster Question Pattern Answer What is a <QP>, a <AP> the Long Valley <caldera>, <caldera>? a <volcanic crater> 19 miles long (Verleich mit regulären Ausdrücken)

Factoid Question Answering Answer processing Antwortmuster Manuell erstellt oder mit Lernalgorithmen, z.b. für die Realation PERSON-NAME/YEAR-OF-BIRTH: Startend mit der Relation (person-name year-of-birth) und gegebenen Termpaaren (gandhi:1869, mozart:1756) Dokumentensuche anhand der Paare (IR) Extraktion der Sätze, die dieses Paar beinhalten Erzeugen eines entsprechenden Musters Testen des Musters anhand des Termpaares (liefert das Muster für mozart tatsächlich 1756?) Für die Relation (person-name year-of-birth) und den Antworttyp YEAR-OF-BIRTH würde man z.b. folgende Muster erwarten: <NAME> (<BD> - <YD>) <NAME> was born on <BD>