Hauptseminar Information Retrieval. S. Friedrich und M. Häsner

Größe: px

Ab Seite anzeigen:

Download "Hauptseminar Information Retrieval. S. Friedrich und M. Häsner"

Meike Thomas
vor 5 Jahren
Abrufe

1 Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010

2 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5.

4 Aktuell: Benutzer sucht Informationen und erhält Menge von Dokumenten als Ergebnis (z. B. Suchmachine) Benutzer muss anschließend Ergebnisdokumente selbst auswählen und durchsuchen Idee: direkte Antwort als Ergebnis auf Benutzerfrage liefern

5 erwartet Frage von Benutzer in natürlicher Sprache als Eingabe sucht in großem Dokumentenpool nach passender Antwort präsentiert Benutzer Antwort als Ausgabe Ja/Nein bis komplexe Antworten möglich The Baseball System (1963) erstes Question Answering (QA) System

6 Information Access Systems: Question Answering System Information Retrieval System (z. B. Internet- Suchmaschinen) Natural Language Interface To Database Information Extraction System

7 Closed Domain: spezielle Wissensbasis, Korpus Beispiel: Militär (TARA - Terrorism Activity Resource Application) Anna von IKEA (Webseite) Open Domain: World Wide Web Beispiel: neue Generation von Suchmachine

9 Basis der meisten QA Systeme 3 Hauptkomponenten Frageverarbeitung Dokumentenverarbeitung Integration eines Information Retrieval Moduls Antwortverarbeitung

11 Vorverarbeitung: Annotation, Chunking, Named Entity Recognition, Stemming, Entfernung von Stoppwörtern

14 Anpassung der Query in Bezug auf Fragetyp Hinzufügen weiterer Begriffe Gewichten der verschiedenen Begriffe in der Query

15 Extraktion von Fakten aus Dokumentenpool Integration eines Information Extraction Moduls Sicherung in separater Fakten-Datenbank Suche erst in Fakten-Datenbank Verwendung externer Dokumenten pools Internetsuchmaschinen, Internetdatenbanken Ausnutzung von Antwortredundanz, strukturierten Informationen Verbesserte Präzision + Recall

16 Magisterarbeit Semantische Agenten im Information Retrieval von W. Wagner: Dokumentenverarbeitung auf Grundlage vom Semantic Web Verarbeitung durch Semantische Agenten Ontologien für Vokabular der Webseiten (Wissen, Zusammenhänge) Webseiten mit RDF annotiert (Metainformationen)

17 Semantische Agenten im Information Retrieval von W. Wagner (Fortsetzung): Umfeld: Hobbygärtnerei Semantischer Agent: sucht für Eingabe (Gemüse, Jahr) Informationen (Saatzeit, Standort, Boden, ) betrachtet annotierte Webseiten zieht auf Grundlage von Ontologien Schlussfolgerungen

18 Assoziierung von Fragetypen mit Liste von Antwortmustern z. B. Wann wurde X geboren? [Personenname], * [Geburtsdatum] Manuelle Erzeugung aus Dokumentenpool Automatisches Lernen aus großen Korpora

19 Verwendung von 3-Tupel Syntaktische Beziehungen in der Form <Kopf, Beziehung,Modifizierer> z. B. <hat, Subjekt, Merkel> Anzahl übereinstimmender 3-Tupel zwischen Frage und Antwortkandidat für Score

21 Programmiersprache: PHP Implementierte Komponenten: Schlüsselwortermittlung: Alle Nomen, Verben, Adjektive aus Frage als Schlüsselwort Verwendung von Part-Of-Speech Tagger Vergabe von Gewichten an Schlüsselwörter, stärkere Gewichtung der Verben Dokumentenpool: Verwendung von Biografien als Dokumente Aufsplittung der Dokumente in Sätze (= Dokumentenpool)

22 Implementierte Komponenten: Information Retrieval Komponente: Basiert auf Vektormodell Query entspricht Schlüsselwörter der Frage Ermittlung der für die Query relevanten Sätze aus Dokumentenpool Antwortverarbeitung: Ermittlung des Antworttyps anhand des Fragewortes Who, Whom = Person, Where = Ort, When = Zeit Person, Ort, Zeit = Entitäten

23 Implementierte Komponenten: Antwortverarbeitung (Fortsetzung): Ermittlung der Antwortkandidaten aus der Ausgabe der IR Komponente Müssen gesuchte Entität enthalten Verwendung von Stemming Berechnung des Score für jeden Antwortkandidaten Score = Summe der Gewichte der im Antwortkandidaten enthaltenen Schlüsselwörter Ranking der Antwortkandidaten nach Score Ausgabe der gesuchten Entität des besten Antwortkandidaten

24 Vorverarbeitung der Dokumente wichtig Anaphern + Ellipsen + Synonyme erschweren Antwortsuche Auswahl Entität bzgl. Antworttyp ungenau Auswahl von Constraints schwierig: Welche Schlüsselwörter? Schlüsselwörter gewichten?

25 Qualität der Antwort des QA Systems von der Arbeit vieler Komponenten abhängig Neue Dokumente höherer Recall, aber niedrigere Präzision Schwerpunkt der Implementierung: Abgleich zwischen Frage + Antwortkandidaten

27 Erreichung einer hohen Präzision der Antwort Beispiel: Webclopedia Frage: Where do lobsters like to live? Antwort: on a Canadian airline Ursprung: First-class passengers on a Canadian airline will have to live with lobster and filet mignon now that pate de foie gras is being dropped from the menu, an animal rights group said.

28 Erreichung eines hohen Recalls der Antwort Gefahr: Erhöhung der Präzision Verringerung des Recalls Effizienz der Antwortfindung z. B. durch geeignete Vorverarbeitung des Dokumentenpools

29 Umgang mit komplexen Fragen + Antworten z. B. Warum-, Wie-Fragen z. B. Definition als Antwort Interaktives QA System Dialog zwischen Benutzer + System Berücksichtigung des Fragekontexts wichtig Spracheingabe der Frage Integration eines Spracherkennungsmoduls

31 Wagner, Wiebke: Semantische Agenten im Information Retrieval, Universität Heidelberg, Magisterarbeit, URL Zugriffsdatum: Fliedner, Gerhard: Linguistically Informed Question Answering, Universität Saarbrücken, Dissertation, Hirschman, Lynette; Gaizauskas, Robert: Natural language question answering: the view from here, Natural Language Engineering 7, p Cambridge University Press, URL Zugriffsdatum: Narayanan, Srini; Harabagui, Sanda: Question Answering Based on Semantic Structures, The 20th International Conference on Computational Linguistics (COLING), URL Zugriffsdatum: Hermjakob, Ulf; Hovy, Eduard H.;Lin, Chin-Yew: Knowledge-Based Question Answering, TREC-2000, URL pdf Zugriffsdatum: Sinha, Steven; Narayanan, Srini: Model-based Answer Selection, Proceedings of Workshop on Textual Inference for Question Answering at the 20th National Conference on Artificial Intelligence, URL Zugriffsdatum: USC Information Sciences Institute: Question: Does Webclopedia have any sense of humor? URL Zugriffsdatum: Lin, Jimmy; Katz, Boris: Question Answering Techniques for the World Wide Web. URL Zugriffsdatum: Burger, John et. al.: Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A). URL Zugriffsdatum: Op den Akker, Rieks; Bunt, Harry; Keizer, Simon; Van Schooten, Boris: From Question Answering to Spoken Dialogue: Towards an Information Search Assistant for Interactive Multimodal Information Extraction URL Zugriffsdatum:

Ähnliche Dokumente

Question Answering mit Support Vector Machines

Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support