Implementation und Evaluation des Vektormodells anhand von TREC-Daten

Transkript

1 Implementation und Evaluation des Vektormodells anhand von TREC-Daten Seminarprojekt Information Retrieval WS 2015/2016 Bastian Beyer, Alexander Birkenkamp Institut für Computerlinguistik Universität Heidelberg 18. Januar 2016 Beyer, Birkenkamp Vektormodell 18. Januar / 44

2 Gliederung Motivation Vorgehen Systemarchitektur Datengrundlage Preprocessing Ähnlichkeitsfunktionen Evaluation Konklusion Ausblick Quellenangabe Beyer, Birkenkamp Vektormodell 18. Januar / 44

3 Motivation Implementation Motivation Implementation eines klassischen IR-Modells Implementation des Vektormodells 1. Preprocessing-Schritte: obligatorisch: Tokenisierung optional: Stoppwort-Entfernung, Stemming 2. Variierung der Termgewichtung: normalisierte Termfrequenz (tf-gewichte) vs. tf-idf-gewichte 3. Verwendung verschiedener Ähnlichkeitsfunktionen: Skalarprodukt, Kosinus-, Dice-, Jaccard-, Overlap-Koeffizient Beyer, Birkenkamp Vektormodell 18. Januar / 44

4 Motivation Evaluation Motivation Evaluation des implementierten Modells Evaluation des implementierten Vektormodells anhand einer Dokumentenkollektion von der TREC liefert Goldstandard fachlich anerkannt Verwendung der AQUAINT-2 -Kollektion des Question Answering Track 2007 Beyer, Birkenkamp Vektormodell 18. Januar / 44

5 Motivation Zentrale Fragestellung Zentrale Fragestellung. Welchen Einfluss auf die Qualität des Suchergebnisses hat die Verwendung verschiedener Preprocessing-Schritte, Termgewichte und. Ähnlichkeitsfunktionen für eine Implementation des Vektormodells? Beyer, Birkenkamp Vektormodell 18. Januar / 44

6 Vorgehen Aufgaben Aufgaben 1. Extraktion der Anfragen, Relevanzbeurteilungen und Dokumente aus Dateien 2. Bildung von Anfrage- und Dokumentobjekten 3. Preprocessing der Anfrage- und Dokumentobjekte i. Tokenisierung ii. Stoppwort-Entfernung (optional) iii. Stemming (optional) iv. Sammeln des Vokabulars Beyer, Birkenkamp Vektormodell 18. Januar / 44

7 Vorgehen Aufgaben Aufgaben (3.) Preprocessing der Anfrage- und Dokumentobjekte v. Ermittlung der Termfrequenzen für alle Dokumente vi. Identifizierung der maximalen Termfrequenz für alle Dokumente vii. Bestimmung der Dokumenthäufigkeiten für alle Terme viii. Erzeugung von Vektorrepräsentationen 4. Ranking der Dokumentobjekte mittels Ähnlichkeitsfunktionen 5. Evaluation des Rankings Beyer, Birkenkamp Vektormodell 18. Januar / 44

8 Systemarchitektur Aufbau des Systems Aufbau des Systems Q. Preprocessing Tokenisierung F Datenextraktion Q (Stoppwort-Entfernung) (Stemming) Q L Vektortransformation Ranking Preprocessing R Tokenisierung Evaluation D Datenextraktion D (Stoppwort-Entfernung) (Stemming) D Vektortransformation Abbildung 1 : Aufbau des verwendeten Systems als UML-Diagramm Beyer, Birkenkamp Vektormodell 18. Januar / 44

9 Systemarchitektur Aufbau des Systems Aufbau des Systems Abkürzung Beschreibung Q F L D Q Anfrageobjekte D Dokumentobjekte Q vorverarbeitete Anfrageobjekte Sammlung von Testfragen (XML-Datei) Relevanzbeurteilungen für Faktoidfragen (Textdatei) Relevanzbeurteilungen für Listenfragen (Textdatei) Dokumentenkollektion (XML-Dateien) D vorverarbeitete Dokumentobjekte R Relevanzbeurteilungen der geordneten Dokumente (Textdatei) Tabelle 1 : Legende zu UML-Diagramm Beyer, Birkenkamp Vektormodell 18. Januar / 44

10 Systemarchitektur Modulübersicht Modulübersicht Query.py und Document.py: Implementierung der Eigenschaften eines Anfrage- bzw. Dokumentobjektes Identifizierer, Inhalt, Terme, Vektorrepräsentation; bei Anfragen zusätzlich Identifizierer relevanter Dokumente DataReader.py: Einlesen der Fragen, Relevanzbeurteilungen und Dokumente Erzeugung von Anfrage- und Dokumentobjekten Beyer, Birkenkamp Vektormodell 18. Januar / 44

11 Systemarchitektur Modulübersicht Modulübersicht Preprocessor.py: Vorverarbeitung von Anfrage- und Dokumentobjekten Tokenisierung, Stoppwort-Entfernung, Stemming, Vektortransformation Ranking.py: Implementierung der Ähnlichkeitsfunktionen Erzeugung der Dokumenten-Rankings Schreiben der Relevanzbeurteilungen der geordneten Dokumente in Ausgabedatei zur Verarbeitung mittels Evaluationsskript Implementierung in Python 2.7 Klassendiagramme siehe Anhang A Beyer, Birkenkamp Vektormodell 18. Januar / 44

12 Datengrundlage Übersicht über die Daten Datengrundlage Übersicht über die Daten AQUAINT-2 -Dokumentenkollektion: englische Zeitungsartikel, z. B. aus New York Times oder von Associated Press Zeitraum: Oktober 2004 bis März Dokumente in 108 XML-Dateien (ca. 2,5 GB) Anfragen aus Sammlung von Testfragen: drei Typen von Fragen: FACTOID, LIST, OTHER insgesamt 515 Fragen gespeichert in einer XML-Datei Relevanzbeurteilungen der Dokumente: jeweils eine Textdatei für Faktoid- und Listenfragen legen Goldstandard fest Beyer, Birkenkamp Vektormodell 18. Januar / 44

13 Datengrundlage Dokumentenkollektion Datengrundlage Dokumentenkollektion Extraktion der Identifizierer und Dokumententexte Text zwischen den Attributen HEADLINE, DATELINE, DATE_TIME, KEYWORD, TEXT und P Bildung von Dokumentobjekten <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE DOCSTREAM SYSTEM 'a2_newswire_xml.dtd'> <DOCSTREAM> [...] <DOC id="nyt_eng_ " type="story"> <HEADLINE> TV COLUMN: AND NOW FOR A WILDER KINGDOM </HEADLINE> <TEXT> [...] <P> [...] In 1960 Marlin Perkins, the original "Wild Kingdom" host, joined Sir Edmund Hillary in a Himalayan expedition in which Perkins examined evidence of the Abominable Snowman. [...] </P> [...] </TEXT> </DOC> [...] </DOCSTREAM> Abbildung 2 : Auszug aus XML-Datei mit Dokumenten Beyer, Birkenkamp Vektormodell 18. Januar / 44

14 Datengrundlage Anfragen Datengrundlage Anfragen aus Sammlung von Testfragen Extraktion der Identifizierer und Fragentexte Ausschluss von Fragen des Typs OTHER, da diese nur Other als Text enthalten und somit für unsere Aufgabenstellung nicht verwendbar sind Erzeugung von Anfrageobjekten (445 insgesamt) <trecqa year="2007" task="main"> [...] <target id = "285" text = "Yeti"> <qa> <q id = "285.1" type="factoid"> In what year did Sir Edmund Hillary search for Yeti? </q> </qa> <qa> <q id = "285.2" type="list"> In what U.S. states have sightings of Yeti been reported? </q> </qa> [...] <qa> <q id = "285.6" type="other"> Other </q> </qa> </target> [...] </trecqa> Abbildung 3 : Auszug aus XML-Datei der Testfragen Beyer, Birkenkamp Vektormodell 18. Januar / 44

15 Datengrundlage Relevanzbeurteilungen Datengrundlage Relevanzbeurteilungen der Dokumente Extraktion von Anfrage- und Dokumentidentifizierern aus beiden Dateien Abspeicherung in Anfrageobjekten Ausschluss von BLOG06 -Dokumenten (Korpus steht uns nicht zur Verfügung) [...] NYT_ENG_ AFP_ENG_ BLOG AFP_ENG_ September 2003 [...] Abbildung 4 : Auszug aus Textdatei der Relevanzbeurteilungen für Faktoidfragen [...] AFP_ENG_ Kathmandu AFP_ENG_ Florida AFP_ENG_ Colorado AFP_ENG_ Pennsylvania [...] Abbildung 5 : Auszug aus Textdatei der Relevanzbeurteilungen für Listenfragen Beyer, Birkenkamp Vektormodell 18. Januar / 44

16 Datengrundlage Erstellung des Test Set Erstellung des Test Set Problem: Verarbeitung aller Dokumente sehr rechenaufwändig, daher Reduzierung der zu verarbeitenden Datenmenge zufällige Auswahl von 25 Anfragen, ihrer lt. Goldstandard relevanten Dokumente und einer gleichen Anzahl zufällig gewählter, lt. Goldstandard irrelevanter Dokumente somit insgesamt Dokumente (davon 573 relevante) Test Set parallele Programmierung möglicher Ansatzpunkt für weitere Arbeit zur Vergrößerung der Datenmenge Beyer, Birkenkamp Vektormodell 18. Januar / 44

17 Preprocessing Anfragen und Dokumente Preprocessing der Anfragen und Dokumente 1. Tokenisierung (obligatorisch): Funktion word_tokenize des Natural Language Toolkit ( NLTK ) Aussortierung von Punktuationszeichen aus Python-Liste string.punctuation 2. Entfernung englischer Stoppwörter (optional): Liste stopwords.words(''english'') aus nltk.corpus zusätzlich Entfernung ihrer kapitalisierten Varianten 3. Stemming (optional): nltk.stem.snowball: stem-methode des EnglishStemmer Beyer, Birkenkamp Vektormodell 18. Januar / 44

18 Preprocessing Termgewichte Berechnung der Termgewichte auf Basis der Dokumente Erstellung von Vektorrepräsentationen auf Basis der Dokumententerme in den Varianten: a. Tupel mit normalisierten Termfrequenzen (tf-gewichten) b. Tupel mit Produkten aus normalisierter Termfrequenz und inverser Dokumentfrequenz (tf-idf-gewichten) Beyer, Birkenkamp Vektormodell 18. Januar / 44

19 Ähnlichkeitsfunktionen Skalarprodukt und Kosinus-Koeffizient Ähnlichkeitsfunktionen 1 für Vektoren q, d mit n Einträgen Skalarprodukt (einfache Übereinstimmung) n (q k d k ) k=1 Kosinus-Koeffizient n k=1 (q k d k ) n k=1 q2 k n k=1 d2 k 1 Vgl. Haenelt, Karin (2012), Kursfolien Ähnlichkeitsmaße für Vektoren, S. 8 Beyer, Birkenkamp Vektormodell 18. Januar / 44

20 Ähnlichkeitsfunktionen Dice- und Jaccard-Koeffizient Ähnlichkeitsfunktionen 1 für Vektoren q, d mit n Einträgen Dice-Koeffizient 2 n k=1 (q k d k ) n k=1 q k + n k=1 d k Jaccard-Koeffizient n k=1 (q k d k ) n k=1 q k + n k=1 d k n k=1 (q k d k ) 1 Vgl. Haenelt, Karin (2012), Kursfolien Ähnlichkeitsmaße für Vektoren, S. 8 Beyer, Birkenkamp Vektormodell 18. Januar / 44

21 Ähnlichkeitsfunktionen Overlap-Koeffizient Ähnlichkeitsfunktionen 1 für Vektoren q, d mit n Einträgen Overlap-Koeffizient n k=1 min(q k, d k ) min ( n k=1 q k, n k=1 d k) 1 Vgl. Haenelt, Karin (2012), Kursfolien Ähnlichkeitsmaße für Vektoren, S. 8 Beyer, Birkenkamp Vektormodell 18. Januar / 44

22 Evaluation Vorgehen Vorgehen bei der Evaluation Dokumente aus Test Set werden für jede Anfrage und jede Variante des Vektormodells gerankt Evaluation des erstellten Rankings durch Python-Skript (evaluator.py) Berechnung je eines Recall-Precision-Graphen pro Modellvariante zur vergleichenden Darstellung der Evaluationsergebnisse Beyer, Birkenkamp Vektormodell 18. Januar / 44

23 Evaluation Evaluationsmaße Evaluationsmaße 2 Precision Anzahl der relevanten Dokumente im Suchergebnis Anzahl aller Dokumente im Suchergebnis Recall Anzahl der relevanten Dokumente im Suchergebnis Anzahl aller relevanten Dokumente Relevanz durch Goldstandard festgelegt für Recall-Precision-Graph Messung bzw. Interpolation der Precision auf 11 Standard-Recall-Ebenen (0,0 0,1 1,0) 2 Vgl. Haenelt, Karin (2009), Kursfolien Evaluierung von Information Retrieval Systemen. Teil 1: Standardverfahren, S. 8 f. Beyer, Birkenkamp Vektormodell 18. Januar / 44

24 Evaluation Ergebnisse für Preprocessing Evaluationsergebnisse Übersicht - Preprocessing Darstellung der Evaluationsergebnisse des Vektormodells als Recall-Precision-Graph bei Verwendung verschiedener Preprocessing-Module: ohne Preprocessing (Baseline) mit Stoppwort-Entfernung mit Stemming mit Kombination aus Stoppwort-Entfernung und Stemming - bei Verwendung verschiedener Termgewichte - bei Verwendung verschiedener Ähnlichkeitsfunktionen Beyer, Birkenkamp Vektormodell 18. Januar / 44

25 Evaluation Ergebnisse für Preprocessing Verwendung verschiedener Preprocessing-Module Berechnung mit Skalarprodukt und tf-gewichten Precision beide Module.. Stoppwort-. Entfernung. Stemming.. Baseline Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

26 Evaluation Ergebnisse für Preprocessing Verwendung verschiedener Preprocessing-Module Auswertung Stemming ohne klaren Vorteil möglicher Grund: geringes Maß an Flektion im Englischen auch bei Verwendung von Stoppwort-Entfernung kein zusätzlicher Zugewinn durch Stemming Stoppwort-Entfernung sehr hilfreich möglicher Grund: gleichmäßige Verteilung von Stoppwörtern über alle Dokumente Auftreten von Stoppwörtern dadurch kaum informativ für Unterscheidung der Dokumente (bei Nichtbeachtung des Kontextes!) Beyer, Birkenkamp Vektormodell 18. Januar / 44

27 Evaluation Ergebnisse für Termgewichte Evaluationsergebnisse Übersicht - Termgewichte Darstellung der Evaluationsergebnisse des Vektormodells als Recall-Precision-Graph - bei Verwendung verschiedener Preprocessing-Module bei Verwendung verschiedener Termgewichte: tf-gewichte (Baseline) tf-idf-gewichte - bei Verwendung verschiedener Ähnlichkeitsfunktionen Beyer, Birkenkamp Vektormodell 18. Januar / 44

28 Evaluation Ergebnisse für Termgewichte Verwendung verschiedener Termgewichte Berechnung mit Skalarprodukt, ohne Preprocessing tf.. tf-idf. Precision Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

29 Evaluation Ergebnisse für Termgewichte Verwendung verschiedener Termgewichte Auswertung bei tf-gewichten nur Dokumentlänge betrachtet klarer Vorteil durch Einbeziehung der inversen Dokumentfrequenz, welche die Verteilung der Terme im Korpus berücksichtigt dadurch Abwertung von Termen, die in vielen Dokumenten vorkommen Beyer, Birkenkamp Vektormodell 18. Januar / 44

30 Evaluation Ergebnisse für Ähnlichkeitsfunktionen Evaluationsergebnisse Übersicht - Ähnlichkeitsfunktionen Darstellung der Evaluationsergebnisse des Vektormodells als Recall-Precision-Graph - bei Verwendung verschiedener Preprocessing-Module - bei Verwendung verschiedener Termgewichte bei Verwendung verschiedener Ähnlichkeitsfunktionen: Skalarprodukt (Baseline) Kosinus-Koeffizient Dice-Koeffizient Jaccard-Koeffizient Overlap-Koeffizient Beyer, Birkenkamp Vektormodell 18. Januar / 44

31 Evaluation Ergebnisse für Ähnlichkeitsfunktionen Verwendung verschiedener Ähnlichkeitsfunktionen ohne Preprocessing, mit tf-gewichten Precision Skalarprodukt.. Kosinus.. Dice.. Jaccard.. Overlap Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

32 Evaluation Ergebnisse für Ähnlichkeitsfunktionen Verwendung verschiedener Ähnlichkeitsfunktionen Auswertung Unterschiede besonders im Bereich Recall < 0.5 Kosinus-Koeffizient mit leicht besserem Ergebnis als Skalarprodukt und Overlap-Koeffizient Dice- und Jaccard-Koeffizient mit geringerer Precision und fast gleichen Ergebnissen möglicher Grund für fast gleiche Ergebnisse: relativ ähnliche Berechnung Beyer, Birkenkamp Vektormodell 18. Januar / 44

33 Evaluation Ergebnisse mit komplettem System Verwendung verschiedener Ähnlichkeitsfunktionen mit komplettem Preprocessing und Verwendung von tf-idf-gewichten Precision Skalarprodukt.. Kosinus.. Dice.. Jaccard.. Overlap Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

34 Konklusion Konklusion bei Verwendung von komplettem Preprocessing und tf-idf-gewichten deutlich bessere Ergebnisse als bei Baseline-System Stoppwort-Entfernung und Verwendung von tf-idf-gewichten (d. h. Abwertung von Wörtern, die nicht informativ für die Unterscheidung sind) scheinen größten Einfluss zu haben Beyer, Birkenkamp Vektormodell 18. Januar / 44

35 Ausblick Ausblick Verarbeitung von mehr als nur 25 Anfragen und Dokumenten (z. B. ein komplettes TREC-Datenset) durch Parallelisierung und Verwendung von mehr Arbeitsspeicher Evaluation weiterer Retrievalmodelle Einbeziehung syntaktischer und semantischer Eigenschaften von Wörtern sowie deren Kontext bzw. Kookkurrenz für die Bestimmung der Ähnlichkeit Beyer, Birkenkamp Vektormodell 18. Januar / 44

36 Quellenangabe Datenquellen Datenquellen Dokumentenkorpus Vorhees, Ellen & David Graff AQUAINT-2 Information-Retrieval Text Research Collection LDC2008T25. Philadelphia: Linguistic Data Consortium. Korpus vorhanden am Institut für Computerlinguistik der Universität Heidelberg. Pfad: /resources/corpora/monolingual/raw/aquaint-2/data/ Version vom Beyer, Birkenkamp Vektormodell 18. Januar / 44

37 Quellenangabe Datenquellen Datenquellen Anfragen und Relevanzbeurteilungen TREC 2007 Factoid Judgments. Version vom TREC 2007 List Judgments. Version vom TREC 2007 Test Questions. Version vom Beyer, Birkenkamp Vektormodell 18. Januar / 44

38 Quellenangabe Literatur Literatur TREC 2007 Question Answering Guidelines. Version vom Baeza-Yates, Ricardo & Berthier Ribeiro-Neto Modern Information Retrieval. Harlow, England: Addison-Wesley Longman. Bird, Steven, Ewan Klein & Edward Loper Natural Language Processing with Python. Beijing, Köln: O Reilly. Beyer, Birkenkamp Vektormodell 18. Januar / 44

39 Quellenangabe Kursfolien HS Information Retrieval Kursfolien HS Information Retrieval Haenelt, Karin Information Retrieval Modelle. Vektormodell. Kursfolien vom (1. Fassung vom ) Haenelt_IR_Modelle_Vektor.pdf Haenelt, Karin Ähnlichkeitsmaße für Vektoren. Kursfolien vom (1. Fassung vom ) Haenelt_VektorAehnlichkeit.pdf Haenelt, Karin Evaluierung von Information Retrieval Systemen. Teil 1: Standardverfahren. Kursfolien vom Haenelt_IR-Evaluierung01.pdf Beyer, Birkenkamp Vektormodell 18. Januar / 44

40 Quellenangabe Abbildungs- und Tabellenverzeichnis Abbildungs- und Tabellenverzeichnis Abbildungen: Abbildung 1: Abbildung 2: Abbildung 3: Abbildung 4: Abbildung 5: Diagramme: eigene Darstellung; vgl. Haenelt, Karin (2009), Kursfolien Information Retrieval Modelle. Vektormodell, S. 3 f. Auszug aus AQUAINT-2 -Korpus [Vorhees, Ellen & David Graff (2008)] Auszug aus TREC 2007 Test Questions [siehe Datenquellen] Auszug aus TREC 2007 Factoid Judgments [siehe Datenquellen] Auszug aus TREC 2007 List Judgments [siehe Datenquellen] eigene Ergebnisse Tabellen: Tabelle 1: siehe Abbildung 1 Beyer, Birkenkamp Vektormodell 18. Januar / 44

41 Anhang A Klassendiagramme Anhang A: Klassendiagramme Module Query.py und Document.py Query _id : str _content : str _terms : list _vec : tuple _reldocs : list. init ( qid : str, content : str ) : Query Akzessoren und Mutatoren _id : str _content : str _terms : list _vec : tuple Document init ( did : str, content : str ) : Document Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

42 Anhang A Klassendiagramme Anhang A: Klassendiagramme Modul DataReader.py DataReader _queries : list _numqueries : float _documents : list _numdocuments : float init () : DataReader. _readqueriesfile( filename : str ) : None _readjudgmentsfiles( factoidjudgmentsfilename : str, listjudgmentsfilename : str ) : None _readdocumentsfiles( path : str ) : None reducedata() : None Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

43 Anhang A Klassendiagramme Anhang A: Klassendiagramme Modul Preprocessor.py Preprocessor _queries : list _numqueries : float _documents : list _numdocuments : float _stopwordremoval : bool _stemming : bool _tfidfweights : bool _vocabulary : dict _numvocabs : float _docstermsfreq : dict _docsmaxtermfreq : dict _termsdocsfreq : dict. init ( dr : DataReader, stopwordremoval : bool, stemming : bool, tfidfweights : bool ) : Preprocessor _tokenize() : None _removestopwords() : None _stem() : None _buildvocabulary() : None _countdocstermsfreq() : None _finddocsmaxtermfreq() : None _counttermsdocsfreq() : None _buildqueriesvec() : None _builddocumentsvec() : None Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

44 Anhang A Klassendiagramme Anhang A: Klassendiagramme Modul Ranking.py Ranking _queries : list _numqueries : float _documents : list _numdocuments : float _simfunction : str _outputfilename : str _rankings : dict _reljudgments : dict init ( pr : Preprocessor,. simfunction : str, outputfilename : str ) : Ranking _dotproduct( u : tuple, v : tuple ) : float _cosine( u : tuple, v : tuple ) : float _dice( u : tuple, v : tuple ) : float _jaccard( u : tuple, v : tuple ) : float _overlap( u : tuple, v : tuple ) : float _rank() : None _createreljudgments() : None _writereljudgments() : None Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44