Thema: Prototypische Implementierung des Vektormodells

Größe: px

Ab Seite anzeigen:

Download "Thema: Prototypische Implementierung des Vektormodells"

Frauke Frei
vor 7 Jahren
Abrufe

1 Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia Zirn Seminarleiterin: PD Dr. Karin Haenelt

2 Inhalt Wiederholung Vektormodell Systemarchitektur Evaluation Ergebnisse Aufgetretene Probleme Lösungen Fazit Zusammenfassung Ausblick Demo 2/33

3 Wiederholung Vektormodell 3/33

4 Wiederholung Cosinus-Formel 4/33

5 Wiederholung tf-idf tf i, m = freq i, m max l freq l, m idf i = log N n i w =tf idf i,m i, m i 5/33

6 Inhalt Wiederholung Vektormodell Systemarchitektur Evaluation Ergebnisse Aufgetretene Probleme Lösungen Fazit Zusammenfassung Ausblick Demo 6/33

7 Systemarchitektur Benötigte Daten Cosinusformel: tf idf Häufigkeit von Term i in Dokument m Frequenz des höchstfrequenten Terms in Dokument m Anzahl aller Dokumente Anzahl der Dokumente, die Term i enthalten 7/33

8 Systemarchitektur Termobjekt Strukturierung der zu einem Term benötigten Daten => Java-Objekt String int HashMap (String/int) int 8/33

9 Systemarchitektur Dokumentvektor Auto Haus Maus Text1 3 Text1 3 Text1 3 Text2 2 Text2 2 Text3 9 Text3 10 Text8 Text8 12 Text8 1 0 Text27 5 Text27 5 Text Repräsentation eines Dokumentvektors 9/33

10 Systemarchitektur Rahmendaten In Java geschrieben 9 Klassen, u.a.: Vektormodell TextOperationen Term 619 Zeilen Code (ohne GUI) 10/33

11 Programmablauf Die zwei Schritte des Programms (1) Vorarbeit Alle Texte einlesen In Tokens trennen Aus jedem Token ein Termobjekt anlegen bzw....bestehende Termobjekte erweitern (2) Query Anfrage (optional mit Gewichtung der Terme) einlesen Iteration über alle Dokumentvektoren Berechnen der Ähnlichkeit zur Anfrage Ausgabe des jeweiligen Ergebnisses 11/33

12 Programmablauf Vektormodell DateiLeser Textoperationen Anfrage TextOperationen dateienimportieren() dateilesen() Tokenisieren() erstelletermobjekte() erstelleanfragevektor() berechneaehnlichkeit() Texte einlesen tokenisieren Queryvektor erstellen Ähnlichkeit berechen Termobjekte erstellen 12/33

13 Inhalt Wiederholung Vektormodell Systemarchitektur Evaluation Ergebnisse Aufgetretene Probleme Lösungen Fazit Zusammenfassung Ausblick Demo 13/33

14 Vorbereitung: Die Texte 9 Texte über Autounfälle (Unfallberichte) 3 Texte über Autos (z.b. über TÜV-Plaketten) 4 Texte über Unfälle (Stromunfälle, usw) Anfrage: Welche Texte handeln von Unfällen, die im Zusammenhang mit Autos stehen? 14/33

15 Evaluation A Anfrage: Auto(1) Unfall(1) nicht-relevante ausgegebene Dokumente nicht-relevante nicht ausgegebene Dokumenrelevante ausgegebene Dokumente relevante nicht ausgegebene Dokumente 15/33

16 Evaluation A Recall/Precision-Graph Auto(1) Unfall(1) 100,00% 90,00% 80,00% 70,00% Precision 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% Normal und tf-idf 0,00% 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % Recall 16/33

17 Evaluation A Recall/Precision-Graph Auto(2) Unfall(1) 80,00% 70,00% 60,00% Precision 50,00% 40,00% 30,00% 20,00% 10,00% Normal und tf-idf 0,00% 10% 20% 30% 40% 50% 60% 70% Recall 17/33

18 Ergebnisse A Werte bei Termfrequenz und tf-idf sind immer gleich. Text AutoUnfallTot : Unser Ranking: 1 Ranking von Programm: 9 Häufigkeit Auto : 0 Häufigkeit +auto+ : 7 Auch +term+ sollte gefunden werden Modifizierung des Programms 18/33

19 Evaluation B (mit simterms ) Recall/Precision-Graph Auto(1) Unfall(1) 100,00% 90,00% 80,00% 70,00% Precision 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 10% 20% 30% 40% 50% 60% 70% 80% Recall Normal Tf-idf 19/33

20 Evaluation B (mit simterms ) Recall/Precision-Graph Auto(2) Unfall(3) 100,00% 90,00% 80,00% 70,00% Precision 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 10% 20% 30% 40% 50% 60% 70% 80% Recall Normal Tf-idf 20/33

21 Evaluation B (mit simterms * ) Text AutoUnfallTot : Häufigkeit Auto : 0 ; +auto+ :7 Unser Ranking: 1 Ranking von Programm ohne SimTerms: 9 Ranking von Programm mit SimTerms frequ: 3 Ranking von Programm mit SimTerms tf-idf: 1 * SimTerms: Begriffe, die das Suchwort als Teilstring enthalten 21/33

22 Evaluation B (mit simterms ) Vergleich von Auto (1) Unfall (1) * Ohne SimTerms Precision 75% Recall 66,60% Fallout 28,50% Mit SimTerms Precision 78% Recall 78% Fallout 29% * Schwellenwert: 0,707 22/33

23 Evaluation B (mit simterms ) tf-idf und Termfrequenz haben nun unterschiedliche Werte Ranking von tf-idf ist unserem persönlichen Ranking ähnlicher als Termfrequenz 23/33

24 Inhalt Wiederholung Vektormodell Systemarchitektur Evaluation Ergebnisse Aufgetretene Probleme Lösungen Fazit Zusammenfassung Ausblick Demo 24/33

25 Fazit Zusammenfassung Berücksichtigung von Wörtern, die Anfrageterm beinhalten, bringt Verbesserung (simterms) tf-idf bringt (geringe) qualitative Verbesserung Precision lag bei ca. 76%* Gutes Ergebnis Aussortieren der Stoppwörter hat unser Ergebnis nicht beeinflusst * bei gleicher Gewichtung der Anfrageterme ca. 76%; bei unterschiedlicher Gewichtung zw. 54% und 73% 25/33

26 Fazit Ausblick Deklination & Konjugation Bei der Anfrage Unfall wird Unfälle nicht gefunden Bei der Anfrage Auto wird automatisch gefunden Lösung: Stemmer bzw. morphologische Analyse Synonyme Bei der Anfrage Auto wird PKW nicht gefunden Lösung: z.b. Plug-In von wortschatz.uni-leipzig.de 26/33

27 Fazit Ausblick Textverstehen Texte zum Thema In welchen Texten werden Computerspiele als die Ursache von Amokläufen an Schulen genannt? Treffer u.a.: Texte mit:...computerspiele sind defitinitiv nicht die Ursache... Problem! 27/33

28 Inhalt Wiederholung Vektormodell Systemarchitektur Evaluation Ergebnisse Aufgetretene Probleme Lösungen Fazit Zusammenfassung Ausblick Demo 28/33

29 DEMO 29/33

30 DEMO Eingabe 30/33

31 DEMO Ausgabe 31/33

32 Quellenangaben Haenelt (2006). Modelle des Information Retrieval. Vektormodell. Kursfolien Haenelt (2002). Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel. Kursskript Haenelt (2003). Evaluierung von Information Retrieval Systemen. Kursfolien K. Carstensen, et al. (2004). Computerlinguistik und Sprachtechnologie. Spektrum Akademischer Verlag. JavaTM 2 Platform, Std. Ed. v API Specification (Nov./Dez. 2006) 32/33

33 ...Fragen? Vielen Dank! 33/33

Ähnliche Dokumente

HS Information Retrieval

HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele: