Implementation und Evaluation des Vektormodells anhand von TREC-Daten

Größe: px
Ab Seite anzeigen:

Download "Implementation und Evaluation des Vektormodells anhand von TREC-Daten"

Transkript

1 Implementation und Evaluation des Vektormodells anhand von TREC-Daten Seminarprojekt Information Retrieval WS 2015/2016 Bastian Beyer, Alexander Birkenkamp Institut für Computerlinguistik Universität Heidelberg 18. Januar 2016 Beyer, Birkenkamp Vektormodell 18. Januar / 44

2 Gliederung Motivation Vorgehen Systemarchitektur Datengrundlage Preprocessing Ähnlichkeitsfunktionen Evaluation Konklusion Ausblick Quellenangabe Beyer, Birkenkamp Vektormodell 18. Januar / 44

3 Motivation Implementation Motivation Implementation eines klassischen IR-Modells Implementation des Vektormodells 1. Preprocessing-Schritte: obligatorisch: Tokenisierung optional: Stoppwort-Entfernung, Stemming 2. Variierung der Termgewichtung: normalisierte Termfrequenz (tf-gewichte) vs. tf-idf-gewichte 3. Verwendung verschiedener Ähnlichkeitsfunktionen: Skalarprodukt, Kosinus-, Dice-, Jaccard-, Overlap-Koeffizient Beyer, Birkenkamp Vektormodell 18. Januar / 44

4 Motivation Evaluation Motivation Evaluation des implementierten Modells Evaluation des implementierten Vektormodells anhand einer Dokumentenkollektion von der TREC liefert Goldstandard fachlich anerkannt Verwendung der AQUAINT-2 -Kollektion des Question Answering Track 2007 Beyer, Birkenkamp Vektormodell 18. Januar / 44

5 Motivation Zentrale Fragestellung Zentrale Fragestellung. Welchen Einfluss auf die Qualität des Suchergebnisses hat die Verwendung verschiedener Preprocessing-Schritte, Termgewichte und. Ähnlichkeitsfunktionen für eine Implementation des Vektormodells? Beyer, Birkenkamp Vektormodell 18. Januar / 44

6 Vorgehen Aufgaben Aufgaben 1. Extraktion der Anfragen, Relevanzbeurteilungen und Dokumente aus Dateien 2. Bildung von Anfrage- und Dokumentobjekten 3. Preprocessing der Anfrage- und Dokumentobjekte i. Tokenisierung ii. Stoppwort-Entfernung (optional) iii. Stemming (optional) iv. Sammeln des Vokabulars Beyer, Birkenkamp Vektormodell 18. Januar / 44

7 Vorgehen Aufgaben Aufgaben (3.) Preprocessing der Anfrage- und Dokumentobjekte v. Ermittlung der Termfrequenzen für alle Dokumente vi. Identifizierung der maximalen Termfrequenz für alle Dokumente vii. Bestimmung der Dokumenthäufigkeiten für alle Terme viii. Erzeugung von Vektorrepräsentationen 4. Ranking der Dokumentobjekte mittels Ähnlichkeitsfunktionen 5. Evaluation des Rankings Beyer, Birkenkamp Vektormodell 18. Januar / 44

8 Systemarchitektur Aufbau des Systems Aufbau des Systems Q. Preprocessing Tokenisierung F Datenextraktion Q (Stoppwort-Entfernung) (Stemming) Q L Vektortransformation Ranking Preprocessing R Tokenisierung Evaluation D Datenextraktion D (Stoppwort-Entfernung) (Stemming) D Vektortransformation Abbildung 1 : Aufbau des verwendeten Systems als UML-Diagramm Beyer, Birkenkamp Vektormodell 18. Januar / 44

9 Systemarchitektur Aufbau des Systems Aufbau des Systems Abkürzung Beschreibung Q F L D Q Anfrageobjekte D Dokumentobjekte Q vorverarbeitete Anfrageobjekte Sammlung von Testfragen (XML-Datei) Relevanzbeurteilungen für Faktoidfragen (Textdatei) Relevanzbeurteilungen für Listenfragen (Textdatei) Dokumentenkollektion (XML-Dateien) D vorverarbeitete Dokumentobjekte R Relevanzbeurteilungen der geordneten Dokumente (Textdatei) Tabelle 1 : Legende zu UML-Diagramm Beyer, Birkenkamp Vektormodell 18. Januar / 44

10 Systemarchitektur Modulübersicht Modulübersicht Query.py und Document.py: Implementierung der Eigenschaften eines Anfrage- bzw. Dokumentobjektes Identifizierer, Inhalt, Terme, Vektorrepräsentation; bei Anfragen zusätzlich Identifizierer relevanter Dokumente DataReader.py: Einlesen der Fragen, Relevanzbeurteilungen und Dokumente Erzeugung von Anfrage- und Dokumentobjekten Beyer, Birkenkamp Vektormodell 18. Januar / 44

11 Systemarchitektur Modulübersicht Modulübersicht Preprocessor.py: Vorverarbeitung von Anfrage- und Dokumentobjekten Tokenisierung, Stoppwort-Entfernung, Stemming, Vektortransformation Ranking.py: Implementierung der Ähnlichkeitsfunktionen Erzeugung der Dokumenten-Rankings Schreiben der Relevanzbeurteilungen der geordneten Dokumente in Ausgabedatei zur Verarbeitung mittels Evaluationsskript Implementierung in Python 2.7 Klassendiagramme siehe Anhang A Beyer, Birkenkamp Vektormodell 18. Januar / 44

12 Datengrundlage Übersicht über die Daten Datengrundlage Übersicht über die Daten AQUAINT-2 -Dokumentenkollektion: englische Zeitungsartikel, z. B. aus New York Times oder von Associated Press Zeitraum: Oktober 2004 bis März Dokumente in 108 XML-Dateien (ca. 2,5 GB) Anfragen aus Sammlung von Testfragen: drei Typen von Fragen: FACTOID, LIST, OTHER insgesamt 515 Fragen gespeichert in einer XML-Datei Relevanzbeurteilungen der Dokumente: jeweils eine Textdatei für Faktoid- und Listenfragen legen Goldstandard fest Beyer, Birkenkamp Vektormodell 18. Januar / 44

13 Datengrundlage Dokumentenkollektion Datengrundlage Dokumentenkollektion Extraktion der Identifizierer und Dokumententexte Text zwischen den Attributen HEADLINE, DATELINE, DATE_TIME, KEYWORD, TEXT und P Bildung von Dokumentobjekten <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE DOCSTREAM SYSTEM 'a2_newswire_xml.dtd'> <DOCSTREAM> [...] <DOC id="nyt_eng_ " type="story"> <HEADLINE> TV COLUMN: AND NOW FOR A WILDER KINGDOM </HEADLINE> <TEXT> [...] <P> [...] In 1960 Marlin Perkins, the original "Wild Kingdom" host, joined Sir Edmund Hillary in a Himalayan expedition in which Perkins examined evidence of the Abominable Snowman. [...] </P> [...] </TEXT> </DOC> [...] </DOCSTREAM> Abbildung 2 : Auszug aus XML-Datei mit Dokumenten Beyer, Birkenkamp Vektormodell 18. Januar / 44

14 Datengrundlage Anfragen Datengrundlage Anfragen aus Sammlung von Testfragen Extraktion der Identifizierer und Fragentexte Ausschluss von Fragen des Typs OTHER, da diese nur Other als Text enthalten und somit für unsere Aufgabenstellung nicht verwendbar sind Erzeugung von Anfrageobjekten (445 insgesamt) <trecqa year="2007" task="main"> [...] <target id = "285" text = "Yeti"> <qa> <q id = "285.1" type="factoid"> In what year did Sir Edmund Hillary search for Yeti? </q> </qa> <qa> <q id = "285.2" type="list"> In what U.S. states have sightings of Yeti been reported? </q> </qa> [...] <qa> <q id = "285.6" type="other"> Other </q> </qa> </target> [...] </trecqa> Abbildung 3 : Auszug aus XML-Datei der Testfragen Beyer, Birkenkamp Vektormodell 18. Januar / 44

15 Datengrundlage Relevanzbeurteilungen Datengrundlage Relevanzbeurteilungen der Dokumente Extraktion von Anfrage- und Dokumentidentifizierern aus beiden Dateien Abspeicherung in Anfrageobjekten Ausschluss von BLOG06 -Dokumenten (Korpus steht uns nicht zur Verfügung) [...] NYT_ENG_ AFP_ENG_ BLOG AFP_ENG_ September 2003 [...] Abbildung 4 : Auszug aus Textdatei der Relevanzbeurteilungen für Faktoidfragen [...] AFP_ENG_ Kathmandu AFP_ENG_ Florida AFP_ENG_ Colorado AFP_ENG_ Pennsylvania [...] Abbildung 5 : Auszug aus Textdatei der Relevanzbeurteilungen für Listenfragen Beyer, Birkenkamp Vektormodell 18. Januar / 44

16 Datengrundlage Erstellung des Test Set Erstellung des Test Set Problem: Verarbeitung aller Dokumente sehr rechenaufwändig, daher Reduzierung der zu verarbeitenden Datenmenge zufällige Auswahl von 25 Anfragen, ihrer lt. Goldstandard relevanten Dokumente und einer gleichen Anzahl zufällig gewählter, lt. Goldstandard irrelevanter Dokumente somit insgesamt Dokumente (davon 573 relevante) Test Set parallele Programmierung möglicher Ansatzpunkt für weitere Arbeit zur Vergrößerung der Datenmenge Beyer, Birkenkamp Vektormodell 18. Januar / 44

17 Preprocessing Anfragen und Dokumente Preprocessing der Anfragen und Dokumente 1. Tokenisierung (obligatorisch): Funktion word_tokenize des Natural Language Toolkit ( NLTK ) Aussortierung von Punktuationszeichen aus Python-Liste string.punctuation 2. Entfernung englischer Stoppwörter (optional): Liste stopwords.words(''english'') aus nltk.corpus zusätzlich Entfernung ihrer kapitalisierten Varianten 3. Stemming (optional): nltk.stem.snowball: stem-methode des EnglishStemmer Beyer, Birkenkamp Vektormodell 18. Januar / 44

18 Preprocessing Termgewichte Berechnung der Termgewichte auf Basis der Dokumente Erstellung von Vektorrepräsentationen auf Basis der Dokumententerme in den Varianten: a. Tupel mit normalisierten Termfrequenzen (tf-gewichten) b. Tupel mit Produkten aus normalisierter Termfrequenz und inverser Dokumentfrequenz (tf-idf-gewichten) Beyer, Birkenkamp Vektormodell 18. Januar / 44

19 Ähnlichkeitsfunktionen Skalarprodukt und Kosinus-Koeffizient Ähnlichkeitsfunktionen 1 für Vektoren q, d mit n Einträgen Skalarprodukt (einfache Übereinstimmung) n (q k d k ) k=1 Kosinus-Koeffizient n k=1 (q k d k ) n k=1 q2 k n k=1 d2 k 1 Vgl. Haenelt, Karin (2012), Kursfolien Ähnlichkeitsmaße für Vektoren, S. 8 Beyer, Birkenkamp Vektormodell 18. Januar / 44

20 Ähnlichkeitsfunktionen Dice- und Jaccard-Koeffizient Ähnlichkeitsfunktionen 1 für Vektoren q, d mit n Einträgen Dice-Koeffizient 2 n k=1 (q k d k ) n k=1 q k + n k=1 d k Jaccard-Koeffizient n k=1 (q k d k ) n k=1 q k + n k=1 d k n k=1 (q k d k ) 1 Vgl. Haenelt, Karin (2012), Kursfolien Ähnlichkeitsmaße für Vektoren, S. 8 Beyer, Birkenkamp Vektormodell 18. Januar / 44

21 Ähnlichkeitsfunktionen Overlap-Koeffizient Ähnlichkeitsfunktionen 1 für Vektoren q, d mit n Einträgen Overlap-Koeffizient n k=1 min(q k, d k ) min ( n k=1 q k, n k=1 d k) 1 Vgl. Haenelt, Karin (2012), Kursfolien Ähnlichkeitsmaße für Vektoren, S. 8 Beyer, Birkenkamp Vektormodell 18. Januar / 44

22 Evaluation Vorgehen Vorgehen bei der Evaluation Dokumente aus Test Set werden für jede Anfrage und jede Variante des Vektormodells gerankt Evaluation des erstellten Rankings durch Python-Skript (evaluator.py) Berechnung je eines Recall-Precision-Graphen pro Modellvariante zur vergleichenden Darstellung der Evaluationsergebnisse Beyer, Birkenkamp Vektormodell 18. Januar / 44

23 Evaluation Evaluationsmaße Evaluationsmaße 2 Precision Anzahl der relevanten Dokumente im Suchergebnis Anzahl aller Dokumente im Suchergebnis Recall Anzahl der relevanten Dokumente im Suchergebnis Anzahl aller relevanten Dokumente Relevanz durch Goldstandard festgelegt für Recall-Precision-Graph Messung bzw. Interpolation der Precision auf 11 Standard-Recall-Ebenen (0,0 0,1 1,0) 2 Vgl. Haenelt, Karin (2009), Kursfolien Evaluierung von Information Retrieval Systemen. Teil 1: Standardverfahren, S. 8 f. Beyer, Birkenkamp Vektormodell 18. Januar / 44

24 Evaluation Ergebnisse für Preprocessing Evaluationsergebnisse Übersicht - Preprocessing Darstellung der Evaluationsergebnisse des Vektormodells als Recall-Precision-Graph bei Verwendung verschiedener Preprocessing-Module: ohne Preprocessing (Baseline) mit Stoppwort-Entfernung mit Stemming mit Kombination aus Stoppwort-Entfernung und Stemming - bei Verwendung verschiedener Termgewichte - bei Verwendung verschiedener Ähnlichkeitsfunktionen Beyer, Birkenkamp Vektormodell 18. Januar / 44

25 Evaluation Ergebnisse für Preprocessing Verwendung verschiedener Preprocessing-Module Berechnung mit Skalarprodukt und tf-gewichten Precision beide Module.. Stoppwort-. Entfernung. Stemming.. Baseline Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

26 Evaluation Ergebnisse für Preprocessing Verwendung verschiedener Preprocessing-Module Auswertung Stemming ohne klaren Vorteil möglicher Grund: geringes Maß an Flektion im Englischen auch bei Verwendung von Stoppwort-Entfernung kein zusätzlicher Zugewinn durch Stemming Stoppwort-Entfernung sehr hilfreich möglicher Grund: gleichmäßige Verteilung von Stoppwörtern über alle Dokumente Auftreten von Stoppwörtern dadurch kaum informativ für Unterscheidung der Dokumente (bei Nichtbeachtung des Kontextes!) Beyer, Birkenkamp Vektormodell 18. Januar / 44

27 Evaluation Ergebnisse für Termgewichte Evaluationsergebnisse Übersicht - Termgewichte Darstellung der Evaluationsergebnisse des Vektormodells als Recall-Precision-Graph - bei Verwendung verschiedener Preprocessing-Module bei Verwendung verschiedener Termgewichte: tf-gewichte (Baseline) tf-idf-gewichte - bei Verwendung verschiedener Ähnlichkeitsfunktionen Beyer, Birkenkamp Vektormodell 18. Januar / 44

28 Evaluation Ergebnisse für Termgewichte Verwendung verschiedener Termgewichte Berechnung mit Skalarprodukt, ohne Preprocessing tf.. tf-idf. Precision Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

29 Evaluation Ergebnisse für Termgewichte Verwendung verschiedener Termgewichte Auswertung bei tf-gewichten nur Dokumentlänge betrachtet klarer Vorteil durch Einbeziehung der inversen Dokumentfrequenz, welche die Verteilung der Terme im Korpus berücksichtigt dadurch Abwertung von Termen, die in vielen Dokumenten vorkommen Beyer, Birkenkamp Vektormodell 18. Januar / 44

30 Evaluation Ergebnisse für Ähnlichkeitsfunktionen Evaluationsergebnisse Übersicht - Ähnlichkeitsfunktionen Darstellung der Evaluationsergebnisse des Vektormodells als Recall-Precision-Graph - bei Verwendung verschiedener Preprocessing-Module - bei Verwendung verschiedener Termgewichte bei Verwendung verschiedener Ähnlichkeitsfunktionen: Skalarprodukt (Baseline) Kosinus-Koeffizient Dice-Koeffizient Jaccard-Koeffizient Overlap-Koeffizient Beyer, Birkenkamp Vektormodell 18. Januar / 44

31 Evaluation Ergebnisse für Ähnlichkeitsfunktionen Verwendung verschiedener Ähnlichkeitsfunktionen ohne Preprocessing, mit tf-gewichten Precision Skalarprodukt.. Kosinus.. Dice.. Jaccard.. Overlap Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

32 Evaluation Ergebnisse für Ähnlichkeitsfunktionen Verwendung verschiedener Ähnlichkeitsfunktionen Auswertung Unterschiede besonders im Bereich Recall < 0.5 Kosinus-Koeffizient mit leicht besserem Ergebnis als Skalarprodukt und Overlap-Koeffizient Dice- und Jaccard-Koeffizient mit geringerer Precision und fast gleichen Ergebnissen möglicher Grund für fast gleiche Ergebnisse: relativ ähnliche Berechnung Beyer, Birkenkamp Vektormodell 18. Januar / 44

33 Evaluation Ergebnisse mit komplettem System Verwendung verschiedener Ähnlichkeitsfunktionen mit komplettem Preprocessing und Verwendung von tf-idf-gewichten Precision Skalarprodukt.. Kosinus.. Dice.. Jaccard.. Overlap Recall Beyer, Birkenkamp Vektormodell 18. Januar / 44

34 Konklusion Konklusion bei Verwendung von komplettem Preprocessing und tf-idf-gewichten deutlich bessere Ergebnisse als bei Baseline-System Stoppwort-Entfernung und Verwendung von tf-idf-gewichten (d. h. Abwertung von Wörtern, die nicht informativ für die Unterscheidung sind) scheinen größten Einfluss zu haben Beyer, Birkenkamp Vektormodell 18. Januar / 44

35 Ausblick Ausblick Verarbeitung von mehr als nur 25 Anfragen und Dokumenten (z. B. ein komplettes TREC-Datenset) durch Parallelisierung und Verwendung von mehr Arbeitsspeicher Evaluation weiterer Retrievalmodelle Einbeziehung syntaktischer und semantischer Eigenschaften von Wörtern sowie deren Kontext bzw. Kookkurrenz für die Bestimmung der Ähnlichkeit Beyer, Birkenkamp Vektormodell 18. Januar / 44

36 Quellenangabe Datenquellen Datenquellen Dokumentenkorpus Vorhees, Ellen & David Graff AQUAINT-2 Information-Retrieval Text Research Collection LDC2008T25. Philadelphia: Linguistic Data Consortium. Korpus vorhanden am Institut für Computerlinguistik der Universität Heidelberg. Pfad: /resources/corpora/monolingual/raw/aquaint-2/data/ Version vom Beyer, Birkenkamp Vektormodell 18. Januar / 44

37 Quellenangabe Datenquellen Datenquellen Anfragen und Relevanzbeurteilungen TREC 2007 Factoid Judgments. Version vom TREC 2007 List Judgments. Version vom TREC 2007 Test Questions. Version vom Beyer, Birkenkamp Vektormodell 18. Januar / 44

38 Quellenangabe Literatur Literatur TREC 2007 Question Answering Guidelines. Version vom Baeza-Yates, Ricardo & Berthier Ribeiro-Neto Modern Information Retrieval. Harlow, England: Addison-Wesley Longman. Bird, Steven, Ewan Klein & Edward Loper Natural Language Processing with Python. Beijing, Köln: O Reilly. Beyer, Birkenkamp Vektormodell 18. Januar / 44

39 Quellenangabe Kursfolien HS Information Retrieval Kursfolien HS Information Retrieval Haenelt, Karin Information Retrieval Modelle. Vektormodell. Kursfolien vom (1. Fassung vom ) Haenelt_IR_Modelle_Vektor.pdf Haenelt, Karin Ähnlichkeitsmaße für Vektoren. Kursfolien vom (1. Fassung vom ) Haenelt_VektorAehnlichkeit.pdf Haenelt, Karin Evaluierung von Information Retrieval Systemen. Teil 1: Standardverfahren. Kursfolien vom Haenelt_IR-Evaluierung01.pdf Beyer, Birkenkamp Vektormodell 18. Januar / 44

40 Quellenangabe Abbildungs- und Tabellenverzeichnis Abbildungs- und Tabellenverzeichnis Abbildungen: Abbildung 1: Abbildung 2: Abbildung 3: Abbildung 4: Abbildung 5: Diagramme: eigene Darstellung; vgl. Haenelt, Karin (2009), Kursfolien Information Retrieval Modelle. Vektormodell, S. 3 f. Auszug aus AQUAINT-2 -Korpus [Vorhees, Ellen & David Graff (2008)] Auszug aus TREC 2007 Test Questions [siehe Datenquellen] Auszug aus TREC 2007 Factoid Judgments [siehe Datenquellen] Auszug aus TREC 2007 List Judgments [siehe Datenquellen] eigene Ergebnisse Tabellen: Tabelle 1: siehe Abbildung 1 Beyer, Birkenkamp Vektormodell 18. Januar / 44

41 Anhang A Klassendiagramme Anhang A: Klassendiagramme Module Query.py und Document.py Query _id : str _content : str _terms : list _vec : tuple _reldocs : list. init ( qid : str, content : str ) : Query Akzessoren und Mutatoren _id : str _content : str _terms : list _vec : tuple Document init ( did : str, content : str ) : Document Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

42 Anhang A Klassendiagramme Anhang A: Klassendiagramme Modul DataReader.py DataReader _queries : list _numqueries : float _documents : list _numdocuments : float init () : DataReader. _readqueriesfile( filename : str ) : None _readjudgmentsfiles( factoidjudgmentsfilename : str, listjudgmentsfilename : str ) : None _readdocumentsfiles( path : str ) : None reducedata() : None Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

43 Anhang A Klassendiagramme Anhang A: Klassendiagramme Modul Preprocessor.py Preprocessor _queries : list _numqueries : float _documents : list _numdocuments : float _stopwordremoval : bool _stemming : bool _tfidfweights : bool _vocabulary : dict _numvocabs : float _docstermsfreq : dict _docsmaxtermfreq : dict _termsdocsfreq : dict. init ( dr : DataReader, stopwordremoval : bool, stemming : bool, tfidfweights : bool ) : Preprocessor _tokenize() : None _removestopwords() : None _stem() : None _buildvocabulary() : None _countdocstermsfreq() : None _finddocsmaxtermfreq() : None _counttermsdocsfreq() : None _buildqueriesvec() : None _builddocumentsvec() : None Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

44 Anhang A Klassendiagramme Anhang A: Klassendiagramme Modul Ranking.py Ranking _queries : list _numqueries : float _documents : list _numdocuments : float _simfunction : str _outputfilename : str _rankings : dict _reljudgments : dict init ( pr : Preprocessor,. simfunction : str, outputfilename : str ) : Ranking _dotproduct( u : tuple, v : tuple ) : float _cosine( u : tuple, v : tuple ) : float _dice( u : tuple, v : tuple ) : float _jaccard( u : tuple, v : tuple ) : float _overlap( u : tuple, v : tuple ) : float _rank() : None _createreljudgments() : None _writereljudgments() : None Akzessoren und Mutatoren Beyer, Birkenkamp Vektormodell 18. Januar / 44

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence

Mehr

Thema: Prototypische Implementierung des Vektormodells

Thema: Prototypische Implementierung des Vektormodells Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Implementierung: Dokumentclustering

Implementierung: Dokumentclustering Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Information Retrieval Modelle: Boolesches Modell. Karin Haenelt

Information Retrieval Modelle: Boolesches Modell. Karin Haenelt Information Retrieval Modelle: Boolesches Modell Karin Haenelt 19.10.2009 1 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Boolesches Modell Darstellung der Systemkomponenten am

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Einführung in die Computerlinguistik Information Retrieval: tf.idf Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Klassische Information Retrieval Modelle Einführung

Klassische Information Retrieval Modelle Einführung Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle

Mehr

Implementierung des Vektor Modells

Implementierung des Vektor Modells Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler

Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler (kugl2203@uni-trier.de) 1 Information Retrieval Information Retrieval (IR) ist das maschinelle,

Mehr

Programmierkurs Python

Programmierkurs Python Programmierkurs Python Michaela Regneri & Stefan Thater Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Winter 2010/11 Übersicht Das Programmierprojekt Aufgabenstellung Praktische

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Dokumentclustering am Beispiel von Liedtexten

Dokumentclustering am Beispiel von Liedtexten Universität Heidelberg Seminar für Computerlinguistik Hauptseminar Information Retrieval WS09 Dr. Karin Haenelt Inhalt 1 2 3 4 5 Outline 1 2 3 4 5 Lieder thematisch gruppieren anhand der Liedtexte Ausgabe

Mehr

Modell und Implementierung einer temporalen Anfragesprache

Modell und Implementierung einer temporalen Anfragesprache Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt Google Knowledge Graph Kursfolien Teil 2 Karin Haenelt 1.8.2015 Themen Systemübersicht Datengraph Aufbau Modellierung Auswertungen des Datengraphen Aufschlussreiche Beziehungen Retrievalbeispiele 2 Google

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Klassifikation von Textabschnitten

Klassifikation von Textabschnitten Klassifikation von Textabschnitten Am Beispiel von Stellenanzeigen (JASC - Job Ads Section Classifier) Gliederung 1. Einführung: Zu welchem Zweck machen wir das? 2. Klassifikation ein kurzer Überblick

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Information Retrieval. Domenico Strigari Dominik Wißkirchen Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Question Answering mit Support Vector Machines

Question Answering mit Support Vector Machines Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5. Aktuell: Benutzer sucht Informationen und erhält

Mehr

I. II. I. II. III. IV. I. II. III. I. II. III. IV. I. II. III. IV. V. I. II. III. IV. V. VI. I. II. I. II. III. I. II. I. II. I. II. I. II. III. I. II. III. IV. V. VI. VII. VIII.

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Algorithmische Anwendungen WS 05/06 Document Ranking

Algorithmische Anwendungen WS 05/06 Document Ranking Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Entity Search. Michel Manthey Arne Binder 2013

Entity Search. Michel Manthey Arne Binder 2013 Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die

Mehr

Automatische Textzusammenfassung

Automatische Textzusammenfassung Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Information Retrieval Automatische Textzusammenfassung Referat von Elena Loupanova 23.01.2006 Definition Textzusammenfassung The

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,

Mehr

Einführung in das Natural Language Toolkit

Einführung in das Natural Language Toolkit Einführung in das Natural Language Toolkit Markus Ackermann Abteilung für Automatische Sprachverarbeitung (Universität Leipzig) 11. Mai 2011 Kurzeinführung nützliche

Mehr

Einführung in Apache Solr

Einführung in Apache Solr Einführung in Apache Solr Markus Klose & Daniel Wrigley O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo Inhalt Vorwort IX Einleitung XI 1 Schnelleinstieg in Solr 1 Was ist Solr? 1 Was ist Lucene?

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Anwendungen der KI / SoSe 2018

Anwendungen der KI / SoSe 2018 Anwendungen der KI / SoSe 2018 Organisatorisches Prof. Dr. Adrian Ulges Angewandte Informatik / Medieninformatik / Wirtschaftsinformatik / ITS Fachbereich DSCM Hochschule RheinMain KursWebsite: www.ulges.de

Mehr

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Verteidigung Bachelorarbeit Tristan Licht Gutachter Betreuer : Junior-Prof. Dr. Matthias

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Praktischer Teil des Seminars. Gruppe C Sebastian Raßmann Christian Michele

Praktischer Teil des Seminars. Gruppe C Sebastian Raßmann Christian Michele Praktischer Teil des Seminars Gruppe C Sebastian Raßmann Christian Michele Aufgabenstellung 6 Aufgaben: DTF vs. DTF max. 5 DL vs. CORI 5 DTF: BM 25 vs. TF.IDF CORI: nur BM25 nur DTF: c=1 vs. c=0.5 nur

Mehr

Evaluierung von Information Retrieval Systemen / /

Evaluierung von Information Retrieval Systemen / / Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 4.2.204 / 5.2.203 / 5.2.20 Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Kapitel 19 Textstatistik HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Die These von Luhn: Termhäufigkeit als Signifikanzfaktor Luhn, H.P. (1957): A statistical approach to mechanized encoding and

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Latent Semantic Indexing: Einführung und Experiment

Latent Semantic Indexing: Einführung und Experiment Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer

Mehr

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Möglichkeiten der automatischen Sprachverarbeitung mit Django Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung

Mehr

PCA based feature fusion

PCA based feature fusion PCA based feature fusion Seminar Inhaltsbasierte Bildsuche WS 04/05 Übersicht Motivation: PCA an einem Beispiel PCA in der Bildsuche Tests Zusammenfassung / Ausblick Diskussion / Demo 2 Motivation: PCA

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Suchmaschinentechnologie

Suchmaschinentechnologie Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2

Mehr

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/ Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur

Mehr

Exposé zur Studienarbeit. 04. August 2010

Exposé zur Studienarbeit. 04. August 2010 Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses

Mehr

Sprachübergreifendes Information Retrieval (CLIR)

Sprachübergreifendes Information Retrieval (CLIR) WikiTranslate Ruprecht-Karls-Universität Heidelberg WS 2009/2010 HS: Information Retrieval Leitung: Dr. Karin Haenelt 18. Januar 2010 Auf den folgenden Folien wird der Ansatz von D. Nguyen, A.Overwijk,

Mehr

Implementation eines Rankingverfahrens in Perl - Dokumentation und Evaluation -

Implementation eines Rankingverfahrens in Perl - Dokumentation und Evaluation - Implementation eines Rankingverfahrens in Perl - Dokumentation und Evaluation - Hausarbeit zum Blockkurs Information Retrieval Wintersemester 2004/2005 Seminarleitung: Prof. Dr. Klaus U. Schulz Verfasserinnen:

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,

Mehr

Besonderheiten der Daten (1) Information Retrieval im Internet. Suchmaschinen: Zentralisierte Architektur. Besonderheiten der Daten (2)

Besonderheiten der Daten (1) Information Retrieval im Internet. Suchmaschinen: Zentralisierte Architektur. Besonderheiten der Daten (2) Besonderheiten der Daten (1) Information Retrieval im Internet Kursfolien Karin Haenelt Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets verändert

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Stemming. Referenten: Johannes Lang Rossen Kowatschew

Stemming. Referenten: Johannes Lang Rossen Kowatschew Universität Heidelberg Institut für Computerlinguistik HS Information Retrieval WS 01/02 Leitung: Dr. Karin Haenelt 04.02. 2002 Stemming. Referenten: Johannes Lang Rossen Kowatschew Gliederung Einführung:

Mehr

Wortähnlichkeit: Praktische Implementierung

Wortähnlichkeit: Praktische Implementierung Wortähnlichkeit: Praktische Implementierung Benjamin Roth Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München beroth@cisuni-muenchende Benjamin Roth (CIS) Wortähnlichkeit:

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

2.4 Effiziente Datenstrukturen

2.4 Effiziente Datenstrukturen 2.4 Effiziente Datenstrukturen Effizienz des Systems bezeichnet den sparsamer Umgang mit Systemressourcen und die Skalierbarkeit auch über große Kollektionen. Charakteristische Werte für Effizienz sind

Mehr

Analyse von News-Artikeln

Analyse von News-Artikeln Projekt Big Data Abschlusspräsentation Analyse von News-Artikeln Sentimentanalyse mit Word2vec Raffael Diestel, Maike Schubert Inhalt Einleitung Ziele Realisierung Vorläufige Ergebnisse TODO Einleitung

Mehr