Implementierung eines Vektormodells

Größe: px
Ab Seite anzeigen:

Download "Implementierung eines Vektormodells"

Transkript

1 Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg / 30

2 Einleitung Idee 1: Vergleich der VSM-Varianten Vergleich Ähnlichkeitsmaße Vergleich Termgewichtungen Idee 2: Ähnlichkeit von Wikipedia-Artikeln berechnen sehr ähnl. Artikel zu einem zus.fügen, Redundanzen beseitigen Idee 3: zu einem Bibelvers ähnliche Verse ausgeben mehr dazu später Vorteil gegenüber Idee 2: betrachte Verse als Dokumente sehr kurze Dokumente daher: Idee 2 nicht weiter verfolgt 2 / 30

3 Überblick Modell Vergleich VSM-Varianten Fragestellungen Daten WikiSE Wikipedia Search Engine Ergebnisse Evaluation BibleVerSE Bible Verse Search Engine Motivation Daten BibleVerSE Demo Evaluation Fazit & Ausblick 3 / 30

4 Modell Vektormodell basiert auf Wortfrequenzen und Ähnlichk.maßen Unser Vektormodell Drei Termgewichtungen: keine (einfache Frequenzen) normalisierte Frequenzen tf-idf Zwei Ähnlichkeitsmaße: Cosinus-Ähnlichkeit euklidische Distanz Alle Möglichkeiten implementiert über Konsole wählbar Modell eingebaut in zwei Programme 4 / 30

5 Vergleich der VSM-Varianten 5 / 30

6 Fragestellungen 1 Zusammenhang zwischen berechneter Ähnlichkeit und subjektiver Relevanz der Ergebnisse für eine Query? 2 Unterschiede durch verschiedene Termgewichtungen? 3 Unterschiede durch verschiedene Ähnlichkeitsmaße? 6 / 30

7 Daten Korpus: Teilkorpus aus Wikicorpus 1.0, eine Sammlung von Wikipedia-Artikeln (Reese et. al. 2010) Berechnung der Ähnlichkeitsmaße durch dafür entwickeltes Programm (WikiSE) Manuelles Ranking der Ergebnisse nach Relevanz auf einer Skala von 1 (nicht relevant) bis 5 (sehr relevant) 7 / 30

8 WikiSE Wikipedia Search Engine Implementiert in Python Eingabe: Suchanfrage Benutzerdialog: welche Termgewichtung? welches Ähnlichkeitsmaß? Ermittlung der 10 ähnlichsten Wikipedia-Artikel (Vector Space Model) Ausgabe:.html-Datei mit Verlinkungen auf die 10 Artikel 8 / 30

9 Ergebnisse - Erwartete Ergebnisse Abbildung 1 : Erwartete Verteilung Je höher die Kosinusähnlichkeit, desto höher die Relevanz. Je niedriger die euklidische Distanz, desto höher die Relevanz. 9 / 30

10 Tatsächliche Ergebnisse - Beispiel 1 - Kosinusähnlichkeit Abbildung 2 : SF, NTF Abbildung 3 : tf-idf Beispiel 1a: Kosinusähnlichkeit für Query british writer mit einfachen Frequenzen (SF), normalisierten Termfrequenzen (NTF) und tf-idf. 10 / 30

11 Tatsächliche Ergebnisse - Beispiel 1 -Euklidische Distanz Abbildung 4 : SF Abbildung 5 : NTF Abbildung 6 : tf-idf Beispiel 1b: Euklidische Distanz für Query british writer mit SF, NTF und tf-idf 11 / 30

12 british writer Kosinus vs. ED Kosinusähnlichkeit für british writer für SF, NTF, tf-idf : Kurve wie erwartet SF und NTF: gleiche Kurve SF/NTF vs. tf-idf : nur geringer Unterschied ED für british writer SF: Kurve wie erwartet für NTF, tf-idf : Kurve nicht wie erwartet NTF, tf-idf : sehr ähnlich 12 / 30

13 Tatsächliche Ergebnisse - Beispiel 2 - Kosinusähnlichkeit Abbildung 7 : SF Abbildung 8 : NTF Abbildung 9 : tf-idf Beispiel 2a: Kosinusähnlichkeit für Query fictional character mit SF, NTF und tf-idf 13 / 30

14 Tatsächliche Ergebnisse - Beispiel 2 - Euklidische Distanz Abbildung 10 : SF Abbildung 11 : NTF Abbildung 12 : tf-idf Beispiel 2b: Euklidische Distanz für Query fictional character mit SF, NTF und tf-idf 14 / 30

15 fictional character Kosinus vs. ED Kosinusähnlichkeit für fictional character für SF, NTF, tf-idf : Kurven nicht wie erwartet SF, NTF: fast gleich ED für fictional character für SF, NTF, tf-idf : Kurven nicht ganz wie erwartet für NTF, tf-idf : Kurven sehr ähnlich 15 / 30

16 Evaluation In unserem Programm ist die erwartete Korrelation von berechneter Ähnlichkeit (beide Ahnlichkeitsmaße) und tatsächlicher Relevanz der darauf basierenden Suchergebnisse nicht festzustellen Die Termgewichtungen haben keinen wesentlichen Einfluss auf die Ergebnisse, d.h. eine Änderung der zugrundeliegenden Termgewichtung führt nicht zu einer Verbesserung der Korrelation von Ähnlichkeitswerten und tatsächlicher Relevanz 16 / 30

17 Konkrete Anwendung: BibleVerSE Bible Verse Search Engine 17 / 30

18 Motivation Suche zu einem Bibelvers ähnliche Verse Bsp. Herrnhuter Losungen: passender Bibelvers aus dem Neuen Testament zu einem Vers aus dem alten Testament 18 / 30

19 Daten Testweise 5 Paulus-Briefe aus dem NT Römer, Galater, Epheser, Philipper, Kolosser Grund: durch gleichen Autor + ähnliche Adressaten wahrscheinlich ähnliche Wörter + ähnliche Themen Korpus: SCHLACHTER BIBEL 1951.txt-Datei 19 / 30

20 Korpusauszug 20 / 30

21 BibleVerSE Funktioniert im Prinzip wie WikiSE, aber einige kleinere Anpassungen Eingabe: Bibelvers Benutzerdialog: welches Ähnlichkeitsmaß? welche Termgewichtung? Ermittlung der 15 ähnlichsten Bibelverse Ausgabe:.html-Datei mit den 15 Versen 21 / 30

22 BibleVerSE Demo 22 / 30

23 BibleVerSE 23 / 30

24 BibleVerSE Ergebnisdatei 24 / 30

25 Evaluation Abbildung 13 : Kosinusähnlichkeit Abbildung 14 : Euklidische Distanz Beispiel 3: Kosinusähnlichkeit und ED für Query Gnade sei mit euch und Friede von Gott, dem Vater und unsrem Herrn Jesus Christus NTF Entsprechen die tatsächlichen Ergebnisse den erwarteten Ergebnissen mehr als bei WikiSE? mehr Daten notwendig, um das zu entscheiden 25 / 30

26 Fazit Zwar keine quantitative Analyse, aber es macht in manchen Fällen durchaus einen Unterschied, welche Termgewichtung und welches Ähnlichkeitsmaß gewählt werden. Die erwartete Korrelation von berechneter Ähnlichkeit und subjektiver Relevanz der Suchergebnisse ist für kurze Queries nicht festzustellen Vermutungen VSM für BibleVerSE (und WikiSE-Erweiterung) vermutl. besser geeignet als für WikiSE, da ganze Dokumente verglichen werden Bei längeren Queries entsprechen die Ergebnisse vermutl. mehr den Erwartungen (zu wenige Daten zur Überprüfung) 26 / 30

27 Ausblick WikiSE und BibleVerSE Erweiterung des Korpus evtl. parallele Verarbeitung, wenn Korpora größer WikiSE Vergleich von ganzen Wikipedia-Artikeln Anwendung: Zusammenfügen von Wikipedia-Artikeln, die einander sehr ähnlich sind BibleVerSE einige Verbesserungen (z.b. Kodierungsprobleme lösen) Lemmatisierung (z. B. fröhliches fröhlich) 27 / 30

28 Diskussion Fragen? 28 / 30

29 Vielen Dank für die Aufmerksamkeit

30 Quellen I Reese et. al. (2010) Wikicorpus: A Word-Sense Disambiguated Multilingual Wikipedia Corpus Proceedings of 7th Language Resources and Evaluation Conference (LREC 10),La Valleta, Malta nlp/papers/reese10.pdf 30 / 30

Thema: Prototypische Implementierung des Vektormodells

Thema: Prototypische Implementierung des Vektormodells Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia

Mehr

Modell und Implementierung einer temporalen Anfragesprache

Modell und Implementierung einer temporalen Anfragesprache Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Einführung in die Computerlinguistik Information Retrieval: tf.idf Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky

Mehr

Implementierung des Vektor Modells

Implementierung des Vektor Modells Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Latent Semantic Indexing: Einführung und Experiment

Latent Semantic Indexing: Einführung und Experiment Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Information Retrieval. Domenico Strigari Dominik Wißkirchen Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung

Mehr

Implementierung: Dokumentclustering

Implementierung: Dokumentclustering Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester

Mehr

Dokumentclustering am Beispiel von Liedtexten

Dokumentclustering am Beispiel von Liedtexten Universität Heidelberg Seminar für Computerlinguistik Hauptseminar Information Retrieval WS09 Dr. Karin Haenelt Inhalt 1 2 3 4 5 Outline 1 2 3 4 5 Lieder thematisch gruppieren anhand der Liedtexte Ausgabe

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Implementation und Evaluation des Vektormodells anhand von TREC-Daten

Implementation und Evaluation des Vektormodells anhand von TREC-Daten Implementation und Evaluation des Vektormodells anhand von TREC-Daten Seminarprojekt Information Retrieval WS 2015/2016 Bastian Beyer, Alexander Birkenkamp Institut für Computerlinguistik Universität Heidelberg

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Language Identification XXL

Language Identification XXL Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse

Mehr

Text Mining for Second Screen

Text Mining for Second Screen Text Mining for Second Screen Anwendungen 2 Ivan Demin ivan.demin@haw-hamburg.de 5. Juni 2014 Agenda 1 Motivation 2 Learning to link with wikipedia 3 Generating Queries from User-Selected Text 4 Feeding

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

PCA based feature fusion

PCA based feature fusion PCA based feature fusion Seminar Inhaltsbasierte Bildsuche WS 04/05 Übersicht Motivation: PCA an einem Beispiel PCA in der Bildsuche Tests Zusammenfassung / Ausblick Diskussion / Demo 2 Motivation: PCA

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Exposé zur Studienarbeit. 04. August 2010

Exposé zur Studienarbeit. 04. August 2010 Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Hintergrund: Web Search & Ranking in Websuchmaschinen

Hintergrund: Web Search & Ranking in Websuchmaschinen Hintergrund: Web Search & Ranking in Websuchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew LibRank-Abschlussworkshop Hamburg,

Mehr

Entity Search. Michel Manthey Arne Binder 2013

Entity Search. Michel Manthey Arne Binder 2013 Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die

Mehr

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Algorithmische Anwendungen WS 05/06 Document Ranking

Algorithmische Anwendungen WS 05/06 Document Ranking Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Verteidigung Bachelorarbeit Tristan Licht Gutachter Betreuer : Junior-Prof. Dr. Matthias

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5. Aktuell: Benutzer sucht Informationen und erhält

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Automatische Textzusammenfassung

Automatische Textzusammenfassung Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Information Retrieval Automatische Textzusammenfassung Referat von Elena Loupanova 23.01.2006 Definition Textzusammenfassung The

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Möglichkeiten der automatischen Sprachverarbeitung mit Django Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

INFORMATION RETRIEVAL

INFORMATION RETRIEVAL INFORMATION RETRIEVAL Probabilistisches Modell Vortrag von David Wittum zum Hauptseminar Information Retrieval von Dr. Karin Haenelt Gehalten am 25.01.2010 ÜBERBLICK 1. Kurze Wiederholung: Berechnungsaufgaben

Mehr

Weil ich euch in meinem Herzen habe Predigt zu Phil 1,3-11 (22. So n Trin, )

Weil ich euch in meinem Herzen habe Predigt zu Phil 1,3-11 (22. So n Trin, ) Weil ich euch in meinem Herzen habe Predigt zu Phil 1,3-11 (22. So n Trin, 23.10.16) Gnade sei mit euch und Friede von Gott, unserm Vater, und dem Herrn Jesus Christus. Amen. Liebe Gemeinde, wenn Menschen,

Mehr

Question Answering mit Support Vector Machines

Question Answering mit Support Vector Machines Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support

Mehr

Leiter- und Arbeitsunterlagen

Leiter- und Arbeitsunterlagen ü Leiter- und Arbeitsunterlagen YOUBehave = handeln nach Gottes Plan -Jakobus 3, 17-24 Was sagt diese Bibelstelle aus? Jakobus geht es NICHT darum, dass wir möglichst viel für Gott und die Gemeinde tun

Mehr

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006 Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7.  Mathias Lux Caliph & Emir Retrieval und Annotation von digitalen Photos mit MPEG-7 Mathias Lux mlux@know-center.at - gefördert durch das Kompetenzzentrenprogramm Overview Einleitung Geschichtliches Annotation mit

Mehr

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/ Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur

Mehr

Der Heilige Geist. Charaktermerkmale des Heiligen Geistes

Der Heilige Geist. Charaktermerkmale des Heiligen Geistes Der Heilige Geist Charaktermerkmale des Heiligen Geistes Offenbarung 1, 4 + 5 4 Johannes den sieben Gemeinden, die in Asien sind: Gnade euch und Friede von dem, der ist und der war und der kommt, und von

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Enterprise Search Präsentation zur Seminararbeit im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Michael Hübschmann 14. Januar 2014 Betreuung: Dr. Hella Seebach Überblick 1. Motivation

Mehr

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Die treffende Auswahl anbieten: Im Internet (Referat 3a) www.zeix.com Die treffende Auswahl anbieten: Im Internet (Referat 3a) Fachtagung: Suchfunktionen im Web Zürich, 26. Oktober 2006 Jürg Stuker, namics Gregor Urech, Zeix Bern, Frankfurt, Hamburg, München,

Mehr

KONKORDANTES NEUES TESTAMENT DIE PAULUSBRIEFE. Konkordanter Verlag Pforzheim

KONKORDANTES NEUES TESTAMENT DIE PAULUSBRIEFE. Konkordanter Verlag Pforzheim KONKORDANTES NEUES TESTAMENT DIE PAULUSBRIEFE Konkordanter Verlag Pforzheim Die vorliegende Ausgabe ist ein vergrößerter Auszug der Paulusbriefe aus: Konkordantes Neues Testament 6.Auflage 1995 Copyright

Mehr

Bibelstellen zur Trauung Neues Testament

Bibelstellen zur Trauung Neues Testament Das Evangelium nach Matthäus Matthäus Der Mensch lebt nicht vom Brot allein, sondern von jedem Wort, das durch den Mund Gottes geht. Matthäus 5,8 Selig sind, die reinen Herzens sind, denn sie werden Gott

Mehr

Das einzig Wahre. Philipper 1, 9-11

Das einzig Wahre. Philipper 1, 9-11 Das einzig Wahre Philipper 1, 9-11 Der Philipperbrief 51 n. Chr.: Gründung der Gemeinde in Philippi durch Paulus 60 n. Chr.: Paulus Brief an Philipper aus Rom Philipper 1, 1-11 1) Paulus und Timotheus,

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Verschlagwortung digitaler Texte

Verschlagwortung digitaler Texte Verschlagwortung digitaler Texte Verschlagwortung Zuordnung von Schlagwörtern zu einem Dokument (Text) zur Erschließung der darin enthaltenen Sachverhalte Manuelle Verschlagwortung Schlagwörter meist aus

Mehr

Softwareprojekte WS 2009/10. Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10

Softwareprojekte WS 2009/10. Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10 Softwareprojekte WS 2009/10 Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10 Projekt 2 Computing predominant senses for German Computing predominant sense for German Most Frequent

Mehr

Content-Based Audio Management

Content-Based Audio Management Content-Based Audio Management Music Information Retrieval Jake Atwell, Philip Jakob Agenda Einleitung/Motivation Muscle Fish Verfahren Vergleich Fazit 2 Agenda Einleitung/Motivation Muscle Fish Verfahren

Mehr

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden

Mehr

Predigt zu 1Petr 1,8 12

Predigt zu 1Petr 1,8 12 Predigt zu 1Petr 1,8 12 J. Cornelis de Vos, Münster, Universitätskirche, Johannistag, 24.6.2018 Gnade sei mit euch und Friede von Gott dem Vater, dem Sohn und dem Heiligen Geist. Liebe Gemeinde, Der Predigttext

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Computergestützte Freizeitplanung basierend auf Points of Interest

Computergestützte Freizeitplanung basierend auf Points of Interest Computergestützte Freizeitplanung basierend auf Points of Interest Peter Bücker & Ugur Macit {peter.buecker,ugur.macit}@uni-duesseldorf.de Institut für Sprache und Information Abteilung für Informationswissenschaft

Mehr

Informationsextraktion mit endlichen Automaten

Informationsextraktion mit endlichen Automaten Informationsextraktion mit endlichen Automaten HS: Information Retrieval Dozentin: Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Referentinnen: Galina Sigwarth,

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER 2013 Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Hildesheim, 25. 26. April 2013 J. Griesbaum, B. Heuwing, J. Ruppenhofer, K. Werner

Mehr

The Sacred Scriptures

The Sacred Scriptures The Sacred Scriptures» The New Covenant & New Testament The Book of Psalms & The Book of Daniel «~ all verses and explanations in German and English with»appendix«in English ~ ~ 29th Special Edition ~

Mehr

Trausprüche. Vorschläge

Trausprüche. Vorschläge Trausprüche Vorschläge 1. Gott sprach: Es ist nicht gut, wenn der Mensch allein ist. 1. Mose 2,18 2. So spricht der Herr: Ich will dich segnen und du sollst ein Segen sein. 1. Mose 12,2 3. So spricht der

Mehr

- Römer 1:1-7 - Zuschrift und Gruß: Paulus, der Apostel der Heiden. Paulus, Knecht Jesu Christi, berufener Apostel, für das Evangelium Gottes,

- Römer 1:1-7 - Zuschrift und Gruß: Paulus, der Apostel der Heiden. Paulus, Knecht Jesu Christi, berufener Apostel, für das Evangelium Gottes, - Römer 1:1-7 - Zuschrift und Gruß: Paulus, der Apostel der Heiden Paulus, Knecht Jesu Christi, berufener Apostel, ausgesondert für das Evangelium Gottes, das er zuvor verheißen hat in heiligen Schriften

Mehr

WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING. Andreas Weiß / Maik Fiedler

WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING. Andreas Weiß / Maik Fiedler WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING Andreas Weiß / Maik Fiedler PROJEKTPARTNER Projekt im Leibniz-Wettbewerb (2014-2017) Georg-Eckert-Institut Welt der Kinder Seite

Mehr

Evangelium (auch) für Gläubige

Evangelium (auch) für Gläubige Evangelium (auch) für Gläubige Christliche Gemeinde Achenbach 6. Oktober 2013 Das Evangelium für Ungläubige Heike Das Evangelium für Ungläubige Heike 1. Korinther 15:1-4 1 Ich tue euch aber, Brüder, das

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Gemeinschaft mit CHRISTUS

Gemeinschaft mit CHRISTUS Gemeinschaft mit CHRISTUS 1 Gemeinschaft koinos = gemeinschaftlich (Apg. 2,44; Tit. 1,4) koinōnia = Teilhabe von, Gemeinschaft mit (Apg. 2,42; 1.Kor. 10,16 ) koinonikos = andere zu Teilhabern machend,

Mehr

MVC-Architektur am Beispiel von OLAT

MVC-Architektur am Beispiel von OLAT MVC-Architektur am Beispiel von OLAT Marvin Frommhold 12. Januar 2009 Gliederung Begriffe Entwurfsmuster Umsetzung in OLAT Aufbau des Brasato-Frameworks Quellen Begriffe I MVC bezeichnet ein Architekturmuster

Mehr

DER EPHESERBRIEF. Vollkommen gesegnet! (Epheser 1,1-14)

DER EPHESERBRIEF. Vollkommen gesegnet! (Epheser 1,1-14) DER EPHESERBRIEF Vollkommen gesegnet! (Epheser 1,1-14) Wo liegt Ephesus? Bildquelle: The Bible Project Der Tempel der Artemis in Ephesus. Er zählte als eines der sieben Weltwunder. Jahre später schreibt

Mehr

Clusteranalyse von Nachrichtenartikeln

Clusteranalyse von Nachrichtenartikeln Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln

Mehr

Es geht ums Ganze Predigt zu Röm 10,9-18 (17. So n Trin, )

Es geht ums Ganze Predigt zu Röm 10,9-18 (17. So n Trin, ) Es geht ums Ganze Predigt zu Röm 10,9-18 (17. So n Trin, 18.9.16) Gnade sei mit euch und Friede von Gott, unserm Vater, und dem Herrn Jesus Christus. Amen. Liebe Gemeinde, wenn s um Glauben geht, dann

Mehr

Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Clustering mit dem K-Means-Algorithmus (Ein Experiment) Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013 Index 1 2 3 4 5 Andreas Runk Clustering mit dem K-Means- 2/40 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute

Mehr