Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Größe: px
Ab Seite anzeigen:

Download "Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme"

Transkript

1 Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN

2 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert lässt sich gut unter Laborbedingungen testen Wiederholbarkeit und Skalierbarkeit der Experimente gewährleistet Performanz leicht quantifizierbar Interaktives Retrieval das Informationsbedürfnis (Information Need) des Benutzer wird durch den Interaktionsprozess definiert abhängig von dem Bemühen des Benutzers, der Benutzerschnittstelle, der Assistenz des Retrieval-Systems Performanz ist schwierig zu messen IR:II-2 Basics STEIN

3 Relevanz Relevanz in IR-Systemen lässt sich als Beziehung zwischen einer Anfrage und einem Dokument definieren: Relevance is the correspondence in context between an information requirement statement (a query) and an article (a document), that is, the extent to which the article covers the material that is appropriate to the requirement statement. [Salton/McGill 1983] Die Relevanz eines Dokumentes für eine Anfrage ist eine Relation r : D Q {0, 1}, wobei D = {d 1, d,..., d m } die Menge der Dokumente (nicht Repräsentation der Dokumente im Rechner) und Q die Menge der formalisierten Anfragen bezeichnet. IR:II-3 Basics STEIN

4 Bemerkungen: Im Folgenden unterstellen wir die Situation des Batch-Mode-Retrieval. Die Relevanz hat hier einen Bool schen Wertebereich; vorstellbar sind auch Ähnlichkeitsfunktionen, die beliebige Werte im Intervall [0; 1] annehmen können. Die Relation r ist nicht mit der Relation ρ R zu verwechseln: Die Relation r modelliert den wahren Zusammenhang zwischen realen Dokumenten und formalisierten Anfragen. r wird im Allgemeinen durch Befragen von Experten zu konkreten Anfragen und Korpora ermittelt. Die Relation ρ R versucht r nachzubilden bzw. anzunähern; ρ R ist durch eine linguistische Theorie motiviert und wird auf Basis einer Dokumentrepräsentation berechnet. IR:II-4 Basics STEIN

5 Precision und Recall Relevant Relevant precision = a a + b Answer a b Answer c d = a a + c mit: Answer = Menge der gefundenen bzw. zurückgegebenen Dokumente. Relevant = Menge der für die Anfrage relevanten Dokumente. In Worten: precision ist der relevante Anteil der gefundenen Dokumente. ist der gefundene Anteil der relevanten Dokumente. IR:II-5 Basics STEIN

6 Precision und Recall Vergleich von Retrieval-Systemen: precision IR:II-6 Basics STEIN

7 Precision und Recall Vergleich von Retrieval-Systemen: precision Das F -Measure berechnet sich als harmonisches Mittel aus precision und : F = 2 1 precision + 1 Die Werte von precision, und F -Measure sind aus dem Intervall [0; 1]. IR:II-7 Basics STEIN

8 Precision und Recall: Illustration Classes: IR:II-8 Basics STEIN

9 Precision und Recall: Illustration Classes: Target: In cluster: Recall / = 0.26 Precision /( ) = 0.94 F-Measure = 0.40 Hoher precision-wert, schlechter -Wert. IR:II-9 Basics STEIN

10 Precision und Recall: Illustration Classes: Target: In cluster: Recall / = 0.92 Precision /( ) = 0.99 F-Measure = 0.95 Hoher precision-wert und hoher -Wert. IR:II-10 Basics STEIN

11 Precision und Recall: Problematik Die Größe des Recall ist für einen Benutzer weder erkennbar, noch kann sie mit vernünftigem Aufwand präzise bestimmt werden. Mögliche Näherungsmethoden: Stichprobenanalyse. Problem: Oft machen die relevanten Dokumente (Anzahl a + c) nur einen Bruchteil des gesamten Korpus D aus; eine repräsentative Strichprobe müsste also einen Großteil von D enthalten. Anfrageerweiterung. Man erweitert die Anfrage, so dass eine Obermenge der ursprünglichen Antwortmenge gefunden wird. Abgleich mit externen Quellen, z. B. durch das Fragen von Fachleuten. Retrieval mit mehreren Systemen. IR:II-11 Basics STEIN

12 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 IR:II-12 Basics STEIN

13 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-13 Basics STEIN

14 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-14 Basics STEIN

15 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-15 Basics STEIN

16 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-16 Basics STEIN

17 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-17 Basics STEIN

18 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-18 Basics STEIN

19 Precision-Recall-Graphen Sei D eine Dokumentkollektion, q eine Anfrage und R q D die Menge der bzgl. q relevanten Dokumente mit R q = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 }. Beispiel für das Ranking eines Retrieval-Algorithmus: 1. d d 6 7. d d d d d 8 8. d d d d d 9 9. d d d 3 precision IR:II-19 Basics STEIN

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Was wird evaluiert? in Abhängigkeit davon Wahl des Evaluierungswerkzeugs. Formen der Evaluierung: Datenanalytische Verfahren

Was wird evaluiert? in Abhängigkeit davon Wahl des Evaluierungswerkzeugs. Formen der Evaluierung: Datenanalytische Verfahren Evaluierung von IRS Evaluierungsarten Rapid-Prototyping Simulationstest (Wizard-of-Oz-Experimente) Kontrollierte Experimente Untersuchungen Empirische Langzeitstudien Managementmethoden wie (Kritische)

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Kapitel IR:II (Fortsetzung)

Kapitel IR:II (Fortsetzung) Kapitel IR:II (Fortsetzung) II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-20 Basics STEIN 2005-2010 Die klassischen Dokumentmodelle abstrahieren ein Dokument auf eine

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

Information Retrieval

Information Retrieval Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version:

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version: BIW Wahlpflichtmodul Einführung in trec_eval Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2017-06-19 2 Was erwartet Sie heute? Kurze Wiederholung von Precision, Recall,

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung Zusammenfassung: diskrete und stetige Verteilungen Woche 4: Verteilungen Patric Müller diskret Wahrscheinlichkeitsverteilung p() stetig Wahrscheinlichkeitsdichte f ()

Mehr

Information Retrieval

Information Retrieval Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3

Mehr

Laptop A location aware peer-to-peer overlay network

Laptop A location aware peer-to-peer overlay network Laptop A location aware peer-to-peer overlay network Chi-Jen Wu, De-Kai Liu and Ren-Hung Hwang Seminar peer-to-peer Netzwerke Prof. Dr. Christian Schindelhauer 29. Juli 2009 Überblick Was ist Laptop? Aufbau

Mehr

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend

Mehr

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence

Mehr

Information Retrieval

Information Retrieval Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben

Mehr

Information Retrieval

Information Retrieval Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche

Mehr

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7.  Mathias Lux Caliph & Emir Retrieval und Annotation von digitalen Photos mit MPEG-7 Mathias Lux mlux@know-center.at - gefördert durch das Kompetenzzentrenprogramm Overview Einleitung Geschichtliches Annotation mit

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche know-how innovation BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche 05.09.2018, Adriano Meyer Broyn solution Zielsetzungen Zusammenspiel von Titeln und Inhaltserschliessung besser verstehen.

Mehr

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016 Universität Augsburg, Institut für Informatik Sommersemester 2016 Prof. Dr. W. Kießling 12. Juli 2016 Dr. F. Wenzel, L. Rudenko Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren

Mehr

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus: RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Kapitel DB:IV (Fortsetzung)

Kapitel DB:IV (Fortsetzung) Kapitel DB:IV (Fortsetzung) IV. Logischer Datenbankentwurf mit dem relationalen Modell Das relationale Modell Integritätsbedingungen Umsetzung ER-Schema in relationales Schema DB:IV-46 Relational Design

Mehr

Thema: Prototypische Implementierung des Vektormodells

Thema: Prototypische Implementierung des Vektormodells Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

Suchmaschinentechnologie

Suchmaschinentechnologie Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Implementierung: Dokumentclustering

Implementierung: Dokumentclustering Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden

Mehr

Information Retrieval

Information Retrieval 1 Information Retrieval Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisatorisches Vorlesung, Übungen und Projektarbeit Vorlesung Montag, 11:45-13:15 (3. Stunde) im Raum 7110 Übung / Projektarbeit

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Answer Sets: Beispiel Meeting Scheduling. a) Generate: generiert beliebige Zuweisungen von Zeiten und Räumen an Meetings

Answer Sets: Beispiel Meeting Scheduling. a) Generate: generiert beliebige Zuweisungen von Zeiten und Räumen an Meetings Answer Sets: Beispiel Meeting Scheduling I. Beschreibung der Probleminstanz: meeting(m 1 ),, meeting(m n ) time(t 1 ),, time(t s ) room(r 1 ),, room(r m ) person(p 1 ),, person(p k ) partic(p 1,m 1 ),,

Mehr

Kapitel 1: Grundbegriffe

Kapitel 1: Grundbegriffe Kapitel 1: Stefan Ruzika Mathematisches Institut Universität Koblenz-Landau Campus Koblenz Stefan Ruzika (KO) 1 / 20 Gliederung 1 Logik Ein ganz kurzer Ausflug in die Kombinatorik Stefan Ruzika (KO) 2

Mehr

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015 VuFind Ein Baustein beim Finden, Entdecken & Bekommen Gerald Steilen, 6. Mai 2015 Perceptions of Libraries and Information Resources. 1 Wo beginnt die Suche? Perceptions of Libraries and Information Resources.

Mehr

<is web> Information Systems & Semantic Web

<is web> Information Systems & Semantic Web Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile

Mehr

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen

Mehr

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen Zusammenfassung: e und e Verteilungen Woche 4: Gemeinsame Verteilungen Wahrscheinlichkeitsverteilung p() Wahrscheinlichkeitsdichte f () WBL 15/17, 11.05.2015 Alain Hauser P(X = k

Mehr

Seminar für Computerlinguistik Logik in der Praxis Lyubov Nakryyko

Seminar für Computerlinguistik Logik in der Praxis Lyubov Nakryyko Seminar für Computerlinguistik Logik in der Praxis Lyubov Nakryyko Einführung Globale Entitäten/ Relationeninferenz Berechnungsverfahren Experimente Verbesserungsvorschläge Erkennung und Klassifikation

Mehr

7. Transitive Hülle. Kante des Graphen. Zusatz-Kante der transitiven Hülle

7. Transitive Hülle. Kante des Graphen. Zusatz-Kante der transitiven Hülle In Anwendungen ist es oft interessant zu wissen, ob man überhaupt von einem Knoten v zu einem Knoten w gelangen kann, ganz gleich wie lang der Weg auch ist. Gegeben sei dabei ein gerichteter Graph G =

Mehr

Versteckte Variablen-Modelle für spezielle Retrieval-Aufgaben. Bachelorarbeit

Versteckte Variablen-Modelle für spezielle Retrieval-Aufgaben. Bachelorarbeit Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Versteckte Variablen-Modelle für spezielle Retrieval-Aufgaben Bachelorarbeit Christof Bräutigam Matrikelnummer 48 geb. am: 22.5.1979

Mehr

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Stemming. Referenten: Johannes Lang Rossen Kowatschew

Stemming. Referenten: Johannes Lang Rossen Kowatschew Universität Heidelberg Institut für Computerlinguistik HS Information Retrieval WS 01/02 Leitung: Dr. Karin Haenelt 04.02. 2002 Stemming. Referenten: Johannes Lang Rossen Kowatschew Gliederung Einführung:

Mehr

Implementierung des Vektor Modells

Implementierung des Vektor Modells Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität

Mehr

Search Engine Evaluation. Franziska Häger, Lutz Gericke

Search Engine Evaluation. Franziska Häger, Lutz Gericke Search Engine Evaluation Franziska Häger, Lutz Gericke 23.07.2009 Ansätze 2 Tägliche Abfragen mit geringer Ergebnismenge Evaluation von Precision und Recall Revisionsabfrage aus Suchmaschinen-Caches Bestimmung

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Evaluierung von Information Retrieval Systemen / /

Evaluierung von Information Retrieval Systemen / / Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt 4.2.204 / 5.2.203 / 5.2.20 Inhalt Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Performance-Evaluierung bei inhaltsbasierter Bildsuche. Andreas Tenge Seminar Bilddatenbanken Technische Fakultät Universität Bielefeld im SS 2003

Performance-Evaluierung bei inhaltsbasierter Bildsuche. Andreas Tenge Seminar Bilddatenbanken Technische Fakultät Universität Bielefeld im SS 2003 Performance-Evaluierung bei inhaltsbasierter Bildsuche Andreas Tenge Seminar Bilddatenbanken Technische Fakultät Universität Bielefeld im SS 2003 Inhaltsverzeichnis 0 Vorwort 1 1 Motivation 1 2 Evaluierung

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer -

Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer - Datenbank-Recherche SS 2015 2. Veranstaltung 16. April 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung

Mehr

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2014

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2014 Universität Augsburg, Institut für Informatik Sommersemester 04 Prof. Dr. W. Kießling 5. Juli 04 Dr. M. Endres, F. Wenzel Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Sommersemester 04 Hinweise:

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Entity Search. Michel Manthey Arne Binder 2013

Entity Search. Michel Manthey Arne Binder 2013 Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die

Mehr

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt Google Knowledge Graph Kursfolien Teil 2 Karin Haenelt 1.8.2015 Themen Systemübersicht Datengraph Aufbau Modellierung Auswertungen des Datengraphen Aufschlussreiche Beziehungen Retrievalbeispiele 2 Google

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische

Mehr

Multimedia Retrieval im WS 2011/2012

Multimedia Retrieval im WS 2011/2012 Multimedia Retrieval im WS 2011/2012 2. Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät

Mehr

Histogramm-anschaulich. Histogramme und Bilder. Histogramm-mathematisch. Farbhistogramm. Grauwerthistogramm. Inhaltsbasierte Bildsuche Histogramme

Histogramm-anschaulich. Histogramme und Bilder. Histogramm-mathematisch. Farbhistogramm. Grauwerthistogramm. Inhaltsbasierte Bildsuche Histogramme Inhaltsbasierte Bildsuche Histogramme Universität Bremen, Aug. Histogramm-anschaulich Zum Messen von Häufigeiten eines Mermals (Hier: Zahlen - in der Matrix) /9 /9 /9 /9.%.% %.%.%,,,, /8/ Histogramme,

Mehr

Polyrepräsentation. Markus Wilmsen. Interaktives Information Retrieval - Seminar, Sommersemester 2009

Polyrepräsentation. Markus Wilmsen. Interaktives Information Retrieval - Seminar, Sommersemester 2009 Polyrepräsentation Markus Wilmsen Interaktives Information Retrieval - Seminar, Sommersemester 2009 Informationssysteme Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Thomas Beckers Inhaltsverzeichnis 1. Vorwort...

Mehr

Datenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel

Datenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel Seminar Impferfektion und Datenbanken Schemaerweiterung zur Abbildung von Imperfekten Daten Andreas Merkel Inhalt Einführung - Eigenschaften des relationalen Modells - Erweiterungsmöglichkeiten Zwei unterschiedliche

Mehr

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Wie liest man Konfidenzintervalle? Teil I. Premiu m Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall

Mehr

Informationslinguistische Ressourcen für das Information Retrieval in der tschechischen Sprache im Rahmen des Cross Language Evaluation Forums (CLEF)

Informationslinguistische Ressourcen für das Information Retrieval in der tschechischen Sprache im Rahmen des Cross Language Evaluation Forums (CLEF) Universität Hildesheim Fachbereich III: Informations- und Kommunikationswissenschaften Institut für Angewandte Sprachwissenschaften Studiengang Internationales Informationsmanagement (M.A.) Magisterarbeit

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Seminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS

Seminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS Requirements Documents Was sind Requirements Documents? Anforderungsdokumente in industriellen Software-Projekten Häufig in natürlicher Sprache

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Kapitel 16: Erste Algorithmen in Graphen Thomas Worsch KIT, Institut für Theoretische Informatik Wintersemester 2015/2016 GBI Grundbegriffe der Informatik KIT, Institut für

Mehr

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer -

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer - Datenbank-Recherche SS 2014 2. Veranstaltung 10. April 2014 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung

Mehr