Klassisches Information Retrieval Jan Schrader

Größe: px
Ab Seite anzeigen:

Download "Klassisches Information Retrieval Jan Schrader"

Transkript

1 Klassisches Information Retrieval Jan Schrader

2 Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). (nach [2]) Abgrenzung zu Information Filtering (Pull vs. Push) Abgrenzung zu Empfehlungssystemen (keine Benutzerpräferenzen)

3 Infromation Retrieval (IR) (2) Informationsbedürfniss Formalisierung Anfrage 1 Dokument1 Anfragesprache 2 Dokument Index Ähnlichkeitsbestimmung n DokumentN

4 Boolesches Retrieval Inspiriert von der Booleschen Algebra UND ODER NICHT A, B true A,B true A false A,-B false A,-B true -A true -A,B false -A,-B false -A,B true -A,-B false Alle Gesetze zur Booleschen Algebra nutzbar

5 Boolesches Retrieval (2) Seit den 1950er Jahren Indexieren per Hand Es gibt nur die Werte 0 (falsch) und 1 (wahr) Wörter der Anfrage werden mit Boolschen Operatoren (UND, ODER, NICHT, ()) verknüpft Kein relevance ranking Komplizierte Anfragen z.b. falsche Klammerung

6 Boolesches Retrieval (3) Beispiel: (Jaguar ODER Puma) UND Raubkatze UND NICHT (Auto ODER Schuhe) Antwortmenge schwer zu kontrollieren Keine Häufigkeiten bzw. Gewichtungen möglich Zu schwach (x1 ODER x2 ODER ODER xn) Zu stark (x1 UND x2 UND UND xn)

7 Erweitertes Boolesches Retrieval Anfrage und Dokumenten Terme werden gewichtet [0...1] ( Fuzzy Logik) Woher kommen die Gewichte? Ranking Fuktion z.b. AND_MIN(w1,w2), OR_MAX(w1,w2), NOT_MINUS(1 - w1) Auch + *, Paice, P-Norm, Operatoren möglich Trotz weiterer Operatoren kann man Fälle konstruieren die gegen die Intuition laufen Immer noch schlechte Retrieval Qualität

8 Erweitertes Boolesches Retrieval Beispiel: q = ((w1 ODER w2 ODER w3) UND (w4 ODER w5)) ODER w6 0,2 0,9 0,5 0,2 0,5 0,3 0,2 0,1 0,2 0,9 W1 W2 W3 w4 W5 W6

9 Vektorraummodell 1960er erfunden von Salton in Harvard/Cornell Dokumente und Anfragen als Punkte im n- dimensionalen Vektorraum Suche nach ähnlichen Vektoren Ähnlichkeitsmaße notwendig Anschaulich Gute Retrieval Ergebnisse

10 Klassisches probabilistisches Modell Nach Robertson/Sparck Jones 1976 Schätzung der Wahrscheinlichkeit, dass ein Dokument d für eine Anfrage q relevant ist P(d q) wird berechnet Unabhängigkeit der Terme wird vorausgesetzt Bietet keine Verbesserungen Deshalb nur experimenteller Charakter

11 Ähnlichkeitsmaße Skalarprodukt: [3] Beispiel: D1: (0) D2: (2) A: (3) sk(d1,a) = 2 Kosinusmaß: (5) (1) (0) sk(d2,a) = 16 (1) (5) (2) [3] Normiertes Skalarprodukt (mehr Rechenzeit nötig) Wertebereich (-1,...,1) ( Übereinstimmung in %) Berücksichtigt nicht die Länge der Vektoren Schwer im Mehrdimensionalen zu veranschaulichen

12 Ähnlichkeitsmaße (2) Dice Koeffizient: D1 = {t1,t3,t4} D2 = {t1,t2,t4,t5,t6} [3] (2*2)/(3+5)=4/9=0,44 Normiert zwischen [0...1] Jaccard Koeffizient 2/6=1/3=0,33 [3] Distanzmaße möglich (z.b. Manhattan Distanz)

13 TF-IDF tf = Termfrequenz N = Anzahl der Dokumente df (t i ) = Anzahl Dokumente in denen t vorkommt Auch normiert möglich Bevorzugt lange Dokumente Bei Einfügen eines neuen Dokuments sollte der gesamte Index neu erstellt werden

14 SMART Seit den 1960er Jahren von Salton entwickelt Eine der ersten Suchmaschinen Inzwischen Version 11 Bevorzugt kurze Dokumente

15 OKAPI (BM25) Familie von Suchfunktionen Bietet Platz für Parameteroptimierung Normiert über unterschiedlich Textlängen [0] f(qi,d) = Termfrequenz, D = Länge von D in Wörtern, avgdl = Durchschnittslänge Gewöhnlich k1 = 2.0, b = 0.75

16 Divergence from Randomness (DFR) Ähnlich TF-IDF The more the divergence of the within-document term-frequency from its frequency within the collection, the more the information carried by the term t in the document d. [ TF = TF in Sammlung, tf = TF in Dokument, p = 1/Anzahl Dokumente in Sammlung, q = 1-p

17 Terrier (Terabyte Retriever) Open source Suchmaschine entwickelt in Glasgow Geschrieben in Java z.z. Version 3.5 Bietet verschiedene Retrieval Ansätze [

18 Literatur Verzeichnis Wikipedia :) [0] Ricardo Baeza-Yates und Bertheir Ribeiro-Neto: Modern Information Retrieval (1999) [1] [2] [3]

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Algorithmische Anwendungen WS 05/06 Document Ranking

Algorithmische Anwendungen WS 05/06 Document Ranking Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Klassische Information Retrieval Modelle Einführung

Klassische Information Retrieval Modelle Einführung Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Information Retrieval

Information Retrieval Information Retrieval Ferdinand Hofherr 17. Mai 2005 Zusammenfassung Information Retrieval spielt in vielen Bereichen unseres Lebens eine wichtige Rolle. Wir kommen damit zum Beispiel in Berührung, wenn

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

5. Information Retrieval

5. Information Retrieval 5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015 VuFind Ein Baustein beim Finden, Entdecken & Bekommen Gerald Steilen, 6. Mai 2015 Perceptions of Libraries and Information Resources. 1 Wo beginnt die Suche? Perceptions of Libraries and Information Resources.

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Information Retrieval Einführung

Information Retrieval Einführung Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer -

Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer - Datenbank-Recherche SS 2015 2. Veranstaltung 16. April 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr. Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT

Mehr

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind 3. VuFind Anwendertreffen 2014 Frankfurt Stefan Winkler Anfragen im Support Warum kommt bei meiner Suche ein Dokument an dieser Stelle?

Mehr

Information Retrieval und Multimedia Datenbanken 1

Information Retrieval und Multimedia Datenbanken 1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen

Mehr

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Martin Eisenhardt, Wolfgang Müller, Andreas Henrich LS AI 1, Universität Bayreuth martin.eisenhardt@uni-bayreuth.de Abstract: Spektrale Bloomfilter

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? 5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Multimedia Retrieval im WS 2011/2012

Multimedia Retrieval im WS 2011/2012 Multimedia Retrieval im WS 2011/2012 2. Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 8. Mai 2009 8. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Datentransformationsbefehle (III) 1.a. If 1.b. Count 2. Grafiken (II) 2.a.

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

2 Volltext-Suchmaschinen

2 Volltext-Suchmaschinen 2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie

Mehr

Lineare Algebra und analytische Geometrie II

Lineare Algebra und analytische Geometrie II Prof Dr H Brenner Osnabrück SS 26 Lineare Algebra und analytische Geometrie II Vorlesung 2 Orthogonalität Mit dem Skalarprodukt kann man die Eigenschaft zweier Vektoren, aufeinander senkrecht zu stehen,

Mehr

In den Tiefen des Webs das Richtige finden

In den Tiefen des Webs das Richtige finden Betriebswirtschaftslehre In den Tiefen des Webs das Richtige finden Information Retrieval: Grundlagenforschung für Suchmaschinen Suchmaschinen wie Google, Yahoo! oder Windows Live sind aus dem Alltag eines

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

1. Grundlegende Konzepte von Information Retrieval Systemen

1. Grundlegende Konzepte von Information Retrieval Systemen 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen Charakterisierung des Begriffs Information Retrieval Beispiele

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Information Retrieval

Information Retrieval Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen

Mehr

Suchmaschinen. Bachelor Informationsmanagement / Modul Digitale Bibliothek (SS 2014) Dr. Jakob Voß

Suchmaschinen. Bachelor Informationsmanagement / Modul Digitale Bibliothek (SS 2014) Dr. Jakob Voß Suchmaschinen Bachelor Informationsmanagement Modul Digitale Bibliothek (SS 2014) Dr Jakob Voß 2014-03-31 Suchmaschinen (1/39) CC-BY-SA / 2014-03-31 / Dr Jakob Voß Eingangsfrage: Wie funktioniert Google?

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Information Retrieval

Information Retrieval Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben

Mehr

Tag-basierte Ähnlichkeitsbestimmung bei ARTigo

Tag-basierte Ähnlichkeitsbestimmung bei ARTigo Tag-basierte Ähnlichkeitsbestimmung bei ARTigo Crowdsourcing, Swarm Intelligence, Data Mining Referentin: Elena Levushkina Centrum für Informations- und Sprachverarbeitung ARTigo Online-Spiel zur Verschlagwortung

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Clusteranalyse von Nachrichtenartikeln

Clusteranalyse von Nachrichtenartikeln Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln

Mehr

Lineare Algebra I Vorlesung - Prof. Dr. Daniel Roggenkamp & Falko Gauß

Lineare Algebra I Vorlesung - Prof. Dr. Daniel Roggenkamp & Falko Gauß Lineare Algebra I - 26. Vorlesung - Prof. Dr. Daniel Roggenkamp & Falko Gauß Donnerstag 8.12.: 8:30 Uhr - Vorlesung 10:15 Uhr - große Übung / Fragestunde Klausur: Mittwoch, 14.12. 14:15 Uhr, A3 001 Cauchy-Schwarz

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Information Retrieval

Information Retrieval Information Retrieval Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik peter.becker@fh-bonn-rhein-sieg.de Vorlesung Sommersemester 2004 Allgemeines zur Vorlesung Vorbemerkungen Es gibt

Mehr

Vorname: In FlexNow angemeldet: Ja Nein. Fachsemester Informationswissenschaft:

Vorname: In FlexNow angemeldet: Ja Nein. Fachsemester Informationswissenschaft: Name: Studiengang: B.A. MA. Vorname: In FlexNow angemeldet: Ja Nein Matrikelnummer: Studienfächer: Fachsemester Informationswissenschaft: Allgemeine Hinweise: 1. Überprüfen Sie bitte, ob Sie alle Seiten

Mehr

Prüfung Lineare Algebra , B := ( ), C := 1 1 0

Prüfung Lineare Algebra , B := ( ), C := 1 1 0 1. Es seien 1 0 2 0 0 1 3 0 A :=, B := ( 1 2 3 4 ), C := 1 1 0 0 1 0. 0 0 0 1 0 0 1 0 0 0 0 Welche der folgenden Aussagen ist richtig? A. A und C haben Stufenform, B nicht. B. A und B haben Stufenform,

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

Datenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel

Datenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel Seminar Impferfektion und Datenbanken Schemaerweiterung zur Abbildung von Imperfekten Daten Andreas Merkel Inhalt Einführung - Eigenschaften des relationalen Modells - Erweiterungsmöglichkeiten Zwei unterschiedliche

Mehr

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz 02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written

Mehr

Ganze Zahlen. Die Typen int, unsigned int; Auswertung arithmetischer Ausdrücke, arithmetische Operatoren

Ganze Zahlen. Die Typen int, unsigned int; Auswertung arithmetischer Ausdrücke, arithmetische Operatoren Ganze Zahlen Die Typen int, unsigned int; Auswertung arithmetischer Ausdrücke, arithmetische Operatoren Celsius to Fahrenheit // Program: fahrenheit.cpp // Convert temperatures from Celsius to Fahrenheit.

Mehr

3 Mengen, Logik. 1 Naive Mengenlehre

3 Mengen, Logik. 1 Naive Mengenlehre 3 Mengen, Logik Jörn Loviscach Versionsstand: 21. September 2013, 15:53 Die nummerierten Felder sind absichtlich leer, zum Ausfüllen beim Ansehen der Videos: http://www.j3l7h.de/videos.html This work is

Mehr

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S.

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S. VuFind seit 2007 Produktiver Betrieb und Entwicklung seit 2008: Suchkiste für DFG Nationallizenzen: http://finden.nationallizenzen.de/ Ergebnis aus positiven Erfahrungen: GBV Discovery Index: Solr Index

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Information Retrieval im Internet

Information Retrieval im Internet Information Retrieval im Internet Kursfolien Karin Haenelt 25.11.01 1 Besonderheiten der Daten (1) Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets

Mehr

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Verteidigung Bachelorarbeit Tristan Licht Gutachter Betreuer : Junior-Prof. Dr. Matthias

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Einleitung Grundlagen Einordnung. Normen. Thomas Gerstner. Institut für Mathematik Goethe-Universität Frankfurt am Main

Einleitung Grundlagen Einordnung. Normen. Thomas Gerstner. Institut für Mathematik Goethe-Universität Frankfurt am Main Institut für Mathematik Goethe-Universität Frankfurt am Main Einführungsvortrag Proseminar 25. Januar 2013 Outline 1 Einleitung Motivation Anwendungsbereiche 2 3 Wichtige Outline Einleitung Motivation

Mehr

9 Metrische und normierte Räume

9 Metrische und normierte Räume 9 Metrische und normierte Räume Idee: Wir wollen Abstände zwischen Punkten messen. Der Abstand soll eine reelle Zahl 0 sein (ohne Dimensionsangabe wie Meter...). 9.1 Definition Sei X eine Menge. Eine Metrik

Mehr

3. Klausur Einführung in die Theoretische Informatik Seite 1 von Welches der folgenden klassischen Probleme der Informatik ist entscheidbar?

3. Klausur Einführung in die Theoretische Informatik Seite 1 von Welches der folgenden klassischen Probleme der Informatik ist entscheidbar? 3. Klausur Einführung in die Theoretische Informatik Seite 1 von 14 1. Welches der folgenden klassischen Probleme der Informatik ist entscheidbar? A. Gegeben eine kontextfreie Grammatik G. Gibt es ein

Mehr