Information Retrieval

Größe: px
Ab Seite anzeigen:

Download "Information Retrieval"

Transkript

1 Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX

2 IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche Suche in Texten, deshalb nennt man es oft auch Text- bzw. Dokumentenretrieval. Das klassische Anwendungsgebiet des IR sind Literatur-Datenbanken, in denen Kurzfassungen von Veröffentlichungen gespeichert sind. Es soll ermöglicht werden relevante Dokumente in verschiedenen Fachbereichen zu suchen. Wesentlich wichtiger, insbesondere durch den technologischen Fortschritt, sind im Moment andere Anwendungen, wie zb. die Suche im WWW und ähnlich grossen Dokumentensammlungen. Literaturdatenbanken in der Größenordnung 10 5 bis Typeset by FoilTEX 1

3 Effizienz und Effektivität Will man eine Bewertung eines Verfahrens treffen so muss man zwischen Effizienz und Effektivität unterscheiden. Speicherplatz Rechen-Zeit Anzahl der I/O-Operationen Anwortzeiten Typeset by FoilTEX 2

4 Wissenrepresentation für Texte Freitextsuche Verarbeitungsschritte : 1.Zerlegung des Textes in einzelne Wörter 2. Stoppworteliminerung 3. Satzenderkennung Die eigentliche Freitextsuche bezieht sich auf den reduzierten Text. Dabei ergeben sich folgende Probleme : - Homographen (verschieden gesprochene Wörter mit gleicher Schreibweise) - Polyseme (Wörter mit mehreren Bedeutungen) - Flexionsformen (die durch Konjugation und Deklination eines Wortes entstehen) - Derivationsformen (verschiedene Wortformen zu einem Wortstamm) - Komposita (mehrgliedrige Ausdrücke) Typeset by FoilTEX 3

5 Informatischer Ansatz Truncation- und Maskierungs-Operatoren dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen. - Truncation : Front- und Endtruncation mit fester oder variabler Anzahl von Zeichen. z.b.: # für beliebig lange Zeichenfolge, $ für genau ein Zeichen. schreib# : schreiben, schreibt, schreibst, schreibe schreib$$ : schreiben, schreibst - Maskierung : bezieht sich auf ein Zeichen in der Mitte des Wortes. schr$$b# : schreiben, schrieb / schrauben h$$s# : Haus, Häuser / Hanse, hausen, hassen Typeset by FoilTEX 4

6 Computerlinguistischer Ansatz - graphematische Verfahren Basieren auf der Analyse von Buchstabenfolgen und werden im Bereich der Morphologie zur Zusammenführung von Flexions- bzw. Derivationsformen eines Wortes eingesetzt. - lexikalische Verfahren Basieren auf einem Wörterbuch, welches mehrgliedrige Ausdrücke enthalten kann bzw. verschiedene Bedeutungen mehrdeutiger Wörter verzeichnet. - syntaktische Verfahren Dienen zur Identifikation mehrgliedriger Ausdrücke Typeset by FoilTEX 5

7 Thesauri Definition : Nach DIN1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Bezeichnungen. Merkmale : 1. terminologische Kontrolle durch - Erfassung von Synonymen - Kennzeichnung von Homographen und Polysemen - Festlegung von Vorzugsbenennungen 2. Darstellung von Bezeichnungen zwischen Begriffen Typeset by FoilTEX 6

8 Standpunkte und Bewertungsmaße Retrievalbewertung Definitionen : GEF, sei die Menge der gefundenen Antwortobjekte REL, die Menge der relevanten Objekte in der Datenbank ALL, die Gesamtanzahl der Dokumente in der Datenbank. Typeset by FoilTEX 7

9 Typeset by FoilTEX 8

10 Basierend darauf kann man Maße für Precision und Recall definieren : Precicion : p = REL GEF GEF Recall : r = REL GEF REL Typeset by FoilTEX 9

11 Nicht-probabilistische Modelle Überblick über die Modelle Bool. Fuzzy Vektor Prob. Cluster Theoretische Basis: - boolesche Logik: x Fuzzy-Logik : - x Vektoralgebra : - - x - x - Wahrsch.Theorie: x - Bezug zur Retrievalqualität - x - x - gewichtete Indexierung - x x x x gewichtete Frageterms - x x x Fragestruktur : - linear - - x x - - boolesch x x x x - Typeset by FoilTEX 10

12 Term-by-Document Matrix Ein Beispiel : Diese kleine Beispieldatenbank enthällt folgende Dokumente; Titles: c1: Human machine interface for Lab ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user-perceived response time to error measurement m1: The generation of random, binary, unordered trees m2: Theintersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Typeset by FoilTEX 11

13 Hieraus ergibt sich die Term by Document Matrix: T/D c1 c2 c3 c4 c5 m1 m2 m3 m4 human interface computer user system response time EPS survey trees graphs minors Typeset by FoilTEX 12

14 MEDLARS-Kollektion Dokumente 1033 Terme 5831 Anfragen 30 Bool Fuzzy Vektor Typeset by FoilTEX 13

15 Boolesches Retrieval Boolesches Retrieval ist vermutlich das erste Retrieval-Modell, es wurde damals entwickelt um mit Hilfe von Schlitzlochkarten Retrieval durchzuführen. Mit dem Einsatz von Magnetbändern und der damit verbundenen geringen Speicherkapazität kam kein anderes Retrieval-System in Frage, da sofort mit Einlesen entschieden werden musste, ob das Dokument ausgedruckt werden sollte oder nicht. Bis heute hat dieses System bestand und wurde nur um einige wenige Funktionen erweitert. Beim Booleschen Retrieval sind die Dokumentenbeschreibungen D D : ungewichtete Indexierungen, d.h. : D D m = d m mit d mi ɛ 0, 1 für i = 1,..., n Typeset by FoilTEX 14

16 Die Fragebeschreibungen (Q D ) sind Boolesche Ausdrücke, die nach folgenden Regeln gebildet werden : q 1, q 2 ɛq D q 1 q 2 ɛq D q 1, q 2 ɛq D q 1 q 2 ɛq D qɛq D qɛq D Typeset by FoilTEX 15

17 Die Retrievalfunktion ϱ kann man analog zu diesen Regeln auch rekursiv definieren: t i ɛt ϱ(t i, d m = d mi ) ϱ(q 1 q 2, d m ) = min(ϱ(q 1, d m ), ϱ(q 2, d m ) ϱ(q 1 q 2, d m ) = max(ϱ(q 1, d m ), ϱ(q 2, d m ) ϱ( q, d m ) = 1 ϱ(q, d m ) Typeset by FoilTEX 16

18 Fuzzy-Retrieval Basierend auf der Fuzzy-Logik, Weiterentwicklung zum booleschen Retrieval. Es werden bei den Dokumentenbeschreibungen gewichtete Indexierungen zugelassen. d.h. d m ɛ[0, 1] Definitionen : Fragebeschreibung und Retrievalfunktion wie im booleschen Retrieval. Retrievalfunktion liefert durch gewichtete Indexierung : ϱ(qk D, d m )ɛ[0, 1] Ein Beispiel : T = t 1, t 2 q = t 1 t 2 d 1 = {0.4, 0.4}, d 2 = {0.39, 0.99} ϱ(q, d 1 ) = 0.4, ϱ(q, d 2 ) = 0.39 Bewertung : - Rangordnung der Dokumente - keine Fragetermwichtung - Retrievalqualität relativ schlecht im Vergleich zum Vektorraummodell Typeset by FoilTEX 17

19 Vektorraum-Modell Im VRM werden Dokumente und Fragen(bzw. deren Beschreibungen) als Punkte in einem Vektorraum aufgefasst, der durch die Terme der Datenbasis aufgespannt ist. Dokumentbeschreibungen : d D m = d m mit d mi ɛr für i = 1,..., n Fragebeschreibungen : q Q k = q k mit q ki ɛr für i = 1,..., n Retrievalfunktion : ϱ( q k, d m ) = q k d m Typeset by FoilTEX 18

20 Relevance-Feedback 1. Retrieval mit dem Fragevektor q k vom Benutzer. 2. Relevanzbeurteilung der obersten Dokumente der Rangordnung 3. Berechnung des verbesserten Fragevektors q k aufgrund der Feedback-Daten. 4. Retrieval mit dem verbesserten Vektor 5. Evtl. Wiederholung der Schritte 2 4 Iterationsvorschrift zur Berechnung des verbesserten Fragevektors: q k = q k + α 1 D R k d j ɛd R k d j β 1 D N k d j ɛd N k d j Der Verbindungsvektor z k = α 1 D R k d j ɛd R k d j β 1 D N k d j ɛd N k d j trennt unsere relevanten und nicht relevanten Dokumente optional. Typeset by FoilTEX 19

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Information Retrieval

Information Retrieval Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

5 Nicht-Probabilistische Retrievalmodelle

5 Nicht-Probabilistische Retrievalmodelle Nicht-Probabilistische Retrievalmodelle 1 5 Nicht-Probabilistische Retrievalmodelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Clustering Nicht-Probabilistische Retrievalmodelle 2 5.1 Notationen

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Information Retrieval

Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Einführung 1 Was ist Information Retrieval? 2 Definition IR 3 Syntax, Semantik und Pragmatik 4 Retrievalqualität

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr. Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT

Mehr

Thesaurus 1. Merkmale:

Thesaurus 1. Merkmale: Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

Information Retrieval - Übersicht. Norbert Fuhr

Information Retrieval - Übersicht. Norbert Fuhr Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Kapitel 2: Mathematische Grundlagen

Kapitel 2: Mathematische Grundlagen [ Computeranimation ] Kapitel 2: Mathematische Grundlagen Prof. Dr. Stefan M. Grünvogel stefan.gruenvogel@fh-koeln.de Institut für Medien- und Phototechnik Fachhochschule Köln 2. Mathematische Grundlagen

Mehr

Einführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung.

Einführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung. Einführung Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Was ist Information Retrieval? Definition IR Syntax, Semantik und Pragmatik Retrievalqualität

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Probabilistische IR-Modelle

Probabilistische IR-Modelle Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O

B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O 5. 0 ) Thesaurus Ex Libris Deutschland GmbH (2014) Version 5.0 Zuletzt aktualisiert: 21.07.2014 1 DEFINITION...3 2 ERFASSUNG VON THESAURUSBEGRIFFEN...3

Mehr

D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung. Serie 11

D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung. Serie 11 D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung Serie 11 1. Wir betrachten das überbestimmte Gleichungssystem Ax = y mit 1 1 1 1 A := 1 1 0 1 0 1, y := 2 3 0 0 1 4 Berechnen Sie die

Mehr

Lineare Gleichungssysteme: eine Ergänzung

Lineare Gleichungssysteme: eine Ergänzung Lineare Gleichungssysteme: eine Ergänzung Ein lineares Gleichungssystem, bei dem alle Einträge auf der rechten Seite gleich sind heiÿt homogenes lineares Gleichungssystem: a x + a 2 x 2 +... + a n x n

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Mengen und Abbildungen

Mengen und Abbildungen 1 Mengen und bbildungen sind Hilfsmittel ( Sprache ) zur Formulierung von Sachverhalten; naive Vorstellung gemäß Georg Cantor (1845-1918) (Begründer der Mengenlehre). Definition 1.1 Eine Menge M ist eine

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

Information Retrieval und Multimedia Datenbanken 1

Information Retrieval und Multimedia Datenbanken 1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen

Mehr

Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr

Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13 Norbert Fuhr 7. Januar 2013 Inhaltsverzeichnis 1 Einführung 4 1.1 Internet-Suche........................................... 4 1.1.1 Suchqualität........................................

Mehr

Information Retrieval Zusammenfassung

Information Retrieval Zusammenfassung Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR 3 1.1 Brainstorming.................................. 3 1.1.1 Grundbegriffe.............................. 3 Verwandte Gebiete

Mehr

II. Grundlagen der Programmierung

II. Grundlagen der Programmierung II. Grundlagen der Programmierung II.1. Zahlenssteme und elementare Logik 1.1. Zahlenssteme 1.1.1. Ganze Zahlen Ganze Zahlen werden im Dezimalsstem als Folge von Ziffern 0, 1,..., 9 dargestellt, z.b. 123

Mehr

INFORMATION RETRIEVAL

INFORMATION RETRIEVAL INFORMATION RETRIEVAL Probabilistisches Modell Vortrag von David Wittum zum Hauptseminar Information Retrieval von Dr. Karin Haenelt Gehalten am 25.01.2010 ÜBERBLICK 1. Kurze Wiederholung: Berechnungsaufgaben

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Kapitel 6 Lineare Gleichungssysteme 6. Gaußalgorithmus Aufgabe 6. : Untersuchen Sie die folgenden linearen Gleichungssysteme mit dem Gaußalgorithmus auf Lösbarkeit und bestimmen Sie jeweils die Lösungsmenge.

Mehr

Lineare Transformationen und Determinanten. 10-E Ma 1 Lubov Vassilevskaya

Lineare Transformationen und Determinanten. 10-E Ma 1 Lubov Vassilevskaya Lineare Transformationen und Determinanten 10-E Ma 1 Lubov Vassilevskaya Lineare Transformation cc Definition: V und W sind zwei Vektorräume. Eine Funktion T nennt man eine lineare Transformation von V

Mehr

Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a)

Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a) Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a) Schlüsselqualifikationen für Bachelor-Studierende (Ergänzungsbereich Modul E1) SoSe 2011 Alexander Holste / Schreibwerkstatt/Universitätsbibliothek

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

umweltmanagementinformationssysteme

umweltmanagementinformationssysteme umweltmanagementinformationssysteme Übung Sommersemester 2012 Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Urban,

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

umweltmanagementinformationssysteme

umweltmanagementinformationssysteme umweltmanagementinformationssysteme Übung 04 Sommersemester 2013 Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Folie 1 Agenda Organisatorisches Fragen zur Vorlesung Wiederholung der

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Zentralübung zur Vorlesung Diskrete Strukturen (Prof. Esparza)

Zentralübung zur Vorlesung Diskrete Strukturen (Prof. Esparza) WS 2013/14 Zentralübung zur Vorlesung Diskrete Strukturen (Prof. Esparza) Dr. Werner Meixner Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2013ws/ds/uebung/ 30. Oktober 2013 ZÜ DS ZÜ

Mehr

Themenfeld Lexikalische Repräsentation

Themenfeld Lexikalische Repräsentation Sommersemester 2003 Institut für Germanistik I Vorlesung Computerphilologie Themenfeld Lexikalische Repräsentation Wie kann man Wörter und Beziehungen zwischen ihnen beschreiben und erheben? v.hahn, Uni

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

umweltmanagementinformationssysteme

umweltmanagementinformationssysteme umweltmanagementinformationssysteme Übung 04 Sommersemester 2015 Arbeitsgruppe Wirtschaftsinformatik Managementinformationssysteme Folie 1 Agenda Organisatorisches Fragen zur Vorlesung Aufbereitung der

Mehr

Suchmaschinentechnologie

Suchmaschinentechnologie Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2

Mehr

Der Kern einer Matrix

Der Kern einer Matrix Die elementaren Zeilenoperationen p. 1 Der Kern einer Matrix Multipliziert man eine Matrix mit den Spaltenvektoren s 1,..., s m von rechts mit einem Spaltenvektor v := (λ 1,..., λ m ) T, dann ist das Ergebnis

Mehr

Latent Semantisches Indexieren für kurze Texte

Latent Semantisches Indexieren für kurze Texte Latent Semantisches Indexieren für kurze Texte Wissenschaftliche Arbeit zur Erlangung des Grades Bachelor of Science in Information Engineering im Fachbereich Informatik und Informationswissenschaft der

Mehr

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema: Matrizen Betrachten wir das nachfolgende Rechteckschema: a 12 a 1(m 1 a 1m a n1 a n2 a n(m 1 a nm Ein solches Schema nennt man (n m-matrix, da es aus n Zeilen und m Spalten besteht Jeder einzelne Eintrag

Mehr

THIA - Übungsblatt 2.

THIA - Übungsblatt 2. THIA - Übungsblatt 2. Aufgabe 12 (Eine einfache Sprache). Endliche Ziffernfolgen, die mit einer 0 beginnen, auf die mindestens eine weitere Ziffer folgt, wobei nur die Ziffern 0,..., 7 vorkommen, sollen

Mehr

Quantencomputer: Einführung

Quantencomputer: Einführung Quantencomputer: Einführung Martin Lange Institut für Informatik Ludwig-Maximilians-Universität München Quantencomputer: Einführung p.1/29 Einleitung Quantencomputer: Einführung p.2/29 Geschichte Computer

Mehr

Theoretische Informatik II

Theoretische Informatik II Theoretische Informatik II Dr. Eva Richter / Holger Arnold Universität Potsdam, Theoretische Informatik, Sommersemester 2008 Übungsblatt 3 (Version 4) Abgabetermin: 13.5.2008, 12.00 Uhr Der λ-kalkül Da

Mehr

Informatik I (D-MAVT)

Informatik I (D-MAVT) Informatik I (D-MAVT) Übungsstunde 2 simon.mayer@inf.ethz.ch Distributed Systems Group, ETH Zürich Ablauf Besprechung der Vorlesung Vorbesprechung Übung 2 Variablen + Scopes Zahlensysteme Bits&Bytes Datentypen

Mehr

7 Integralrechnung für Funktionen einer Variablen

7 Integralrechnung für Funktionen einer Variablen 7 Integralrechnung für Funktionen einer Variablen In diesem Kapitel sei stets D R, und I R ein Intervall. 7. Das unbestimmte Integral (Stammfunktion) Es sei f : I R eine Funktion. Eine differenzierbare

Mehr

Automatische Indexierung zwischen Forschung und Anwendung

Automatische Indexierung zwischen Forschung und Anwendung Gerhard Lustig (Hg.) Automatische Indexierung zwischen Forschung und Anwendung,H,: :,... 1986 Georg Olms Verlag Hildesheim Zürich New York Gesellschaft für Linguistische Datenverarbeitung e. V. ix Inhalt

Mehr

Formale Sprachen und endliche Automaten

Formale Sprachen und endliche Automaten Formale Sprachen und endliche Automaten Formale Sprachen Definition: 1 (Alphabet) Ein Alphabet Σ ist eine endliche, nichtleere Menge von Zeichen oder Symbolen. Ein Wort über dem Alphabet Σ ist eine endliche

Mehr

HM I Tutorium 1. Lucas Kunz. 27. Oktober 2016

HM I Tutorium 1. Lucas Kunz. 27. Oktober 2016 HM I Tutorium 1 Lucas Kunz 27. Oktober 2016 Inhaltsverzeichnis 1 Theorie 2 1.1 Logische Verknüpfungen............................ 2 1.2 Quantoren.................................... 3 1.3 Mengen und ihre

Mehr

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016 Universität Augsburg, Institut für Informatik Sommersemester 2016 Prof. Dr. W. Kießling 12. Juli 2016 Dr. F. Wenzel, L. Rudenko Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Mehr

Mathematik-Vorkurs für Informatiker Formale Sprachen 1

Mathematik-Vorkurs für Informatiker Formale Sprachen 1 Christian Eisentraut & Julia Krämer www.vorkurs-mathematik-informatik.de Mathematik-Vorkurs für Informatiker Formale Sprachen 1 Aufgabe 1. (Wiederholung wichtiger Begriffe) Kategorie 1 Notieren Sie die

Mehr

Information Retrieval Eine Einführung in das Indexieren

Information Retrieval Eine Einführung in das Indexieren Seminar für Computerlinguistik Universität Zürich Sommersemester 2001 Seminar Semantikrepräsentation für Antwortextraktion Prof. Dr. M. Hess lic. phil. S.Clematide Information Retrieval Eine Einführung

Mehr

Vektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)

Vektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition) Vektorräume In vielen physikalischen Betrachtungen treten Größen auf, die nicht nur durch ihren Zahlenwert charakterisiert werden, sondern auch durch ihre Richtung Man nennt sie vektorielle Größen im Gegensatz

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

5.4 Basis, Lineare Abhängigkeit

5.4 Basis, Lineare Abhängigkeit die allgemeine Lösung des homogenen Systems. Wieder ist 2 0 L i = L h + 0 1 Wir fassen noch einmal zusammen: Ein homogenes lineares Gleichungssystem A x = 0 mit m Gleichungen und n Unbekannten hat n Rang(A)

Mehr

Probeklausur Digitale Medien

Probeklausur Digitale Medien Probeklausur Digitale Medien Wintersemester 2007 / 2008 LMU München LFE Medieninformatik Prof. H. Hußmann Dauer: 90 Minuten Zugelassene Hilfsmittel: Unterlagen zur Vorlesung und Übung Digitale Medien,

Mehr

Informatik I Information & Daten Repräsentation von Daten

Informatik I Information & Daten Repräsentation von Daten Informatik I Information & Daten Repräsentation von Daten G. Zachmann Clausthal University, Germany zach@in.tu-clausthal.de Daten & Informationen Menschen sind an Informationen interessiert Computer verarbeiten

Mehr

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri Sprachanalyse WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Inhalt 1. Formale Sprachen 2. Chomsky-Hierarchie 2 FORMALE SPRACHE 1. WAS IST EINE SPRACHE? 2. WIE BESCHREIBT MAN EINE SPRACHE? 3. WAS

Mehr

Lineare Algebra und Numerische Mathematik für D-BAUG

Lineare Algebra und Numerische Mathematik für D-BAUG R Käppeli L Herrmann W Wu Herbstsemester 26 Lineare Algebra und Numerische Mathematik für D-BAUG ETH Zürich D-MATH Beispiellösung für Serie 2 Aufgabe 2 Welche der folgenden Aussagen sind korrekt? (i) Jedes

Mehr

Grundlagen digitaler Systeme WS12

Grundlagen digitaler Systeme WS12 Grundlagen digitaler Systeme WS12 Binary Decision Diagrams Johann Blieberger 183.580, VU 2.0 Automation Systems Group E183-1 Institute of Computer Aided Automation Vienna University of Technology email:

Mehr

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { } Zur Einleitung: Lineare Gleichungssysteme Wir untersuchen zunächst mit Methoden, die Sie vermutlich aus der Schule kennen, explizit einige kleine lineare Gleichungssysteme. Das Gleichungssystem I wird

Mehr

Reguläre Sprachen. R. Stiebe: Theoretische Informatik für ING-IF und Lehrer,

Reguläre Sprachen. R. Stiebe: Theoretische Informatik für ING-IF und Lehrer, Reguläre Sprachen Reguläre Sprachen (Typ-3-Sprachen) haben große Bedeutung in Textverarbeitung und Programmierung (z.b. lexikalische Analyse) besitzen für viele Entscheidungsprobleme effiziente Algorithmen

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse

Mehr