Information Retrieval
|
|
|
- Martin Abel
- vor 9 Jahren
- Abrufe
Transkript
1 Information Retrieval Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik Vorlesung Sommersemester 2004 Allgemeines zur Vorlesung Vorbemerkungen Es gibt eine Homepage zur Vorlesung: Die Vorlesung wird folienbasiert gehalten. Die Folien zur Vorlesung (Skript) stehen auf der Homepage vor der Vorlesung zur Verfügung. Format: PDF, zwei- und vierseitig Sie können also die ausgedruckten Folien mit in die Vorlesung bringen und dort mit schriftlichen Bemerkungen versehen. Benutzen Sie zum Drucken bitte die vierseitige Version des Skriptes. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 1
2 Übungen Vorbemerkungen In die Vorlesung integriert Bearbeitungszeit: abhängig von den Aufgaben, i.d.r. eine oder zwei Wochen Programmieraufgaben und andere praktische Aufgaben Programmieraufgaben können in einer beliebigen Programmiersprache gelöst werden. Sie bekommen Zugriff auf das Labor Wissens- und Informationsmanagement. ux-2e00.inf.fh-bonn-rhein-sieg.de Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 2 Prüfung Vorbemerkungen Prüfung Bachelor: im 1. Prüfungszeitraum schriftlich über Vorlesung und Übung Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 3
3 Inhalt Vorbemerkungen 1. Grundlegende Konzepte von IR-Systemen 2. Bewertung von Retrievalsystemen 3. Retrievalmodelle 4. Textalgorithmen 5. Erweiterte Retrieval-Ansätze 6. Web-Suchmaschinen und Informationsagenten Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 4 Literatur Vorbemerkungen R. Ferber, Information Retrieval, dpunkt.verlag, R. Baeza Yates, B. Ribeiro Neto, Modern Information Retrieval, Addison Wesley, I. A. Witten, A. Moffat, T. C. Bell, Managing Gigabytes, Morgan Kaufmann Publishers, W. B. Frakes, R. Baeza Yates (Hrsg.), Information Retrieval: Data Structures and Algorithms, Prentice Hall, R. R. Korfhage, Information Storage and Retrieval, John Wiley, G. Salton, M. J. McGill, Introduction to Modern Information Retrieval, McGraw Hill, Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 5
4 Vorbemerkungen G. J. Kowalski, M. T. Maybury, Information Storage and Retrieval Systems: Theory and Implementation, Kluwer, R. K. Belew, Finding Out About, Cambridge University Press, Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen Charakterisierung des Begriffs Information Retrieval Beispiele von Retrievalsystemen Definition: Information Retrieval Aspekte von Retrievalsystemen Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 7
5 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Charakterisierung des Begriffs Information Retrieval : Weitgefaßt versteht man unter dem Begriff Information Retrieval (IR) jede Art der Wiedergewinnung maschinell gespeicherter Daten. Im Vordergrund stehen dabei Anfragen mit vagen oder unvollständigen Kriterien. weiche Daten im Gegensatz zu den harten Daten in klassischen Datenbanken Die Suche ist in erster Linie an inhaltlichen Kriterien ausgerichtet. Es geht um das Wiederauffinden von Informationen zu thematisch-inhaltlichen Fragen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Textretrieval Sehr häufig ist mit dem Begriff Information Retrieval die inhaltliche Suche in Texten gemeint. Diese Art des IR wird auch als Textretrieval oder Dokumentretrieval bezeichnet. Das klassische Anwendungsgebiet des Textretrievals sind Literaturdatenbanken. Diese enthalten bibliographische Angaben und Kurzfassungen (Abstracts) von Veröffentlichungen und sollen Anwendern die Suche nach Literatur in einem Fachgebiet erleichtern. Typische Anwendung des Textretrievals sind heute Suchmaschinen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 9
6 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Warum wird Retrievaltechnologie so wichtig? Vernetzung, Internet und die damit verbundenen Technologien: Produzent: Für Anbieter wird es leicht, Informationsbestände anzubieten. Konsument: Nutzer erhalten einen leichten Zugang zu den Informationsbeständen. standardisierte Formate (HTML, XML, etc.), plattformübergreifende bzw. -unabhängige Software, dedizierte Frameworks für die Verarbeitung von Dokumenten Konsequenzen: bessere Marktfähigkeit von Informationen geringere Preise für die Informationsbeschaffung Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Neue Medien, insbesondere DVD/CD-ROM. Vorteile: Umfangreiche Informationsbestände können kostengünstig verteilt werden. preiswerter und platzsparender als Papier lokale Nutzung möglich zusätzliche Funktionalitäten gut geeignet für Nachschlagewerke wie z. B. technische Handbücher (Beispiel: Answerbook von SUN) DVD plus Retrievalsoftware kann gegenüber gedruckten Handbüchern die Suche nach benötigten Informationen erheblich vereinfachen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 11
7 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Vermehrte rechnerbasierte Erstellung, Bearbeitung und Archivierung von Dokumenten, u.a. bedingt durch Fortschritte in der Hard- und Softwaretechnologie: Büroinformationssysteme Workflow-Management Archivierungssysteme Neue Anwendungsgebiete wie z.b.: multimediale Informationssysteme molekularbiologische Datenbanken Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen Beispiele von Retrievalsystemen Suchmaschinen im INTERNET: Google, Yahoo, Overture Metasuchmaschinen zur gleichzeitigen Suche in mehreren Suchmaschinen: Vivisimo, Metager Literatur- und Fachinformationsdatenbanken: Fachinformationszentrum Karlsruhe (STN), CD-ROM basierte technische Dokumentation experimentelle IR-Systeme: SMART, INQUERY, MG Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 13
8 1. Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen kommerzielle Systeme: Verity, OpenText, Fulcrum, IBM DB2 Text Extender Gen-Datenbanken einfache, auf String-Matching basierende Systeme: Glimpse Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen IR am Beispiel von Literaturdatenbanken Das folgende Dokument stammt aus der Datenbank CompuScience von STN: L1 ANSWER 10 OF 290 COMPUSCIENCE COPYRIGHT 1996 FIZ KARLSRUHE AN 96(7):CS56570 COMPUSCIENCE TI Experiments in spoken document retrieval. AU Sparck Jones, K.; Jones, G.J.F. (Comp. Lab., Univ. of Cambridge, New Museums Site, Pembroke Str., Cambridge CB2 3QG, UK); Foote, J.T.; Young, S.J. SO Information Processing \& Management. (Jul 1996) v. 32(4) p New York: Pergamon Press. An International Journal. ISSN: Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 15
9 1. Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen DT TC CY LA IP AB CC ST Journal Theoretical United States English FIZKA This paper describes experiments in the retrieval of spoken documents in multimedia systems. Speech documents pose a particular problem for retrieval since their words as well as contents are unknown. The work reported addresses this problem, for a video mail application, by combining state-of-the-art speech recognition with established document retrieval technologies so as to provide an effective and efficient retrieval tool. *H.3.3 Information search and retrieval H.5.1 Multimedia information systems I.2.7 Natural language processing IR(information retrieval); spoken document retrieval; multimedia system; video mail; speech recognition Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen Das Dokument enthält: bibliographische Angaben Kurzfassung (Abstract) Einordnung in ein hierarchisches Indexsystem Stichwörter CompuScience ist eine der wichtigsten Datenbanken für die Informatik. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 17
10 1. Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen Kosten der Informationssuche: STN International Fees and Prices, Effective Jan 1, 1995 COMPUSCIENCE File German Marks Connect Hour Fee (per hour). 178,00 Display Fee (per answer)... 1,95 Print Fee (per answer) Total. 1,95 Print Basic Fee for Display Fields without Charge.... 0,20 SDI Search Fee ,00 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 19
11 1. Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen Suche: Die Suche nach Dokumenten geschieht Stichwörter. über Kategorien und Hierzu werden boolsche Kombinationen von Kategorien und Wörtern angegeben. Hierbei sollte es sich um Wörter handeln, die spezifisch für die Fragestellung sind und allgemein genug sind, so daß sie in jedem für die Anfrage wichtigen Artikel auftreten. Das Retrievalsystem liefert als Ergebnis alle Dokumente, die die angegebene Kombination von Wörtern enthalten. Obiges Dokument wurde bei folgender Anfrage gefunden: Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen s multimedia and information(w)retrieval Typischerweise hat man bei der Konstruktion von Anfragen folgende Möglichkeiten: Verwendung boolscher Operatoren Verfeinerung vorangegangener Anfragen bzw. Bezugnahme auf die Ergebnisse vorangeg. Anfragen Verwendung von Abstandsoperatoren Trunkierung Einschränkung der Suche auf bestimmte Felder Vergleichsoperatoren für numerische Felder Durchsuchen von Termlisten (Browsing) Nutzung von Thesauri STN ist ein typisches Beispiel eines boolschen Retrievalsystems. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 21
12 1. Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen Die bei STN verwendete klassische Abfragesprache heißt Messenger. Die folgenden Zahlen verdeutlichen beispielhaft den Einfluß von Abstandsoperatoren auf das Retrievalergebnis: L1 L2 L MULTIMEDIA INFORMATION RETRIEVAL 3595 INFORMATION RETRIEVAL (INFORMATION(W)RETRIEVAL) 290 (MULTIMEDIA AND INFORMATION RETRIEVAL) 560 ((MULTIMEDIA AND INFORMATION) AND RETRIEVAL) 16 MULTIMEDIA INFORMATION RETRIEVAL (MULTIMEDIA(W)INFORMATION(W)RETRIEVAL) Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Beispiele von Retrievalsystemen Bemerkungen: Boolsches Retrieval ist immer noch der Standard bei vielen kommerziellen Retrievalsystemen. Vorteil der boolschen Systeme ist die logische Klarheit. Nachteile: Sie sind schwierig zu bedienen und liefern auf eine Anfrage eine ungeordnete Menge von Dokumenten. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 23
13 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Definition: Information Retrieval Es gibt keine eindeutige und allgemein akzeptierte Definition für die Begriffe Information Retrieval bzw. Information Retrieval System. Einige Zitate aus der Literatur: Salton und McGill, 1983 Information retrieval (IR) is concerned with the representation, storage, organization, and accessing of information items. In principle no restriction is placed on the type of item handled in information retrieval. In actuality, many of the items found in ordinary retrieval systems are characterized by an emphasis on narrative information. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Mresse, 1984 Unter Information Retrieval (IR) im weitesten Sinne des Wortes wird jeder Art der Wiedergewinnung (maschinell) gespeicherter Daten verstanden. Frakes und Baeza-Yates, 1992 An IR system matches user queries formal statements of information need to documents stored in a database. A document is a data object, usually textual, though it may also contain other types of data such as photographs, graphs, and so on. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 25
14 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Harter, 1986 An information retrieval system is a device interposed between a potential user of information and the information collection itself. For a given information problem, the purpose of the system is to capture wanted items and to filter out unwanted items. Die Fachgruppe Information Retrieval der GI definiert (in Stichworten) den Begriff wie folgt (siehe auch Fuhr, 1995): Gegenstand des IR: Informationssysteme in bezug auf ihre Rolle beim Wissenstransfer vom menschlichen Wissensproduzenten zum Informations-Nachfragenden Schwerpunkt sind Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen: Fragen mit unscharfen Kriterien und Fragen, die nur im Dialog iterativ durch Reformulierung beantwortet werden können. Die Unsicherheit dieses Wissens resultiert meistens aus der begrenzten Repräsentation der Semantik oder die gespeicherten Daten sind unsicher oder unvollständig. Ein weiterer wichtiger Punkt ist die Bewertung der Qualität der Anworten eines Informationssystems. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 27
15 1. Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Prinzip eines Retrievalsystems Ablauf eines Frage/Antwort-Dialogs und seine Ausprägung in einem Retrievalsystem. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Konzeptuelles Modell Beim konzeptuellen Modell eines IR-Systems handelt es sich um den allgemeinen Ansatz, der dem System zu Grunde liegt. Folgende Ausprägungen sind möglich: Stringsuche: Die Suchanfragen sind Strings oder reguläre Ausdrücke. Nur für kleine Bestände geeignet. boolsches Retrieval: siehe CompuScience Vektorraummodell: Dokumente und Anfragen werden als Vektoren in einem Vektorraum repräsentiert. Als Basis für das Retrieval dient eine Ähnlichkeitsfunktion, die auf den Vektordarstellungen aufsetzt. Vorteile: Möglichkeit der Gewichtung von Anfragetermen und Erstellung von Rangfolgen (Ranking). Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 29
16 1. Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen probabilistisches Retrieval: Die Wichtigkeit eines Dokuments für eine Anfrage wird über die Wahrscheinlichkeit der Relevanz gemessen. Die Berechnungen basieren dabei auf gewissen statistischen Annahmen. Gewichtung und Rangfolgeerstellung ist möglich. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Datenstrukturen in Retrievalsystemen Zur Unterstützung einer effizienten Suche werden i.d.r. spezielle Datenstrukturen eingesetzt: Invertierte Dateien Signature Files Suffix-Bäume, insbesondere PAT-Trees und Positionsbäume. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 31
17 1. Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Anfragebearbeitung Möglichkeiten, die ein IR-System für die Bearbeitung von Anfragen zur Verfügung stellt. Anfragesprache Bezugnahme auf alte Anfragen oder Ergebnismengen in neuen Anfragen boolsche Operatoren Rangfolgen (Ranking) Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Relevanzr ückkopplung (relevance feedback): Informationen über die Relevanz von Dokumenten aus früheren Anfragen werden genutzt, um eine Anfrage zu verbessern. Ähnlichkeitssuche Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 33
18 1. Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Termoperationen Operationen, die auf den Stichwörtern (Termen) eines Dokuments (bei der Indexierung oder einer Anfrage) vom IR-System durchgeführt werden. Trunkierung Lemmatisierungen: Reduzierung eines Worts (als Term) auf seine Grund- oder Stammform; Erkennung von Komposita. Stopwortliste: Filterung aller Wörter, die keinen sinnvollen Beitrag zur Indexierung leisten. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Thesaurus: Ein Thesaurus ist eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Beziehungen. In IR- Systemen bietet sich die Verwendung eines Thesaurus aus folgenden Gründen an: kontrolliertes Vokabular Klassifikation der Dokumente bessere Retrievalergebnisse durch zusätzliche Verwendung von Ober- oder Unterbegriffen Termgewichtung: Verfahren, die Termen beim Indexieren oder bei der Anfrage ein Gewicht zuweisen. Dieses Gewicht soll die Wichtigkeit eines Terms charakterisieren. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 35
19 1. Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Text Dokumente Textparsing Dokumente Worte Stopwortliste Non-Stopworte Nr.-Zuweisung Stammform Worte in Funktionales Modell eines (boolschen) IR-Systems: Grundform Gewichtung gewichtete Terme Anfrageterme in Grundform Datenbasis Dokumente mit Dokumentnummern Dokumentmengen Stammform bool. Operat. Anfrageterme Gesamtergebnis Queryparsing Anfrage Ranking Schnittstelle bewertetes Gesamtergebnis Relevanzbew. Anfragen Dokumente Benutzer Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Abgrenzung zu anderen Informationssystemen IR DBMS XPS Datenobjekte Dokumente Tabellen logische Aussagen primäre Operationen prob. Retrieval det. Retrieval Inferenz Datenbankgröße klein bis s. groß klein bis s. groß klein Fakten-Retrieval (DBMS) Information Retrieval Matching exakt partiell (best match) Inferenz Deduktion Induktion (heuristisch) Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal nat ürlich Fragespezifikation vollständig unvollständig gesuchte Objekte erf üllende relevante Reaktion auf Datenfehler sensitiv insensitiv Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 37
20 1. Grundlegende Konzepte von IR-Systemen Aspekte von Retrievalsystemen Resultate einer Suche: Beispielfrage: What is the best SCSI disk drive to buy? Ein relevantes Posting: Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 38
1. Grundlegende Konzepte von Information Retrieval Systemen
1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen Charakterisierung des Begriffs Information Retrieval Beispiele
Information Retrieval
Information Retrieval Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik [email protected] Vorlesung Sommersemester 2004 In die Vorlesung integriert Übungen Bearbeitungszeit:
Information Retrieval
Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben
Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
Vorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 [email protected] 1 Themenübersicht
Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
Suchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
Kapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
Information Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval
Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und
T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
Midas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
Einführung in die Wissensverarbeitung und Data Mining
Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen
Erweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
Anwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE
Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE Detlef Görlitz www.physik.uni hamburg.de Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über
Mathematisch-algorithmische Grundlagen für Big Data
Mathematisch-algorithmische Grundlagen für Big Data Numerische Algorithmen für Datenanalyse und Optimierung Prof. Dr. Peter Becker Fachbereich Informatik Hochschule Bonn-Rhein-Sieg Sommersemester 2017
Einsatz und Realisierung von Datenbanken. Prof. Alfons Kemper Lehrstuhl für Informatik III: Datenbanksysteme
Einsatz und Realisierung von Datenbanken Prof. Alfons Kemper Lehrstuhl für Informatik III: Datenbanksysteme [email protected] Primärliteratur: Datenbanksysteme: Eine Einführung Alfons Kemper und Andre
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
Einsatz und Realisierung von Datenbanken. Prof. Alfons Kemper Lehrstuhl für Informatik III: Datenbanksysteme
Einsatz und Realisierung von Datenbanken Prof. Alfons Kemper Lehrstuhl für Informatik III: Datenbanksysteme [email protected] Primärliteratur: Datenbanksysteme: Eine Einführung Alfons Kemper und Andre
Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
Information Retrieval Einführung
Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information
Klassische Information Retrieval Modelle Einführung
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle
5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
Boole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
Algorithmen und Datenstrukturen II
Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung III: D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009,
IR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)
, XML LV BF23 (0F32) Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH) Achim Oßwald FH Köln Institut für Informationswissenschaft Wintersemester 2010 (Stand: 3.12.10) 1/ 18 OAI-PMH
Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion
Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische
Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.
Fit für die Projektarbeit Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.2010 Thematische Literatursuche in 5 Schritten 1. Was suchen Sie? Analysieren
Web Data Mining. Alexander Hinneburg Sommersemester 2007
Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining
Multimedia-Datenbanken im SS 2010 Einführung in MMDB
Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe
The projectivity of the moduli space of stable curves. I: Preliminaries on "det"...
The projectivity of the moduli space of stable curves. I: Preliminaries on "det"... Knudsen, Finn; Mumford, David pp. 19-55 Terms and Conditions The Göttingen State and University Library provides access
Web Services Einsatzmöglichkeiten für das Information Retrieval im WWW
Web Services Einsatzmöglichkeiten für das Information Retrieval im WWW Fabio Tosques & Philipp Mayr Frankfurt am Main, den 24. Mai 2005 27. Online-Tagung der DGI 2005 1 Überblick Datenanalyse mittels screen
GEO-INFORMATIONSSYSTEME
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE GEO-INFORMATIONSSYSTEME Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2015/16 Ludwig-Maximilians-Universität
Federated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
Information Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Thesaurus 1. Merkmale:
Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung
Information Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
Architektur von REST basierten Webservices
28.11.2005 Architektur von REST basierten Webservices Referent MARK ALTHOFF REST was invented by ROY T. FIELDING and RICHARD N. TAYLOR Geschichtlicher Hintergrund von REST 1994-1995 taucht der Begriff
Nachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von
Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden
Business Intelligence & Machine Learning
AUSFÜLLHILFE: BEWEGEN SIE DEN MAUSZEIGER ÜBER DIE ÜBERSCHRIFTEN. AUSFÜHRLICHE HINWEISE: LEITFADEN MODULBESCHREIBUNG Business Intelligence & Machine Learning Kennnummer Workload Credits/LP Studiensemester
BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany
BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell
Software Analyse Tooldemo: JQuery Sommersemester 2011. Jonas Pusch
Software Analyse Tooldemo: JQuery Sommersemester 2011 Jonas Pusch Gliederung 1. Was ist JQuery? 2. Browsing Code (Motivation for JQuery) 3. Wie funktioniert JQuery? i. JQuery Features ii. TyRuBa (Sprache
Customer-specific software for autonomous driving and driver assistance (ADAS)
This press release is approved for publication. Press Release Chemnitz, February 6 th, 2014 Customer-specific software for autonomous driving and driver assistance (ADAS) With the new product line Baselabs
Zugang zum Academic Invisible Web
Zugang zum Academic Invisible Web Dr. Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft [email protected] www.durchdenken.de/lewandowski Gliederung
Datenbanken Datenbanken 1 Belegnummer Belegnummer
Datenbanken Datenbanken 1 Belegnummer 30.7302 Belegnummer 30.7312 Blockkurs 31.08. 11.09.2015 Wintersemester 2015/16 (Bachelor) Materialien zur Vorlesung Michael Roth Inge Hochschule Darmstadt Fachbereich
Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014
Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen
Bioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
11. Komponenten Grundlagen der Programmierung 1 (Java)
11. Komponenten Grundlagen der Programmierung 1 (Java) Fachhochschule Darmstadt Haardtring 100 D-64295 Darmstadt Prof. Dr. Bernhard Humm FH Darmstadt, 10. Januar 2006 Einordnung im Kontext der Vorlesung
Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
Fuzzy-Suche in Application Express
Fuzzy-Suche in Application Express So geht s! Carsten Czarski Consulting Member of technical staff - Oracle Application Express September 2017 Copyright 2016 Oracle and/or its affiliates. All rights reserved.
Grundlagen Internet-Technologien INF3171
Fachbereich Informatik Informationsdienste Grundlagen Internet-Technologien INF3171 Cookies & Sessions Version 1.0 20.06.2016 aktuelles 2 Erweiterungen wir betrachten zwei Erweiterungen: Personalisierung
4. Vererbung Die Klasse Object. Die Klasse Object
4. Vererbung Die Klasse Object Die Klasse Object Alle Klassen ohne explizit deklarierte Superklasse haben die Klasse Object als Superklasse. Object gehört zum Paket java.lang. Object verfügt über einige
1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
Boolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}
Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich
Volltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
Grundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17
Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
Programmierung im Grossen
1 Letzte Aktualisierung: 16. April 2004 Programmierung im Grossen Bertrand Meyer 2 Vorlesung 4: Abstrakte Daten-Typen Übungen 3 Passe die vorhergehende Spezifikation von Stacks (LIFO, Last-In First-Out
Frequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
Kapitel 8 Typologie von Retrievalsystemen
Kapitel 8 Typologie von Retrievalsystemen HHU Düsseldorf, WS 2008/09 Information Retrieval 115 nach Medienform der Dokumente: textuelle Dokumente strukturierte Dokumente schwach strukturierte Dokumente:
12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
Automatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik [email protected]
Unified-E Standard WebHttp Adapter
Unified-E Standard WebHttp Adapter Version: 1.5.0.2 und höher Juli 2017 Inhalt 1 Allgemeines... 2 2 Adapter-Parameter in Unified-E... 2 3 Symbolische Adressierung... 3 3.1 ReadValues-Methode... 4 3.2 WriteValues
Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
SnagIt 9.0.2. Movable Type Output By TechSmith Corporation
SnagIt 9.0.2 By TechSmith Corporation TechSmith License Agreement TechSmith Corporation provides this manual "as is", makes no representations or warranties with respect to its contents or use, and specifically
Warum Suche (trotzdem) bedeutend ist
Warum Suche (trotzdem) bedeutend ist Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information [email protected] Drei Themen 1 Agenda Wie steht die
GIS und raumbezogene Datenbanken
GIS und raumbezogene Datenbanken Eine raumbezogene Datenbank (spatial database) dient der effizienten Speicherung, Verwaltung und Anfrage von raumbezogenen Daten. datenbankorientiert Ein geographisches
english anytime german Version
QUICK START guide english anytime german Version 2012 Wall Street Institute Kft, Luxembourg Branch For the accurate translated version into other languages. It is the responsibility of the licensee to
Data/Information Quality Management
Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!
Datenbank-Recherche. SS Veranstaltung 8. Mai Philipp Mayr - Philipp Schaer -
Datenbank-Recherche SS 2014 4. Veranstaltung 8. Mai 2014 Philipp Mayr - [email protected] Philipp Schaer - [email protected] GESIS Leibniz-Institut für Sozialwissenschaften 2 Agenda Nachbearbeitung
Studienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
Algebraische Spezifikation von Software und Hardware II
Algebraische Spezifikation von Software und Hardware II Markus Roggenbach Mai 2008 3. Signaturen 3. Signaturen 2 Grundlegende Frage Wie lassen sich Interfaces beschreiben? Signaturen = Sammlung aller bekannten
Literaturrecherche Mentoring für Lehrer
Literaturrecherche Mentoring für Lehrer VU Empirische Methoden Ao.Univ.-Prof. Mag. DI Dr. Christian Schlögl Anna Winkelbauer 0212038 geplante Recherchestrategie Suchbegriff: Mentoring für Lehrer Datenbank:
Literaturdatenbanken
Workshop Tipps und Tools für eine effektive Literaturrecherche in Pubmed/Medline 5. Kongress für Arzneimittelinformation Köln 04.02.2017 Dr. Mirjam Gnadt Arzneimittelinformationsstelle der Bayerischen
