Information Retrieval

Ähnliche Dokumente
Information Retrieval

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April Einführung

Internet-Suchmaschinen 1. Einführung

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Einführung in Information Retrieval Skriptum zur Vorlesung im SS 10. Norbert Fuhr

Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Kapitel IR:III (Fortsetzung)

Information Retrieval Einführung

Information Retrieval

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Wissensrepräsentation

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Kompendium semantische Netze

Inhaltsverzeichnis 1 Einführung Was ist Information Retrieval? IR-Konzepte Daten μ Wissen μ Information..

IR Seminar SoSe 2012 Martin Leinberger

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Information Retrieval in XML- Dokumenten

Einführung Grundbegriffe

Logik für Informatiker

Logik für Informatiker

Herzlich willkommen!!!

Multimedia-Metadaten und ihre Anwendung

Einführung in die Wissensverarbeitung und Data Mining

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Information Retrieval. Peter Kolb

1. Vorlesung,

Computational Neuroscience

Künstliche Intelligenz

Algorithmen und Datenstrukturen II

Künstliche Intelligenz

1.1 Motivation. Theorie der Informatik. Theorie der Informatik. 1.1 Motivation. 1.2 Syntax. 1.3 Semantik. 1.4 Formeleigenschaften. 1.

Informationssysteme für Ingenieure

Was bisher geschah. wahr 0 t 1 falsch 0 f 0 Konjunktion 2 min Disjunktion 2 max Negation 1 x 1 x Implikation 2 Äquivalenz 2 =

Künstliche Intelligenz

Wie recherchiere ich Fachinformationen zur Berufsbildung im Internet? Die Literaturdatenbank Berufliche Bildung (LDBB)

Bernard Favre-Bulle. Information und Zusammenhang. Informationsfluß in Prozessen der Wahrnehmung, des Denkens und der Kommunikation

1. Grundlegende Konzepte von Information Retrieval Systemen

Frequent Itemset Mining + Association Rule Mining

Einführung in die Logik (Vorkurs)

5.1 Inferenz. Theorie der Informatik. Theorie der Informatik. 5.1 Inferenz. 5.2 Resolutionskalkül. 5.3 Zusammenfassung. Inferenz: Motivation

Semantische Datenintegration: Strategien zur Integration von Datenbanken

Seminar Datenbanksysteme

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Einsatz von Scalable Vector Graphics (SVG) zur Modellrepräsentation und -manipulation in Web-Anwendungen mit J2EE. Motivation und Zielsetzung

Theoretische Informatik 2 bzw. Formale Sprachen und Berechenbarkeit. Sommersemester Herzlich willkommen!

Was ist mathematische Logik?

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Bibliothekssysteme / Verbundsysteme / Netze

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer

Datenbanken und Informationssysteme

Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr

Information Retrieval Übung

Definition: Ziele, Aufgaben, Methoden (1) Definition (1.1) Key issues (users needs):

Adventure-Problem. Vorlesung Automaten und Formale Sprachen Sommersemester Adventure-Problem

Logik für Informatiker

Transkript:

Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011

Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

IR in Beispielen IR-Aufgaben IR-Facetten Unterschiede zu klassischen Suchaufgaben:

Information Retrieval 4 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Web

Information Retrieval 5 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Intranet

Information Retrieval 6 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Digitale Bibliotheken

Information Retrieval 7 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Multimedia (Bilder, Musik, Video)

Information Retrieval 8 IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation

Information Retrieval 8 IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation Beispiel: Spam-Mail-Erkennung

Information Retrieval 9 IR in Beispielen IR-Aufgaben IR-Aufgaben Clustering

Information Retrieval 10 IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup

Information Retrieval 10 IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup Beispiel: Markup bei Yahoo!-Nachrichten

Information Retrieval 11 IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung

Information Retrieval 11 IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung

Information Retrieval 12 IR in Beispielen IR-Aufgaben IR-Aufgaben Frage-Antwort-Systeme

Information Retrieval 13 IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme

Information Retrieval 13 IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme

Information Retrieval 14 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche Klassifikation ( Vorlesung Information Mining) Clustering ( Vorlesung Information Mining) Informationsextraktion ( Vorlesung Information Engineering / Vorlesung Informationsextraktion aus Texten, Hoeppner) (Text-)Zusammenfassung Frage-Antwort-Systeme Recommender-Systeme

Information Retrieval 15 IR in Beispielen IR-Facetten IR-Facetten Sprache Beispiel: cross-linguale Suche in Google

Information Retrieval 16 IR in Beispielen IR-Facetten IR-Facetten Struktur Beispiel: XML-Retrieval

Information Retrieval 17 IR in Beispielen IR-Facetten IR-Facetten Medien Beispiel: Ähnlichkeitssuche auf Bildern

Information Retrieval 18 IR in Beispielen IR-Facetten IR-Facetten Objekte Beispiel: Personensuche mit 123people

Information Retrieval 19 IR in Beispielen IR-Facetten IR-Facetten statische/dynamische Inhalte Beispiel: Twitter-Suche

Information Retrieval 20 IR in Beispielen IR-Facetten IR-Facetten Sprache: monolingual, cross-lingual, multilingual Struktur: atomar, Felder, baumartig (z.b. XML), Graph (z.b. Web) Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video, 3D,... Objekte: Produkte, Personen, Firmen statische/dynamische Inhalte

Information Retrieval 21 IR in Beispielen Unterschiede zu klassischen Suchaufgaben: Unterschiede zu klassischen Suchaufgaben: Schwierigkeit, passende Anfrage zu formulieren iterative Anfrageformulierung (abhängig von Antworten) viele Antworten, aber wenige davon relevant Rangordnung der Antworten (statt Antwortmenge) Repräsentation des Inhalts von Dokumenten inadäquat / unsicher

Was ist IR? Definitionen IR = Unsicherheit und Vagheit in IS IR = inhaltsorientierte Suche

Information Retrieval 23 Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.

Information Retrieval 23 Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information. Definition der Fachgruppe IR in der GI (1992): Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe Information Retrieval in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen.

Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren

Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen

Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung

Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte

Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten)

Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten)

Information Retrieval 25 Was ist IR? IR = inhaltsorientierte Suche IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik

Information Retrieval 26 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme?

Information Retrieval 27 Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten

Information Retrieval 27 Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten 1. Konturen

Information Retrieval 28 Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 2. Texturen d001 d056 d095 d020 Textures: Muster im Grauwert-Bild strukturelle und/oder statistische Muster d014 d006 d003 d004 d087 d005 d111 d066 d011 d103 d049 d015

Information Retrieval 29 Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben

Information Retrieval 29 Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben

Information Retrieval 30 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo

Information Retrieval 30 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo (basiert auf Textsuche im Dateinamen und der Bildunterschrift)

Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema

Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis

Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv

Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv Aber die pragmatische Ebene ist wichtig für viele Anwendungen

Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen:

Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern)

Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte)

Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?)

Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?) IR beschäftigt sich mit der Semantik und Pragmatik von Dokumenten

Daten Information Wissen

Information Retrieval 34 Daten Information Wissen Daten Information Wissen

Information Retrieval 34 Daten Information Wissen Daten Information Wissen

Information Retrieval 34 Daten Information Wissen Daten Information Wissen

Information Retrieval 35 Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist)

Information Retrieval 35 Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht.

Information Retrieval 35 Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht. Die Transformation von Information in Wissen ist ein Mehrwert erzeugender Prozess

Information Retrieval 36 Daten Information Wissen Wissen zur Entscheidungsunterstützung Daten Information Wissen Entscheidung Nützlichkeit

Dimensionen des IR

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante

Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante Reaktion auf Datenfehler sensitiv insensitiv

Rahmenarchitektur für IR-Systeme

Information Retrieval 40 Rahmenarchitektur für IR-Systeme Rahmenarchitektur für IR-Systeme Informations bedürfnis Frage Repräsentation Frage Beschreibung Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung

Information Retrieval 41 Rahmenarchitektur für IR-Systeme Beispiel für ein Textdokument Objekt: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Repräsentation: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Beschreibung: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung

Information Retrieval 42 Rahmenarchitektur für IR-Systeme Beispiel für Textsuche Frage: What is the best indexing algorithm? Repräsentation: (best index algorithm) Beschreibung: best index algorithm Informations bedürfnis Frage Repräsentation Frage Beschreibung

Information Retrieval 43 Rahmenarchitektur für IR-Systeme Bezug zu den Vorlesungskapiteln Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Wissensrepräsentation Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle