Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011
Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme
IR in Beispielen IR-Aufgaben IR-Facetten Unterschiede zu klassischen Suchaufgaben:
Information Retrieval 4 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Web
Information Retrieval 5 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Intranet
Information Retrieval 6 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Digitale Bibliotheken
Information Retrieval 7 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche: Multimedia (Bilder, Musik, Video)
Information Retrieval 8 IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation
Information Retrieval 8 IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation Beispiel: Spam-Mail-Erkennung
Information Retrieval 9 IR in Beispielen IR-Aufgaben IR-Aufgaben Clustering
Information Retrieval 10 IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup
Information Retrieval 10 IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup Beispiel: Markup bei Yahoo!-Nachrichten
Information Retrieval 11 IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung
Information Retrieval 11 IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung
Information Retrieval 12 IR in Beispielen IR-Aufgaben IR-Aufgaben Frage-Antwort-Systeme
Information Retrieval 13 IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme
Information Retrieval 13 IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme
Information Retrieval 14 IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche Klassifikation ( Vorlesung Information Mining) Clustering ( Vorlesung Information Mining) Informationsextraktion ( Vorlesung Information Engineering / Vorlesung Informationsextraktion aus Texten, Hoeppner) (Text-)Zusammenfassung Frage-Antwort-Systeme Recommender-Systeme
Information Retrieval 15 IR in Beispielen IR-Facetten IR-Facetten Sprache Beispiel: cross-linguale Suche in Google
Information Retrieval 16 IR in Beispielen IR-Facetten IR-Facetten Struktur Beispiel: XML-Retrieval
Information Retrieval 17 IR in Beispielen IR-Facetten IR-Facetten Medien Beispiel: Ähnlichkeitssuche auf Bildern
Information Retrieval 18 IR in Beispielen IR-Facetten IR-Facetten Objekte Beispiel: Personensuche mit 123people
Information Retrieval 19 IR in Beispielen IR-Facetten IR-Facetten statische/dynamische Inhalte Beispiel: Twitter-Suche
Information Retrieval 20 IR in Beispielen IR-Facetten IR-Facetten Sprache: monolingual, cross-lingual, multilingual Struktur: atomar, Felder, baumartig (z.b. XML), Graph (z.b. Web) Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video, 3D,... Objekte: Produkte, Personen, Firmen statische/dynamische Inhalte
Information Retrieval 21 IR in Beispielen Unterschiede zu klassischen Suchaufgaben: Unterschiede zu klassischen Suchaufgaben: Schwierigkeit, passende Anfrage zu formulieren iterative Anfrageformulierung (abhängig von Antworten) viele Antworten, aber wenige davon relevant Rangordnung der Antworten (statt Antwortmenge) Repräsentation des Inhalts von Dokumenten inadäquat / unsicher
Was ist IR? Definitionen IR = Unsicherheit und Vagheit in IS IR = inhaltsorientierte Suche
Information Retrieval 23 Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.
Information Retrieval 23 Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information. Definition der Fachgruppe IR in der GI (1992): Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe Information Retrieval in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen.
Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren
Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen
Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung
Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte
Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten)
Information Retrieval 24 Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten)
Information Retrieval 25 Was ist IR? IR = inhaltsorientierte Suche IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik
Information Retrieval 26 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme?
Information Retrieval 27 Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten
Information Retrieval 27 Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten 1. Konturen
Information Retrieval 28 Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 2. Texturen d001 d056 d095 d020 Textures: Muster im Grauwert-Bild strukturelle und/oder statistische Muster d014 d006 d003 d004 d087 d005 d111 d066 d011 d103 d049 d015
Information Retrieval 29 Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben
Information Retrieval 29 Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben
Information Retrieval 30 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo
Information Retrieval 30 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo (basiert auf Textsuche im Dateinamen und der Bildunterschrift)
Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema
Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis
Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv
Information Retrieval 31 Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv Aber die pragmatische Ebene ist wichtig für viele Anwendungen
Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen:
Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern)
Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte)
Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?)
Information Retrieval 32 Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?) IR beschäftigt sich mit der Semantik und Pragmatik von Dokumenten
Daten Information Wissen
Information Retrieval 34 Daten Information Wissen Daten Information Wissen
Information Retrieval 34 Daten Information Wissen Daten Information Wissen
Information Retrieval 34 Daten Information Wissen Daten Information Wissen
Information Retrieval 35 Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist)
Information Retrieval 35 Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht.
Information Retrieval 35 Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht. Die Transformation von Information in Wissen ist ein Mehrwert erzeugender Prozess
Information Retrieval 36 Daten Information Wissen Wissen zur Entscheidungsunterstützung Daten Information Wissen Entscheidung Nützlichkeit
Dimensionen des IR
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante
Information Retrieval 38 Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante Reaktion auf Datenfehler sensitiv insensitiv
Rahmenarchitektur für IR-Systeme
Information Retrieval 40 Rahmenarchitektur für IR-Systeme Rahmenarchitektur für IR-Systeme Informations bedürfnis Frage Repräsentation Frage Beschreibung Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung
Information Retrieval 41 Rahmenarchitektur für IR-Systeme Beispiel für ein Textdokument Objekt: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Repräsentation: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Beschreibung: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung
Information Retrieval 42 Rahmenarchitektur für IR-Systeme Beispiel für Textsuche Frage: What is the best indexing algorithm? Repräsentation: (best index algorithm) Beschreibung: best index algorithm Informations bedürfnis Frage Repräsentation Frage Beschreibung
Information Retrieval 43 Rahmenarchitektur für IR-Systeme Bezug zu den Vorlesungskapiteln Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Wissensrepräsentation Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle