Information Retrieval Norbert Fuhr 12. April 2010
Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme
IR in Beispielen IR-Aufgaben IR-Facetten Unterschiede zu klassischen Suchaufgaben:
IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche
IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation
IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation Beispiel: Spam-Mail-Erkennung
IR in Beispielen IR-Aufgaben IR-Aufgaben Clustering
IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup
IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup Beispiel: Markup bei Yahoo!-Nachrichten
IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung
IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung
IR in Beispielen IR-Aufgaben IR-Aufgaben Frage-Antwort-Systeme
IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme
IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme
IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche Klassifikation ( Vorlesung Information Mining) Clustering ( Vorlesung Information Mining) Informationsextraktion ( Vorlesung Informationsextraktion aus Texten, Hoeppner) (Text-)Zusammenfassung Frage-Antwort-Systeme Recommender-Systeme
IR in Beispielen IR-Facetten IR-Facetten Sprache Beispiel: cross-linguale Suche in Google
IR in Beispielen IR-Facetten IR-Facetten Struktur Beispiel: XML-Retrieval
IR in Beispielen IR-Facetten IR-Facetten Medien Beispiel: Ähnlichkeitssuche auf Bildern
IR in Beispielen IR-Facetten IR-Facetten Objekte Beispiel: Personensuche mit 123people
IR in Beispielen IR-Facetten IR-Facetten statische/dynamische Inhalte Beispiel: Twitter-Suche
IR in Beispielen IR-Facetten IR-Facetten Sprache: monolingual, cross-lingual, multilingual Struktur: atomar, Felder, baumartig (z.b. XML), Graph (z.b. Web) Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video, 3D,... Objekte: Produkte, Personen, Firmen statische/dynamische Inhalte
IR in Beispielen Unterschiede zu klassischen Suchaufgaben: Unterschiede zu klassischen Suchaufgaben: Schwierigkeit, passende Anfrage zu formulieren iterative Anfrageformulierung (abhängig von Antworten) viele Antworten, aber wenige davon relevant Rangordnung der Antworten (statt Antwortmenge) Repräsentation des Inhalts von Dokumenten inadäquat / unsicher
Was ist IR? Definitionen IR = Unsicherheit und Vagheit in IS IR = inhaltsorientierte Suche
Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.
Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information. Definition der Fachgruppe IR in der GI (1992): Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe Information Retrieval in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen.
Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren
Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen
Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung
Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte
Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten)
Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten)
Was ist IR? IR = inhaltsorientierte Suche IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik
Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme?
Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten
Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten 1. Konturen
Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 2. Texturen d001 d056 d095 d020 Textures: Muster im Grauwert-Bild strukturelle und/oder statistische Muster d014 d006 d003 d004 d087 d005 d111 d066 d011 d103 d049 d015
Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben
Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben
Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo
Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo (basiert auf Textsuche im Dateinamen und der Bildunterschrift)
Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema
Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis
Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv
Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv Aber die pragmatische Ebene ist wichtig für viele Anwendungen
Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen:
Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern)
Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte)
Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?)
Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?) IR beschäftigt sich mit der Semantik und Pragmatik von Dokumenten
Dimensionen des IR
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante
Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante Reaktion auf Datenfehler sensitiv insensitiv
Daten Information Wissen
Daten Information Wissen Daten Information Wissen Daten Information Wissen syntaktisch definierte Verfahren der Daten verarbeitung semantisch begründete Verfahren der (Wissen ) Repräsentation pragmatisch kontrollierte Wissens erarbeitung zur informationellen Handlungs absicherung
Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist)
Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht.
Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht. Die Transformation von Information in Wissen ist ein Mehrwert erzeugender Prozess
Daten Information Wissen Wissen zur Entscheidungsunterstützung Daten Information Wissen Entscheidung Nützlichkeit
Rahmenarchitektur für IR-Systeme
Rahmenarchitektur für IR-Systeme Rahmenarchitektur für IR-Systeme Informations bedürfnis Frage Repräsentation Frage Beschreibung Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung
Rahmenarchitektur für IR-Systeme Beispiel für ein Textdokument Objekt: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Repräsentation: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Beschreibung: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung
Rahmenarchitektur für IR-Systeme Beispiel für Textsuche Frage: What is the best indexing algorithm? Repräsentation: (best index algorithm) Beschreibung: best index algorithm Informations bedürfnis Frage Repräsentation Frage Beschreibung
Rahmenarchitektur für IR-Systeme Bezug zu den Vorlesungskapiteln Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Wissensrepräsentation Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle