Information Retrieval

Ähnliche Dokumente
Information Retrieval

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April Einführung

Internet-Suchmaschinen 1. Einführung

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Einführung in Information Retrieval Skriptum zur Vorlesung im SS 10. Norbert Fuhr

Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Information Retrieval Einführung

Kapitel IR:III (Fortsetzung)

Wissensrepräsentation

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Inhaltsverzeichnis 1 Einführung Was ist Information Retrieval? IR-Konzepte Daten μ Wissen μ Information..

2 Evaluierung von Retrievalsystemen

Information Retrieval

Information Retrieval in XML- Dokumenten

Logik für Informatiker

Computational Neuroscience

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Information Retrieval. Peter Kolb

IR Seminar SoSe 2012 Martin Leinberger

Herzlich willkommen!!!

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Einführung Grundbegriffe

1. Vorlesung,

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Kompendium semantische Netze

1. Grundlegende Konzepte von Information Retrieval Systemen

Logik für Informatiker

Was bisher geschah. wahr 0 t 1 falsch 0 f 0 Konjunktion 2 min Disjunktion 2 max Negation 1 x 1 x Implikation 2 Äquivalenz 2 =

Algorithmen und Datenstrukturen II

Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr

Frequent Itemset Mining + Association Rule Mining

Einführung in die Logik (Vorkurs)

Informationssysteme für Ingenieure

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Was ist mathematische Logik?

Theoretische Informatik 2 bzw. Formale Sprachen und Berechenbarkeit. Sommersemester Herzlich willkommen!

Einführung in die Wissensverarbeitung und Data Mining

Adventure-Problem. Vorlesung Automaten und Formale Sprachen Sommersemester Adventure-Problem

Künstliche Intelligenz

Künstliche Intelligenz

Logik für Informatiker

Information Retrieval Übung

Künstliche Intelligenz

Einführung in die Wissensrepräsentation

Semantische Datenintegration: Strategien zur Integration von Datenbanken

Data Mining - Wiederholung

1.1 Motivation. Theorie der Informatik. Theorie der Informatik. 1.1 Motivation. 1.2 Syntax. 1.3 Semantik. 1.4 Formeleigenschaften. 1.

Datenbank-Recherche. SS Veranstaltung 8. Mai Philipp Mayr - Philipp Schaer -

5.1 Inferenz. Theorie der Informatik. Theorie der Informatik. 5.1 Inferenz. 5.2 Resolutionskalkül. 5.3 Zusammenfassung. Inferenz: Motivation

1.1 Grundbegriffe. Logik und Diskrete Strukturen (Sommer 2018) Prof. Dr. Ulrich Hertrampf

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

I Begriff. Semiotik, die: .1 Ursprung des Namens. aus dem Altgriechischen. τεχνη σημειοτικη. Die Lehre von (Kenn-)Zeichen

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

Seminar Datenbanksysteme

Multimedia-Metadaten und ihre Anwendung

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

Modellierungsbeispiel Geräte

Transkript:

Information Retrieval Norbert Fuhr 12. April 2010

Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme

IR in Beispielen IR-Aufgaben IR-Facetten Unterschiede zu klassischen Suchaufgaben:

IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche

IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation

IR in Beispielen IR-Aufgaben IR-Aufgaben Klassifikation Beispiel: Spam-Mail-Erkennung

IR in Beispielen IR-Aufgaben IR-Aufgaben Clustering

IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup

IR in Beispielen IR-Aufgaben IR-Aufgaben Informationsextraktion/-markup Beispiel: Markup bei Yahoo!-Nachrichten

IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung

IR in Beispielen IR-Aufgaben IR-Aufgaben (Text-)Zusammenfassung

IR in Beispielen IR-Aufgaben IR-Aufgaben Frage-Antwort-Systeme

IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme

IR in Beispielen IR-Aufgaben IR-Aufgaben Recommender-Systeme

IR in Beispielen IR-Aufgaben IR-Aufgaben Adhoc-Suche Klassifikation ( Vorlesung Information Mining) Clustering ( Vorlesung Information Mining) Informationsextraktion ( Vorlesung Informationsextraktion aus Texten, Hoeppner) (Text-)Zusammenfassung Frage-Antwort-Systeme Recommender-Systeme

IR in Beispielen IR-Facetten IR-Facetten Sprache Beispiel: cross-linguale Suche in Google

IR in Beispielen IR-Facetten IR-Facetten Struktur Beispiel: XML-Retrieval

IR in Beispielen IR-Facetten IR-Facetten Medien Beispiel: Ähnlichkeitssuche auf Bildern

IR in Beispielen IR-Facetten IR-Facetten Objekte Beispiel: Personensuche mit 123people

IR in Beispielen IR-Facetten IR-Facetten statische/dynamische Inhalte Beispiel: Twitter-Suche

IR in Beispielen IR-Facetten IR-Facetten Sprache: monolingual, cross-lingual, multilingual Struktur: atomar, Felder, baumartig (z.b. XML), Graph (z.b. Web) Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video, 3D,... Objekte: Produkte, Personen, Firmen statische/dynamische Inhalte

IR in Beispielen Unterschiede zu klassischen Suchaufgaben: Unterschiede zu klassischen Suchaufgaben: Schwierigkeit, passende Anfrage zu formulieren iterative Anfrageformulierung (abhängig von Antworten) viele Antworten, aber wenige davon relevant Rangordnung der Antworten (statt Antwortmenge) Repräsentation des Inhalts von Dokumenten inadäquat / unsicher

Was ist IR? Definitionen IR = Unsicherheit und Vagheit in IS IR = inhaltsorientierte Suche

Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.

Was ist IR? Definitionen Definitionen Salton (1968): Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information. Definition der Fachgruppe IR in der GI (1992): Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe Information Retrieval in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen.

Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren

Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen

Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung

Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte

Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten)

Was ist IR? IR = Unsicherheit und Vagheit in IS IR = Unsicherheit und Vagheit in IS Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten)

Was ist IR? IR = inhaltsorientierte Suche IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik

Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme?

Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten

Was ist IR? IR = inhaltsorientierte Suche Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten 1. Konturen

Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 2. Texturen d001 d056 d095 d020 Textures: Muster im Grauwert-Bild strukturelle und/oder statistische Muster d014 d006 d003 d004 d087 d005 d111 d066 d011 d103 d049 d015

Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben

Was ist IR? IR = inhaltsorientierte Suche Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben

Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo

Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Semantische Ebene Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach kangaroo (basiert auf Textsuche im Dateinamen und der Bildunterschrift)

Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema

Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis

Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv

Was ist IR? IR = inhaltsorientierte Suche Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema B1-Ausbaupläne liegen weiter auf Eis Themen sind sehr subjektiv Aber die pragmatische Ebene ist wichtig für viele Anwendungen

Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen:

Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern)

Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte)

Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?)

Was ist IR? IR = inhaltsorientierte Suche Syntax, Semantik und Pragmatik Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.b. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.b. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.b.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?) IR beschäftigt sich mit der Semantik und Pragmatik von Dokumenten

Dimensionen des IR

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante

Dimensionen des IR Dimensionen des IR Datenbanken klassisches IR Matching exakt partiell, best match Inferenz Deduktion Induktion Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal natürlich Fragespezifikation vollständig unvollständig gesuchte Objekte die Fragespezif. erfüllende relevante Reaktion auf Datenfehler sensitiv insensitiv

Daten Information Wissen

Daten Information Wissen Daten Information Wissen Daten Information Wissen syntaktisch definierte Verfahren der Daten verarbeitung semantisch begründete Verfahren der (Wissen ) Repräsentation pragmatisch kontrollierte Wissens erarbeitung zur informationellen Handlungs absicherung

Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist)

Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht.

Daten Information Wissen Information vs. Wissen Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) Nach Wissen wird in externen Quellen gesucht. Die Transformation von Information in Wissen ist ein Mehrwert erzeugender Prozess

Daten Information Wissen Wissen zur Entscheidungsunterstützung Daten Information Wissen Entscheidung Nützlichkeit

Rahmenarchitektur für IR-Systeme

Rahmenarchitektur für IR-Systeme Rahmenarchitektur für IR-Systeme Informations bedürfnis Frage Repräsentation Frage Beschreibung Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung

Rahmenarchitektur für IR-Systeme Beispiel für ein Textdokument Objekt: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Repräsentation: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Beschreibung: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung

Rahmenarchitektur für IR-Systeme Beispiel für Textsuche Frage: What is the best indexing algorithm? Repräsentation: (best index algorithm) Beschreibung: best index algorithm Informations bedürfnis Frage Repräsentation Frage Beschreibung

Rahmenarchitektur für IR-Systeme Bezug zu den Vorlesungskapiteln Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Wissensrepräsentation Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle