1. Vorlesung,

Ähnliche Dokumente
Information Retrieval. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Textsuche mit Indexstrukturen. Anfragen. Inzidenz Vektoren. Term-Dokument Inzidenz Matrix

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer -

Information Retrieval, Vektorraummodell

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Information Retrieval,

Inverted Files for Text Search Engines

Boolesche- und Vektorraum- Modelle

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Information Retrieval

Informationssysteme für Ingenieure

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Anwendung von Vektormodell und boolschem Modell in Kombination

Information Retrieval

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Information Retrieval. Peter Kolb

Mehrwegbäume Motivation

Anfragebearbeitung. Anfrage. Übersetzer. Ausführungsplan. Laufzeitsystem. Ergebnis

Inhaltsverzeichnis. Kurzfassung. Abstract

Vom Suchen und Finden - Google und andere Ansätze

Erweitertes boolsches Retrieval

Kapitel IR:III (Fortsetzung)

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax

Verteiltes Information Retrieval

Informatik I Information & Daten Repräsentation von Daten


Nachteile Boolesches Retrieval

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Die Mathematik hinter Google

Text-Mining: Datenaufbereitung und -repräsentation

Klassische Information Retrieval Modelle Einführung

IR Seminar SoSe 2012 Martin Leinberger

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin

Information Retrieval und Information Extraction

HS Information Retrieval

Federated Search: Integration von FAST DataSearch und Lucene

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel 1 Grundlagen. Skript zur Vorlesung: Datenbanksysteme II Sommersemester Vorlesung: PD Dr. Peer Kröger

Studienprojekt TaxoSearch Spezifikation

Boole'sches Modell <is web>

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Wiederholung VU Datenmodellierung

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin,

Software Entwicklung 1. Fallstudie: Arithmetische Ausdrücke. Rekursive Klassen. Überblick. Annette Bieniusa / Arnd Poetzsch-Heffter

Klammersprache Definiere

1 Word Sense Disambiguation - Grundlagen

Literaturrecherche Mentoring für Lehrer

Einführung in die Informatik I (autip)

Vorlesung Information Retrieval Wintersemester 04/05

Einführung in Datenbanken. Kapitel 8: Nullwerte in SQL

Was bisher geschah Modellierung von Daten durch Mengen Beziehungen (Zusammenhänge und Eigenschaften) durch Relationen, Graphen und Funktionen

Logik I. Symbole, Terme, Formeln

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Transkript:

1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit Indexstrukturen Anfragen Term-Dokument Inzidenz-Matrix, Inzidenz-Vektoren Dokumentsuche als Prozess Anfrageformulierung Anfrage mit Schlüsselwörtern Sprachprobleme, Rechtschreibprüfung, Soundex Boolsches Modell Vektoraummodell Seite 6

Einführung Was wird gesucht? Informationen versus Daten Grundlegende Konzepte Suche als Prozess Überblick über die Vorlesung Seite 7

Motivation Information Retrieval Repräsentation Speicherung Organisation Zugriff auf Informationseinheiten orientiert am Bedürfnis des Anwenders Charakterisierung dieses Bedürfnisses kein einfaches Problem Seite 8

Motivation: Beispiel Aufgabe: Finde alle Webseiten (Dokumente) über Fußballmannschaften, die (1) in Sachsen-(Anhalt) beheimatet sind und (2) in der ersten oder zweiten Bundesliga mitspielen. Um relevant zu sein, muss die Seite die Tabellenplätze des Vereins in den letzten drei Jahren sowie Telefonnummer und Adresse enthalten. Beschreibung muss in Anfrage übersetzt werden meistens als Menge von Schlüsselwörtern Seite 9

Motivation: Beispiel Google: Fußball Bundesliga Sachsen Telefon Adresse Ergebnisse ungefähr 541 (0,17 Sekunden) radio SAW - Superhits für Sachsen-Anhalt... Werdet der größte Fußball-Weise in Sachsen- Anhalt! Die neue Fußball Bundesliga-Saison ist im vollen Gange und radio SAW ist wieder mittendrin!... Autobus Sippel GmbH... mit einem neuen Bus zu den Auswärtsspielen der Fußball- Bundesliga reisen.... Jäger unter Telefon: 06122-9124-0 oder per mail unter folgender < sz-online sachsen im netz >... Als umfassender Anbieter von Inhalten etwa zur Fußball- Bundesliga blickt... sich einen DSL-Anschluss mit fester IP-Adresse zuzulegen Sehen Sie - Musik Musikfilme Sachsen Anhalt bei seekoo.de/regional... Händler aus Deutschland mit Telefon-Nummer, Adresse und Homepage.... anstelle, gesundheit gewinnspiel, kraft, fussball bundesliga gewinnspiel, hinter, autogramm -- Ideen, die bewegen... Während der Fußball-Bundesliga-Saison stellen wir in jeder... Bitte Postkarte oder E-Mail (autogramm@ volkswagen.de) mit Adresse, Telefon-,... Das Finden von Informationen ist wichtig, im Gegensatz zum Finden von Daten Seite 10

Informationen versus Daten Bereitstellen von Daten (IR) welche Dokumente enthalten die Schlüsselwörter der Anfrage reicht meist nicht um die Anfrage zu beantworten. SQL Anfrage: exakt und vollständig IR Anfrage: Ähnlichkeiten, kleine Fehler Texte, natürliche Sprache ist nicht gut strukturiert und kann mehrdeutig sein Semantik ist nicht exakt Gegensatz: Datenbank-Schemata sind wohl-definiert Seite 11

Informationen versus Daten Bereitstellen von Daten -> Datenbanken IR System muss Dokumente interpretieren und entsprechend der Relevanz ordnen Syntaktische und semantische Informationen müssen aus Dokumenten extrahiert werden Definition von Relevanz ist sehr wichtig Probleme wie werden die rel. Infos extrahiert wie werden die Dokumente geordnet Ziel Anwort enthält alle relevanten Dokumente mit möglichst wenigen nicht-relevanten Dokumenten Seite 12

Grundlegende Konzepte, Anwender Aufgabe Anwender übersetzt dem IR System Aufgabe in Anfrage (Schlüsselwörter+Bedingungen) Anwender mit unbestimmten, allgemeinem Interesse will einfach herumstöbern stöbern anstatt suchen (klare Unterscheidung) Retrieval Browsing Database Seite 13

Grundlegende Konzepte, Logische Sicht auf Dokumente Texte repräsentiert durch eine Menge von Indexwörtern => logische Sicht handverlesene Indexmenge automatisch generiert Indexwörter = alle Wörter => Volltext Textoperationen Stopwörter Stemming Substantiv-Gruppen Seite 14

Dokument Vorverarbeitung Lexikalische Analyse Behandlung von Zahlen, Bindestrichen, Punktierungen, Groß/Kleinschreibung Implementierung einfacher Regeln + Liste von Ausnahmen Eliminierung von Stop-Wörtern Wenig selektive Wörter entfernen Listen Stemming Einfache grammatische Regeln (sprachabhängig) Auswahl der Indexterme Meist Substantive und Wortgruppen Konstruktion eines Thesaurus Hilfe für Anwender, Anfrageerweiterung Seite 15

Logische Sichten auf Dokumente Docs Accents spacing stopwords Noun groups stemming Manual indexing structure structure Full text Index terms Seite 16

Dokument Vorverarbeitung Hilfreiche Seiten Stopwortlisten, Stemmer für verschiedene Sprachen http://www.unine.ch/info/clef/ Deutsche und Englische Wörterbücher http://dict.tu-chemnitz.de/ Thesauri http://www.openthesaurus.de/ http://thesaurus.reference.com/ http://wordnet.princeton.edu/ Seite 17

Textsuche mit Indexstrukturen Zu einer Anfrage alle Dokumente sequentiell durchsuchen? Kleine Textsammlungen (ein paar MB) Sehr viele Änderungen Indexstrukturen Mehraufwand lohnt sich erst für große Texte Text ist semi-statisch Typen Inverted Files Suffix Bäume Signature Files Seite 18

Anfragen Welches Stück von Shakespeare enhält die Wörter Brutus, Caesar aber NICHT Calpurnia? Ansatz: finde alle Stücke mit Brutus und Caesar und entferne alle die Calpurnia enthalten Langsam für große Sammlungen NICHT Calpurnia ist nicht trivial Seite 19

Term-Dokument Inzidenz Matrix Seite 20

Inzidenz Vektoren 0/1 Vektoren für jeden Term Anfrage beantworten: bit weises AND der Vektoren für Brutus, Caesar und Calpurnia (komplementiert) Antworten: Antony and Cleopatra Hamlet Seite 21

Suche als Prozess user need User Interface Text Operations Text Text user feedback Query Operations query Searching logical view logical view Indexing inverted file Index DB Manager Module retrieved docs Ranking ranked docs Text Database Seite 22

Anfrage-Formulierung IR Anfragesprachen erlauben Ranking Anfragen mit Schlüsselwörtern Einzelwörter Kontext Anfragen Boolsche Anfragen Natürliche Sprache Textmuster Strukturanfragen Seite 23

Anfragen mit Schlüsselwörtern Text in Einheiten zerlegen Eingabe: Freunde, Römer, Landsleute... Ausgabe: { Freunde, Römer, Landsleute } Wörter als Grundeinheit, was ist ein Wort? Sprachprobleme Chinesisch, Japanisch: keine Leerzeichen Japanisch: mehrere Alphabete gemischt Seite 24

Sprachprobleme Normalisierung rechts-nach-links Sprachen, (Hebräisch, Arabisch), gemischt mit links-nach-rechts Text (Datum, Geld, ) Groß/Kleinschreibung, Mehrdeutigkeiten Morgen will ich im MIT Alles Kleinschreiben, Ausnahmen Punktierung Zahlen Seite 25

Rechtschreibprüfung Erweitere Anfragen z.b. um Terme innerhalb Edit-Distanz 2 Erweitere zur Anfragezeit warum nicht zur Indexzeit? Rechtschreibprüfung ist teuer, verlangsamt Anfrage bis zu Faktor 100 Wird eingesetzt, wenn fast nichts gefunden wird Was, wenn Dokumente Schreibfehler enthalten? Seite 26

Soundex Heuristiken um Anfrage um phonetische Äquivalente zu erweitern Sprachspezifisch, hauptsächlich für Namen Typischer Algorithmus, -> 4 Zeichensignatur 1. Erhalte ersten Buchstaben des Wortes 2. Ersetze A E I O U H W Y zu 0 B F P V zu 1 C G J K Q S X Z zu 2 D T zu 3 L zu 4 M N zu 5 R zu 6 3. Entferne alle aufeinanderfolgenden Duplikate 4. Entferne alle Nullen 5. Liefere die ersten vier Positionen (bei Bedarf mit Nullen auffüllen) Seite 27

Boolsches Modell Vorteil: einfach verständlich Nachteile Keine Abstufung der Relevanz Informationsbedürfnis schwer in logische Formel zu übersetzen Problem: kein teilweises Erfüllen möglich Folge: entweder zu wenig oder zu viele Ergebnistreffer Seite 28