Information Retrieval und Information Extraction



Ähnliche Dokumente
Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

2 Evaluierung von Retrievalsystemen

Übung: Verwendung von Java-Threads

Thematische Abfrage mit Computerlinguistik

Wie Google Webseiten bewertet. François Bry

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Grundbegriffe der Informatik

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Kleines Handbuch zur Fotogalerie der Pixel AG

StudyDeal Accounts auf

WEBTEXTEN. Tipps und Tricks rund um das Webtexten. Version 1 / April 2014 gutgemacht.at Digitalmarketing GmbH

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

UserManual. Handbuch zur Konfiguration einer FRITZ!Box. Autor: Version: Hansruedi Steiner 2.0, November 2014

Erfahrungen mit Hartz IV- Empfängern

Anwendungsbeispiele Buchhaltung

Der große VideoClip- Wettbewerb von Media Markt.

Volksbank Oelde-Ennigerloh-Neubeckum eg

Professionelle Seminare im Bereich MS-Office

Multicheck Schülerumfrage 2013

Internet Kurs. Suchmaschinen

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

IMAP Backup. Das Programm zum Sichern, Synchronisieren, Rücksichern und ansehen von gesicherten Mails. Hersteller: malu-soft

Anleitung zum erfassen von Last Minute Angeboten und Stellenangebote

Kommunikations-Parameter

IAWWeb PDFManager. - Kurzanleitung -

Informatik-Sommercamp Mastermind mit dem Android SDK

Neuerungen in ReviPS Version 12g

Gefunden werden im Internet - Einblick in die Suchmaschinenoptimierung

Leichte-Sprache-Bilder

Download unter:

Anzeige von eingescannten Rechnungen

Auswahl alter Klausuraufgaben aus einer ähnlichen Vorlesung Maßgeblich für die Prüfung sind die Vorlesungsinhalte!

Stud.IP. Inhalt. Rechenzentrum. Vorgehen zur Eintragung in Veranstaltungen / Gruppen. Stand: Januar 2015

Outlook Vorlagen/Templates

Installation SQL- Server 2012 Single Node

Kostenstellen verwalten. Tipps & Tricks

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Proxy. Krishna Tateneni Übersetzer: Stefan Winter

Was man mit dem Computer alles machen kann

1 topologisches Sortieren

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Produktionsplanung und steuerung (SS 2011)

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Speicher in der Cloud

Hilfe zur Urlaubsplanung und Zeiterfassung

Data Mining: Einige Grundlagen aus der Stochastik

Kurzeinführung Excel2App. Version 1.0.0

BSV Ludwigsburg Erstellung einer neuen Internetseite

How to do? Projekte - Zeiterfassung

HANDBUCH PHOENIX II - DOKUMENTENVERWALTUNG

Benutzerverwaltung mit Zugriffsrechteverwaltung (optional)

HTBVIEWER INBETRIEBNAHME

Lieber SPAMRobin -Kunde!

Einrichtung Konto Microsoft Outlook 2010

Anforderungsanalyse: Tutor

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

BEO-SANKTIONSPRÜFUNG Eine Einführung zum Thema Sanktionsprüfung und eine Übersicht zur BEO-Lösung.

Das Persönliche Budget in verständlicher Sprache

Wiederkehrende Bestellungen. Tipps & Tricks

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

! " # $ " % & Nicki Wruck worldwidewruck

Hilfedatei der Oden$-Börse Stand Juni 2014

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

Lokale Installation von DotNetNuke 4 ohne IIS

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Das System sollte den Benutzer immer auf dem Laufenden halten, indem es angemessenes Feedback in einer angemessenen Zeit liefert.

Vorkurs Informatik WiSe 15/16

YouTube: Video-Untertitel übersetzen

QM: Prüfen -1- KN

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Administrator Handbuch

Wir machen neue Politik für Baden-Württemberg

macs Support Ticket System

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Modul 13: DHCP (Dynamic Host Configuration Protocol)

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Multiplayer Anweisungen

Familienforschung mit

BlueEvidence Services in Elexis

Wien = Menschlich. freigeist.photography

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

PHP - Projekt Personalverwaltung. Erstellt von James Schüpbach

Beschreibung des MAP-Tools

Was meinen die Leute eigentlich mit: Grexit?

2. Negative Dualzahlen darstellen

POP -Konto auf iphone mit ios 6 einrichten

VR-NetWorld Software Einrichtung einer Bankverbindung PIN/TAN-Verfahren

Digitale Leseexemplare

Anforderungen an die HIS

Anwendungspraktikum aus JAVA Programmierung im SS 2006 Leitung: Albert Weichselbraun. Java Projekt. Schiffe Versenken mit GUI

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Die Ratten" von Gerhart Hauptmann

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Matrix42. Matrix42 Cloud Trial Erste Schritte. Version

Ökonomik der Agrar und Ernährungswirtschaft in ILIAS

Transkript:

Information Retrieval und Information Extraction ao.prof. Harald Trost Kontakt und Information Harald Trost Adresse: Institut für Medizinische Kybernetik und Artificial Intelligence, Freyung 6, Stiege 2, 1010 Wien Sprechstunde: Freitag, 10:30-12:30 bzw. nach Vereinbarung Telefon: (1) 4277 63121 email: harald.trost@meduniwien.ac.at Web: http://www.meduniwien.ac.at/user/harald.trost Informationen zur Lehrveranstaltung: Folienkopien, Verweise, etc. unter http://www.ai.meduniwien.ac.at/imkai/lv/ws/501.034.html 11.10.2007 VO: IR & IE 2007 Harald Trost 2 1

Allgemeines Motivation: In Internet und Intranet sind wir mit riesigen Mengen an textueller Information bei exponentiell steigenden Zuwachsraten konfrontiert. Der möglichst automatisierte Zugriff auf Information - nicht Daten - wird immer wichtiger! Lehrziel: vertraut machen mit den grundlegenden Methoden der automatischen Gewinnung von Information aus Freitext Beurteilung: schrifliche Prüfung voraussichtlicher Termin: 31. Jänner 2008 11.10.2007 VO: IR & IE 2007 Harald Trost 3 Inhalt der Vorlesung Formen der Informationssuche Information Retrieval Query-Formulierung Indizieren Ranking Evaluation Informationsextraktion Klassische Verfahren Named Entitiy Recognition Statistische Verfahren Evaluation 11.10.2007 VO: IR & IE 2007 Harald Trost 4 2

Literatur Manning C., Raghavan P., Schütze H.: Introduction to Information Retrieval; Oxford University Press, 2008. draft verfügbar unter: http://www-csli.satanford.edu/~schuetze/informationretrieval-book.html R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval; Addison-Wesley, 1999. 11.10.2007 VO: IR & IE 2007 Harald Trost 5 Zugriff auf Information in einer idealen Welt Frage: What was the historical development of Boolean algebra and set theory? Antwort: In 1854 George Boole published a seminal work An investigation into the Laws of Thought, on Which are founded the Mathematical Theories of Logic and Probabilities... Der Informationsbedarf des Benutzers ist ideal erfüllt: Richtige Art von Antwort; die Information ist vom erwarteten Umfang; sprachlich perfekt, natürliche Interaktion; die Information ist natürlich auch korrekt! 11.10.2007 VO: IR & IE 2007 Harald Trost 6 3

Relevanz In welcher Weise kann ein Dokument relevant für eine Frage sein? Es beantwortet die Frage präzise. Es beantwortet einen Teil der Frage. Es gibt Hintergrundinformation. Es macht den Benutzer auf andere Informationen aufmerksam. Es weist auf eine Quelle mit mehr Information hin. Es ist relevant, aber der Benutzer kennt die Information schon. 11.10.2007 VO: IR & IE 2007 Harald Trost 7 Arten benötigter Information Suche nach genau definierter Information: Egal, woher die Information stammt, man benötigt zumindest ein Dokument, das die Frage beantwortet. z.b. When was Boole born? Suche nach Bekanntem: Man weiß, dass ein bestimmtes Element existiert, möchte es wieder finden. Man will genau dieses Element finden. z.b. Boole's Buch Offene Suche (topic search): Man weiß nicht, ob entsprechende Dokumente vorhanden sind; potentiell existieren viele. z.b. Has anybody implemented a probabilistic version of Boolean algebra? 11.10.2007 VO: IR & IE 2007 Harald Trost 8 4

Arten automatischer Informationsgewinnung Information Retrieval Liefert zu einer (formalen) Abfrage eine Reihe relevanter Dokumente. Der Benutzer muss gesuchte Information selbst aus den gelieferten Dokumenten gewinnen. Information Extraction Sucht zu einem vorgegebenen Informationsbedarf relevante Dokumente und extrahiert daraus die nachgefragte Information. Die gesuchte Information wird direkt vom System gewonnen Bereich muss vordefiniert sein! Question Answering Liefert zu einer (in normaler Umgangsprache formulierten) Frage die gewünschte Antwort. 11.10.2007 VO: IR & IE 2007 Harald Trost 9 Zwei Suchprobleme Informationsüberfluss (bei einem genau begrenzten Informationsbedürfnis): Redundanz offensichtlicher Information Wie verhindert man das Herzinfarktrisiko? Informationsmangel (Nadel-im-Heuhaufen- Problem): seltene Information ist schwer zu finden Goethes erste Worte? Goethes erster langer Satz in perfektem Deutsch? 11.10.2007 VO: IR & IE 2007 Harald Trost 10 5

Information Retrieval: Motivation Data retrieval Welche Dokumente enthalten eine bestimmte Menge an Schlüsselwörtern? Genau definierte Semantik Ein einziges falsches Objekt impliziert Misserfolg! Information retrieval Information über ein bestimmtes Thema Semantik ist häufig vage Kleine Abweichungen werden toleriert Optionale weitere Funktionen von IR Systemen Reiht die gefundenen Dokumente in einer Weise, die ihre Relevanz widerspiegelt. Wichtig ist hier der Begriff der Relevanz! 11.10.2007 VO: IR & IE 2007 Harald Trost 11 Information Retrieval: Die Aufgabenstellung Problem: Finde zu einer vorgegebenen Abfrage Dokumente, die für diese Abfrage relevant sind. Gegeben: eine große, statische Sammlung von Dokumenten ein Informationsbedürfnis (umformuliert in eine Abfrage bestehend aus Schlüsselwörtern) Aufgabe: Finde genau jene Dokumente, die relevant für diese Abfrage sind. Mögliche Zusatzaufgabe: Reihe die gefundenen Dokumente nach Relevanz. 11.10.2007 VO: IR & IE 2007 Harald Trost 12 6

The Retrieval Process User Interface Text user need Text Text Operations logical view logical view user feedback Query Operations Indexing DB Manager Module query inverted file Searching Index ranked docs retrieved docs Ranking Text Database 11.10.2007 VO: IR & IE 2007 Harald Trost 13 Information Retrieval: Themen Wie kann eine Abfrage formuliert werden? Verfügbare Abfragetypen Verfügbare Konstrukte Nach welcher Methode werden Dokumente selektiert? (Retrieval-Modell) Indizieren der Dokumente Feststellen ihrer Relevanz für eine Suchabfrage Wie werden die Resultate präsentiert? in zufälliger Reihenfolge als gereihte Liste nach Gruppen geordnet 11.10.2007 VO: IR & IE 2007 Harald Trost 14 7

Indizieren Beim Indizieren (Beschlagworten) werden die Dokumente mit Ausdrücken (Termen) annotiert, die sie gut beschreiben. Beim manuellen Indizieren (Katalogisieren) wird ein fixes Vokabular an festgelegten Termen verwendet Thesaurus arbeitsintensiv und erfordert Einschulung Automatisches Indizieren Termmanipulation (bestimmte Wörter werden als der gleiche Term betrachtet) Gewichten der Terme (bestimmte Terme sind wichtiger als andere) Als Terme können nur Wörter oder Phrasen verwendet werden, die im Dokument vorkommen. 11.10.2007 VO: IR & IE 2007 Harald Trost 15 Thesauri manuell erstellt großes Vokabular (mehrere tausend Einträge) Beispiele: MeSH (Medical Subject Headings), ACM-subfields of CS; Library of Congress Subject Headings Nachteile: Großer Trainingsaufwand nötig, um Konsistenz zu sichern; neue Felder entstehen die Schemata ändern sich laufend Vorteile: unterstützt sehr präzise Suchen; bewährt sich für wertvolle relativ statische Sammlungen von Dokumenten, wie z.b. die Bücher in einer Bibliothek. 11.10.2007 VO: IR & IE 2007 Harald Trost 16 8

Beispiel - MeSH Eye Diseases C11 Asthenopia C11.93 Conjunctival Diseases C11.187 Conjunctival Neoplasms C11.187.169 Conjunctivitis C11.187.183 Conjunctivitis, Allergic C11.187.183.200 Conjunctivitis, Bacterial C11.187.183.220 Conjunctivitis, Inclusion C11.187.183.220.250 Ophthalmia Neonatorum C11.187.183.220.538 Trachoma C11.187.183.220.889 Conjunctivitis, Viral C11.187.183.240 Conjunctivitis, Acute Hemorrhagic C11.187.183.240.216 Keratoconjunctivitis C11.187.183.394 Keratoconjunctivitis, Infectious C11.187.183.394.520 Keratoconjunctivitis Sicca C11.187.183.394.550 Reiter's Disease C11.187.183.749 Pterygium C11.187.781 Xerophthalmia C11.187.810 11.10.2007 VO: IR & IE 2007 Harald Trost 17 Beispiel - ACM Computing Classication System (1998) B Hardware B.3 Memory structures B.3.0 General B.3.1 Semiconductor Memories (NEW) (was B.7.1) Dynamic memory (DRAM) (NEW) Read-only memory (ROM) (NEW) Static memory (SRAM) (NEW) B.3.2 Design Styles (was D.4.2) Associative memories Cache memories Interleaved memories Mass storage (e.g., magnetic, optical, RAID) Primary memory Sequential-access memory Shared memory Virtual memory B.3.3 Performance Analysis and Design Aids Formal models Simulation Worst-case analysis B.3.4 Reliability, Testing, and Fault-Tolerance Diagnostics Error-checking Redundant design Test generation 11.10.2007 VO: IR & IE 2007 Harald Trost 18 9

Automatisches Indizieren Keine vordefinierte Menge an Termen Stattdessen: direkt die Wörter verwenden, wie sie in den Dokumenten vorkommen Die Zuordnung Wort Bedeutung ist nicht 1:1 Synonymie (n Wörter : 1 Bedeutung) Sofa Couch Polysemie (1 Wort : n Bedeutungen) Bank Bank Vereinheitlichung der Terme? Groß/Kleinschrebung? Rede rede Stemming? Hose Hosen Morphologische Analyse? meine meine PoS-Tagging? sieben sieben Mehrwortausdrücke Neusiedler See, Stand der Kunst Implementierung von Indizes: als invertierte Files 11.10.2007 VO: IR & IE 2007 Harald Trost 19 Methoden des IR Boolesche Suche Binäre Entscheidung: ist Dokument relevant oder nicht? Vorhandensein der Suchterme ist notwendig und hinreichend für Selektion eines Dokuments Boolesche Operatoren sind Mengenoperationen (AND, OR) Algorithmen, die reihen Reihung berücksichtigt Häufigkeit des Auftretens der Suchterme im Dokument Es müssen nicht notwendigerweise alle Suchterme im Dokument vorhanden sein Realisierungen: Vector Space Model (SMART, Salton et al., 1971) Probabilistisches Modell (OKAPI, Robertson & Spärck- Jones, 1976) Web-Suchmaschinen 11.10.2007 VO: IR & IE 2007 Harald Trost 20 10

Das Boolesche Modell Monte Carlo AND (importance OR stratification) NOT gambling Monte Carlo importance stratification gambling Mengentheoretische Interpretation der Operatoren AND OR und NOT Wird häufig für bibliographische Suchmaschinen eingesetzt (z.b. MEDLINE) Probleme: Für präzise Ergebnisse ist Expertenwissen nötig. Binäre Entscheidung Ungereihte Ergebnislisten. 11.10.2007 VO: IR & IE 2007 Harald Trost 21 Vector Space Modell Jedes Dokument ist als Punkt in einem hochdimensionalen Vektorraum repräsentiert Die Abfrage ist ebenfalls ein Punkt in diesem Vektorraum Die Dokumente, die der Abfrage am ähnlichsten sind werden selektiert. Diese Ähnlichkeit ist gleichzeitig ein Modell für die Reihung der relevanten Dokumente 11.10.2007 VO: IR & IE 2007 Harald Trost 22 d 3 t 2 φ t 3 θ d 2 d 1 d 4 d 5 t 1 11

Folien nach: Christopher Manning, Prabhakar Raghavan CS276 Infomation Retrieval and Web Mining Autumn 2006 http://www.stanford.edu/class/cs276 11.10.2007 VO: IR & IE 2007 Harald Trost 23 12