Information Retrieval und Information Extraction ao.prof. Harald Trost Kontakt und Information Harald Trost Adresse: Institut für Medizinische Kybernetik und Artificial Intelligence, Freyung 6, Stiege 2, 1010 Wien Sprechstunde: Freitag, 10:30-12:30 bzw. nach Vereinbarung Telefon: (1) 4277 63121 email: harald.trost@meduniwien.ac.at Web: http://www.meduniwien.ac.at/user/harald.trost Informationen zur Lehrveranstaltung: Folienkopien, Verweise, etc. unter http://www.ai.meduniwien.ac.at/imkai/lv/ws/501.034.html 11.10.2007 VO: IR & IE 2007 Harald Trost 2 1
Allgemeines Motivation: In Internet und Intranet sind wir mit riesigen Mengen an textueller Information bei exponentiell steigenden Zuwachsraten konfrontiert. Der möglichst automatisierte Zugriff auf Information - nicht Daten - wird immer wichtiger! Lehrziel: vertraut machen mit den grundlegenden Methoden der automatischen Gewinnung von Information aus Freitext Beurteilung: schrifliche Prüfung voraussichtlicher Termin: 31. Jänner 2008 11.10.2007 VO: IR & IE 2007 Harald Trost 3 Inhalt der Vorlesung Formen der Informationssuche Information Retrieval Query-Formulierung Indizieren Ranking Evaluation Informationsextraktion Klassische Verfahren Named Entitiy Recognition Statistische Verfahren Evaluation 11.10.2007 VO: IR & IE 2007 Harald Trost 4 2
Literatur Manning C., Raghavan P., Schütze H.: Introduction to Information Retrieval; Oxford University Press, 2008. draft verfügbar unter: http://www-csli.satanford.edu/~schuetze/informationretrieval-book.html R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval; Addison-Wesley, 1999. 11.10.2007 VO: IR & IE 2007 Harald Trost 5 Zugriff auf Information in einer idealen Welt Frage: What was the historical development of Boolean algebra and set theory? Antwort: In 1854 George Boole published a seminal work An investigation into the Laws of Thought, on Which are founded the Mathematical Theories of Logic and Probabilities... Der Informationsbedarf des Benutzers ist ideal erfüllt: Richtige Art von Antwort; die Information ist vom erwarteten Umfang; sprachlich perfekt, natürliche Interaktion; die Information ist natürlich auch korrekt! 11.10.2007 VO: IR & IE 2007 Harald Trost 6 3
Relevanz In welcher Weise kann ein Dokument relevant für eine Frage sein? Es beantwortet die Frage präzise. Es beantwortet einen Teil der Frage. Es gibt Hintergrundinformation. Es macht den Benutzer auf andere Informationen aufmerksam. Es weist auf eine Quelle mit mehr Information hin. Es ist relevant, aber der Benutzer kennt die Information schon. 11.10.2007 VO: IR & IE 2007 Harald Trost 7 Arten benötigter Information Suche nach genau definierter Information: Egal, woher die Information stammt, man benötigt zumindest ein Dokument, das die Frage beantwortet. z.b. When was Boole born? Suche nach Bekanntem: Man weiß, dass ein bestimmtes Element existiert, möchte es wieder finden. Man will genau dieses Element finden. z.b. Boole's Buch Offene Suche (topic search): Man weiß nicht, ob entsprechende Dokumente vorhanden sind; potentiell existieren viele. z.b. Has anybody implemented a probabilistic version of Boolean algebra? 11.10.2007 VO: IR & IE 2007 Harald Trost 8 4
Arten automatischer Informationsgewinnung Information Retrieval Liefert zu einer (formalen) Abfrage eine Reihe relevanter Dokumente. Der Benutzer muss gesuchte Information selbst aus den gelieferten Dokumenten gewinnen. Information Extraction Sucht zu einem vorgegebenen Informationsbedarf relevante Dokumente und extrahiert daraus die nachgefragte Information. Die gesuchte Information wird direkt vom System gewonnen Bereich muss vordefiniert sein! Question Answering Liefert zu einer (in normaler Umgangsprache formulierten) Frage die gewünschte Antwort. 11.10.2007 VO: IR & IE 2007 Harald Trost 9 Zwei Suchprobleme Informationsüberfluss (bei einem genau begrenzten Informationsbedürfnis): Redundanz offensichtlicher Information Wie verhindert man das Herzinfarktrisiko? Informationsmangel (Nadel-im-Heuhaufen- Problem): seltene Information ist schwer zu finden Goethes erste Worte? Goethes erster langer Satz in perfektem Deutsch? 11.10.2007 VO: IR & IE 2007 Harald Trost 10 5
Information Retrieval: Motivation Data retrieval Welche Dokumente enthalten eine bestimmte Menge an Schlüsselwörtern? Genau definierte Semantik Ein einziges falsches Objekt impliziert Misserfolg! Information retrieval Information über ein bestimmtes Thema Semantik ist häufig vage Kleine Abweichungen werden toleriert Optionale weitere Funktionen von IR Systemen Reiht die gefundenen Dokumente in einer Weise, die ihre Relevanz widerspiegelt. Wichtig ist hier der Begriff der Relevanz! 11.10.2007 VO: IR & IE 2007 Harald Trost 11 Information Retrieval: Die Aufgabenstellung Problem: Finde zu einer vorgegebenen Abfrage Dokumente, die für diese Abfrage relevant sind. Gegeben: eine große, statische Sammlung von Dokumenten ein Informationsbedürfnis (umformuliert in eine Abfrage bestehend aus Schlüsselwörtern) Aufgabe: Finde genau jene Dokumente, die relevant für diese Abfrage sind. Mögliche Zusatzaufgabe: Reihe die gefundenen Dokumente nach Relevanz. 11.10.2007 VO: IR & IE 2007 Harald Trost 12 6
The Retrieval Process User Interface Text user need Text Text Operations logical view logical view user feedback Query Operations Indexing DB Manager Module query inverted file Searching Index ranked docs retrieved docs Ranking Text Database 11.10.2007 VO: IR & IE 2007 Harald Trost 13 Information Retrieval: Themen Wie kann eine Abfrage formuliert werden? Verfügbare Abfragetypen Verfügbare Konstrukte Nach welcher Methode werden Dokumente selektiert? (Retrieval-Modell) Indizieren der Dokumente Feststellen ihrer Relevanz für eine Suchabfrage Wie werden die Resultate präsentiert? in zufälliger Reihenfolge als gereihte Liste nach Gruppen geordnet 11.10.2007 VO: IR & IE 2007 Harald Trost 14 7
Indizieren Beim Indizieren (Beschlagworten) werden die Dokumente mit Ausdrücken (Termen) annotiert, die sie gut beschreiben. Beim manuellen Indizieren (Katalogisieren) wird ein fixes Vokabular an festgelegten Termen verwendet Thesaurus arbeitsintensiv und erfordert Einschulung Automatisches Indizieren Termmanipulation (bestimmte Wörter werden als der gleiche Term betrachtet) Gewichten der Terme (bestimmte Terme sind wichtiger als andere) Als Terme können nur Wörter oder Phrasen verwendet werden, die im Dokument vorkommen. 11.10.2007 VO: IR & IE 2007 Harald Trost 15 Thesauri manuell erstellt großes Vokabular (mehrere tausend Einträge) Beispiele: MeSH (Medical Subject Headings), ACM-subfields of CS; Library of Congress Subject Headings Nachteile: Großer Trainingsaufwand nötig, um Konsistenz zu sichern; neue Felder entstehen die Schemata ändern sich laufend Vorteile: unterstützt sehr präzise Suchen; bewährt sich für wertvolle relativ statische Sammlungen von Dokumenten, wie z.b. die Bücher in einer Bibliothek. 11.10.2007 VO: IR & IE 2007 Harald Trost 16 8
Beispiel - MeSH Eye Diseases C11 Asthenopia C11.93 Conjunctival Diseases C11.187 Conjunctival Neoplasms C11.187.169 Conjunctivitis C11.187.183 Conjunctivitis, Allergic C11.187.183.200 Conjunctivitis, Bacterial C11.187.183.220 Conjunctivitis, Inclusion C11.187.183.220.250 Ophthalmia Neonatorum C11.187.183.220.538 Trachoma C11.187.183.220.889 Conjunctivitis, Viral C11.187.183.240 Conjunctivitis, Acute Hemorrhagic C11.187.183.240.216 Keratoconjunctivitis C11.187.183.394 Keratoconjunctivitis, Infectious C11.187.183.394.520 Keratoconjunctivitis Sicca C11.187.183.394.550 Reiter's Disease C11.187.183.749 Pterygium C11.187.781 Xerophthalmia C11.187.810 11.10.2007 VO: IR & IE 2007 Harald Trost 17 Beispiel - ACM Computing Classication System (1998) B Hardware B.3 Memory structures B.3.0 General B.3.1 Semiconductor Memories (NEW) (was B.7.1) Dynamic memory (DRAM) (NEW) Read-only memory (ROM) (NEW) Static memory (SRAM) (NEW) B.3.2 Design Styles (was D.4.2) Associative memories Cache memories Interleaved memories Mass storage (e.g., magnetic, optical, RAID) Primary memory Sequential-access memory Shared memory Virtual memory B.3.3 Performance Analysis and Design Aids Formal models Simulation Worst-case analysis B.3.4 Reliability, Testing, and Fault-Tolerance Diagnostics Error-checking Redundant design Test generation 11.10.2007 VO: IR & IE 2007 Harald Trost 18 9
Automatisches Indizieren Keine vordefinierte Menge an Termen Stattdessen: direkt die Wörter verwenden, wie sie in den Dokumenten vorkommen Die Zuordnung Wort Bedeutung ist nicht 1:1 Synonymie (n Wörter : 1 Bedeutung) Sofa Couch Polysemie (1 Wort : n Bedeutungen) Bank Bank Vereinheitlichung der Terme? Groß/Kleinschrebung? Rede rede Stemming? Hose Hosen Morphologische Analyse? meine meine PoS-Tagging? sieben sieben Mehrwortausdrücke Neusiedler See, Stand der Kunst Implementierung von Indizes: als invertierte Files 11.10.2007 VO: IR & IE 2007 Harald Trost 19 Methoden des IR Boolesche Suche Binäre Entscheidung: ist Dokument relevant oder nicht? Vorhandensein der Suchterme ist notwendig und hinreichend für Selektion eines Dokuments Boolesche Operatoren sind Mengenoperationen (AND, OR) Algorithmen, die reihen Reihung berücksichtigt Häufigkeit des Auftretens der Suchterme im Dokument Es müssen nicht notwendigerweise alle Suchterme im Dokument vorhanden sein Realisierungen: Vector Space Model (SMART, Salton et al., 1971) Probabilistisches Modell (OKAPI, Robertson & Spärck- Jones, 1976) Web-Suchmaschinen 11.10.2007 VO: IR & IE 2007 Harald Trost 20 10
Das Boolesche Modell Monte Carlo AND (importance OR stratification) NOT gambling Monte Carlo importance stratification gambling Mengentheoretische Interpretation der Operatoren AND OR und NOT Wird häufig für bibliographische Suchmaschinen eingesetzt (z.b. MEDLINE) Probleme: Für präzise Ergebnisse ist Expertenwissen nötig. Binäre Entscheidung Ungereihte Ergebnislisten. 11.10.2007 VO: IR & IE 2007 Harald Trost 21 Vector Space Modell Jedes Dokument ist als Punkt in einem hochdimensionalen Vektorraum repräsentiert Die Abfrage ist ebenfalls ein Punkt in diesem Vektorraum Die Dokumente, die der Abfrage am ähnlichsten sind werden selektiert. Diese Ähnlichkeit ist gleichzeitig ein Modell für die Reihung der relevanten Dokumente 11.10.2007 VO: IR & IE 2007 Harald Trost 22 d 3 t 2 φ t 3 θ d 2 d 1 d 4 d 5 t 1 11
Folien nach: Christopher Manning, Prabhakar Raghavan CS276 Infomation Retrieval and Web Mining Autumn 2006 http://www.stanford.edu/class/cs276 11.10.2007 VO: IR & IE 2007 Harald Trost 23 12