5. Information Retrieval

Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2

5.1 Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) [Manning 2008] Information Retrieval ist ein Fachgebiet in der Schnittmenge von Informationswissenschaft, Informatik und Computerlinguistik Weitgehend unabhängige, parallele Entwicklung zum Fachgebiet Datenbanken der Informatik mit nun zunehmendem Ideenaustausch 3

Information Retrieval Information Retrieval befasst mit Suche nach Inhalten Artikel (z.b. aus Wissenschaft und Presse) Webseiten Office-Dokumente (z.b. Präsentationen und Spreadsheets) E-Mails Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Benutzerprofile (z.b. auf Facebook oder XING) [Manning 2008] 4

Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Daten haben meist keine oder nur wenig Struktur Einfache Textdokumente (keine Struktur) HTML (Überschriften und Absätze markiert) JSON und XML (semistrukturiert) [Manning 2008] RDBMSs, im Gegensatz, betrachten strukturierte Daten 5

Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) [Manning 2008] Informationsbedürfnis des Benutzers als Ausgangspunkt selten präzise (z.b. Was kann man in Berlin unternehmen?) ungenau als Anfrage formuliert (z.b. berlin sights) RDBMSs, im Gegensatz, bieten Anfragesprache mit genau definierter Semantik (z.b. relationale Algebra) 6

Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Große Datenmengen mit rapidem Wachstum Desktop ~ 100.000 Dokumente The New York Times (1987 2007) ~ 2.000.000 Dokumente WWW im Jahr 1998 ~ 800.000.000 Dokumente [Manning 2008] WWW im Jahr 2008 ~ 1.000.000.000.000 Dokumente 7

Historisches Bibliotheken (seit ca. 2000 v. Chr.) Katalogisierung nach Titel, Erscheinungsjahr, Autoren oder Schlagwörtern Klassifikationsschemata zur inhaltlichen Einordnung (z.b. Dewey-Dezimalklassifikation) JMC Photos@flickr Vannevar Bushs Memex (1945) [3] erweitertes Gedächtnis (memory extender) Verknüpfung und Annotation von Inhalten 8

Historisches SMART System von Salton et al. (1960er) Rangordnung der Ergebnisse Berücksichtigung von Rückmeldungen des Benutzers TREC und andere Benchmark-Initiativen (seit 1992) Google und andere Suchmaschinen (seit frühen 1990er) 9

IR vs. DBMSs IR-Systeme und DBMSs unterscheiden sich wie folgt unstrukturierte vs. strukturierte Daten (z.b. Zeitungsartikel vs. Attribute eines Produkts) vages vs. genau definiertes Informationsbedürfnis (z.b. Berichte über Berlin vs. meistverkauftes Produkt) vage vs. genau definierte Semantik der Anfragen (z.b. Schlüsselwortanfragen vs. Relationale Algebra) Rangordnung vs. keine Rangordnung der Ergebnisse (z.b. Berichte über Berlin vs. Studenten im dritten Semester) Mensch vs. Anwendung als typischer Anwender 10

IR in DBMSs DBMSs integrieren zunehmend IR-Funktionalität Volltextsuche (z.b. in MS SQL Server und PostgreSQL) auf textuellen Attributen mit linguistischer Vorverarbeitung, sowie Rangordnung der Ergebnisse IR-Systeme werden zunehmend als DBMSs eingesetzt ElasticSearch und Apache Solr erweitern Apache Lucene als traditionelles IR-System zur Indexierung und Suche von semi-strukturierten Dokumenten (z.b. in JSON oder XML) und können je nach Anwendung ein (R)DBMS ersetzen 11

Gütemaße im Information Retrieval Informationsbedürfnis des Benutzers und Semantik der Anfragen sind vage Gütemaße messen inwiefern das von einem IR-System zurückgelieferte Ergebnis das Informationsbedürfnis des Benutzers befriedigen kann Alle Dokumente in der Dokumentensammlung werden hierzu als relevant bzw. nicht-relevant für das Informationsbedürfnis des Benutzers klassifiziert 12

Präzision und Ausbeute (precision and recall) Präzision (precision) und Ausbeute (recall) als zwei Maße der Ergebnisgüte relativ zum Informationsbedürfnis Relevante Ergebnisse (true positives) Irrelevante Ergebnisse (false positives) Relevante Nicht-Ergebnisse (false negatives) Irrelevante Nicht-Ergebnisse (true negatives) Ergebnis Relevante Dokumente tn tn tn tn tn tn tn tn fn fn fn tn tn tn fn fn fn tn tn fp tp tp fn tn tn fp fp fp tn tn tn tn tn tn tn tn 13

Präzision und Ausbeute (precision and recall) Präzision (precision) #tp #tp +#fp = # relevanter Dokumente im Ergebnis # Dokumente im Ergebnis misst Fähigkeit nur relevante Dokumente zu liefern Ausbeute (recall) #tp #tp +#fn = # relevanter Dokumente im Ergebnis # relevanter Dokumente misst Fähigkeit alle relevanten Dokumente zu liefern 14

Literatur C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 http://www-nlp.stanford.edu/ir-book/ W. B. Croft, D. Metzler, T. Strohman: Search Engines Intelligent IR in Practice, Pearson, 2010 http://ciir.cs.umass.edu/downloads/seirip.pdf 15

5.2 Vorverarbeitung der Dokumente Dokumente durchlaufen Vorverarbeitung (preprocessing), bevor sie indexiert werden, um dann mit Hilfe des Index Anfragen bearbeiten zu können, z.b. Entfernen von Formatierungen (z.b. HTML-Tags) Zerlegung (tokenization) in Bestandteile (tokens) Normalisierung der Bestandteile zu Termen (terms) 16

Zerlegung (tokenization) Dokumente werden in Bestandteile (tokens) zerlegt, indem das Dokument u.a. an Leerzeichen (white spaces) aufgeteilt wird und Satzzeichen entfernt werden Zusätzlich kann eine Aufteilung von Mehrwortgruppen (compound splitting) vorgenommen werden (z.b. bodenseeschifferpatentantrag) 17

Normalisierung (normalization) Normalisierung der Bestandteile führt zu Termen (terms), die indexiert und gesucht werden können, z.b. Umwandlung in Kleinbuchstaben (lower casing) Vereinheitlichung von Umlauten (z.b. ä wird zu ae) Vereinheitlichung von Datumsangaben (z.b. 2011/05/21) 18

Wortreduktion (stemming, lemmatization) Wörter kommen in verschiedenen Beugungsformen vor Konjugation bei Verben (z.b. go, gone, went) Deklination bei Substantiven und Adjektiven (z.b. boat, boats, mouse, mice) Komparation bei Adjektiven (z.b. cheap, cheaper, cheapest) Wörter können zudem den gleichen Wortstamm haben (z.b. work, worker, working, drive, driver, driven) 19

Grundformreduktion Reduktion auf Grundform (auch: Lemmatisierung) (lemmatization) erfolgt immer auf ein existierendes Wort Nominativ Singular bei Substantiven und Adjektiven (z.b. boat und boats wird zu boat) Infinitiv bei Verben (z.b. go, gone und went wird zu go) Bestimmung der korrekten Grundform ist oft schwierig und Bedarf zusätzlicher Information in Form von Kontext oder Wortart (part of speech) Wörterbuch (z.b. um mice auf mouse abzubilden) 20

Stammformreduktion Reduktion auf Stammform (stemming) erfolgt auf Wortstamm, der kein existierendes Wort sein muss (z.b. boats auf boa und vegetation auf veget) Regelbasierte Ansätze zur sukzessiven Suffixentfernung für schwach gebeugte (flektierte) Sprachen wie Englisch 21

Porters Algorithmus Porters Algorithmus entfernt Suffixe in fünf Schritten Schritt 1a: Wende Regel für längstmögliches Suffix an sses ss ies i s _ Schritt 2: Falls Token aus zwei oder mehr Silben besteht ational ate tional tion enci ence izer ize 22

Porters Algorithmus Implementierung unter http://snowball.tartarus.org/algorithms/porter/stemmer.html Online-Demo unter http://9ol.es/porter_js_demo.html 23

Wortreduktion Durch eine Reduktion von Wörtern auf ihre Grundform oder Stammform kann man erreichen tolerantere Suche (z.b. beim Booleschen Retrieval), die nicht mehr von spezifischer Wortform abhängt geringere Anzahl zu indexierender Terme Verbesserung des Recall (z.b. für working conditions chinese factories) Verschlechterung der Präzision (z.b. für marine vegetation) Nutzen der Wortreduktion für IR ist umstritten, tendenziell größer für stark flektierte Sprachen (z.b. Deutsch) 24

Zipf sches Gesetz (Zipf s law) George K. Zipf (1902 1950) beobachtete, dass für natürlichsprachige Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: http://en.wikipedia.org Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang 100 25

Zipf sches Gesetz (Zipf s law) Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) 4 5 6 7 1.110 0 1 2 3 4 log(häufigkeitsrang) 26

Stoppworteliminierung (stopword removal) Stoppwörter (z.b. a, the, of) sind Wörter, die nur wenig Information beinhalten, da sie z.b. in sehr vielen Dokumenten vorkommen und somit von geringem Nutzen für die Beantwortung von Anfragen sind Eliminierung von Stoppwörtern reduziert den zur Indexierung benötigten Speicherplatz verbessert die Antwortzeiten kann Ergebnisgüte verbessern (z.b. a song of fire and ice) kann Ergebnisgüte verschlechtern (z.b. the who) 27

Stoppworteliminierung (stopword removal) Stoppworteliminierung anhand einer manuell definierten Stoppwortliste, evtl. mit themenspezifischen Stoppwörtern a, an, and, are, as, at, be, by, for, has, he, in, is, it, its, of, on, that, the, to, was, where, will, with Stoppwortliste kann alternativ automatisch erstellt werden und alle Wörter enthalten, die in mehr als einem bestimmten Anteil der Dokumente vorkommen 28

Bag-of-Words Vorverarbeitung wandelt Dokument in eine Multimenge von Wörtern (bag of words) um, d.h. die Information wie oft ein Wort im Dokumente vorkommt bleibt erhalten 29

5.3 Boolesches Retrieval Boolesches Retrieval als früher Ansatz, der noch Anwendung (z.b. Katalogsuche in Bibliotheken) findet Dokumente als Belegungen Boolescher Variablen, die anzeigen, ob ein Term im Dokument vorkommt oder nicht Anfragen als Boolesche Ausdrücke, welche Terme mit den Operatoren AND, OR und NOT verknüpfen 30

Boolesches Retrieval Beispiel: Dokumente über George Martin oder Neil Gaiman (george AND martin) OR (neil AND gaiman) george martin neil gaiman d 1 1 0 0 1 d 2 1 1 1 0 d 3 0 1 1 1 d 4 0 1 1 0 d 5 0 0 1 1 mit Darstellung der Dokumentensammlung als Term-Dokument-Matrix 31

Erweiterungen Boolesches Retrieval kann erweitert werden durch Aufteilung der Dokumenten in Felder (z.b. Titel, Abstract) zusätzliche Operatoren basierend auf Wortposition (NEAR) Vorteil: Semantik von Anfragen (d.h. erwartetes Ergebnis) ist eindeutig definiert Nachteil: keine Rangordnung des Ergebnisses nach Relevanz (ranking) 32

Zusammenfassung Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung der Dokumente (z.b. Eliminierung von Stoppwörtern, Wortreduktion) Boolesches Retrieval als früher Ansatz, der noch immer Anwendung findet und Grundlage moderner Ansätze ist 33

Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 [2] W. B. Croft, D. Metzler, T. Strohman: Search Engines Intelligent IR in Practice, Pearson, 2010 [3] V. Bush: As We May Think, The Atlantic, 1945 http://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/ 34