Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368
Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen von (normiertem) Vokabular in Felder Kreation von Kriterien für Relevance Ranking Wofür? optimal: Markieren von Themen (aboutness) und deren Wichtigkeit im Dokument allgemeine Web-Suchmaschinen Digital Libraries Fachdatenbanken im Deep Web HHU Düsseldorf, WS 2008/09 Information Retrieval 369
Vorgabe eines Feldschemas. Beispiel: Fachdatenbank (ifodok) HHU Düsseldorf, WS 2008/09 Information Retrieval 370
Regelgeleitete Metadatenkreation Erkennen einer feldspezifischen Information (z.b. Autor) falls By-Line vorhanden: Werte hinter "by_" falls Autorenname hinter Titelzeile: Werte bis zum nächsten CR usw. Erkennen der Werte (z.b. Separation der unterschiedlichen Autoren) falls "und" vorhanden: Trenner (aber: "Thurn und Taxis") falls ",_&" vorhanden: Trenner usw. Erkennen der Begriffe (z.b. Reihenfolge von Vor- und Nachnamen) in normierte Reihenfolge bringen Homonyme trennen Synonyme zusammenführen Vorzugsbenennung des erkannten Begriffs speichern HHU Düsseldorf, WS 2008/09 Information Retrieval 371
Trennung von Aboutness und Rest Ziel: Inhaltserschließung nur der Inhaltsteil eines Dokuments eignet sich für textstatistische Verfahren entfernen: reine Navigationstexte (einschließlich Werbung) entfernen: formalbibliographische Texte ("Isness") - sofern über Metadatenkreation erkannt (z.b. Entfernen des Autornamens) Lewandowski, D. (2005): Web Information Retrieval. Technologien zur Informationssuche im Internet. Frankfurt: DGI. (DGI-Schrift Informationswissenschaft; 7). HHU Düsseldorf, WS 2008/09 Information Retrieval 372
Entfernen von Navigationstexten Tabelle links (wahrscheinlich Navigation) Seite in Ordnerhierarchie ganz oben: Text der Aboutness zuordnen Seite tiefer in Ordnerhierarchie und Inhalt ähnlich mit Top-Seite: Text nicht erschließen Tabelle rechts (wahrscheinlich Werbung: nicht erschließen) - Risiko! Tabelle in der Mitte (sehr wahrscheinlich Inhalt: erschließen) HHU Düsseldorf, WS 2008/09 Information Retrieval 373
Nutzen von Layout-Informationen für Relevance Ranking <h1> bis <h6>: Überschriften-Hierarchie alle <h> Texte höher als Body-Text bewerten <h1> höher als <h2> bewerten; usw. <b>, <i>: fett / kursiv ausgezeichnete Textteile höher bewerten Schriftgröße (oder Angabe: größer/kleiner als Standard): je größer, desto höher bewerten Zeilenumbrüche (und damit Absätze) erfassen; Text im ersten Absatz (ggf. auch im letzten) höher bewerten - Nutzen ist nur für News belegt URL: bei "sprechender" URL: Texte höher bewerten title-tag (sowie Meta-Tags wie description oder keywords): wegen häufigen Missbrauchs nicht höher bewerten table-tag (nicht bei Navigation): Text ggf. höher bewerten HHU Düsseldorf, WS 2008/09 Information Retrieval 374
Anker <a href="xyz.de">karneval in Köln</a> Text "Karneval in Köln" wird (auch) der dokumentarischen Bezugseinheit xyz.de zugeschrieben Pseudodokument: alle Ankertexte, die auf genau eine Seite verlinken Gewichtung der Terme im Pseudodokument: WDF * IDF * G G: willkürlich gewählter Gewichtungsfaktor linkende und verlinkte Seite auf derselben Site (interner Link): kleines G externer Link: großes G ggf. Links von [intellektuell ausgezeichneten] "Qualitäts-Sites" höher gewichten Kraft, R.; Zien, J. (2004): Mining anchor text for query refinement. HHU In: Proceedings Düsseldorf, WS of the 2008/09 13 th International World Information Wide Web Retrieval Conference. New York: ACM, S. 666-674. 375
Anker bei der Gewichtung: WDF (Kraft/Zien)? oder absolute Häufigkeit? jeder Anker ist eine eigene "Stimme" für die verlinkte Seite und jedes Wort "zählt" (Hawking/Upstill/Craswell) Ankergewicht(t) = α * log(tf d + 1) * log [(N n + 0,5) / (n + 0,5)] α : Gewichtungsfaktor für das Ankergewicht TF d : absolute Häufigkeit des Wortes im Pseudodokument N : Anzahl der Dokumente in der Datenbank n : Anzahl der Dokumente, in denen das Wort t vorkommt Hawking, D.; Upstill, T.; Craswell, N. (2004): Toward better weighting of anchors. In: Proceedings of the 27 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, S. 512-513. HHU Düsseldorf, WS 2008/09 Information Retrieval 376
Pfadlänge Idee (Dean et al. / Google): je länger der Pfad, desto weniger relevant das Dokument "Pfadlänge": Anzahl der "/" bzw. "." in der URL über Minimum Beispiel 1: http://www.phil-fak.uni-duesseldorf.de/infowiss Pfadlänge: 2 Beispiel 2: http://www.phil-fak.uniduesseldorf.de/infowiss/mitarbeiter/stock/publ/2008/dok1.pdf Pfadlänge: 7 Dean, J.A.; Gomes, B.; Bharat, K.; Harik, G.; Henzinger, M.R. (2001): Methods and apparatus for employing usage statistics in document retrieval. Patentanmeldung Nr. US 2002/0123988 A1. Patentanmelder: Google. (Eingereicht am: 2.3.2001). HHU Düsseldorf, WS 2008/09 Information Retrieval 377
Pfadlänge Gew(Pfadlänge) (d) = log (20 PL) / log(20) d : Webseite PL: Pfadlänge (über Minimum) Pfadlänge = 0 : log(20) / log(20) = 1 Pfadlänge = 1 : log(19) / log(20) = 0,98 Pfadlänge = 2 : log(18) / log(20) = 0,96... Pfadlänge = 18 : log(2) / log(20) = 0,23 Pfadlänge = 19 : log(1) / log (20) = 0 HHU Düsseldorf, WS 2008/09 Information Retrieval 378
Aktualität Idee (Henzinger / Google): je "frischer" desto relevanter "last modified" der betreffenden Seite: nicht genutzt (zu fehleranfällig) sondern: Nutzung der "last modified"- Daten derjenigen Dokumente, die auf das Dokument d linken oder (soweit dort kein Datum vorhanden): letztes Crawl-Datum des auf d linkenden Dokuments (danach: Link auf d entfernt) Henzinger, M.R. (2004): Systems and methods for determining document freshness. Patentanmeldung WO 2005/033977 A1. (Eingereicht am: 15.9.2004). HHU Düsseldorf, WS 2008/09 Information Retrieval 379
Aktualität "Frische" : Schwellenwert (z.b. 2 Jahre) "alte Seite" : Seite linkt(e) auf d und Seite hat Last-modified- Angabe oder letzte Version der Seite mit Link auf d > Schwellenwert "neue Seite" : Seite linkt(e) auf d und Seite hat Last-modified- Angabe oder letzte Version der Seite mit Link auf d < Schwellenwert Freshness Score(d) = Anzahl frischer Seiten / Anzahl alter Seiten überwiegen alte linkende Seiten: Freshness Score < 1 überwiegen neue linkende Seiten: Freshness Score > 1 HHU Düsseldorf, WS 2008/09 Information Retrieval 380