Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Ähnliche Dokumente
Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Kapitel 9 Architektur eines Retrievalsystems

Nachteile Boolesches Retrieval

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

TYPO3-Suchmaschinenoptimierung für Redakteure

Online-Recherche: Web-Recherche WS 2015/ Veranstaltung 5. November 2015

Kapitel 11 Informetrische Analysen. HHU Düsseldorf, WS 2008/09 Information Retrieval 180

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Information Retrieval

Datenbank- Recherche. SS Veranstaltung 18. Juni Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.

Wer suchet der findet? Warum SEO wichtig ist und wie es funktioniert Klasberg, Carsten Pierburg, Malte Tödtmann, Kevin

Einfügen des News Plugins auf einer Webseite

1 Boolesches Retrieval (2)

SEO SEARCH ENGINE OPTIMIZATION

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

1 Information Retrieval Grundlagen

Thema: Prototypische Implementierung des Vektormodells

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Real Time Suche Dirk Lewandowski Einleitung

Mit ihrem CMS-System haben sie folgende Möglichkeiten:

Hintergrund: Web Search & Ranking in Websuchmaschinen

Kapitel 24 Nutzer und Nutzung. HHU Düsseldorf, WS 2008/09 Information Retrieval 381

Federated Search: Integration von FAST DataSearch und Lucene

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

Typo3 Benutzerhandbuch

Computergestützte Freizeitplanung basierend auf Points of Interest

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Tipps und Tricks der Suchmaschinenoptimierung

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Kapitel 8 Typologie von Retrievalsystemen

Bedienfelder. Bedienfeld Einfügen

UniBW Journalistenportal Handbuch Stand 11. Dezember 2013

SEO für Online-Shops Cathrin Tusche tusche-online.de facebook.com/tuscheonlinemarketing google.com/+cathrintusche

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Ranking Functions im Web: PageRank & HITS

1. Anmeldung in das Content Management System WEBMIN CMS

Zugang zum Academic Invisible Web

Webseiten-Bericht für zap2login.net

Klassisches Information Retrieval Jan Schrader

Suchmaschinen- Optimierung Gestern heute - morgen

Worksheet Vorlage für den perfekten Blogartikel

Detecting Near Duplicates for Web Crawling

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Inhalte mit DNN Modul HTML bearbeiten

Bestandteile dieser Lektion. 1. Definition und Zielsetzung

In den Tiefen des Webs das Richtige finden

Dokumente verwalten mit Magnolia das Document Management System (DMS)

IR Seminar SoSe 2012 Martin Leinberger

Inhalte mit DNN Modul HTML bearbeiten

Erfolgreiche Suchmaschinenoptimierung. Christoph Runkel

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Web-Recherche WS 2015/ Veranstaltung 15. Oktober 2015

Wissenschaftliche Suchmaschinen

Suchmaschinenoptimierung

Anleitung zum ILIAS-Wiki

1 Top 10 SEO Geheimnisse - OMKurse.de

8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten

Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski

CMS-Userkonferenz Suchergebnisse optimieren. Kanton Bern

Verschlagwortung digitaler Texte

Suchmaschinenoptimierung. für Typo 3

Implementierung eines Vektormodells

Bedienungsanleitung der Wissensdatenbank

Deep Web. Timo Mika Gläßer

Inhalte mit DNN Modul HTML bearbeiten

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Erstellen eines neuen Dokumentes

Webseiten-Bericht für sitekur.bbs.tr

limlhaidftswgirzälhimds

Suchmaschineneignung. samedi 24 juillet Dieses Kapitel untersucht die allgemeine Suchmaschinen-Eignung Ihrer Webseite.

Seite 23 Einen Seiteninhalt erstellen Damit öffnet sich das Eingabeformular. Schreiben Sie eine Überschrift. Und in den großen weißen Bereich Ihren Te

Software-Qualität Ausgewählte Kapitel. Messung und Prognose von interner Software-Qualität"

Markiere den gesamten Text und lösche ihn. Dann schreibe einen neuen. Ändere auch den Titel (wegen der Suche bei Google).

Vortrag. Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung. Stuttgart, den

Handy-Synchronisation Inhalt

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Title-Tag. Titel des HTML-Dokuments. Keywordhäufigkeit im Titel. Keyworddichte im Titel. Position des Keywords im Titel 1/9

Exkurs Suchmaschinen Grundlagen

Suchmaschinenoptimierung mit WebsiteBaker -Webmarketing

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Website anpassen TSV Frisch-Auf e. V. Timmerlah

Webseiten-Bericht für feedbackvote.com

CMS für Kleingartenvereine Version Andreas Sabisch Deverlopment

KURZANLEITUNG FÜR DAS BIOMASSELOGISTIK-WIKI BIO:LOGIC

Automatisches Layout von Graphen

Webseiten-Bericht für google.com

Benutzeranleitung

Erstellen und Bearbeiten von Inhalten (Assets)

Meine Fakultät. Alumni-Portal HTML-Seiten im Portal Seite 1 von 8

Abschlussprüfung. für die Berufsausbildung in der Geoinformationstechnologie im Ausbildungsberuf Geomatiker/in. PB3 Geoinformationstechnik

Amtliche Mitteilung 46/2008

Webseiten-Bericht für dafont.com

Industrie- und Handelskammer Stuttgart

Kleine Erläuterung zum Thema TITEL:

Nelly-Sachs-Gymnasium Neuss. Layout und Formalia. Methodentage zur Facharbeit 18./ 19. Dezember 2018 FLK/IX/RIS/SHL

Herzlich willkommen zum Weiterbildungskurs Tabellenkalkulation. Lehrplan 21: Mathematik: Tabellenkalkulation 5./6. Primar

Transkript:

Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen von (normiertem) Vokabular in Felder Kreation von Kriterien für Relevance Ranking Wofür? optimal: Markieren von Themen (aboutness) und deren Wichtigkeit im Dokument allgemeine Web-Suchmaschinen Digital Libraries Fachdatenbanken im Deep Web HHU Düsseldorf, WS 2008/09 Information Retrieval 369

Vorgabe eines Feldschemas. Beispiel: Fachdatenbank (ifodok) HHU Düsseldorf, WS 2008/09 Information Retrieval 370

Regelgeleitete Metadatenkreation Erkennen einer feldspezifischen Information (z.b. Autor) falls By-Line vorhanden: Werte hinter "by_" falls Autorenname hinter Titelzeile: Werte bis zum nächsten CR usw. Erkennen der Werte (z.b. Separation der unterschiedlichen Autoren) falls "und" vorhanden: Trenner (aber: "Thurn und Taxis") falls ",_&" vorhanden: Trenner usw. Erkennen der Begriffe (z.b. Reihenfolge von Vor- und Nachnamen) in normierte Reihenfolge bringen Homonyme trennen Synonyme zusammenführen Vorzugsbenennung des erkannten Begriffs speichern HHU Düsseldorf, WS 2008/09 Information Retrieval 371

Trennung von Aboutness und Rest Ziel: Inhaltserschließung nur der Inhaltsteil eines Dokuments eignet sich für textstatistische Verfahren entfernen: reine Navigationstexte (einschließlich Werbung) entfernen: formalbibliographische Texte ("Isness") - sofern über Metadatenkreation erkannt (z.b. Entfernen des Autornamens) Lewandowski, D. (2005): Web Information Retrieval. Technologien zur Informationssuche im Internet. Frankfurt: DGI. (DGI-Schrift Informationswissenschaft; 7). HHU Düsseldorf, WS 2008/09 Information Retrieval 372

Entfernen von Navigationstexten Tabelle links (wahrscheinlich Navigation) Seite in Ordnerhierarchie ganz oben: Text der Aboutness zuordnen Seite tiefer in Ordnerhierarchie und Inhalt ähnlich mit Top-Seite: Text nicht erschließen Tabelle rechts (wahrscheinlich Werbung: nicht erschließen) - Risiko! Tabelle in der Mitte (sehr wahrscheinlich Inhalt: erschließen) HHU Düsseldorf, WS 2008/09 Information Retrieval 373

Nutzen von Layout-Informationen für Relevance Ranking <h1> bis <h6>: Überschriften-Hierarchie alle <h> Texte höher als Body-Text bewerten <h1> höher als <h2> bewerten; usw. <b>, <i>: fett / kursiv ausgezeichnete Textteile höher bewerten Schriftgröße (oder Angabe: größer/kleiner als Standard): je größer, desto höher bewerten Zeilenumbrüche (und damit Absätze) erfassen; Text im ersten Absatz (ggf. auch im letzten) höher bewerten - Nutzen ist nur für News belegt URL: bei "sprechender" URL: Texte höher bewerten title-tag (sowie Meta-Tags wie description oder keywords): wegen häufigen Missbrauchs nicht höher bewerten table-tag (nicht bei Navigation): Text ggf. höher bewerten HHU Düsseldorf, WS 2008/09 Information Retrieval 374

Anker <a href="xyz.de">karneval in Köln</a> Text "Karneval in Köln" wird (auch) der dokumentarischen Bezugseinheit xyz.de zugeschrieben Pseudodokument: alle Ankertexte, die auf genau eine Seite verlinken Gewichtung der Terme im Pseudodokument: WDF * IDF * G G: willkürlich gewählter Gewichtungsfaktor linkende und verlinkte Seite auf derselben Site (interner Link): kleines G externer Link: großes G ggf. Links von [intellektuell ausgezeichneten] "Qualitäts-Sites" höher gewichten Kraft, R.; Zien, J. (2004): Mining anchor text for query refinement. HHU In: Proceedings Düsseldorf, WS of the 2008/09 13 th International World Information Wide Web Retrieval Conference. New York: ACM, S. 666-674. 375

Anker bei der Gewichtung: WDF (Kraft/Zien)? oder absolute Häufigkeit? jeder Anker ist eine eigene "Stimme" für die verlinkte Seite und jedes Wort "zählt" (Hawking/Upstill/Craswell) Ankergewicht(t) = α * log(tf d + 1) * log [(N n + 0,5) / (n + 0,5)] α : Gewichtungsfaktor für das Ankergewicht TF d : absolute Häufigkeit des Wortes im Pseudodokument N : Anzahl der Dokumente in der Datenbank n : Anzahl der Dokumente, in denen das Wort t vorkommt Hawking, D.; Upstill, T.; Craswell, N. (2004): Toward better weighting of anchors. In: Proceedings of the 27 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, S. 512-513. HHU Düsseldorf, WS 2008/09 Information Retrieval 376

Pfadlänge Idee (Dean et al. / Google): je länger der Pfad, desto weniger relevant das Dokument "Pfadlänge": Anzahl der "/" bzw. "." in der URL über Minimum Beispiel 1: http://www.phil-fak.uni-duesseldorf.de/infowiss Pfadlänge: 2 Beispiel 2: http://www.phil-fak.uniduesseldorf.de/infowiss/mitarbeiter/stock/publ/2008/dok1.pdf Pfadlänge: 7 Dean, J.A.; Gomes, B.; Bharat, K.; Harik, G.; Henzinger, M.R. (2001): Methods and apparatus for employing usage statistics in document retrieval. Patentanmeldung Nr. US 2002/0123988 A1. Patentanmelder: Google. (Eingereicht am: 2.3.2001). HHU Düsseldorf, WS 2008/09 Information Retrieval 377

Pfadlänge Gew(Pfadlänge) (d) = log (20 PL) / log(20) d : Webseite PL: Pfadlänge (über Minimum) Pfadlänge = 0 : log(20) / log(20) = 1 Pfadlänge = 1 : log(19) / log(20) = 0,98 Pfadlänge = 2 : log(18) / log(20) = 0,96... Pfadlänge = 18 : log(2) / log(20) = 0,23 Pfadlänge = 19 : log(1) / log (20) = 0 HHU Düsseldorf, WS 2008/09 Information Retrieval 378

Aktualität Idee (Henzinger / Google): je "frischer" desto relevanter "last modified" der betreffenden Seite: nicht genutzt (zu fehleranfällig) sondern: Nutzung der "last modified"- Daten derjenigen Dokumente, die auf das Dokument d linken oder (soweit dort kein Datum vorhanden): letztes Crawl-Datum des auf d linkenden Dokuments (danach: Link auf d entfernt) Henzinger, M.R. (2004): Systems and methods for determining document freshness. Patentanmeldung WO 2005/033977 A1. (Eingereicht am: 15.9.2004). HHU Düsseldorf, WS 2008/09 Information Retrieval 379

Aktualität "Frische" : Schwellenwert (z.b. 2 Jahre) "alte Seite" : Seite linkt(e) auf d und Seite hat Last-modified- Angabe oder letzte Version der Seite mit Link auf d > Schwellenwert "neue Seite" : Seite linkt(e) auf d und Seite hat Last-modified- Angabe oder letzte Version der Seite mit Link auf d < Schwellenwert Freshness Score(d) = Anzahl frischer Seiten / Anzahl alter Seiten überwiegen alte linkende Seiten: Freshness Score < 1 überwiegen neue linkende Seiten: Freshness Score > 1 HHU Düsseldorf, WS 2008/09 Information Retrieval 380