Hauptseminar Web Information Retrieval Quelle Thematische Verteilungen 07.05.2003 Daniel Harbig Chakrabati, Soumen; Joshi, Mukul; Punera, Kunal; Pennock, David (2002): The Structure of Broad Topics on the Web. In: Proceedings of the Seventh Intl World Wide Web Conf 2002(WWW 2002). Honululu, Hawaii. 7-11. Mai. 2 Worum geht es? Link-Analyse: Ziel ist es, Aussagen über die Struktur des WWW zu machen. "Wie sieht es aus?", also, ist alles ein einziges Netz oder sind es viele kleine autarke Netze, hat es Sternstruktur ("alle Wege führen nach Rom"), wie groß ist der Weg von "links außen" nach "rechts außen" und wo sind diese Orte? aktuelle Größe des WWW mindestens 1.3 Milliarden Seiten beläuft, evtl. sogar 2 Milliarden oder mehr) Wiederholung Link-Analyse: PageRank Link-Analyse: HITS Graphentheorie 3 4 Link-Analyse: PageRank Link-Analyse: HITS (Hypertext Induced Topic Search) Je mehr Links auf eine Seite verweisen, desto höher ist deren Autorität Je höher die Autorität einer verweisenden Seite ist, desto mehr trägt sie zur Autorität der Zielseite bei Diese Technik produziert nicht nur ein Ranking Ergebnis, sondern zwei - die sog. "authority und hub" Seiten. Die Authority Seiten sind Seiten, die am meisten zu einer Suchanfrage relevant sind. Z.B. die Microsoft Web Seite wäre die Authority Seite für eine Suchanfrage nach MICROSOFT, und nicht etwa eine Seite, wo das Wort Microsoft oft vorkommt. Die Hub Seiten sind nicht unbedingt selber Authorities, aber sie verweisen auf mehrere Authority Seiten. 5 6
Link-Analyse: HITS Graphentheorie (nach HENZINGER 2000:4f, Original: KLEINBERG 1998) Graphentheorie ist ein Gebiet der Algebra, das sich im weitesten Sinne mit Netzwerken befasst Das Internet (oder Teile davon ) kann als großer Graph betrachtet werden Für unsere Zwecke sind die Internet-Seiten Knotenund die Hypertext-Links entsprechen den Verbindungen authorities: Hubs: Inhaltsseiten Verteiler 7 8 Verteilung Link Analyse Internetseite = Knoten Link = Verbindungen Graphentheorie 9 10 Link Analyse Meist konzentriert man sich auf die Struktur der Graphen, nicht aber auf den textlichen/thematischen Inhalt Blick auf Kategorien Broad Topics Einheitliche Einteilung und Zusammenfassung von Themenfeldern Kategorien in themen-orientierten Kategorien versucht man die Hintergrundverteilung von broad topics zu messen Man untersucht Wahrscheinlichkeit, dass eine Seite einer broad topic zu einer anderen Seite mit broad topic verweist 11 12
Themenbasierte Analyse Themenbasierte Analyse Thema = Knoten Link = Verbindungen Inhalt Verzeichnisse vs. Hintergrundverteilung Linkbasierte vs. Inhaltsbasierte Communities 13 14 Vorgehensweise Dmoz.org breadth-first vs. depth-first Paare in Webseiten Crawling Random walk Dmoz.org Wachsender Umfang von Webseiten Ziel des Open Directory Projects ist es, mit Hilfe eine riesigen Anzahl von Editoren das umfassendste Verzeichnis des WWW zu erstellen. Jeder Autor kann einen kleinen Teil des WWW katalogisieren und dem Rest zur Verfügung stellen, wobei man sich die nützlichsten und besten Informationen heraussuchen kann. 15 16 Dmoz.org breadth-first vs. depth-first 17 18
Textlicher Inhalt (Davison) Textlicher Inhalt (Davison) Zufällig haben fast nie was gemeinsam Zufällig Geschwister (zwei Outlinks von der gleichen Website) Gleiche Domain (eine Seite aus einer Kategorie und ein Link vom gleichen Host) Unterschiedliche Domain (Seiten und Links von unterschiedlichen Hosts) Geschwister ähnlicher als verlinkte Seiten unterschiedlicher Domains Gleiche Domain verlinkte Seiten eher gleich, wenn von gleicher Domain Unterschiedliche Domain Nicht nur die Gleichheit in kleiner Nachbarschaft wird untersucht 19 20 Crawling Random walk Verwalten Index vom Web Ständig wechselnder Inhalt zweiten Komponente, welche sich bei bedarf automatisch durch das Internet bewegt Web Robot. (http://www.selfmad.de/suchmaschinen_glossar/crawler.html) Random Surfer Model: Stellen wir uns eine Person, die durch zufälligem anklicken von Links auf dem besuchten Seiten im Web surft. Dieses zufälliges Surfen ist äquivalent zu dem "random walk Definition Random Walk: Ein Random Walk ist ein diskreter Zufallsprozess. Jede einzelne Zufallsvariable ist gleich dem Wert der vorangegangenen Zufallsvariable plus einer zufälligen Veränderung.(http://homepage.uibk.ac.at/homepage/c434/c43405/downlo ad/random.pdf) 21 22 Background Topic Verteilung Topic Citation Distance between Shopping and Business Industries Distance between Health, Fitness and Arts, Music etc. Wahrscheinlichkeit, dass eine Seite eines Themas i eine Seite mit dem Thema j zitiert Dunkel Farben (hot colors) zeigen höhere Wahrscheinlichkeiten. Diagonale ist dominant, d.h. ziemlich viel Selbstzitierungen innerhalb der Topics Folgen dem Power Law (Potenzgesetz) 23 24
Citation:Beispiel Topic Citation /Computers and /Society http://www.garfield.library.upenn.edu/histcomp/guide.html 25 26 Topic Citation Ergebnisse Neue Topics und Communities sind fast immer Erweiterungen einer bereits existierenden Klasse Widerspruch(?): Citation vs. Background 27 28 Ziel? Anmerkungen und Anregungen In zwölf Monaten werden Suchmaschinen besser verstehen, wovon Web-Dokumente handeln und was ein Benutzer wissen will Anchor-Text Problem bei HTML-Tags? Wo seht Ihr die Verbindung zu IR? Monika Henzinger von Google (Computerzeitung Nr. 27, 1.7.2002 S. 18) 29 30
Anmerkungen und Anregungen In einer gewissen Weise ähnelt das WWW stark einem komplizierten Organismus, dessen mikroskopische Strukturen an Zellverbände erinnern, während im makroskopischen Teile wie Körper und Extremitäten beobachtet werden können, welche sich im mikroskopischen nicht unterscheiden. Vorsicht bei Pauschalisierungen Tipp Franco, Adrienne; Palladino, Richard (1999): Finding Quality Information on the World Wide Web. In: Tenth Annual Conference on the International Information Management Association. http://www.iona.edu/faculty/afranco/iima/webliog.htm Tipps für websearch: http://searchenginewatch.com/facts/index.php 31 32 Just for Fun: Fin http://searchenginewatch.com/facts/article.php/2156041 33 34