Google PageRank vs. HITS

Ähnliche Dokumente
Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst

Ranking Functions im Web: PageRank & HITS

HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss

die Relevanz von Webseiten bestimmt Alexander Pohl

Hyperlink Induced Topic Search (HITS)

Webmaster aufgepaßt: Was Sie schon immer über den PageRank von Google wissen wollten... und nie zu fragen wagten

#Backlinks: Was macht einen guten Backlink aus?

SEO Search Engine Optimization Diese Rankingfaktoren gelten für Google. Mareike Furlong & Klaudija Paunovic

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Wie Google Webseiten bewertet. François Bry

Erfolg in Suchmaschinen Spickzettel

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS

Die Mathematik hinter Google

Vorlesung Wissensentdeckung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Vom Suchen und Finden - Google und andere Ansätze

Algorithmische Methoden zur Netzwerkanalyse

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Web Marshals Fighting Curly Link Farms

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

Diskrete Modellierung

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

PG520 - Webpageranking

Suchmaschinenoptimierung in der Praxis

Web Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web

Was bedeutet der Begriff:

8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

Websuche. Linkanalyse

PageRank und HITS. Frank Habermann 11. Februar 2007

Link Analysis and Web Search Jan Benedikt Führer

Die Mathematik hinter Google

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil

Web-Recherche WS 2015/ Veranstaltung 29. Oktober 2015

ADS: Algorithmen und Datenstrukturen 2

Suchmaschinen Grundlagen. Thomas Grabowski

Suchmaschinenoptimierung (SEO)

Wer suchet, der findet

Algorithmische Methoden zur Netzwerkanalyse

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH

Algorithmische Methoden zur Netzwerkanalyse

Eigenwerte und Netzwerkanalyse. Page Rank

Gambler s Ruin. B ist die Bank ) 4/40

Verlinkung von Webseiten

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Grundlagen der Suchmaschinenoptimierung (SEO)

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suche im Web und Ranking

Copyright Werbeagentur Morré, 2017

Suchmaschinen und Markov-Ketten 1 / 42

Vortrag. Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung. Stuttgart, den

1 Informationssuche im Internet

1 Top 10 SEO Geheimnisse - OMKurse.de

Der Konzern Daten Generatoren Multiplikatoren & Spezifikatoren Datennutzung Maßnahmen. Guten Morgen!

Das Prinzip der Suchmaschine Google TM

Websuche. Einflussfaktor (Impact Factor) Bibliographische Kopplung. Bibliometrik: Zitatanalyse. Linkanalyse

Inhaltsverzeichnis. Seite.

Erfolgreich suchen im Internet

Erfahrungen, Einblicke, Experimente

SEO-Seminar (2-tägiges Intensivseminar Suchmaschinenoptimierung)

Big Data Analytics in Theorie und Praxis Theorieteil

6. Suchen im Web Webseiten Finden. FiXme Note: Generische Einführung zur Websuche.

Ideen und Konzepte der Informatik Websuche

Implementierung eines Vektormodells

Ohne Mathematik undenkbar!

Detecting Near Duplicates for Web Crawling

Vorlesung Information Retrieval Wintersemester 04/05

Die Sichtbarkeit im Netz als Marke/Unternehmen

Ranking am Beispiel von Google (1998):

Panorama der Mathematik und Informatik

1 Bibliometrische Maße und Link-Analyse

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

IHK Karlsruhe Tag der Gründer Eigene Website und nun?

Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013

FACHBEITRAG. 15 Tipps für die Generierung von Backlinks

D 1 D 2 D 3 D 4 D 5... D m S S S S n

Federated Search: Integration von FAST DataSearch und Lucene

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Panorama der Mathematik und Informatik

Bestandteile dieser Lektion. 1. Definition und Zielsetzung

Suche im Web und Ranking

Nachteile Boolesches Retrieval

Suche im Web und Ranking

Dashboard Genau jetzt. Thema der Arbeit. Zeitliches 30 Minuten Inhalt 24 Seiten 6 Abschnitte. Dashboard

PageRank-Algorithmus

Computergestützte Freizeitplanung basierend auf Points of Interest

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

(Bamberg)

SEO SEARCH ENGINE OPTIMIZATION

Transkript:

Google PageRank vs. HITS Seminar Information Retrieval Ulf Schmidt

Übersicht Einführung Hyperlinked Induced Topic Search Google PageRank Vergleich Weiterentwicklungen Fazit Quellen 29/01/07 Information Retrieval 2

Einführung Link-basierte Ranking Strategien: automatische Beurteilung von Webseiten anhand ihrer Linkstruktur Ziel beider Verfahren ist die Relevanzbeurteilung Idee: durch die Hyperlinkstruktur im WWW gibt es bereits eine indirekte Bewertung von Web-Seiten Setzen eines Links stellt eine Empfehlung dar 29/01/07 Information Retrieval 3

Hyperlinked Induced Topic Search HITS = Hyperlinked Induced Topic Search von Jon Kleinberg an der Cornell University entwickelt (1997) zum ersten Mal in der Suchmaschine "Clever" von IBM eingesetzt Suchtechnik, die die Struktur von Hyperlinks von Webseiten berücksichtigt Abschätzung der Autorität der Webseiten indem eine Webseite A einen Hyperlink auf eine Webseite B setzt, wird Seite B ein gewisses Maß an Autorität zugewiesen die Qualität der eingehenden Links wird bei der Relevanzermittlung berücksichtigt Unterscheidung von Hubs und Authorities 29/01/07 Information Retrieval 4

HITS - Hubs und Authorities Authorities: Seiten mit hoher Autorität viele eingehende (wichtige) Links (relevante Seite zu einem Thema) Hubs: Seiten mit hohen Anzahl von Verweisen auf Authorities (Seiten die Links zu einem bestimmten Thema sammeln) Hubs fassen thematisch relevante Authorities zusammen Hubs sind beispielsweise populäre Linksammlungen Authorities sind Seiten, die von Hubs oft verlinkt werden 29/01/07 Information Retrieval 5

HITS - Hubs und Authorities guter Hub verweist zu vielen guten Authorities Authority: eine Seite auf die von vielen guten Hubs verwiesen wird Hubs und Authorities verstärken sich gegenseitig zusammengehörige Hubs und Authorities werden als Communities bezeichnet 29/01/07 Information Retrieval 6

HITS - Berechnung Festlegung des Root Set (bestehend aus k Seiten) durch Eingeben eines Suchbegriffs in eine allgemeine Suchmaschine Erweiterung des Root Sets zur Basismenge (Base) Besteht aus allen Seiten des Root Sets, Seiten die in und aus dem Root Set verweisen Verwendung eines Höchstwertes für Anzahl Seiten die eingebracht werden, um Base klein zuhalten Bildung des Graphen, der durch die Basismenge induziert wird und entfernen aller internen Links (Navigationslinks) 29/01/07 Information Retrieval 7

HITS - Algorithmus jeder Seite i (aus der Menge i = 1 n Seiten) wird ein Hub- Gewicht h i und ein Authority-Gewicht a i zugeordnet A = Verlinkungsmatrix, wobei gilt: A i,j = 1, falls Seite i einen Link auf Seite j besitzt und A i,j = 0, falls dies nicht der Fall A T = die Transponierte Matrix von A: Hub-Wert einer Seite i: Summe aller Authority-Werte der Seiten, die von i verlinkt sind Authority-Wert einer Seite i: Summe aller Hub-Werte der Seiten, die auf i verlinken 29/01/07 Information Retrieval 8

HITS - Algorithmus II gegenseitiges Einsetzen der Definitionen: die Werte für a und h ergeben sich als Eigenvektoren der Matrizen AA T bzw. A T A 29/01/07 Information Retrieval 9

HITS - Probleme HITS Algorithmus identifiziert die dichteste Community aus der Basismenge Es können unterschiedliche Communities auftreten: Suchbegriff besitzt verschiedene Bedeutungen (z.b.: Puma) Suchbegriff nicht eindeutig einer Communities zuordbar Suchbegriff mit polarisierenden Communities (z.b.: Abtreibung Gegner und Befürworter verlinken ihre Seiten nicht miteinander) 29/01/07 Information Retrieval 10

HITS - Zusammenfassung berücksichtigt die Semantik der Suchanfragen (im Gegensatz zu PageRank) Ergebnisqualität mindestens gleich hoch, wie bei der Verwendung von PageRank Ergebnismenge kann auch relevante Dokumente beinhalten, die keine Terme der Suchanfragen enthalten semantisch unkorrekte Links, verfälschen das Ergebnis 29/01/07 Information Retrieval 11

Google PageRank von Lawrence Page und Sergey Brin (Google-Gründer) großer Anteil an Googles Erfolg (Qualität der Ergebnisse) Im Verlauf der Jahre natürlich reichlich Modifikationen und Verbesserungen hier nur ursprünglichen PageRank-Algorithmus Anfrage-unabhängiges Ranking der Seiten in einem Graph nicht nur Vorkommen eines Suchbegriffs in einer Webseite wichtig, sondern auch Anzahl der eingehenden Links für eine Webseite Links von wichtigeren Seiten sind wertvoller als Links von weniger wichtigen Seiten (Link von Yahoo ist mehr wert als von normaler Website) PageRank berechnet die Wichtigkeit aus der Linkstruktur Webseite um so wichtiger, je häufiger von anderen verlinkt und je wichtiger diese verlinkenden Seiten Rekursivität Linkstruktur des gesamten WWWs 29/01/07 Information Retrieval 12

Google PageRank - Architektur PageRank ist unabhängig von der Anfrage oder den Textinhalten PageRank jeder Seite wird vorausberechnet und gespeichert Berechnung des PageRanks für das komplette WWW laut Page/Brin ca. 100 Iterationen des Algorithmus notwendig (nur näherungsweise Berechnung da Web verdammt groß) genaue Details der Implementation sind nicht dokumentiert Fakten hier basieren auf den frühen Veröffentlichungen anzeigbar in der Google Toolbar (Plugin für IE und Firefox), zeigt skalierten Rank auf Skala zwischen 0 und 10 an 29/01/07 Information Retrieval 13

Google PageRank - Architektur 3 Faktoren bei Umsetzung des PageRanks in Google: Seitenspezifische Faktoren (Textinhalt, Title-Tag, URL, ) Ankertext eingehender Links (Aktualität, Position, Hervorhebung,...) PageRank-Wert Kombination durch Multiplikation bei Anfragen aus mehreren Begriffen PageRank nicht so große Bedeutung 29/01/07 Information Retrieval 14

Google PageRank - Algorithmus PR(A) = (1-d) + d (PR(T 1 )/C(T 1 ) +... + PR(T n )/C(T n )) PR(A) - PageRank einer Seite A PR(T i ) - PageRank der Seiten T i, von denen ein Link auf die Seite A zeigt C(T i ) - Gesamtanzahl der Links auf Seite T i d - Dämpfungsfaktor (zwischen 0 und 1) PageRank der Seite A bestimmt sich rekursiv aus dem PageRank der Seiten die auf A verlinken PageRank der Seiten T i fließt nicht gleichmäßig in den PageRank von Seite A ein (Gewichtung durch Anzahl C(T) der Links) je mehr ausgehende Links Seite T hat, desto weniger PageRank an Seite A 29/01/07 Information Retrieval 15

Google PageRank - Algorithmus II Summe wird mit Dämpfungsfaktor d multipliziert Minderung des Ausmaßes der Weitergabe des PageRanks Modell zur Abbildung von Benutzer-Verhalten Wahrscheinlichkeit welchen Link Surfer nimmt, ergibt sich aus wievielen Links er die Auswahl hat 29/01/07 Information Retrieval 16

Google PageRank - Beispiel AA PR(A) = 0.5 + 0.5 PR(C) PR(B) = 0.5 + 0.5 (PR(A) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B)) BB CC PR(A) = 14/13 = 1.07692308 PR(B) = 10/13 = 0.76923077 PR(C) = 15/13 = 1.15384615 Dämpfungsfaktor d ist 0,5 (Standardwert 0.85) Summe der PageRanks aller Seiten gleich drei Anzahl der Seiten da PageRank Erwartungswert für den Besuch einer Seite Für 3 Seiten lösbar, für WWW (Milliarden von Seiten) Gleichungssystem nicht lösbar 29/01/07 Information Retrieval 17

Google PageRank - Beispiel II Effekt eingehender Links XX AA DD PR(A) = 0.5 + 0.5 (PR(X) + PR(D)) = 5.5 + 0.5 PR(D) PR(B) = 0.5 + 0.5 PR(A) PR(C) = 0.5 + 0.5 PR(B) PR(D) = 0.5 + 0.5 PR(C) BB CC PR(A) = 19/3 = 6.33 PR(B) = 11/3 = 3.67 PR(C) = 7/3 = 2.33 PR(D) = 5/3 = 1.67 PageRank von 1 für jede Seite Seite X mit PageRank 10 Dämpfungsfaktor bei 0,5 der Effekt des zusätzlichen Links auf Seite A setzt sich über die Verlinkung fort Grad der Weitergabe von PageRank ist abhängig vom Dämpfungsfaktor 29/01/07 Information Retrieval 18

Google PageRank - Beispiel II Effekt eingehender Links bei d = 0,75: XX AA DD PR(A) = 419/35 = 11.97 PR(B) = 323/35 = 9.23 PR(C) = 251/35 = 7.17 PR(D) = 197/35 = 5.63 BB PageRank von 1 für jede Seite Seite X mit PageRank 10 CC wesentlich höhere PageRanks und gleichmäßiger verteilt je höher der Dämpfungsfaktor um so höher dieser Effekt Summe der PageRanks von 14 auf 34 Effekt so groß da auf ein geschlossenes System verlinkt wird (Wahrscheinlichkeit das die anderen Links verfolgt werden sehr groß) nicht viele eingehende Links wichtig, sondern Link(s) mit hohem PageRank 29/01/07 Information Retrieval 19

Google PageRank - Beispiel III Effekt ausgehender Links AA BB PageRank von 1 für jede Seite Externer Link von A auf C Dämpfungsfaktor bei 0,75 CC DD PR(A) = 0.25 + 0.75 PR(B) PR(B) = 0.25 + 0.375 PR(A) PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A) PR(D) = 0.25 + 0.75 PR(C) PR(A) = 14/23 PR(B) = 11/23 Summe 1. Site = 25/23 PR(C) = 35/23 PR(D) = 32/23 Summe 2. Site = 67/23 aufsummierter PageRank beider Sites: 92/23 = 4 bleibt erhalten Hinzufügen von Links hat keinen Einfluss auf den aufsummierten PageRank des Webs 29/01/07 Information Retrieval 20

Google PageRank - Probleme Dangling Links: manche Seiten haben keine ausgehenden Links PageRank bleibt stecken Seiten können sich gegenseitig verlinken (Schleifen können entstehen) Schleifen sind Sammelbecken für Rank-Werte daher: Dangling Links werden bei der Berechnung entfernt und wenn Berechnung aller anderen Links fertig, deren Wert berechnet 29/01/07 Information Retrieval 21

Google PageRank - Zusammenfassung der Effekt eingehender Links ist am größten jeder eingehender Link auf eine Webseite erhöht deren PageRank eine Webseite, die einen zusätzlichen eingehenden Link erhält, erhöht nun auch den PageRank auf eventuell verlinkende Seiten (wird weitergegeben) aufaddierter PageRank aller Seiten des Webs gleich der Anzahl der Seiten besondere Gewichtung einzelner Seiten / bezahlte Links bei Bestrafung von Websites: PageRank gleich 0 sind nicht vollkommen aus dem Index entfernt, erscheinen aber in Suchergebnissen ganz unten und somit praktisch nicht auffindbar 29/01/07 Information Retrieval 22

Vergleich PageRank Vorteile Berechnungszeit ist sehr gering (bereits vorherberechnet) HITS berechnet alles erst nach der Eingabe weniger anfällig für Spam Links hoher Berechnungsaufwand nur Authorities werden berechnet HITS Vorteile HITS Ranking beachtet auch die Anfrage HITS berechnet Hubs und Authorities einfach zur berechnen schwierig in Echtzeit 29/01/07 Information Retrieval 23

Weiterentwicklungen ARC-Verfahren (Automatic Resource Compilation) Erweiterung von HITS der thematische Bezug von Links wird besser einbezogen Links werden mit einem Gewicht bewertet TrustRank Weiterentwicklung von PageRank Zur Bekämpfung von Suchmaschinen-Spam Faktoren: Alter der Domain, Änderungshäufigkeit, SERP Tracking (Dauer auf Webseite) 29/01/07 Information Retrieval 24

Fazit Googles PageRank: Bestimmung des Ansehens aller Seiten im Web HITS: Bestimmung von Hubs und Authorities (Communities) eines Graphen von Webseiten basieren auf Linkanalyse Probleme: viele Links nur zur Navigation oder Werbung 29/01/07 Information Retrieval 25

Quellen Michael W. Berry and Murray Browne, Understanding Search Engines - Mathematical Modelling and Text Retrieval, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, 2005, Pages 71-88 Monica Bianchini, Marco Gori and Franco Scarselli, Inside PageRank, ACM Transactions on Internet Technology (TOIT), Volume 5, Issue 1, 2005, Pages 92-128 Longzhuang Li, Yi Shang and Wei Zhang, Improvement of HITS-based Algorithms on Web Documents, Proceedings of the 11th international conference on World Wide Web, 2002, Pages 527-535 Michael Brinkmeier, PageRank Revisited, ACM Transactions on Internet Technology (TOIT), Volume 6, Issue 3, 2006, Pages 282-301 Brian D. Davison, Overview: WWW Search Engines, 2003, http://www.cse.lehigh.edu/~brian/ Rainer Kuhlen und Joachim Griesbaum, Information Retrieval - Suche im Internet - Suchdienste I: Kataloge und Suchmaschinen, 2003, http://www.infwiss.uni-konstanz.de/curr/winter0203/ir/kursplan_ir_ws0203.html Wikipedia, Hubs und Authorities, 2006, http://de.wikipedia.org/wiki/hubs_und_authorities Theodora Tsikrika, Web Information Retrieval, 2002, http://qmir.dcs.qmul.ac.uk/teaching/2002/week11/lecture/ Phil Craven, Google's PageRank Explained, http://www.webworkshop.net/pagerank.html 29/01/07 Information Retrieval 26

Ende Vielen Dank für Eure Aufmerksamkeit. 29/01/07 Information Retrieval 27