Page-Rank: Markov-Ketten als Grundlage für Suchmaschinen im Internet



Ähnliche Dokumente
2 Vollständige Induktion

Übungen zur Vorlesung Funktionentheorie Sommersemester Musterlösung zu Blatt 0

15.4 Diskrete Zufallsvariablen

BINOMIALKOEFFIZIENTEN. Stochastik und ihre Didaktik Referentin: Iris Winkler

Satz Ein Boolescher Term t ist eine Tautologie genau dann, wenn t unerfüllbar ist.

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban

... a ik) i=1...m, k=1...n A = = ( a mn

Innerbetriebliche Leistungsverrechnung

Statistik Einführung // Konfidenzintervalle für einen Parameter 7 p.2/39

Aufgaben und Lösungen der Probeklausur zur Analysis I

Korrekturrichtlinie zur Studienleistung Wirtschaftsmathematik am Betriebswirtschaft BB-WMT-S

Nachklausur - Analysis 1 - Lösungen

1 Analysis T1 Übungsblatt 1

Projektmanagement Solarkraftwerke

Statistik I/Empirie I

2. Diophantische Gleichungen

Kunde. Kontobewegung

Lerneinheit 2: Grundlagen der Investition und Finanzierung

Versicherungstechnik

Statistik mit Excel Themen-Special. Peter Wies. 1. Ausgabe, Februar 2014 W-EX2013S

AUFGABENSTELLUNG (ZUSAMMENFASSUNG) 2 SPEZIFIKATION 2. Datenfluß und Programmablauf 2. Vorbedingung 3. Nachbedingung 3. Schleifeninvariante 3

Ausgangspunkt: Über einen endlichen Zeitraum wird aus einem Kapital (Rentenbarwert RBW v n,i

Kleines Matrix-ABC. Fachgebiet Regelungstechnik Leiter: Prof. Dr.-Ing. Johann Reger. 1 Elementares

Kapitel 4: Stationäre Prozesse

3. Tilgungsrechnung Tilgungsarten

Übungsblatt 1 zur Vorlesung Angewandte Stochastik

Auch im Risikofall ist das Entscheidungsproblem gelöst, wenn eine dominante Aktion in A existiert.

Die Gasgesetze. Die Beziehung zwischen Volumen und Temperatur (Gesetz von J.-L. und J. Charles): Gay-Lussac

Allgemeine Lösungen der n-dimensionalen Laplace-Gleichung und ihre komplexe Variable

Klasse: Platzziffer: Punkte: / Graph zu f

Vorlesung Informationssysteme

Aufgabenblatt 4. A1. Definitionen. Lösungen. Zins = Rate Zinskurve = Zinsstruktur Rendite = Yield

Stichproben im Rechnungswesen, Stichprobeninventur

Informatik II Dynamische Programmierung

VAIO-Link Kundenservice Broschüre

Betriebswirtschaft Wirtschaftsmathematik Studienleistung BW-WMT-S

Finanzmathematische Formeln und Tabellen

Zur Definition. der wirksamen. Wärmespeicherkapazität

Das FSB Geldkonto. Einfache Abwicklung und attraktive Verzinsung. +++ Verzinsung aktuell bis zu 3,7% p.a. +++

Arbeitsplätze in SAP R/3 Modul PP

Vorkurs Mathematik für Informatiker Folgen

Kapitel 6: Quadratisches Wachstum

Anwendungen der Wahrscheinlichkeit II. Markovketten

PrivatKredit. Direkt ans Ziel Ihrer Wünsche

Die allgemeinen Daten zur Einrichtung von md cloud Sync auf Ihrem Smartphone lauten:

6. Übung - Differenzengleichungen

und wird als n-dimensionaler (reeller) Vektorraum bezeichnet. heißt der von v 1,..., v k aufgespannte Unterraum des R n.

Heute Kapitalanlage morgen ein Zuhause

BERUFSKOLLEG KAUFMÄNNISCHE SCHULEN DES KREISES DÜREN Zweijährige Höhere Handelsschule

3Landlust auf Hofweier? Kaufpreis: ,00 Euro Courtage: 3,57% incl. 19% MwSt für den Käufer

10 Aussagen mit Quantoren und

Kryptologie: Kryptographie und Kryptoanalyse Kryptologie ist die Wissenschaft, die sich mit dem Ver- und Entschlüsseln von Informationen befasst.

Mit Ideen begeistern. Mit Freude schenken.

Gruppe 108: Janina Bär Christian Hörr Robert Rex

Wirtschaftsmathematik

Wörterbuchmethoden und Lempel-Ziv-Codierung

= T Jährliche Ratentilgung Jährliche Ratentilgung. Ausgangspunkt: Beispiel:

Medienzentrum. Bibliothek. Handreichung zur Literatursuche

Datenstruktur : MT940 (Swift)

Zahlenfolgen, Grenzwerte und Zahlenreihen

Wiederkehrende XML-Inhalte in Adobe InDesign importieren

11 Divide-and-Conquer und Rekursionsgleichungen

Sichtbar im Web! Websites für Handwerksbetriebe. Damit Sie auch online gefunden werden.

HONORAR Honorarabrechnung

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker I

Investitionsund Finanzierungsplanung mittels Kapitalwertmethode, Interner Zinsfuß

Stochastik für WiWi - Klausurvorbereitung

Lektion II Grundlagen der Kryptologie

LOHN KUG, ATZ, Pfändung, Darlehen und Bescheinigungswesen

evohome Millionen Familien verfolgen ein Ziel: Energie zu sparen ohne auf Komfort zu verzichten

KUNDENPROFIL FÜR GELDANLAGEN

n 1,n 2,n 3,...,n k in der Stichprobe auftreten. Für die absolute Häufigkeit können wir auch die relative Häufigkeit einsetzen:

e) ( 4a + 8b + 9a + 18b ) : a + 2b f) 2 log (x) + 3 log (2y) 0.5 log (z)

3 Grenzwerte. 3.1 Grenzwerte von Folgen

Löslichkeitsdiagramm. Grundlagen

Factoring. Alternative zur Bankfinanzierung?

Reengineering mit Sniffalyzer

KASSENBUCH ONLINE Online-Erfassung von Kassenbüchern

Vorkurs Mathematik für Informatiker Folgen

FIBU Kontoauszugs- Manager

Feldeffekttransistoren in Speicherbauelementen

Übungen zur Linearen Algebra 1

NEL Suchspulen - für jeden Detektor! TOP Leistung von unabhängigen Experten bestätigt. Such Spulen. nel-coils.de Shop ww.nuggets24.

Aussagenlogik. Aussagenlogik

1 Randomisierte Bestimmung des Medians

Das Digitale Archiv des Bundesarchivs

Statistische Maßzahlen. Statistik Vorlesung, 10. März, Beispiel. Der Median. Beispiel. Der Median für klassifizierte Werte.

Aufgabe G 1.1. [Vollständige Induktion, Teleskopsumme] n k 3 = n N : k(k + 1) = 1 1

Beurteilung des Businessplans zur Tragfähigkeitsbescheinigung

Gliederung. Value-at-Risk

Inhaltsverzeichnis. 1 Leistungsbeschreibung... 3

Bau- und Wohncenter Stephansplatz

Abschlussprüfung 2013 an den Realschulen in Bayern

LOHN Betriebswirtschaftliche Planung & Controlling

Finanzmathematik für HAK

LV "Grundlagen der Informatik" Programmierung in C (Teil 2)

GIBS. Übungsaufgaben zur Vertiefung. V1. Beschriften Sie die Konstruktionen! n n n n ' ' ' ' Modul 1.5. Geometrische Optik 1 58.

Private Altersvorsorge. Berufsunfähigkeitsschutz plus Steuerersparnis. Günstig vorsorgen durch Kombination mit unserer fondsgebundenen Basisrente.

Mathematischer Vorkurs zum Studium der Physik

Transkript:

Humboldt-Uiversität zu Berli Istitut für Iformatik Logik i der Iformatik Prof. Dr. Nicole Schweikardt Page-Rak: Markov-Kette als Grudlage für Suchmaschie im Iteret Skript zum gleichamige Kapitel der im Sommersemester 25 vo Prof. Freytag ud Prof. Schweikardt gehaltee Vorlesug Big Data Aalytics i Theorie ud Praxis Versio vom 2. Mai 25

2

Page-Rak: Markov-Kette als Grudlage der Fuktiosweise vo Suchmaschie im Iteret Ziel dieses Kapitels ist, eie kurze Überblick über die Arbeitsweise vo Suchmaschie für das Iteret zu gebe. Wir betrachte hierbei eie Suchmaschie, die als Eigabe ei Stichwort oder eie Liste vo Stichworte erhält, ud die als Ausgabe eie Liste vo Liks auf Webseite gebe soll, dere Ihalt relevate Iformatioe zu de eigegebee Stichworte ethält. Diese Liste soll so sortiert sei, dass die iformativste Liks am weiteste obe stehe. Die Herausforderuge, die sich beim Bau eier Suchmaschie stelle, sid vielfältig. Zum eie ist die Azahl der Webseite sehr groß: Bereits im Jahr 2008 gab es mehr als Billio Webseite. Beachte Sie: Billio =.000.000.000.000 = 0 2. Niemad ket de geaue Ihalt des gesamte Iterets, ud das Iteret verädert sich städig: Täglich komme eue Webseite hizu, viele Webseite werde täglich aktualisiert, ud adere ach eiiger Zeit auch wieder gelöscht. Eie Suchmaschie muss daher eie eorm große Mege vo Date verarbeite, die i kurze Zeitabstäde immer wieder aktualisiert werde. Trotzdem müsse Suchafrage, die a eie Suchmaschie geschickt werde, i Echtzeit beatwortet werde. Um die Ergebisse ach ihrer Relevaz für die jeweilige Suchbegriffe sortiere zu köe, beötigt ma auch ei sivolles Maß dafür, welche Webseite als besoders iformativ bewertet werde solle.. Die Architektur vo Suchmaschie Die Herausforderug besteht dari, Afrage für eie sich rasat äderde Suchraum gigatischer Größe ohe merkliche Reaktioszeit zu beatworte. Um dies zu gewährleiste, utze Suchmaschie u.a. die folgede Kompoete: () Web-Crawler: Computerprogramme, die Crawler geat werde, durchforste das Iteret, um eue oder veräderte Webseite zu idetifiziere. Die vo de Crawler gefudee Iformatioe über Webseite ud dere Ihalt werde aufbereitet ud gespeichert. (2) Idexierug: Die Iformatioe werde i eier Datestruktur gespeichert, mit dere Hilfe bei Eigabe eies Suchworts i Echtzeit alle Webseite ermittelt werde köe, die das Suchwort ethalte. (3) Bewertug der Webseite: Die ausgewählte Webseite werde im Hiblick auf ihre Iformatiosgehalt (hisichtlich möglicher Suchworte sowie hisichtlich ihrer geerelle Bedeutug im Iteret) bewertet. Quelle: http://googleblog.blogspot.com/2008/07/we-kew-web-was-big.html; zuletzt besucht am 9.05.25. 3

Idex Zu jeder vom Crawler gefudee Webseite wird die URL (d.h. die Adresse) sowie der Ihalt der Webseite gespeichert. Der Ihalt der Webseite wird aalysiert ud es werde Iformatioe darüber gespeichert, welches Wort mit welcher Häufigkeit ud a welche Positioe (etwa: im Titel, als Überschrift, im Fließtext, mit welcher Schriftgröße etc.) i der Webseite vorkommt. Diese Iformatioe werde im so geate Idex gespeichert. Außerdem werde die Liks, die auf Webseite agegebe sid, aalysiert. Ethält Webseite i eie Lik auf eie Webseite j, so wird der Text, mit dem der Lik beschriftet ist, im zu j gehörede Idex-Eitrag abgelegt. Diese Likbeschriftuge gebe wertvolle Hiweise darüber, welche Iformatioe die Webseite j ethält. Aus dem Idex wird der so geate ivertierte Idex geeriert. Dies ist eie Datestruk- tur, die zu jedem mögliche Suchwort eie Liste aller Webseite agibt, die dieses Suchwort ethalte. Dabei werde jeweils auch Zusatziformatioe gespeichert, die die Wichtigkeit des Suchworts ierhalb der Webseite beschreibe, z.b. die Häufigkeit des Stichworts, seie Positio ud Schriftgröße ierhalb der Webseite sowie das Vorkomme des Stichworts i Beschriftuge vo Liks auf die Webseite. Die Lik-Struktur des Iterets ka ma durch eie gerichtete Graphe modelliere, bei dem jede Webseite (d.h. jede URL) durch eie Kote repräsetiert wird, ud bei dem es eie Kate vo Kote i zu Kote j gibt, we die Webseite i eie Lik auf Webseite j ethält. Dieser Graph wird Lik-Idex oder Web-Graph geat. Der Web-Graph wird üblicherweise als Adjazezliste gespeichert. ivertierter Idex Lik-Idex Web-Graph Bearbeitug vo Such-Afrage: Bei Eigabe eier Liste vo Such-Stichworte soll die Suchmaschie die hisichtlich dieser Stichworte iformativste Webseite fide ud diese sortiert ach ihrer Relevaz azeige. Dabei werde folgede Kriterie berücksichtigt: () die Häufigkeit ud Positioierug der Suchbegriffe auf der jeweilige Webseite sowie i der Beschriftug vo Liks, die auf diese Webseite verweise, ud (2) die grudlegede Bedeutug eier Webseite. Für () köe Methode aus dem Bereich Iformatio Retrieval verwedet werde; Details dazu fide sich z.b. i Kapitel 6 vo [8]. Für (2) wird die Lik-Struktur des Iterets, d.h. der Web-Graph berücksichtigt. Als Rechtfertigug für die Güte dieses Asatzes, geht ma vo der folgede Aahme aus: We eie Webseite i eie Lik auf eie Webseite j ethält, da gibt es eie ihaltliche Beziehug zwische beide Webseite, ud der Autor der Webseite i hält die Iformatioe auf Webseite j für wertvoll. Es gibt verschiedee Verfahre, die Maße für die grudlegede Bedeutug eier Webseite liefer, beispielsweise das vo Google geutzte Page-Rak Verfahre vo Bri ud Page [2] oder die HITS (Hypertext Iduced Topic Search) Methode vo Kleiberg [6]. Beide Asätze versuche, die i der Lik-Struktur maifestierte relative Wertschätzug zwische eizele Webseite i eie grudlegede Bedeutug der Webseite umzureche. Details zu de beide Verfahre fide sich i dem Buch [7]. Bei der Bearbeitug eier Suchafrage, bei der eie Liste s vo Such-Stichworte eigegebe wird, wird da uter Verwedug vo () ud (2) jeder Webseite i ei Wert Score(i, s) zugeordet, der als Maß für die Relevaz der Webseite i hisichtlich der Suchafrage s diet. Als 4

Trefferliste gibt die Suchmaschie da eie Liste aller Webseite aus, dere Score über eier bestimmte Schrake liegt ud sortiert die Liste so, dass die Webseite mit dem höchste Score am weiteste obe stehe. Wie der Wert Score(i, s) gewählt wird, ist Betriebsgeheimis der eizele Betreiber vo Suchmaschie. Im Rest dieses Kapitels werde wir us ahad des Page-Rak Verfahres etwas geauer asehe, wie die grudlegede Bedeutug eier Webseite modelliert ud berechet werde ka..2 Der Page-Rak eier Webseite Der Page-Rak liefert ei Maß für die grudlegede Bedeutug eier Webseite, das allei also aus der Lik-Struktur des Iterets bestimmt wird, ohe dass der textuelle Ihalt eier Webseite dabei berücksichtigt wird. Wir schreibe im Folgede G = (V, E), um de Web-Graphe zu bezeiche. Der Eifachheit halber ehme wir a, dass die Webseite mit de Zahle,..., durchummeriert sid (wobei = V ist), ud dass V = {, 2,..., } ist. Jeder Kote vo G repräsetiert eie Webseite, ud jede Kate (i, j) E modelliert eie Lik vo Webseite i auf Webseite j. Für jede Kote i V sei := Aus-Grad G (i) = {j V : (i, j) E} der Ausgagsgrad vo i i G. D.h. ist die Azahl der Hyperliks, die vo der Webseite i auf adere Webseite verweise. Für eie Webseite j V schreibe wir Vor G (j), um die Mege aller Webseite zu bezeiche, die eie Lik auf j ethalte, d.h. Vor G (j) = {i V : (i, j) E}. Die Elemete i Vor G (j) werde Vorgäger vo j geat. Die grudlegede Bedeutug eier Webseite i wird im Folgede durch eie Zahl modelliert, dem so geate Page-Rak vo i. Der Wert soll die Qualität (im Sie vo Reommee oder Asehe ) vo Webseite i widerspiegel; die Zahl soll umso größer sei, je höher das Reommee der Webseite i ist. Das Reommee (ud damit der Wert PR j ) eier Webseite j wird als hoch bewertet, we viele Webseite i mit hohem Page-Rak eie Lik auf die Seite j ethalte. Die Werte, die alle Webseite i V zugeordet werde, werde daher so gewählt, dass Folgedes gilt: Page-Rak Eie Webseite i mit ausgehede Liks vererbt ihre Page-Rak a jede Webseite j mit (i, j) E um de Ateil PRi. Mit dieser Sichtweise müsste also für alle j V mit Vor G (j) gelte: PR j =. (.) Ei Problem stelle hierbei Kote dar, dere Ausgagsgrad 0 ist, da solche Kote ihre Page-Rak icht a adere Kote weitervererbe ud daher zu Werte führe köe, die kei sivolles Maß für die Bedeutug eier Webseite liefer. Als Beispiel betrachte ma de folgede Graphe G = (V, E): 5

00 00 00 00 2 0000 3 4 Seke Ei weiteres Problem stelle Kotemege dar, die uter sich zwar verbude sid, die aber keie Kate zu eiem adere Kote des Graphe G ethalte. Als eifaches Beispiel betrachte wir de folgede Graphe G = (V, E): 00 00 00 00 2 0000 3 4 5 Ma ka sich leicht davo überzeuge, dass Werte PR, PR 2, PR 3, PR 4, PR 5 R geau da die Gleichug (.) erfülle, we PR = PR 2 = PR 3 = 0 ud PR 4 = PR 5 ist. Ählich wie im vorherige Beispiel spiegel diese Werte icht die ituitive grudlegede Bedeutug wider, die ma de Webseite 5 zuorde würde. D.h. die durch die Gleichug (.) gegebee Werte PR,..., PR 5 liefer kei sivolles Maß, um die grudlegede Bedeutug der eizele Webseite zu bewerte. Um dieses Problem zu vermeide, wird die Vererbug vo auf die Nachfolgeseite j mit (i, j) E meistes um eie Dämpfugsfaktor d mit 0 d abgeschwächt. Dies wird i der folgede Defiitio präzisiert. Dämpfugsfaktor Die eizige Werte PR, PR 2, PR 3, PR 4 R, die die Gleichug (.) erfülle, sid PR = PR 2 = PR 3 = PR 4 = 0. Diese Werte spiegel aber icht die ituitive grudlegede Bedeutug wider, die ma de Webseite, 2, 3 ud 4 zuorde würde. Im Folgede werde Kote vom Ausgagsgrad 0 auch Seke geat. Zur Bestimmug des Page-Raks betrachtet ma i der Regel ur Graphe ohe Seke, d.h. gerichtete Graphe, bei dee jeder Kote eie Ausgagsgrad hat. Natürlich gibt es keie Garatie, dass der Web-Graph keie Seke besitzt. Die Autore vo [2, 9] schlage zwei Möglichkeite vor, de Web-Graphe i eie Graphe ohe Seke zu trasformiere: Die eie Möglichkeit ist, vo jeder Seke Kate zu alle Kote hizuzufüge. Die adere Möglichkeit ist, alle Seke zu lösche ud dies rekursiv so lage zu tu, bis ei Graph übrig bleibt, der keie Seke besitzt. Wir ehme im Folgede a, dass eie dieser beide Trasformatioe durchgeführt wurde ud dass der Web-Graph durch eie edliche gerichtete Graphe G = (V, E) repräsetiert wird, der keie Seke besitzt. Page-Rak- Eigeschaft bezüglich d Defiitio (Page-Rak-Eigeschaft). Sei d eie reelle Zahl mit 0 d. Die Zahl d wird im Folgede Dämpfugsfaktor geat. Sei G = (V, E) ei gerichteter Graph, der keie Seke besitzt, ud sei := V N ud V = {,..., }. Für alle i, j V sei := Aus-Grad G (i) ud Vor G (j) := {i V : (i, j) E}. Ei Tupel PR = (PR,..., PR ) R hat die Page-Rak-Eigeschaft bezüglich d, we für alle j V gilt: PR j = d + d. (.2) 6

Beachte: Für de Dämpfugsfaktor d = erhält ma gerade die Gleichug (.). Für de Dämpfugsfaktor d = 0 ist PR = PR 2 =... = PR =. I [2] wird empfohle, de Wert d = 0.85 = 7 20 zu wähle. Beispiel 2. Zur Veraschaulichug der Page-Rak-Eigeschaft betrachte wir de Dämpfugsfaktor d := 2 ud de folgede Graphe G = (V, E): 2 3 Wir suche ei Tupel PR = (PR, PR 2, PR 3 ) vo reelle Zahle, das die Page-Rak-Eigeschaft bzgl. d = 2 hat, d.h. es gilt: () PR = 2 3 + 2 PR3 (2) PR 2 = 2 3 + 2 PR 2 (3) PR 3 = 2 3 + 2 ( PR 2 + PR2 ). Die Werte PR, PR 2 ud PR 3 köe wir daher fide, idem wir das Lieare Gleichugssystem löse, das aus de folgede drei Gleichuge besteht: () PR 2 PR 3 = 6 (2) 4 PR + PR 2 = 6 (3) 4 PR 2 PR 2 + PR 3 = 6 Die Auflösug dieses lieare Gleichugssystems (z.b. mittels Gauß-Elimiatio) liefert die Werte PR = 4 39, PR 2 = 0 39, PR 3 = 5 39. Ede Beispiel 2 Auf die gleiche Art wie i diesem Beispiel erhält ma auch für de Web-Graphe ud eie geeigete Dämpfugsfaktor d ei etsprechedes lieares Gleichugssystem. Um de Page-Rak der eizele Webseite zu bereche, müsse wir ur dieses lieare Gleichugssystem löse. Dabei stelle sich folgede Probleme: () Zuächst ist völlig uklar, ob dieses lieare Gleichugssystem überhaupt eie Lösug besitzt, ud falls ja, ob die Lösug eideutig ist. Ahad vo Defiitio ist ämlich prizipiell auch dekbar, dass es gar kei Tupel gibt, das die Page-Rak-Eigeschaft bzgl. d hat, oder dass es mehrere verschiedee Tupel gibt, die die Page-Rak-Eigeschaft bzgl. d besitze. (2) Das lieare Gleichugssystem hat Ubekate, wobei die Azahl der Webseite im Iteret ist ud diese Zahl ist eorm groß. Um de Page-Rak aller Webseite zu bestimme, beötige daher ei extrem effizietes Verfahre zum Löse dieses lieare Gleichugssystems. 7

I de folgede beide Abschitte werde wir sehe, dass die Theorie der Markov-Kette us hilft, diese Probleme zu löse. Dazu ist die im folgede Abschitt dargestellte Sichtweise auf de Page-Rak sehr hilfreich..3 Der Zufalls-Surfer Zufalls-Surfer Wir ehme a, dass der Webgraph durch eie gerichtete Graphe G = (V, E) mit Kotemege V = {,..., } repräsetiert wird, der keie Seke besitzt. Des Weitere sei d eie beliebige reelle Zahl mit 0 d. Wir betrachte eie Zufalls-Surfer (eglisch: radom surfer), der auf eier beliebige Webseite begit ud beliebige Liks verfolgt, ohe dabei auf Ihalte zu achte. We der Zufalls-Surfer auf eier Webseite i ist, so wählt er mit Wahrscheilichkeit d eie Lik, der vo Seite i ausgeht. Hierbei wird da jeder der = Aus-Grad G (i) ausgehede Liks mit derselbe Wahrscheilichkeit d ausgewählt. mit Wahrscheilichkeit ( d) eie beliebige Webseite im Web-Graphe. Hierbei wird da jede der Webseite mit derselbe Wahrscheilichkeit d ausgewählt. Für alle i, j V gibt daher p i,j := d + d, falls (i, j) E d, falls (i, j) / E die Wahrscheilichkeit a, mit der der Zufalls-Surfer i eiem Schritt vo Seite i zu Seite j wechselt. Diese Wahrscheilichkeite, mit dee sich der Zufalls-Surfer vo Kote zu Kote bewegt, lasse sich kompakt durch die folgede Matrix darstelle. (.3) Page-Rak- Matrix Defiitio 3 (Die Page-Rak-Matrix P (G, d)). Sei d R mit 0 d, sei N ud sei G = (V, E) mit V = {,..., } ei gerichteter Graph ohe Seke. Für jedes i V sei := Aus-Grad G (i). Die Page-Rak-Matrix ist die -Matrix P (G, d) := p, p,.. p, p, wobei für alle i, j V der Eitrag i Zeile i ud Spalte j der i Gleichug (.3) festgelegte Wert p i,j ist. Wir schreibe auch kurz (p i,j ) i,,...,, um die Matrix P (G, d) zu bezeiche., Beispiel 4. Für de Wert d = 2 ud de Graphe G aus Beispiel 2 ist beispielsweise p, = 6, p,2 = 6 + 4 = 5 2, p 2,3 = 6 + 2 = 2 3 ud isgesamt P (G, d) = 6 6 2 3 5 2 6 6 5 2 2 3 6. 8

Um de Zusammehag zwische dem Zufalls-Surfer, der Page-Rak-Matrix ud Tupel mit der Page-Rak-Eigeschaft beschreibe zu köe, beötige wir folgede Notatio für das Reche mit Matrize. Zur Erierug (Vektor-Matrix-Produkt). Sei N, ud für alle i, j {,..., } sei p i,j eie reelle Zahl. Sei P := (p i,j ) i,,..., die -Matrix, die i Zeile i ud Spalte j de Eitrag p i,j hat (für alle i, j {,..., }). Ist X = (X,..., X ) ei Tupel aus reelle Zahle, so ist das Vektor-Matrix-Produkt X P das Tupel Y = (Y,..., Y ) R, bei dem für jedes j {,..., } gilt: Y j := X i p i,j. i= Vektor-Matrix- Produkt X P Der folgede Satz beschreibt de geaue Zusammehag zwische Zufalls-Surfer, Page-Rak- Matrix ud Tupel mit der Page-Rak-Eigeschaft. Satz 5. Sei d R mit 0 d <, sei N ud sei G = (V, E) ei gerichteter Graph mit V = {,..., }, der keie Seke besitzt. Da gilt: (a) Ist PR = (PR,..., PR ) R ei Tupel, das die Page-Rak-Eigeschaft bzgl. d besitzt, so ist i= =. (b) Für jedes Tupel X = (X,..., X ) R mit i= X i = gilt: X besitzt die Page-Rak-Eigeschaft bzgl. d X P (G, d) = X. Beweis: (a) Sei PR = (PR,..., PR ) R ei Tupel, das die Page-Rak-Eigeschaft bzgl. d besitzt. D.h. es gilt f.a. j {,..., }, dass Somit gilt: PR j = ( PR j = d d = ( d) + d G ohe Seke = ( d) + d = ( d) + d + d. + d ) (i,j) E = d + d = ( d) + d ( ) ai PRi i= PR j. = ( d) + d i= j:(i,j) E i= 9

Isbesodere gilt also: ( d) PR j = ( d). (.4) Wege d ist ( d) 0, ud daher erhalte wir aus Gleichug (.4), dass PR j = ist. Dies schließt de Beweis vo Teil (a) ab. (b) Sei X = (X,..., X ) R mit i= X i =. Sei Y = (Y,..., Y ) so dass X P (G, d) = Y. Da gilt gemäß Defiitio.3 ud Defiitio 3 für jedes j {,..., }, dass Y j = i= Gl. (.3) X i p i,j = i= = X i= = i= d d X i d + X i + d i= + d X i d X i, X i d.h. es gilt Y j = d + d X i. (.5) Aus Defiitio zusamme mit Gleichug (.5) folgt: X besitzt die Page-Rak-Eigeschaft bzgl. d f.a. j {,..., } gilt: X j = Y j X P (G, d) = X. Beachte: Für de Beweis vo Satz 5 (a) ist wichtig, dass d ist ud dass G keie Seke besitzt ud dass d ist. Eigevektor Notatio 6 (Eigevektor). Ei Vektor X = (X,..., X ) heißt liker Eigevektor zum Eigewert der -Matrix P, falls gilt: X P = X ud X (0,..., 0). Satz 5 besagt also, dass ei Tupel PR = (PR,..., PR ) R geau da die Page-Rak- Eigeschaft bzgl. d besitzt, we es ei liker Eigevektor zum Eigewert der Matrix P (G, d) ist, für de i= = ist. Diese Sichtweise auf de Page-Rak sowie die im folgede Abschitt vorgestellte Theorie der Markov-Kette helfe us, um die beide am Ede vo Abschitt.2 gestellte Probleme zu löse. 0

.4 Markov-Kette Markov-Kette sid ach dem russische Mathematiker Adrei A. Markov (856 922) beat. I der Literatur werde uterschiedliche Schreibweise des Names verwedet, z.b. Markov, Markow oder Markoff. Defiitio 7 (Markov-Kette). Eie (homogee) Markov-Kette mit Übergagsmatrix P wird durch eie -Matrix P = ( p i,j )i,,..., Markov-Kette Übergagsmatrix mit N beschriebe, für die gilt: () p i,j 0 für alle i, j {,..., }, ud (2) für jede Zeile i {,..., } gilt: p i,j =. Eie Matrix P, die die Eigeschafte () ud (2) besitzt, wird auch stochastische Matrix geat. Der zu P gehörede Graph ist der gerichtete Graph mit Kotemege V = {,..., }, so dass für alle i, j {,... } gilt: Es gibt i G geau da eie Kate vo i ach j, we p i,j > 0 ist. De Eitrag p i,j i Zeile i ud Spalte j vo P ka ma als Wahrscheilichkeit dafür auffasse, dass ei Zufalls-Surfer im Graphe G i eiem Schritt vo Kote i zu Kote j sprigt. stochastische Matrix Beispiel 8. Sei G = (V, E) ei beliebiger gerichteter Graph mit Kotemege V = {,..., } (für := V N ), der keie Seke besitzt. Seit d eie reelle Zahl mit 0 d < ud sei P := P (G, d) die zugehörige Page-Rak-Matrix. Gemäß der Defiitio vo P (G, d) ist p i,j > 0 für alle i, j {,..., } (dazu beachte ma, dass 0 d < ist). Außerdem gilt für jede Zeile i {,..., }, dass p i,j = d + d j : (i,j) E G ohe Seke = ( d) + d =. Somit ist P eie stochastische Matrix, die eie Markov-Kette beschreibt. Für jedes i, j {,..., } gibt der Wert p i,j die Wahrscheilichkeit dafür a, dass der Zufalls-Surfer i eiem Schritt vo Webseite i zu Webseite j sprigt. Da p i,j > 0 ist, ist der zu P gehörede Graph der vollstädige gerichtete Graph auf Kote, d.h. der Graph mit Kotemege V = {,..., } ud Katemege V V. Diese Graphe bezeiche wir im Folgede mit K. K Die Theorie der Markov-Kette ud der stochastische Matrize wurde i der Literatur gut utersucht (siehe [5, 4]). Isbesodere ist Folgedes bekat (vgl. [3]): Satz 9. Sei N ud sei P = (p i,j ) i,,..., eie stochastische Matrix, bei der für alle i, j {,..., } gilt: p i,j > 0. Da gilt:

(a) Es gibt es geau ei Tupel X = (X,..., X ) R mit i= X i =, das ei liker Eigevektor zum Eigewert vo P ist. (b) Dieses Tupel X hat die Eigeschaft, dass für jedes i {,..., } der Wert X i > 0 ist. Wir gebe hier ur de Beweis vo Teil (a) des Satzes a ud verweise für de Beweis vo Teil (b) auf die Literatur. Beweis vo Satz 9(a): I diesem Beweis bezeichet der Buchstabe X stets eie Zeilevektor X = (X,..., X ) R, währed das Symbol y stets eie Spaltevektor i R der Form y = mit y i R für alle i {,..., } bezeichet. Wir schreibe, um de Spaltevektor y mit y i = für alle i {,..., } zu bezeiche. Aalog bezeiche 0 de Spaltevektor y mit y i = 0 für alle i {,..., }. Mit I bezeiche wir die Idetitätsmatrix vom Format, d.h. die ( )-Matrix, bei der auf der Diagoale e stehe ud a alle adere Stelle 0e. y. y Offesichtlicherweise gilt für eie Zeilevektor X R : X P = X X P X = (0,..., 0) X (P I) = (0,..., 0) (P I) T X T = 0, wobei wir für eie ( )-Matrix A = (,j ) i,,..., mit A T die zu A traspoierte Matrix bezeiche, d.h. A T = (a j,i ) j,i=,...,. Die Aussage vo Satz 9(a) ist äquivalet zu der Aussage, dass für die Matrix A := P I gilt: Der Ker vo A T hat Dimesio, d.h. es gilt: () es gibt eie Vektor y 0, so dass A T y = 0, ud (2) für jede Vektor z mit A T z = 0 gibt es eie Zahl k R, so dass z = k y. Aus der lieare Algebrst bekat, dass für jede ( )-Matrix A gilt: Der Ker vo A T hat geau da Dimesio, we der Ker vo A Dimesio hat. Wir köe daher a Stelle vo A T die Matrix A betrachte ud brauche ur zu zeige, dass gilt: () es gibt eie Vektor y 0, so dass A y = 0, ud (2) für jede Vektor z mit A z = 0 gibt es eie Zahl k R, so dass z = k y. 2

Da A = P I ud da P eie stochastische Matrix ist, erhalte wir Aussage (), idem wir y := wähle, de A = P, ud der Eitrag i Zeile i vo P ist gerade die Zahl p i,j =, für jedes i {,..., }. Um Aussage (2) zu beweise, sei z ei beliebiger Spaltevektor mit A z = 0. User Ziel ist, zu zeige, dass die Eiträge vo z i alle Zeile idetisch sid, d.h. z = z 2 = = z. Wege A = P I gilt für jedes i {,..., }, dass der Eitrag i Zeile i des Vektors A z wege A z = 0 wie folgt aussieht: ( ) p i,j z j z i = 0. Somit gilt: z i = p i,j z j. Wähle u i {,..., } so, dass z i z i für alle i {,..., } gilt. Da laut Voraussetzug p i,j 0 für alle i, j {,..., } gilt, erhalte wir: z i = p i,j z j z j z i = p i,j z i ( = z i = z i. p i,j ) z i Somit ka das -Zeiche i Zeile 2 ersetzt werde durch ei = -Zeiche, ud wir wisse, dass p i,j z j = p i,j z i. (.6) Ageomme, es gibt ei j {,..., }, so dass z j < z i. Da laut Voraussetzug p i,j > 0 ist, würde da aber p i,j z j < p i,j z i. gelte, was im Widerspruch zu Gleichug (.6) steht. Somit muss also z j = z i für alle j {,..., } gelte. D.h. z = z 2 = = z, ud daher ist z = k für k := z i. Ma beachte, dass sich aus der Kombiatio vo Satz 9(a), Beispiel 8 ud Satz 5 die Lösug des am Ede vo Abschitt.2 geate Problems () ergibt: Folgerug 0 (Lösug vo Problem () auf Seite 7). Ist G = (V, E) ei gerichteter Graph mit V = {,..., } (für N ), der keie Seke besitzt, ud ist d R ei Dämpfugsfaktor mit 0 d <, so gibt es geau ei Tupel PR = (PR,..., PR ) R, das die Page-Rak-Eigeschaft bezüglich d besitzt. Für dieses Tupel ist i= =, ud gemäß Satz 9(b) gilt > 0 für alle i {,..., }. 3