Die Mathematik hinter Google. Übersicht. Was leistet eine Suchmaschine? Michael Eisermann. www.igt.uni-stuttgart.de/eiserm/popularisation/#tag2012



Ähnliche Dokumente
Die Mathematik hinter Google

Die Mathematik hinter Google

Wie Google Webseiten bewertet. François Bry

Einleitung. Die Mathematik hinter Google. Science Pub Quiz: Zahlen, bitte! Prof. Dr. Michael Eisermann

Primzahlen und RSA-Verschlüsselung

Informationsblatt Induktionsbeweis

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Dokumentation von Ük Modul 302

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Konzepte der Informatik

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

1 topologisches Sortieren

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Professionelle Seminare im Bereich MS-Office

SEO Erfolg mit themenrelevanten Links

Affiliate Marketing Schnellstart Seite 1

1 Mathematische Grundlagen

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

SUCHMASCHINENOPTIMIERUNG FÜR DEN INTERNETAUFTRITT

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Info zum Zusammenhang von Auflösung und Genauigkeit

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Lineare Gleichungssysteme

DER SELBST-CHECK FÜR IHR PROJEKT

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Diskrete Modellierung

Was ist Sozial-Raum-Orientierung?

Besten Dank, dass Sie sich überlegen, eine Website von Daynox erstellen zu lassen!

Lineare Gleichungssysteme

Viele Bilder auf der FA-Homepage

Zeichen bei Zahlen entschlüsseln

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Impulse Inklusion 2014 Beteiligungskulturen - Netzwerke - Kooperationen (Leichte Sprache Version)

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

7 Rechnen mit Polynomen

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Das Leitbild vom Verein WIR

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Anleitung über den Umgang mit Schildern

Geld Verdienen im Internet leicht gemacht

Online Newsletter III

Einfügen von Bildern innerhalb eines Beitrages

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Kaufkräftige Zielgruppen gewinnen

Die Bundes-Zentrale für politische Bildung stellt sich vor

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

1: 9. Hamburger Gründerpreis - Kategorie Existenzgründer :00 Uhr

Erklärung zu den Internet-Seiten von

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Die Captimizer BTZ-Datei 2015

Suchmaschinenoptimierung SEO

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

Gefahren aus dem Internet 1 Grundwissen April 2010

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

= i (V) = d 2. v = d! p! n da v 1 = v 2 gilt auch d 1 ÿ p ÿ n 1 = d 2 ÿ p ÿ n 2 (III) p kürzen (Division durch p) d 1 ÿ n 1 = d 2 ÿ n 2 (IV) oder

Kulturelle Evolution 12

4 Aufzählungen und Listen erstellen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Ihr Weg in die Suchmaschinen

Weltenbummler oder Couch-Potato? Lektion 10 in Themen neu 3, nach Übung 5

Warum Sie jetzt kein Onlinemarketing brauchen! Ab wann ist Onlinemarketing. So finden Sie heraus, wann Ihre Website bereit ist optimiert zu werden

Alle Schlüssel-Karten (blaue Rückseite) werden den Schlüssel-Farben nach sortiert und in vier getrennte Stapel mit der Bildseite nach oben gelegt.

Kapiteltests zum Leitprogramm Binäre Suchbäume

Sichtbarkeit Ihres. Unternehmens... Und Geld allein macht doch Glücklich!

Wir arbeiten mit Zufallszahlen

Der Tag hat 24 Stunden. Bitte schreibt in die linke Spalte alles auf, was ihr gestern getan habt und euch noch einfällt: War es ein stressiger

Suchmaschinenoptimierung (SEO) für Ärzte Fallbeispiel Google

Erfolgreich suchen im Internet

Kreativ visualisieren

Leit-Bild. Elbe-Werkstätten GmbH und. PIER Service & Consulting GmbH. Mit Menschen erfolgreich

Wordpress: Blogbeiträge richtig löschen, archivieren und weiterleiten

Ursprung des Internets und WWW

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Lösung. Prüfungsteil 1: Aufgabe 1

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

GLEICH WEIT WEG. Aufgabe. Das ist ein Ausschnitt aus der Tausenderreihe:

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

! " # $ " % & Nicki Wruck worldwidewruck

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Woher kommt die Idee Internet?

Was meinen die Leute eigentlich mit: Grexit?

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Umgang mit Schaubildern am Beispiel Deutschland surft

Repetitionsaufgaben Wurzelgleichungen

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Professionelle Seminare im Bereich MS-Office

Urlaubsregel in David

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Der große VideoClip- Wettbewerb von Media Markt.

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Und was uns betrifft, da erfinden wir uns einfach gegenseitig.

Transkript:

Die Mathematik hinter Google Michael Eisermann Institut für Geometrie und Topologie, Universität Stuttgart Tag der Wissenschaft, 0. Juni 0 Sehr geehrte Damen und Herren, ich begrüße Sie! Mein Name ist Michael Eisermann und ich bin seit drei Jahren Professor für Mathematik an der Universität Stuttgart. Heute möchte ich Ihnen die mathematische Grundidee hinter der Suchmaschine Google erklären. Der Vortrag richtet sich an interessierte Laien. Mathematik steht im Titel, und Mathematik will ich Ihnen bieten anhand vieler Beispiele auf Schulniveau (einer idealisierten Schule ;-). Sie können mich während des Vortrags gerne unterbrechen und nachfragen. Ich möchte Sie hierzu ermutigen! Ich stehe Ihnen auch nach dem Vortrag gerne für Fragen zur Verfügung. Ebenso können Sie den Vortrag nochmal in Ruhe lesen, Sie finden ihn auf meiner Webseite. Wie Sie wissen hat die Mathematik eine lange, reiche Geschichte. Einen winzigen Teil davon sieht man bereits in der Schule. Manche empfinden das als langweilig und anwendungsfern zu unrecht. Die Mathematik ist Grundlage für Naturwissenschaft und Technik: Sie ist eine moderne Schlüsseltechnologie. Einen kleinen Aspekt hiervon will ich heute vorstellen. Viele Dinge unseres täglichen Lebens würden ohne Mathematik völlig anders aussehen oder gar nicht existieren. Das betrifft auch und ganz besonders das inzwischen allgegenwärtige Internet, zum Beispiel Datenkompression, Kryptographie oder eben Suchmaschinen. Heute krieje mer de Suchmaschin. Wat is en Suchmaschin? Da stelle mer uns janz dumm. www.igt.uni-stuttgart.de/eiserm/popularisation/#tag0 / / Übersicht Was leistet eine Suchmaschine? Einführung Was leistet eine Suchmaschine? Das Unternehmen Google Inc. Das Internet ist ein Graph! Wie bestimmt man Relevanz von Internetseiten? Erstes Modell: naive Zählung Zweites Modell: gewichtete Zählung Drittes Modell: rekursive Zählung Mathematische Analyse Der zufällige Surfer auf Irrfahrt im Internet Googles Erfolgsmodell von : PageRank Warum funktioniert PageRank? Stellen Sie sich eine riesige Bibliothek mit über hundert Milliarden Dokumenten vor. Einen Bibliothekar gibt es nicht. Jeder darf Dokumente hinzufügen und muss niemanden darüber informieren. Sie suchen nun dringend nach bestimmten Informationen, und da Sie ungeduldig sind, möchten Sie das Ergebnis innerhalb von Sekunden. Wie soll das gehen? Zunächst scheint das völlig unmöglich... und doch gelingt Suchmaschinen im Internet genau das! Zunächst einmal sichtet jede Suchmaschine die vorhandenen Daten. Hierzu läuft unablässig im Hintergrund eine automatische Surfsoftware (Spider, Webrobots oder kurz Bots genannt), die das Internet permanent durchforstet. Mit den angesteuerten Seiten geschieht zweierlei: Erstens speichert die Suchmaschine eine Kopie der Seite im hauseigenen Rechenzentrum. Dabei gibt sie jeder katalogisierten Seite eine Nummer. Zweitens wird ein Index erstellt: Dieser ist wie das Schlagwortregister eines Buches eine lange Liste von Wörtern und dazu die Nummern der Seiten, auf denen diese vorkommen. Bei einer Suchabfrage schaut die Suchmaschine in ihrem vorbereiteten Index nach, auf welchen Seiten der gesuchte Begriff vorhanden ist. Für die Nutzer ebenfalls wichtig: Die Liste der Suchergebnisse muss dann nach Relevanz sortiert werden, damit das Wichtigste ganz oben steht. /. /

Was leistet eine Suchmaschine? Kernprobleme: Benutzer Suchanfrage nach Schlüsselwörtern Anzeige der Liste der Resultate Mathematik: Wie bestimmt man die Relevanz? Suchmaschine Liste der Webseiten mit diesen Wörtern Sortierung nach Relevanz Informatik: Wie verarbeitet man enorme Datenmengen? Finanzstrategie: Wie verdient man an einem Gratisprodukt? In diesem Vortrag werde ich nur die erste Frage diskutieren und hierzu einige mathematische Modelle diskutieren. Die Ideen sind einfach aber schließlich doch durchschlagend. Vom Studienprojekt zum weltweiten Unternehmen Studienprojekt von Page und Brin September Unternehmensgründung Seit 000 Finanzierung durch Werbung August 00 Börsengang Geschäftsjahr 0: Umsatz Mrd. USD (Fortune Platz ) Gewinn 0 Mrd. USD (Fortune Platz ) Börsenwert 0 Mrd. USD (Fortune Platz ) Mitarbeiter mehr als 000 Computer vermutlich 00 000 Zum Vergleich die Top (Geschäftszahlen des Jahres 0 in Mrd. USD): Umsatz: Exxon, Wal-Mart, Chevron, ConocoPhillips, General Motors 0. Gewinn: Exxon, Chevron, Apple, Microsoft, Ford Motor 0. Börsenwert: Apple, Exxon 0, Microsoft 0, IBM, Chevron. Neben Suchmaschine zahlreiche weitere Dienste Neben viel Lob auch Kritik: Monopol, Datengier. /. / Ziel dieses Vortrags Die Suchmaschine Google ist seit in Betrieb und dominiert seither den Markt. Ihre Stärke liegt in der intelligenten Sortierung der Suchergebnisse. Bei vorherigen Suchmaschinen musste man endlose Trefferlisten durchforsten, bis man auf die ersten interessanten Ergebnisse stieß. Bei Google stehen sie auf wundersame Weise ganz oben auf der Liste. Wie ist das möglich? Die Antwort liegt (zu einem großen Teil) in der folgenden Formel, die ich hier erklären will. Erklärung des PageRank Algorithmus von Google. Kurzfassung: m i = c n + j i c m j Chaos und Struktur im Internet Dezentral: Viele unabhängige Benutzer erzeugen und verändern Inhalte. Heterogen: Das Internet bietet viele Informationen... aber wenig Struktur. Gemeinsame Syntax: hypertext markup language (HTML) Keine Angst, die Formel sieht nur auf den ersten Blick kompliziert aus. Ich werde sie Schritt für Schritt erläutern. Wer sowas schon gesehen hat, weiß, dass es sich um eine besonders einfache Formel handelt, nämlich eine lineare Gleichung, die keine Quadrate oder komplizierteres enthält. (Schon die Formel von Pythagoras a + b = c ist komplizierter. ;-) Sergey Brin, Larry Page () The anatomy of a large-scale hypertextual web search engine. http://infolab.stanford.edu/pub/papers/google.pdf Kurt Bryan, Tanya Leise (00) The $,000,000,000 eigenvector: the linear algebra behind Google. http://www.rose-hulman.edu/~bryan/google.html Logische Struktur (Titel, Untertitel, Paragraphen,... ) <h> Dies ist der Titel. </h> <p> Dies ist ein Paragraph. </p> Erscheinungsbild (Schriftart, fett, kursiv, Farben,... ) <b> Dieser Text erscheint fett. </b> <i> Dieser Text erscheint kursiv. </i> Links (Verweis von einer Seite auf eine andere) <a href="http://www.igt.uni-stuttgart.de/eiserm/"> Hier geht s zur Homepage von Michael Eisermann. </a>. /. /

Zeitleiste zur Entwicklung des Internets Das Internet ist ein Graph! UdSSR starten den ersten künstlichen Erdsatelliten Sputnik Die Links enthalten Information. Diese wollen wir auswerten. USA gründen Advanced Research Projects Agency (ARPA) Miniaturbeispiel: 0ff Visionen/Theorie zu Netzwerken, Datenpaketen, HyperText Hier,,, ;, ;, ;, ;,, ;, ; ;, ;, 0,, ; 0, ;, ;, 0. ARPANet (zunächst UCLA, Stanford, UCSB, UUtah) erste Verwendung von Email und Telnet 0 Transmission Control Program (TCP) Internet Protocol (TCP/IP) Domain Name System (DNS) erster Webserver am CERN (WWW, HTML) Webbrowser Mosaic, Expansion des WWW Google indiziert Millionen Webseiten 000 Google indiziert Milliarde Webseiten Umgeschrieben,,, ;, ;, ;, ;,, ; ;,, ; ;, 0,, ;, 0 ;, 0;,. Das beschreibt die Rohdaten. Wie kann man hieraus eine Bewertung der Seiten gewinnen? 00 Google sichtet eine Billion Webseiten /.. Wie kann man diese Information nutzen? Begründung der vorgeschlagenen Anordnung Wie kann man das Internet hierarchisieren? Die Seiten nach Wichtigkeit sortieren? Betrachten wir unser Miniaturbeispiel... Ein möglicher Vorschlag: Wir betrachten den Graphen,,, ;, ;, ;, ;,, ;, ; ;, ;, 0,, ; 0, ;, ;, 0. 0 Die oben vorgeschlagene Anordnung ist zunächst willkürlich. Die folgenden Argumente sollen ihre Plausibilität belegen. Unter den Seiten P, P, P, P wird P am häufigsten zitiert und bildet eine Art gemeinsame Wurzel. Die Seite P scheint daher für die Suche besonders relevant. Gleiches gilt für P, P0, P, P mit P an der Spitze. Die Struktur von P, P, P, P ist ähnlich mit P an der Spitze. 0 Aber die Seiten P et P, die wir schon als relevant erkannt haben, verlinken beide auf P. Man kann daher vermuten, dass die Seite P für alle wesentlich ist, und für die Suche besonders relevant. Diese Anordnung war Handarbeit... Ist sie plausibel? Lässt sie sich automatisieren? Nach welchen Regeln?. 0/ /. /

Was bedeutet Modellierung? Erstes Modell: naive Zählung Heuristik: Wenn eine Seite wichtig ist, dann bekommt sie viele Links. Konkretes Problem: Wie bestimmt man die Relevanz von Webseiten? Naive Umkehrung: Bekommt eine Seite viele Links, so ist sie wichtig. Als Maß für die Wichtigkeit einer Seite Pi könnten wir demnach die eingehenden Links (j i) zählen. Schreibweise: X mi = Modellierungskreislauf: Typische Wechselwirkung zwischen Theorie und Praxis: Beobachtung Abstraktion praktische Erfahrung, empirische Daten x Widerlegung? Anwendung Verfeinerung? j i Modell Beispiel: grundlegende Eigenschaften, Formulierung von Axiomen Begriffe und Analysey Zusammenhänge Praxis Interpretation 0 Theorie Anwendung der Ergebnisse, Überprüfung des Modells,,, ;, ;, ;, ;,, ; ;,, ; ;, 0,, ;, 0;, 0 ;,. abgeleitete Eigenschaften, logische Struktur des Modells m = m = m = m = m = m = m = m0 = m = m = m = m = /.. Erstes Modell: Formulierung als (Matrix Darstellung als Matrix A = (aij ) mit aij = Erstes Modell: Anfälligkeit für Linkfarmen Das Internet ist dezentral organisiert: Viele unabhängige Benutzer erzeugen und verändern Inhalte. Jeder verfolgt seine eigenen Interessen, zum Beispiel die Optimierung seiner Seiten. Die Anzahl der eingehenden Links lässt sich leicht manipulieren: 0000000000 falls j i, 0 sonst. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 A = 00 00 00 00 0 00 0 00 00 00 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0000000000 0000000000 0000000000 Spaltensumme = Anzahl der ausgehenden Links. Zeilensumme = Anzahl der eingehenden Links. 0 Auch Links von sinnlosen Seiten erhöhen die Wertung X mi =. Es fällt auf, dass diese Matrix dünn besetzt ist, das heißt viele Nullen enthält. In realistischen Anwendungen auf das Internet ist dies noch frappierender: Es gibt Milliarden Internetseiten, aber eine typische Seite Seite verweist nur auf wenige andere mit ein paar Dutzend Links. j i Leicht zu definieren und zu berechnen Wenig treffsicher, entspricht nicht der Nutzererwartung Wenig robust, leicht zu manipulieren durch Linkfarmen. / Die Platzierung einer Seite verbessert sich, wenn möglichst viele Seiten auf sie verlinken. Durch Einfügen sinnloser Seiten lässt sich daher die Platzierung willkürlich verbessern. /. /

Zweites Modell: gewichtete Zählung Heuristik: Ein Link j i ist ein Votum der Seite P j für die Seite P i. Wir geben zunächst jeder Seite P j dasselbe Stimmgewicht. Bei ausgehenden Links teilt sich dieses in gleiche Teile. Als Abstimmungsergebnis für die Seite P i erhalten wir Beispiel:. 0 m = / / / / / / / / / / Zweites Modell: Formulierung als Matrix { l Darstellung als Matrix A = (a ij ) mit a ij = j falls j i, 0 sonst.. /. / 0 A = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Jede Spaltensumme ist gleich. Die i te Zeilensumme ergibt m i. Wie zuvor ist auch diese Matrix dünn besetzt, das heißt, sie enthält viele Nullen. Leicht zu definieren und zu berechnen Entspricht noch nicht der Nutzererwartung Leicht zu manipulieren durch Linkfarmen Zweites Modell: Anfälligkeit für Linkfarmen Das Internet ist dezentral: Viele unabhängige Benutzer erzeugen und verändern Inhalte. Auch die gewichtete Anzahl der Links lässt sich leicht manipulieren: 0 Drittes Modell: rekursive Zählung Heuristik: Eine Seite ist wichtig, wenn viele wichtige Seiten auf sie verlinken. Ein Link j i ist ein Votum der Seite P j für die Seite P i. Wir geben jeder Seite P j ihr eigenes Stimmgewicht, nämlich m j. Als Abstimmungsergebnis für die Seite P i erhalten wir dann m j. Auch Links von sinnlosen Seiten erhöhen die Wertung. Die Platzierung einer Seite verbessert sich, wenn möglichst viele Seiten auf sie verlinken. Durch Einfügen sinnloser Seiten lässt sich daher die Platzierung willkürlich verbessern. Zuerst scheint diese Gleichung zirkulär: Zur Berechnung von m i (links) müssen wir alle m j kennen (rechts). Nüchtern betrachtet ist dies aber nur eine lineare Gleichung. Ich schreibe sie für unser Miniaturbeispiel einmal aus (nächste Seite). Hier handelt es sich um lineare Gleichungen mit Unbekannten. So etwas haben die meisten von Ihnen schon in der Schule gesehen allerdings etwas kleiner, etwa Gleichungen mit Unbekannten. Im Prinzip ist unser Gleichungssystem nicht komplizierter, nur größer. Die Lineare Algebra erklärt uns, wie man die gesuchten m i ausrechnen kann. (Die Lineare Algebra ist ein mächtiges Universalwerkzeug. Deshalb lernt man die Anfänge schon in der Schule. Zu voller Blüte gelangt sie dann im naturwissenschaftlich-technischen Studium.) Selbst in unserem Miniaturbeispiel ist dieses Gleichungssystem nicht ganz leicht zu lösen. (Probieren Sie es!) Aber eine gegebene Lösung ist leicht zu prüfen. (Probieren Sie auch das!). /. 0/

Drittes Modell: Formulierung als lineare Gleichung Beispiel: 0 m =. + m + m + m. + m..... m = m.. + m........ m = m + m.......... m = m. + m......... m = m..... +m. + m... m =.... + m....... m =.... + m + m. + m.... m =.... + m....... m =....... + m. + m 0+ m + m m 0 =........ + m.. + m m =........ + m + m 0.. m =........ + m. + m. Ein Lob auf die Lineare Algebra! Drittes Modell: Formulierung als Matrix Mit unserer Matrix A schreibt sich diese Gleichung kurz m = Am. A = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0, m =, m..0.0.0..0..0..0.0.0 Leicht zu definieren aber nicht ganz so leicht zu berechnen Grundlegende Fragen: Existiert eine Lösung? Ist sie eindeutig? Wie kann man sie berechnen? Wie geht das möglichst effizient? Entspricht oft recht gut der Nutzererwartung Nicht mehr ganz so leicht zu manipulieren.. /. / Drittes Modell: Robustheit gegenüber Linkfarmen Das Internet ist dezentral: Viele unabhängige Benutzer erzeugen und verändern Inhalte. Das dritte Modell ignoriert Linkfarmen: Irrfahrt im Internet Wir folgen einem zufälligen Surfer im Internet. 0 0 Sinnlose Seiten erhalten Gewicht 0 und erhöhen nicht die Wertung m j. Das Gewicht jedes Links ist proportional zum Gewicht der aussendenden Seite. Sinnlose Seiten ändern nichts: Sie erhalten das Gewicht 0 und tragen nichts zur Berechnung bei. Wir nehmen hierbei an, dass keine sinnvolle Seite auf eine sinnlose Spamseite verlinkt. Entwicklung der Aufenthaltswahrscheinlichkeit bei Start auf Seite P : P P P P P P P P P P 0 P P t=0.000.000.000.000.000.000.00.000.000.000.000.000 t=.000.000.000.000.00.000.000.000.000.000.000.000 t=.000.000.000.000.000....000.000.000.000 t=..000.000.000..000..000..000.000.000 t=.000.0.0.0.....000.0.0.0 t=..0.0.0...0...0.0.0 t=..0.0.0..0..0..0.0.0 t=0..0.0.0..0..0..0.0.0 Dies ist eine Art Diffusion. Sie konvergiert gegen eine Gleichgewichtsverteilung. Dies ist genau die Lösung, die wir oben gefunden haben (normiert auf Summe ).. /. /

Irrfahrt im Internet Wir überprüfen diese Beobachtung in einem zweiten Durchgang. 0 Entwicklung der Aufenthaltswahrscheinlichkeit bei Start auf Seite P : Zufall und Notwendigkeit Auch der Zufall gehorcht Gesetzen: Man kann damit rechnen! Zur Zeit t ist unser Surfer auf der Seite P j mit Wahrscheinlichkeit p j. Er wählt zufällig einen der ausgehenden Links. Also folgt er dem Link j i mit Wahrscheinlichkeit p j. Zur Zeit t + landet er auf der Seite P i mit Wahrscheinlichkeit p i = j i p j. P P P P P P P P P P 0 P P t=0.00.000.000.000.000.000.000.000.000.000.000.000 t=.000.0.0.0.0.000.000.000.000.000.000.000 t=.....000.0.0.0.000.000.000.000 t=......000.0.000.0.000.000.000 t=......0.0.0.000.00.00.00 t=......00.0.00.0.00.00.00 t=..0.0.0..0..0..0.0.0 t=0..0.0.0..0..0..0.0.0 Wir finden erneut eine Diffusion, und diese konvergiert zum selben Gleichgewicht! Dank dieser Betrachtungsweise löst sich die Gleichung sozusagen von allein! Wenn man die Aufenthaltswahrscheinlichkeiten zur Zeit t kennt, so kann man hieraus leicht die Aufenthaltswahrscheinlichkeiten zur Zeit t + berechnen. Mit dieser einfachen Gleichung habe ich die obigen Beispiele ausgerechnet. Insbesondere finden wir folgendes: Jede Gleichgewichtsverteilung erfüllt demnach die Gleichung. /. / m j. Ein Lob auf die Wahrscheinlichkeitsrechnung! Wir sehen dieselbe Gleichung plötzlich aus einem völlig neuen Blickwinkel. Dies werden wir im Folgenden nutzen, sie zu verstehen und zu lösen... Vorsicht vor schwarzen Löchern! Was wenn es (Gruppen von) Seiten ohne ausgehende Links gibt? 0 PageRank: Googles Erfolgsmodell Zum Schutz vor schwarzen Löchern nutzt Google folgendes Modell: Teleportation: Mit Wahrscheinlichkeit c beginnt der Surfer neu auf irgendeiner der n Seiten des Internet. (0 c ) Irrfahrt: Andernfalls, mit Wahrscheinlichkeit c, folgt der Surfer einem Link der Seite P j, zufällig ausgewählt wie zuvor. Die Aufenthaltswahrscheinlichkeiten berechnen sich also zu p i = c n + j i c p j. Anschaulich ist klar: Unser Surfer landet früher oder später auf der Seite P, wo er den Rest seines Lebens verbringt. Hier ist unser Modell nicht realistisch! Die Gleichgewichtsverteilung können wir sofort ausrechnen: m = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ). Es handelt sich um ein System von Gleichungen und Unbekannten. Dies im Kopf zu lösen ist im Allgemeinen wohl kaum möglich. Dennoch ist uns dies soeben gelungen, da wir die Bedeutung der Gleichung verstehen. Jede Gleichgewichtsverteilung erfüllt demnach die Gleichung m i = c n + j i Dieses Modell vereint mehrere Vorzüge: Leicht zu definieren und zu berechnen c m j. Entspricht recht gut der Nutzererwartung Robust gegenüber Manipulationen. /. /

PageRank: Interpretation der Konstanten c Die Konstante c können wir frei wählen. Zwei Extremfälle: Bei c = 0 erhalten wir die Irrfahrt wie zuvor, ohne Teleportation. Bei c = springt der Surfer willkürlich, ohne Ansehen der Links. Ein geeignete Wahl von c liegt zwischen 0 und. PageRank: schnelle Diffusion zu einem Gleichgewicht Es handelt sich um ein Bernoulli Experiment: Der Kehrwert c ist die mittlere Anzahl der besuchten Seiten bevor der Surfer neu beginnt. Zum Beispiel entspricht c = 0. dem Besuch von durchschnittlich etwa aufeinanderfolgenden Seiten. Das entspricht ungefähr dem beobachteten Nutzerverhalten... und lässt sich empirisch anpassen. Bemerkung: Auch die PageRank-Gleichung lässt sich mit Hilfe einer Matrix schreiben: Die Teleportation führt zu einem Grundbetrag c/n in jeder Spalte plus ( c) mal die alte Spalte. Die neue Matrix ist allerdings nicht mehr dünn besetzt. Für die praktische Berechnung ist es daher günstiger, die Teleportation gesondert zu behandeln, und dann die Irrfahrt wie zuvor. 0 Entwicklung der Aufenthaltswahrscheinlichkeit für c = 0.: P P P P P P P P P P 0 P P t=0.00.000.000.000.000.000.000.000.000.000.000.000 t=.0.....0.0.0.0.0.0.0 t=.0....0.0.0.0.0.00.00.00 t=......0.0.0.0.0.0.0 t=.0.0.0.0.0.0.0.0.0.00.00.00 t=..0.0.0..0.0.0.0.0.0.0 t=.0.0.0.0.0.0.0.0.0.0.0.0 t=0.0.0.0.0.0.0.0.0.0.0.0.0 Ein Lob auf die Numerik!. /. 0/ PageRank: Robustheit gegenüber Manipulationen Warum funktioniert PageRank? 0 0 Im ersten Beispiel haben wir: P P P P P P P P P P 0 P P.0.0.0.0.0.0.0.0.0.0.0.0 Einfügen einer Spamseite ändert hieran wenig: P P P P P P P P P P 0 P P P..0.0.0..0.0.0..0.0.0.0 Wie bestimmt man die Relevanz von Webseiten? Dies ist zuerst ein Problem der Modellierung: Welche Daten sind gegeben? Was will man hieraus extrahieren? Mathematik liefert eine Sprache zur Formulierung der Modelle. Rechnungen erlauben die Modelle zu testen und zu verfeinern. Ein geeignetes Modell können wir dann genauer untersuchen: Existiert immer eine Lösung? Ist sie eindeutig? Wie kann man sie berechnen? möglichst effizient? Für realistische Anwendungen ist die Effizienz wesentlich. Google indiziert mehrere Milliarden Webseiten!. /. /

Warum funktioniert PageRank? Entwicklung der Aufenthaltswahrscheinlichkeit: p i = c n + j i Gleichung für die Gleichgewichtsverteilung: m i = c n + j i Satz ( Fixpunktsatz von Banach, ) c p j. () c m j. () Wir betrachten einen endlichen Graphen und 0 < c. Dann gilt: Die Gleichung () hat genau eine Lösung m. Diese erfüllt m,..., m n > 0 und m + + m n =. Für jede Anfangsverteilung konvergiert die Diffusion () gegen die Gleichgewichtsverteilung m. Die Konvergenz ist mindestens so schnell wie die Konvergenz der geometrischen Folge ( c) n gegen 0. Ein Lob auf die Analysis! Zusammenfassung Eine Suchmaschine muss Ergebnisse nicht nur auflisten sondern möglichst nutzergerecht sortieren. Google analysiert Webseiten und Links als einen Graphen. Jeder Link ist ein Votum; PageRank bestimmt so die Popularität. Der Fixpunktsatz garantiert Lösung und schnelle Berechnung. Genial einfach! Der erste Erfolg von Google beruhte auf diesen mathematischen Werkzeugen zur Grundlegung, informatischen Werkzeugen zur effizienten Umsetzung, einer geschickten Geschäftsstrategie zur Finanzierung. Seither werden Modelle und Werkzeuge ständig weiterentwickelt... Leider wuchert auch der Webspam... Es bleibt spannend. Vielen Dank für Ihre Aufmerksamkeit! www.igt.uni-stuttgart.de/eiserm/popularisation/#tag0. /.0 / Ist das Modell PageRank plausibel? Die Besonderheit von Hypertext sind die gegenseitigen Links. Die Grundannahme von PageRank ist, dass jeder Autor einer Webseite nur Links einfügt, die er für sinnvoll hält. Somit lesen und bewerten Millionen von Autoren gegenseitig ihre Webseiten, und ihr Urteil schlägt sich in den Links nieder. Das Modell der Irrfahrt berechnet aus der gegenseitigen Bewertung ein globales Maß der Popularität. Diese Argumente gilt es zu diskutieren und empirisch zu testen... Hauptargument für das Modell ist sein Erfolg: Die entstehende Sortierung scheint den Nutzererwartungen nahe zu kommen. Ist das Modell PageRank deskriptiv oder normativ? Zu Beginn sah sich Google rein deskriptiv: Wenn eine Seite wichtig ist, dann steht sie oben auf der Liste. Sein überwältigender Erfolg macht Google normativ: Wenn eine Seite oben auf der Liste steht, dann ist sie wichtig. Für kommerzielle Seiten ist die Optimierung inzwischen unerlässlich und eine Wissenschaft für sich (search engine optimization, SEO). Offensichtliche Strategie: Viele Links anlocken, am besten von anderen wichtigen Seiten, und selbst nur gut gewählte Links setzen. Somit verändert die Allgegenwart von Google das Verhalten der Autoren... und damit die Grundannahme des Modells PageRank! So gesehen befinden sich Nutzer, Autoren und Suchmaschinen in einer komplizierten Evolution. Auch dies bleibt spannend!.0 /.0 /