16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

Ähnliche Dokumente
23. November Betweenness Centrality Closeness Centrality. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 108

Vorlesung 4 BETWEENNESS CENTRALITY

Algorithmische Methoden der Netzwerkanalyse

Wie Google Webseiten bewertet. François Bry

Ein Graph ist ein Paar (V,E), wobei V eine Menge von Knoten und E eine Menge von Kanten (v,w) mit v,w in V ist.

Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Algorithmische Methoden zur Netzwerkanalyse

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Algorithmen und Datenstrukturen 2

Vorlesung 3 MINIMALE SPANNBÄUME

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48

Routing Algorithmen. Begriffe, Definitionen

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik

Ranking am Beispiel von Google (1998):

PageRank-Algorithmus

16. All Pairs Shortest Path (ASPS)

κ(k) k K S Algorithmus zur Bestimmung eines spannenden Baumes mit minimalen Kosten (Kruskal, 1965).

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 7, Henning Meyerhenke

Definition Ein gerichteter Graph G = (V, E) ist ein Graph von geordneten Paaren (u, v) mit u V und v V.

4. Kreis- und Wegeprobleme Abstände in Graphen

Universität des Saarlandes

ADS: Algorithmen und Datenstrukturen 2

Ohne Mathematik undenkbar!

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

Diskrete Modellierung

Algorithmen und Datenstrukturen 2

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

Grundlagen Datenstrukturen Transitive Hülle Traversierung Kürzeste Wege Spannender Baum Max. Fluss Zuordnungen. 6. Graphen

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Iterative Verfahren, Splittingmethoden

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Duplikatfilterung und Sampling von Webseiten

Algorithmische Bioinformatik 1

Kombinatorische Optimierung

5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c)

Inhaltsverzeichnis. - Kurzer Überblick Seite ) Einleitung Seite ) Vorbereitungen Seite 2. - ungewichtete und ungerichtete Graphen Seite 2

2. Repräsentationen von Graphen in Computern

Graphenalgorithmen I

Klausur zur Vordiplom-Prüfung

Graphen: Datenstrukturen und Algorithmen

Anmerkungen zur Übergangsprüfung

Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09

In diesem Abschnitt betrachten wir nur quadratische Matrizen mit Komponenten aus einem Körper K, also A K n n für ein n N. Wenn (mit einem n > 1)

PG520 - Webpageranking

Very simple methods for all pairs network flow analysis

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 14, Henning Meyerhenke

Kapitel 6: Graphalgorithmen Gliederung

Kapitel 7: Flüsse in Netzwerken und Anwendungen Gliederung der Vorlesung

1 Singulärwertzerlegung und Pseudoinverse

Kombinatorische Optimierung

Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09

20 Kapitel 2: Eigenwertprobleme

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Hyperlink Induced Topic Search (HITS)

Graphalgorithmen 2. Oleksiy Rybakov. 3. Juni Betreuer: Tobias Werth, Daniel Brinkers

Einführung in Markoff-Ketten

Programmierung 2. Dynamische Programmierung. Sebastian Hack. Klaas Boesche. Sommersemester

MafI I: Logik & Diskrete Mathematik (F. Hoffmann)

Wiederholung zu Flüssen

Algorithmische Methoden zur Netzwerkanalyse

Euklidische Distanzmatrizen. Andrei Grecu

Mathematik für Naturwissenschaftler I WS 2009/2010

Algorithmische Methoden zur Netzwerkanalyse

Effiziente Algorithmen und Datenstrukturen I. Kapitel 10: Lineare Algebra

DATENSTRUKTUREN UND ALGORITHMEN

Inhaltsverzeichnis. Grundlagen

Datenstrukturen. einfach verkettete Liste

Angewandte Informatik

Datenstrukturen & Algorithmen

Proseminar Online Algorithmen, Prof. Dr. Rolf Klein

Kapitel 17. Determinanten

Fragenkatalog Kapitel 1 Fehleranalyse

Algorithmen und Datenstrukturen Kapitel 10

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume

Vorlesung 8 VISUALISIERUNG GROßER GRAPHEN

Maximaler Fluß und minimaler Schnitt. Von Sebastian Thurm

Das CG-Verfahren. Sven Wetterauer

Algorithmen II Vorlesung am

Randomisierte Algorithmen

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Vorlesung, 26. Mai 2011, Inhalt. Eigenwerte und Eigenvektoren. Gewöhnliche Differentialgleichungen

C++, LEDA und STL Visualisierung minimal/maximal aufspannender Bäume

Algorithmentheorie Maximale Flüsse

LANGZEITVERHALTEN VON MARKOW-KETTEN

11. Woche: Turingmaschinen und Komplexität Rekursive Aufzählbarkeit, Entscheidbarkeit Laufzeit, Klassen DTIME und P

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Algorithmen und Datenstrukturen 2

40 Lokale Extrema und Taylor-Formel

Graphen und Bäume. A.1 Graphen

Algorithmen II Vorlesung am

Minimal spannende Bäume

Transkript:

16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor von A zum Eigenwert κ 1 Zentralität von i ist proportional zur Zentralität der Nachbarn: x i = κ 1 1 j A ij x j EV-Zentralität kann groß sein, weil ein Knoten viele Nachbarn hat, die Nachbarn hohe EV-Zentralität haben oder beides H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 88

Eigenschaften EV-Zentralitäten sind alle nicht-negativ (Beweis in Übung) Prinzipiell möglich für ungerichtete und gerichtete Netzwerke, aber: Problematisch bei gerichteten Netzwerken wegen Asymmetrie der Adjazenzmatrix Daher gibt es einen linken und einen rechten EV Welcher ist der richtige? Wichtiger ist, wie viele zu mir zeigen, als zu wie vielen ich zeige der rechte EV ist sinnvoller H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 89

EV-Zentralität in gerichteten Netzwerken Weiteres Problem: Knoten mit Eingangsgrad 0 haben EV-Zentralität 0 Problem: Das kann kaskadieren! B A H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 90

Berechnung Frage: Sei der Graph G dünn besetzt. Warum berechnet man nicht einfach A t und multipliziert das Ergebnis mit einem Startvektor? Theorem: A t ist die Zahl der Wege der Länge t von i nach j in G. Beweis: Tafel (oder Übung) Also: Matrix würde sich schnell auffüllen Daher: Fortgesetzte Matrix-Vektor-Multiplikation, auch power method oder power iteration genannt H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 91

Zu beachten bei der Potenzmethode Für die Bestimmung eines einzigen EV in dünnen Graphen effizient Startvektor darf nicht senkrecht zum Eigenvektor sein Lemma: Die Einträge des führenden EV einer nichtnegativen Matrix haben alle dasselbe Vorzeichen. Folgerung: Wähle einen Startvektor, in dem alle Einträge dasselbe Vorzeichen haben! Normalisierung notwendig wegen Zahlengröße Wann ist Konvergenz erreicht? H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 92

Konvergenz Eine Möglichkeit: Zwei verschiedene Startvektoren Nach Normalisierung in jeder Iteration (oder alle paar Iterationen) beide Vektoren vergleichen Funktioniert besonders gut, wenn sich die Vektoren von zwei unterschiedlichen Richtungen annähern Nach Konvergenz auch EW leicht zu berechnen: Man dividiert die Einträge an demselben Index im Vektor vor und nach der Iteration (numerische Fehler möglich!) H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 93

Zeitkomplexität Komplexität des Algorithmus: Kosten pro Iteration Anzahl Iterationen (Konvergenzgeschwindigkeit) Kosten pro Iteration abhängig von Datenstruktur Adjazenzmatrix: O(n^2) Adjazenzliste: O(m) Konvergenzgeschwindigkeit wird bestimmt von den Eigenwerten Weiter an der Tafel H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 94

PageRank H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 95

PageRank Der Algorithmus, mit dem/durch den Google gegründet wurde Zutaten einer Suchmaschine (vereinfacht): Crawler Index Ranking Google war mit PageRank zu seiner Zeit überlegen beim Ranking (und vielleicht heute noch?) Beruhte auf Algorithmus und schneller Berechnung Algorithmus beruht auf dem Modell des zufälligen Web-Surfers Heute ist PageRank ein Maß unter (sehr) vielen H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 96

Ideen hinter PageRank Bewertung von Webseiten anhand der Link-Struktur Je mehr Links auf eine Seite verweisen, desto wichtiger ist sie Ähnlich wie bei EV-Zentralität: Je wichtiger eine Seite ist, desto wichtiger ist ihr Verweis auf eine andere Seite H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 97

Modell des Zufallssurfers Surfer bewegt sich zufällig im Webgraphen und folgt dabei den ausgehenden Kanten mit gleicher Wahrscheinlichkeit (Klick auf Link) Außerdem kann man eine Seite verlassen, indem man sich wegteleportiert, also eine neue URL im Browser eingibt PageRank ist stationärer Zustand eines stochastischen Prozesses H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 98

Die Mathematik von PageRank Zumindest ein wenig... Da PowerPoint nichts taugt bei Formeln: Weiter an der Tafel Verbindung zur Eigenvektorzentralität ergibt sich aus der Umformung direkt, nur die Matrix ist eine andere! H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 99

Fazit zu PageRank Mit entsprechender Hardware und Know-how kann man den PageRank auch für große Graphen in akzeptabler Zeit berechnen Interessantes Maß, reichhaltige mathematische Analyse, in der Praxis nur ein Maß unter vielen Alternativer Algorithmus: Hubs and Authorities von Jon Kleinberg Netzwerkanalyse und das Engineering paralleler Algorithmen können einen reich machen H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 100

Intermediationszentralität (Betweenness Centrality) H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 101

Betweenness Centrality Grundlegende Idee: Ein Knoten ist wichtig, wenn er auf vielen kürzesten Wegen liegt Sei σ st = σ ts die Zahl der kürzesten Wege zwischen s und t Sei σ st v die Zahl der kürzesten Wege zwischen s und t, auf denen der Knoten v (als Zwischenknoten) liegt Intermediationszentralität (Betweenness Centrality) BC: C B v = s v t V σ st (v) σ st H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 102

Paar-Abhängigkeiten Folglich: Ein hoher BC-Wert gibt an, dass ein Knoten auf einem hohen Anteil von kürzesten Pfaden liegt Lemma: Ein Knoten v liegt genau dann auf dem kürzesten Weg zwischen s und t, wenn d(s, v) + d(v, t) = d(s, t) gilt. Paar-Abhängigkeit: C B v = σ st (v) σ st δ st v = σ st(v) s v t V σ st C B v ist Summe über die Paar-Abhängigkeiten von v H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 103

Berechnung und Komplexität Nun einfache Herangehensweise zur BC-Berechnung: Berechne Länge und Zahl der kürzesten Wege zwischen allen Knotenpaaren Berechne Summe aller Paar-Abhängigkeiten Aber: Es gibt quadratisch viele Paar-Abhängigkeiten Die Summierung über alle Knoten hat kubischen Aufwand, viel zu groß für nicht-triviale Netzwerke! Wege zählen durch Berechnung von A t ist zu aufwändig und berechnet mehr Infos als nötig Idee: Zwischenergebnisse mehrfach verwenden! H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 104

Ansatz zur Beschleunigung Kombinatorisches Zählen von Wegen Def. (Vorgänger): P s v = {u V: u, v E, d G s, v = d G s, u + ω(u, v)} Lemma: Für s v V gilt: σ sv = σ su u P s (v) BFS und Dijkstra (mit Fibonacci- Heap) Folgerung: Ist ein Startknoten s V gegeben, lässt sich die Zahl und Länge aller kürzesten Wege zu allen anderen Knoten in Zeit O(m + n log n) für gewichtete Graphen berechen, in O(m) für ungewichtete. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 105

Abhängigkeit eines Knotens Ziel: Nicht alle Paar-Abhängigkeiten summieren müssen Def.: (Abhängigkeit eines Knotens s) δ s v = δ st (v) t V δ st v Diese Summen haben eine rekursive Beziehung! = σ st(v) σ st C B v = δ st (v) s v t V Theorem: Für die Abhängigkeit δ s v eines Startknotens s V zu einem anderen Knoten v V gilt: σ sv δ s v = (1 + δ σ s w ) sw w: v P s (w) H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 106

Abbildung zum Beweis [Brandes 2001] δ s v = σ sv σ sw (1 + δ s w ) w: v P s (w) C B v = δ st v s v t V = δ s (v) s v V H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 107