Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische Informatik nationales Algorithmische Forschungszentrum Methoden in der Helmholtz-Gemeinschaft zur Netzwerkanalyse www.kit.edu
Vorlesung 13 Programm des Tages: Generierung von Graphen Barabási-Albert-Modell Chung-Lu-Modell R-MAT-Graphen 2 Henning Meyerhenke, Institut für Theoretische Informatik
Wiederholung Realisierbarkeit von Gradfolgen: Satz von Erdös und Gallai 3 Henning Meyerhenke, Institut für Theoretische Informatik
Inhalt Das Barabási-Albert-Modell Das Chung-Lu-Modell R-MAT-Graphen 4 Henning Meyerhenke, Institut für Theoretische Informatik Das Barabási-Albert-Modell
Das Barabási-Albert-Modell Preferential Attachment Ziele: Gradverteilung ähnlich wie bei realen komplexen Netzwerken Community-Struktur Kleiner Durchmesser Parameter: n: Zahl der Knoten c: Grad eines neuen Knotens Idee: Neuer Knoten verbindet sich zu c bereits bestehenden, Wkt. abhängig vom Grad der anderen Knoten 5 Henning Meyerhenke, Institut für Theoretische Informatik Das Barabási-Albert-Modell
Das Barabási-Albert-Modell Generierung Initial: Nicht genau festgelegt Mindestens c Knoten Bspw. Pfad oder Clique mit c Knoten Einfügen eines Knotens v: c ungerichtete Kanten {v, u} zufällig einfügen Wkt. proportional zum Knotengrad von u Weder Knoten noch Kanten werden jemals entfernt! Beispiel: Siehe Tafel! 6 Henning Meyerhenke, Institut für Theoretische Informatik Das Barabási-Albert-Modell
Das Barabási-Albert-Modell Eigenschaften Proposition (Gradverteilung) Im BA-Modell ergibt sich die Gradverteilung für k c. p k = 2c(c + 1) k(k + 1)(k + 2) Daraus resultiert im Grenzwert eine Power-Law-Gradverteilung mit p k k 3 7 Henning Meyerhenke, Institut für Theoretische Informatik Das Barabási-Albert-Modell
Das Barabási-Albert-Modell Diskussion Vorteile: Einfach zu beschreiben Wenige Parameter Gradverteilung folgt Potenzgesetz Nachteile: Gradverteilung hat festen Power-Law-Exponenten Generierung inhärent sequentiell 8 Henning Meyerhenke, Institut für Theoretische Informatik Das Barabási-Albert-Modell
Inhalt Das Barabási-Albert-Modell Das Chung-Lu-Modell R-MAT-Graphen 9 Henning Meyerhenke, Institut für Theoretische Informatik Das Chung-Lu-Modell
Das Chung-Lu-Modell (CL) Ziele: Vorgegebene Gradverteilung Community-Struktur Kleiner Durchmesser (Parallele Generierung) Parameter: Erwartete Gradfolge D 10 Henning Meyerhenke, Institut für Theoretische Informatik Das Chung-Lu-Modell
Das Chung-Lu-Modell (CL) Generierung Einfügen einer Kante {u, v}: Weder Knoten noch Kanten werden jemals entfernt Kante {u, v} wird mit Wkt. p uv generiert p uv deg(u) deg(v), typischerweise deg(u) deg(v)/ v V deg(v ) p uv unabhängig pro Kante Schleifen sind erlaubt Ähnlichkeiten: Bei D = (pn, pn,..., pn) entspricht CL dem G(n, p)-modell Ähnlich zu SKG- bzw. R-MAT-Modell (später...) 11 Henning Meyerhenke, Institut für Theoretische Informatik Das Chung-Lu-Modell
Das Chung-Lu-Modell Eigenschaften Sei β der Power-Law-Exponent der Gradfolge D. Proposition (Gradverteilung) Im CL-Modell ergibt sich bei absteigender Sortierung von D die Gradverteilung E[deg(v)] = κv 1/(β 1) für κ = β 2 β 1 d n 1/(β 1) und d als arithmetisches Mittel von D. 12 Henning Meyerhenke, Institut für Theoretische Informatik Das Chung-Lu-Modell
Das Chung-Lu-Modell Diskussion Vorteile: Einfach und effizient Beliebige erwartete Gradfolge wird nachgebildet Nachteile: (Eher wenig verwendet) Ähnlichkeiten: Sehr ähnlich zu SKG/R-MAT 13 Henning Meyerhenke, Institut für Theoretische Informatik Das Chung-Lu-Modell
Inhalt Das Barabási-Albert-Modell Das Chung-Lu-Modell R-MAT-Graphen 14 Henning Meyerhenke, Institut für Theoretische Informatik R-MAT-Graphen
Rekursiver Matrix-Generator R-MAT Einführung Ziele: Gradverteilung ähnlich wie bei realen komplexen Netzwerken Community-Struktur Kleiner Durchmesser Skalierbarkeit Parameter: N = 2 n : Zahl der Knoten E: Zahl der Kanten (a, b, c, d): Wkt. für die rekursiven Quadranten der R-MAT-Matrix Generierung einer Kante: Siehe Tafel! 15 Henning Meyerhenke, Institut für Theoretische Informatik R-MAT-Graphen
Bitweise Interpretation der Generierung Für 1 t n assoziieren wir den t-ten Quadranten mit dem t-ten Bit von i und j (v. l. n. r.). Beispiel: Generierung von Kante (i, j) = (21, 7) Schritt 1 2 3 4 5 Quadrant UL OL UR OR UR Bits von i 1 10 101 1010 10101 Bits von j 0 00 001 0011 00111 OL: Oben Links (00) OR: Oben Rechts (01) UL: Unten Links (10) UR: Unten Rechts (11) 16 Henning Meyerhenke, Institut für Theoretische Informatik R-MAT-Graphen
Kontext Literaturhinweise Deepayan Chakrabarti, Yiping Zhan, Christos Faloutsos: R-MAT: A recursive model for graph mining. In Proc. SIAM Data Mining (SDM 04). SIAM, 2004. Chris Groër, Blair D. Sullivan, and Steve Poole: A mathematical analysis of the R-MAT random graph generator. Netw. 58, 3 (October 2011), 159-170. http://www.graph500.org/ 17 Henning Meyerhenke, Institut für Theoretische Informatik R-MAT-Graphen
Example 1: The generation of the edge ij depicted in Figure 1 requires five steps. We begin Algorithmus in Step 0 with 5 empty bit positions for both i and j (these are denoted with a ) and then set each bit to 0 or 1 moving from left to right based on the quadrant selected at each step. Aus [Groër et al., S.4] Algorithm 1 Given parameters,,, with + + + = 1, generate a 0/1-adjacency matrix A = {a ij } for a graph on 2 k vertices containing at most M edges. 1: Set a ij =0for0apple i, j apple 2 k 1 2: for m =1toM do 3: Set i =0,j = 0 // Initialize all bits to 0 4: for t =0tok 1 do 5: Generate r U(0, 1) 6: if r 2 [, + ) then 7: j = j +2 k 1 t // Set bit to 1 in j 8: else if r 2 [ +, + + ) then 9: i = i +2 k 1 t // Set bit to 1 in i 10: else if r 2 [ + +, 1) then 11: i = i +2 k 1 t and j = j +2 k 1 t // Set bit to 1 in i and j 12: end if 13: end for 14: a ij = a ij +1 15: end for 16: Replace all nonzero entries in A with ones Beispiel: Siehe Tafel! 2.3 Preliminaries 18 Henning Meyerhenke, Institut für Theoretische Informatik WeAlgorithmische now give a Methoden number of zurdefinitions Netzwerkanalyse and basic lemmas necessary for our analysis of graphsr-mat-graphen
Kanten und Grade Lemma (Kantenwkt., (Groër et al.)) Die Wkt., eine Kante e = (u, v) in einer Iteration zu generieren, ist p(e) = p(u, v) = a e a b e bc e c d e d. Hierfür gilt, dass bei der Generierung e a mal Quadrant OL, e b mal OR usw. gewählt wurde. Theorem (Knotengrade (Groër et al.)) Sei u ein Knoten im Graphen G, der aus G durch Entfernung von Duplikaten hervorgegangen ist. G wurde als R-MAT-Graph mit N = 2 n Knoten und M = O(N) erzeugt. Dann gilt bei N, M für fast alle Knoten u: d + G (u), d G (u) und d G (u) sind asymptotisch normalverteilt. 19 Henning Meyerhenke, Institut für Theoretische Informatik R-MAT-Graphen
Diskussion Frage: Was kommt raus, wenn 1/4 = a = b = c = d? Mehrfachkanten treten auf, nicht immer gewollt! Vermeidung oft nicht praktikabel Neue experimentelle Auswertungen: Community-Struktur nicht so stark ausgeprägt wie gewünscht Zahl der Dreiecke unterdurchschnittlich Frage: Warum? Ausblick: Andere Modelle 20 Henning Meyerhenke, Institut für Theoretische Informatik R-MAT-Graphen