Seminar aus Data und Web Mining Mining Social and Other Networks Sommersemester 2007 Networks, Dynamics, and the Small-World Phenomenon,
Eine kleine Welt? Ein Erlebnis das wahrscheinlich fast jedem schon einmal passiert ist: Durch Zufall stellt man fest, daß ein Bekannter / Kollege / etc. jemanden kennt, den man selber aus einem völlig anderen Zusammenhang kennt. Dann heißt es meist: Die Welt ist klein!
Das Kleine-Welt Phänomen soziologischer Begriff 1967 von Stanley Milgram eingeführt Bezeichnet die Hypothese, daß jeder Mensch mit jedem anderen über eine erstaunlich kurze Kette von Beziehungen verbunden ist.
Milgrams Kleine-Welt- Experiment Experiment: 60 zufällige Teilnehmer in Omaha und Wichita erhalten ein Informationspaket sollen dies an vorher ausgewählte Personen in Boston schicken falls sie diese mit dem Vornamen ansprechen sonst an jemanden, von dem sie glauben, daß die Wahrscheinlichkeit dazu höher wäre
Milgrams Kleine-Welt- Experiment Ergebnis: 3 Briefe erreichten die Zielperson mit einer durchschnittlichen Pfadlänge von 6 daraus wurde geschlossen, das jeder Mensch mit jedem anderen über 6 weitere Personen verbunden ist (Film: Six degrees of separation )
Milgrams Kleine-Welt- Experiment Kritik: nicht beweiskräftig nicht ausreichende Datenlage nicht nachvollziehbar, ob es sich immer um den kürzest möglichen Weg handelt weitere Experimente nötig
Bezug zur Informatik? Das Kleine-Welt-Phänomen läßt sich auf Netzwerke und Graphen verallgemeinern http://tools.wikimedia.de/sixdeg Interessant insbesondere in Hinblick auf das WWW Stichwort: Link Mining
Formalisierung zu untersuchendes Netzwerk ungerichteter Graph (G) Menge gleichwertiger Knoten (V) ungewichtete und ungerichtete Kanten (E) nur spärliche Verknüpfungen interessante Maße charakteristische Pfadlänge (L) Clusterkoeffizient (C)
Formalisierung Kleine-Welt-Phänomen jedes Element eines Netzwerks ist auf einem relativ kurzen Pfad von jedem anderen aus zu erreichen auch solche die als weit entfernt wahrgenomen werden Widerspruch zwischen Realität und Wahrnehmung
Eigenschaften von K.-W.-Netzwerken Transitivität geringer Durchmesser kleine Anzahl sehr weit reichender Verbindungen lokales clustering kurze Wege zwischen allen Knoten nur wenige Kanten je Knoten
Beispiele: actor collaboration Graph (Tjaden 1997) Schauspieler bilden Knoten Kanten verbinden zwei Schauspieler, falls beide im selben Film mitgespielt haben großes (n = 226.000) und spärliches (k = 61) soziales Netzwerk
Beispiele: western states power graph (Ph. & Th. 1988) Kraftwerke, Umspannwerke, Verteiler Hochspannungsleitungen mittlel großes (n = 4.941) und spärliches (k = 2,94) Netzwerk
Beispiele: Caenorhabditis elegans (W., Th. & B. 1986) Neuronen Synapsen kleines (n = 282) und spärliches (k = 14) Netzwerk
Vergleich der Beispiele tatsächlich zufällig L C L C movie actors 3,65 0,79 2,99 0,00027 power grid 18,70 0,08 12,40 0,00500 C. elegans 2,65 0,03 2,25 0,05000 Werden bei gleicher Netzgröße n und gleicher Anzahl Kanten pro Knoten k zufällige Graphen generiert, dann zeigt sich die besondere Struktur der Netze, denn die charakteristische Pfadlänge sinkt und der Clusterkoeffizient sinkt teilweise sogar dramatisch ab.
Ursachen für K.-W. Eigenschaften Der große Clusterkoeffizient gegenüber rein zufälligen Netzwerken muss in der den Netzwerken zugrundeliegenden Struktur begründet sein. Die große charakteristische Pfadlänge läßt sich durch sehr wenige sehr weit reichende Verbindungen erklären.
Dynamische Systeme in Kleine-Welt Graphen praktisches Interesse z.b. Seuchenausbreitung wie breiten sich Seuchen aus? können solche Erkenntnisse helfen Schutzmaßnahmen zu verbessern? Modell wird komplizierter durch Hinzukommen des Zeitfaktors
Das WWW als Graph WWW kann als Graph aufgefaßt werden Webseiten sind Knoten Links sind gerichtete und ungewichtete Kanten Verlinkung ist nicht symmetrisch und damit auch nicht transitiv ermöglicht die Anwendung formaler Methoden der Graphentheorie zur Untersuchung der Struktur des WWW
Meßmethoden Verteilungsgrad Innengrad (Anzahl Kanten die vom betrachteten Knoten ausgehen) Außengrad (Anzahl Kanten die in den betrachteten Knoten einmünden) Im WWW wurde für den Grad beobachtet das gilt: 1 / i x für ein x > 1
Meßmethoden Enumeration von bipariten Kernen ein bipariter Kern ist eine Gruppe von Webseiten die alle untereinander verlinkt sind die Anzahl solcher Kerne mit einer bestimmten Mindestgröße ist ein weiteres interessantes Maß für den Verlinkungsgrad von Graphen
Meßmethoden Verbindung zwischen Komponenten leicht verbundene Komponenten sind solche Teile eines Graphen, in denen alle Knoten untereinander durch Kanten verbunden sind stark verbunden Komponenten sind alle Knoten, die untereinander über gerichtete Kanten erreicht werden können
Meßmethoden Durchmesser der Durchmesser eines Graphen ist die kürzeste Distanz zwischen seinen beiden am weitesten entfernten Knoten hängt eng zusammen mit dem Kleine-Welt- Phänomen, das über die durchschnittliche Entfernung zwischen zwei Knoten bestimmt ist
Zusammenfassung Kleine-Welt-Phänomen zuerst in sozialen Netzen untersucht ausgedehnt auf Graphen tritt auf in Graphen, die weder zu stark geordnet, noch absolut zufällig sind solche Graphen haben sehr wenige sehr weit reichende Verbindungen besonders interessant zur Untersuchung von Ausbreitung in dynamischen Systemen
Zusammenfassung Meßmethoden Enumeration von bipariten Kernen Verbindung zwischen Komponenten Durchmesser Verteilungsgrad
Bibliographie [1] Watts, Duncan J. Networks, Dynamics, and the Small-World Phenomenon American Journal of Sociology. 105: 493-527, 1999. [2] Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, D. Sivakumar, Andrew Tomkins, Eli Upfal: The Web as a Graph. Proceedings PODS 2000: 1-10, 2000. [3] T. E. Senator. Link Mining Applications: Progress and Challenges. SIGKDD explorations 7(2):76-83, 2005. [4] L. Getoor and C. P. Diehl. Link Mining: A Survey. SIGKDD explorations 7(2):3-12, 2005.