Kapitel 1 Einleitung

Kapitel 1 Einleitung Menschen gehen Beziehungen miteinander ein, indem sie kommunizieren und interagieren. Sie stehen in unterschiedlichen Relation zu ihren Kollegen, Freunden und Verwandten. Die Webseiten des Internets sind untereinander verlinkt. In Organismen werden Stoffe durch Stoffwechselprozesse aufgenommen, transportiert, umgewandelt und abgegeben. All diese Verbindungen zwischen Objekten lassen sich durch Netzwerke darstellen. Von dieser Betrachtungsweise profitieren die verschiedensten Forschungsgebiete (vgl. Anhang C ), unter anderem die Soziologie, die Betriebswirtschaftslehre, die Informatik und die Biologie. Eine wichtige Fragestellung innerhalb der Analyse komplexer Gefüge ist die Identifikation eng vernetzter Gruppen von Objekten, welche auch Cluster oder Module genannt werden. Solche Strukturen lassen sich netzwerktheoretisch wie folgt abbilden: Die Objekte entsprechen den Knoten eines Netzwerks, und ihre Beziehungen werden durch Kanten modelliert. Die Kanten sind in Abhängigkeit der dargestellten Relation gewichtet oder ungewichtet, gerichtet oder ungerichtet. Eine Gruppe eng vernetzter Objekte ist in diesem Fall eine Knotenmenge mit den folgenden Eigenschaften: Zwischen den Knoten dieser Menge gibt es viele Kanten, während nur wenige Kanten von Knoten dieser Menge zu Knoten außerhalb der Gruppe existieren. In der Soziologie stellen soziale Netzwerke ganz verschiedene Arten von Relationen zwischen Personen dar. Eng vernetzte Gruppen innerhalb eines sozialen Netzwerks käonnen in Abhaängigkeit der betrachteten Beziehungen beispielsweise Freundeskreise sein oder Menschen, die zusammen arbeiten oder gemeinsame Interessen haben. Einen Einblick in die historische Entwicklung der Sozialen Netzwerkanalyse (SNA) gibt zum Beispiel Freeman (2004) [108]. Durch die Verlagerung diverser sozialer Aktivitaäten des taäglichen Lebens in das Internet wie das Einkaufen in Webshops oder die Kommunikation per Email, über Chatprogramme oder auf Webseiten entstehen unzählige Datenmengen sozialen Verhal

2 1. Einleitung tens. Eine moderne Variante klassischer sozialer Netzwerke entsteht durch die sehr populӓr gewordenen Online Netzwerke wie Facebook (www.facebook.com), Myspace (www.myspace.com) oder StudiVerzeichnis (www.studivz.net). Auf diesen Webseiten erstellen Nutzer ein persönliches Profil und interagieren mit anderen Nutzern über das Verbinden ihrer Profile, das Versenden von Nachrichten, die Bildung von Gruppen, die Planung von Veranstaltungen, die Veröffentlichung gemeinsamer Fotos und ӓhnliche Aktivitüten. Auf der Facebook-eigenen Statistikseite (vgl. [93]) werden Ende des Jahres 2011 über 800 Millionen aktive Nutzer ausgewiesen, von denen sich über die Hӓlfte mindestens einmal pro Tag einloggen. Die weltweite Verteilung der Freundschaften bezogen auf die angegebenen Wohnorte hat der Facebook-Praktikant Paul Butler im Dezember 2010 untersucht (siehe Butler (2010a) [54]). Es hat ihn nach eigenen Angaben interessiert, wie Geografie und politische Grenzen sich darauf auswirken, wo Leute und ihre jeweiligen Freunde leben. Konkret wurde fur jedes Stӓdtepaar ein Kantengewicht definiert, basierend auf der Anzahl der Freundschaften sowie der euklidischen Distanz zwischen ihnen. Eine Visualisierung dieser Kanten mit verschiedenen Helligkeiten in Abhӓngigkeit ihrer Bedeutung ergibt deutlich sichtbar die Struktur der Kontinente und in einigen Fӓllen sogar den Verlauf von Landesgrenzen. Diese Anwendung zeigt sehr anschaulich die Existenz eng vernetzter Gruppen in einem speziellen sozialen Netzwerk. Folgendes Bild ist bei Butler (2010b) [55] zu finden: Abbildung 1.1: Weltweite Freundschaften im sozialen Netzwerk Facebook. Im Marketing ist die Analyse sozialer Netzwerke von großer Bedeutung (siehe z.b. Van den Bulte/Wuyts (2007) [264]). Neben der Platzierung von Werbe-

1. Einleitung 3 botschaften ist es mӧglich, Gruppendynamiken und die Verbreitung von Meinungen zu untersuchen. Eine weitere klassische Anwendung im Marketing ergibt sich fuär Webseiten, auf denen Produkte erworben werden koännen. Fuär die Betreiber ist es interessant, Kunden sinnvolle Produktempfehlungen zu geben. Basierend auf der Kaufhistorie verschiedener Nutzer ermitteln sogenannte Recommender Systeme (siehe z.b. Gaul/Schm idt-thiem e (2002a/2002b) [116, 117]) Gruppen von Artikeln, die häufig zusammen gekauft werden. Käufer werden bei dem Erwerb eines Produkts auf die entsprechenden anderen Waren hingewiesen. Eine Erweiterung dieses Forschungsgebiets beinhaltet die simultane Klassifikation der Kunden anhand gekaufter Produkte. Diese Fragestellung ist unter dem Begriff zweimodale Clusteranalyse bekannt (vgl. Abschnitt 4.8.2). Selbstredend ist das World W ide Web ein Netzwerk, trägt es doch diesen Ausdruck schon im Namen. Betrachtet man die Webseiten als Knoten und die Verlinkungen als gerichtete Kanten, so kӧnnen Seiten innerhalb eines Clusters zum Beispiel ähnliche Themen behandeln oder von den gleichen Anbietern betrieben werden. In der Informatik ergibt sich bei dem Einsatz von parallelem Rechnen innerhalb eines Computerverbundes oder auf Parallelrechnern (siehe z.b. Grama (2003) [126]) ein Spezialfall der Suche nach Clustern in Netzwerken. Das Ziel ist die Zuweisung der parallel durchzufuährenden Aufgaben zu Prozessoren, so dass die notwendige Kommunikation zwischen diesen mӧglichst gering ist. Diese Fragestellung lässt sich als Clusterproblem formulieren. Dabei sind ungefähr gleich große Gruppen von Prozessoren gesucht, so dass die Anzahl an technischen Verbindungen zwischen Prozessoren aus verschiedenen Clustern minimal ist. Dieser Spezialfall der Clusteranalyse in Netzwerken, in welchem gleich große Cluster erwunscht sind, heißt Graph-Partitionierung (siehe Abschnitt 2.2.2). In anderen Fragestellungen, beispielsweise den oben genannten, ist die Einteilung der Objektmenge in gleich große Gruppen nicht unbedingt sinnvoll. Schließlich werden in der Biologie die Interaktionen zwischen Proteinen durch Netzwerke abgebildet. Cluster sind in dieser Anwendung Gruppen von Proteinen, welche dieselben Funktionen innerhalb von Zellen aufweisen. Weitere biologische Anwendungen werden unter anderem von Junker/Schreiber (2008) [149] dargelegt. Viele der auftretenden Clusterstrukturen in Netzwerken sind hierarchisch organisiert (vgl. Simon (1962) [253]). Das bedeutet, ein Netzwerk besteht aus Clustern, die jeweils in kleinere Cluster zerfallen, welche ihrerseits aus noch kleineren Gruppen zusammengesetzt sind. Die Module dieser Struktur werden genestete Cluster genannt (vgl. Abschnitt A.1). Die von Menschen geschaffene Einteilung von Institutionen wie Firmen oder Universitäten in Abteilungen, Bereiche und Fakultäten stellt ein Beispiel dafür dar. Ein biologisches Netzwerk

4 1. Einleitung mit hierarchischer Clusterordnung ist der menschliche Körper. Dieser setzt sich aus Organen zusammen, welche aus Gewebe bestehen, das wiederum aus Zellen aufgebaut ist. Frühe Betrachtungen von Netzwerken stammen unter anderem aus dem Bereich der Sozialen Netzwerkanalyse von Georg Simmel (siehe z.b. Simmel (1890) [252]) und datieren auf das Ende des 19. Jahrhunderts. Zunӓchst geschah die Betrachtung aus rein soziologischer Sicht. Im Laufe der Zeit wurden diese Untersuchungen mit Methoden aus anderen Bereichen verknüpft. Beispielsweise verwendete Homans (1950) [137] Matrizen zur Darstellung sozialer Netzwerke. Die Zeilen und Spalten dieser Matrizen ordnete er so um, dass in Teilmatrizen die zwischen den Clustern vorhandenen Strukturen zusammengefasst werden (vgl. Abschnitt 4.8.1). Die Arbeit von zwei Physikern (siehe insbesondere Girvan/Newman (2002) [119] und Newman/Girvan (2004) [213]) trug Anfang des 21. Jahrhunderts zu einem verstӓrkten Interesse von Naturwissenschaftlern, Informatikern und Mathematikern an dem Thema der Clusteranalyse von Netzwerken bei (vgl. Kapitel 3 und 4). Die Autoren entwickelten ein divisi- ves hierarchisches Clusterverfahren (siehe Abschnitt 4.3), das diverse Autoren zu Weiterentwicklungen sowie zur Konzeption eigener Algorithmen inspirierte. Außerdem entfachten sie die Diskussion über die Messung der Göte von Clusterlosungen durch die Präsentation eines Gutemaßes namens Modularitöt neu (vgl. Abschnitt 3.1). Ein Überblick uber die Entwicklung dieses Forschungsgebiets findet sich beispielsweise bei Fortunato (2010) [103]. Nicht zuletzt föhrt der rasante Anstieg an sozialer Interaktion im Internet zu einer Vielzahl an Datensӓ tzen, die unter anderem aus Sicht des Marketing von großer Bedeutung sind. Diese Entwicklung foördert das Interesse an Algorithmen zur Clusteranalyse in Netzwerken. Die bisher beschriebene Art der Clusteranalyse in Netzwerken ist nicht mit der Clusteranalyse von Netzwerken zu verwechseln. Dabei wird eine Menge von Netzwerken betrachtet, und Gruppen ӓ hnlicher Netzwerke werden in Cluster sortiert (siehe Abschnitt 4.8.4.1). Im Vergleich zu der oben eingeführten Clusteranalyse in Netzwerken wird die zweite Art der Problemstellung in der vorliegenden Arbeit als Clusteranaylse von Netzwerken oder - bezogen auf eine wichtige Anwendung dieser - als clusterweise Aggregation von Relationen (vgl. z.b. Gaul/Schader (1988) [114]) bezeichnet. Zwar haben diverse Autoren in der Vergangenheit Verfahren aus unterschiedlichen Forschungsrichtungen zur Clusterbildung in Netzwerken eingesetzt (siehe insbesondere Abschnitte 4.1 bis 4.7), jedoch wurde die Clusteranalyse von (U n-)ӓ hnlichkeits- bzw. Distanzdaten bisher vernachlӓssigt. Es handelt sich bei dieser sogenannten klassischen Clusteranalyse von (Un-)Ӓ hnlichkeits- und Distanzdaten um einen bekannten und gut erforschten Bereich, der unter anderem

1. Einleitung 5 häufig im Marketing eingesetzt wird (vgl. z.b. Arabie/H ubert (1995) [8]). Zum Einteilen von Käufern oder Produkten in Gruppen nach bestimmten Kriterien bietet die klassische Clusteranalyse für symmetrische Daten diverse Verfahren. Die grundlegenden Ideen dieser Art der Clusteranalyse wurden zwar auf Netzwerke übertragen, aber einen Einsatz ebendieser konkreten Methoden auf Netzwerkdaten gibt es bislang nicht. Die Anwendung klassischer Clusteranalysealgorithmen, die urspruänglich für (Un-)Ӓ hnlichkeits- bzw. Distanzdaten entwickelt wurden, auf Netzwerke ist ein erstes Ziel der vorliegenden Arbeit. Dazu ist eine Übertragung der Adjazenzbeziehungen des Netzwerks in Distanzdaten notwendig. Dafür wird ein klassischer Distanzbegriff innerhalb von Netzwerken verwendet, nämlich die Länge eines kürzesten Weges in einem Netzwerk. A n schließend wird diese neue Methode zum Clustern ungewichteter, ungerichteter Netzwerke auf Netzwerke mit gewichteten und gerichteten Kanten erweitert. In der vorliegenden Arbeit werden in Kapitel 2 zunaächst grundlegende Begriffe aus der Netzwerktheorie und der Clusteranalyse in Netzwerken definiert. Die beiden nachfolgenden Kapitel dienen der Erlaäuterung weiterer Konzepte, die im Zusammenhang mit der Clusteranalyse in Netzwerken stehen. Dabei werden auch Netzwerke mit gewichteten und gerichteten Kanten betrachtet. Konkret wird die Messung der Güte von Clusterings in Netzwerken in Kapitel 3 behandelt. Ein Schwerpunkt liegt dabei auf dem oben erwähnten Maß der Modularität. Bekannte Methoden zum Clustern von Netzwerken werden in Kapitel 4 dargestellt. Der Fokus der vorliegenden Arbeit liegt auf der Vorstellung eines Clusterverfahrens, welches im ersten Schritt Netzwerkdaten in Distanzdaten umwandelt. Somit bietet sich für ungewichtete, ungerichtete Netzwerke der Vorteil, dass anschließend agglomerative hierarchische Algorithmen aus der klassischen Clusteranalyse eingesetzt werden kӧnnen. Die Guätemessung erfolgt wiederum unter Verwendung der Modularität innerhalb der zu analysierenden Netzwerke. Weiterhin wird abschließend - wie es bei der Klassifikation von Distanzdaten uäblich ist - ein fuär Netzwerke angepasstes Austauschverfahren durchgeführt. Die Darstellung der Methode für ungewichtete und ungerichtete Netzwerke sowie ihre Erweiterungen fuär Netzwerke mit gewichteten und gerichteten Kanten erfolgt in Kapitel 5. Bei der Übertragung der Vorgehensweise auf Netzwerke mit gewichteten Kanten ist zu beachten, dass hohe Kantengewichte häufig als enge Verbindungen interpretiert werden, während große Distanzen im Normalfall schwach ausgeprägten Beziehungen entsprechen. Die Erweiterung der Methode für Netzwerke mit gerichteten Kanten stellt eine noch grӧßere Herausforderung dar, weil sich aus gerichteten Adjazenzbeziehungen asymmetrische Distanzdaten ergeben und die Clusteranalyse dieser weniger intensiv erforscht wurde als im symmetrischen Fall. Zur Analyse dieser neuen Clustermethode fuär Netzwerke wird in Kapitel 6 gezeigt, welche Ergebnisse ihre Anwendung

6 1. Einleitung auf aus der Literatur bekannte, reale und computergenerierte Benchmark Netzwerke liefert. Abschließend gibt Kapitel 7 neben einer Zusammenfassung der vorliegenden Arbeit ein Fazit des vorgestellten Verfahrens sowie einen kurzen Ausblick auf zukünftig mögliche Richtungen der Forschung.