Kapitel 1 Einleitung



Ähnliche Dokumente
Konzepte der Informatik

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1 Mathematische Grundlagen

Insiderwissen Hintergrund

1 topologisches Sortieren

SWOT Analyse zur Unterstützung des Projektmonitorings

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Passung von Partnern: Der Einfluss von Persönlichkeitsmerkmalen auf Beziehungsqualitäten

Primzahlen und RSA-Verschlüsselung

Fotoprotokoll / Zusammenfassung. des Seminars Methodik der Gesprächsführung und Coaching. Vertriebs- & Management - Training

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Die Post hat eine Umfrage gemacht

Lassen Sie sich dieses sensationelle Projekt Schritt für Schritt erklären:

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Sehbehindertentag 6. Juni. Kontraste. helfen schwachen Augen

Kulturelle Evolution 12

Informationsblatt Induktionsbeweis

Professionelle Seminare im Bereich MS-Office

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Der Wunschkunden- Test

Daten und Fakten. Gemeinschaftspraxis der Frauenärzte. Informationen zum Thema Kinderwunschbehandlung. Zentrum für Reproduktionsmedizin

DUALIS Web-Client Kurzanleitung für Studierende

Projektmanagement in der Spieleentwicklung

Welches Übersetzungsbüro passt zu mir?

Modellbildungssysteme: Pädagogische und didaktische Ziele

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Kontakte knüpfen und pflegen, Themen gemeinsam Diskutieren, Termine bekannt geben, oder die. ideal dazu, also sollten wir es auch nutzen!

2.5.2 Primärschlüssel

von: Oktay Arslan Kathrin Steiner Tamara Hänggi Marco Schweizer GIB-Liestal Mühlemattstrasse Liestal ATG

Von zufriedenen zu treuen Kunden

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

Zeichen bei Zahlen entschlüsseln

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

Außerdem verwenden wir Cookies für andere Zwecke, wie zum Beispiel:

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Paper Computer Science Experiment. Computation (NP-Vollständigkeit) Steinerbäume

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Zwischenablage (Bilder, Texte,...)

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Berechnung der Erhöhung der Durchschnittsprämien

Die Internet-Schnittstelle im Verfahren

Geld Verdienen im Internet leicht gemacht

Anleitung über den Umgang mit Schildern

2. Im Admin Bereich drücken Sie bitte auf den roten Button Webseite bearbeiten, sodass Sie in den Bearbeitungsbereich Ihrer Homepage gelangen.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Nutzung dieser Internetseite

64% 9% 27% INFORMATIONSSTATUS INTERNET. CHART 1 Ergebnisse in Prozent. Es fühlen sich über das Internet - gut informiert. weniger gut informiert

Wie Google Webseiten bewertet. François Bry

EINE UNI FÜR ALLE. Universität Luzern, Montag, 5. Mai Uhr

Unterrichtsentwurf. (Unterrichtsbesuch im Fach Informatik)

Sehr geehrte/r Teilnehmer/in,

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Informationen zur Erstellung des Projektantrags in den IT-Berufen und zum AbschlussPrüfungOnlineSystem (CIC-APrOS)

Begriff 1 Begriff 2 Datenbank 1

Anwendungshinweise zur Anwendung der Soziometrie

Auf der Hannover Messe: Technology

Festigkeit von FDM-3D-Druckteilen

Was meinen die Leute eigentlich mit: Grexit?

Webgestaltung - Jimdo 2.7

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Umgang mit Schaubildern am Beispiel Deutschland surft

Umfrage der Klasse 8c zum Thema "Smartphones"

Mobile Intranet in Unternehmen

Existenzgründer Rating

Ausblick: Der Medienkonsum der Zukunft

Mehrere Diagramme zu einer Darstellung kombinieren

Was ist das Budget für Arbeit?

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Ein Vorwort, das Sie lesen müssen!

Entwicklung eines Beratungsprogramms zur Förderung der emotionalen Intelligenz im Kindergarten

Gruppenrichtlinien und Softwareverteilung

Die Invaliden-Versicherung ändert sich

Wir machen neue Politik für Baden-Württemberg

Grußwort. des Herrn Staatsministers. Prof. Dr. Bausback. bei dem Medizinrecht-Symposium der Deutschen Gesellschaft für Gynäkologie und Geburtshilfe

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

3. Die tägliche -Flut effizient verwalten

itb im DHI e. V. Add-On geprüfte/r Betriebswirt/in HwO Seite 2 von 5

Zeit lässt sich nicht wie Geld für schlechte Zeiten zur Seite legen. Die Zeit vergeht egal, ob genutzt oder ungenutzt.

Anzeige von eingescannten Rechnungen

15 Social-Media-Richtlinien für Unternehmen!

Statuten in leichter Sprache

Thüringen, Bayern, Sachsen, Mecklenburg-Vorpommern und Baden-Württemberg vorn

Frauen und ihr Verständnis von Schönheit

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Grundlagen der Theoretischen Informatik, SoSe 2008

Mobiler. Vernetzter. Emotionaler. Wie SBG auf die Entwicklung des Internets reagiert

EINMALEINS BEZIEHUNGSREICH

Information zum Prüfungswesen Geprüfte(r) Logistikmeister(in) Handlungsspezifische Qualifikationen

Transkript:

Kapitel 1 Einleitung Menschen gehen Beziehungen miteinander ein, indem sie kommunizieren und interagieren. Sie stehen in unterschiedlichen Relation zu ihren Kollegen, Freunden und Verwandten. Die Webseiten des Internets sind untereinander verlinkt. In Organismen werden Stoffe durch Stoffwechselprozesse aufgenommen, transportiert, umgewandelt und abgegeben. All diese Verbindungen zwischen Objekten lassen sich durch Netzwerke darstellen. Von dieser Betrachtungsweise profitieren die verschiedensten Forschungsgebiete (vgl. Anhang C ), unter anderem die Soziologie, die Betriebswirtschaftslehre, die Informatik und die Biologie. Eine wichtige Fragestellung innerhalb der Analyse komplexer Gefüge ist die Identifikation eng vernetzter Gruppen von Objekten, welche auch Cluster oder Module genannt werden. Solche Strukturen lassen sich netzwerktheoretisch wie folgt abbilden: Die Objekte entsprechen den Knoten eines Netzwerks, und ihre Beziehungen werden durch Kanten modelliert. Die Kanten sind in Abhängigkeit der dargestellten Relation gewichtet oder ungewichtet, gerichtet oder ungerichtet. Eine Gruppe eng vernetzter Objekte ist in diesem Fall eine Knotenmenge mit den folgenden Eigenschaften: Zwischen den Knoten dieser Menge gibt es viele Kanten, während nur wenige Kanten von Knoten dieser Menge zu Knoten außerhalb der Gruppe existieren. In der Soziologie stellen soziale Netzwerke ganz verschiedene Arten von Relationen zwischen Personen dar. Eng vernetzte Gruppen innerhalb eines sozialen Netzwerks käonnen in Abhaängigkeit der betrachteten Beziehungen beispielsweise Freundeskreise sein oder Menschen, die zusammen arbeiten oder gemeinsame Interessen haben. Einen Einblick in die historische Entwicklung der Sozialen Netzwerkanalyse (SNA) gibt zum Beispiel Freeman (2004) [108]. Durch die Verlagerung diverser sozialer Aktivitaäten des taäglichen Lebens in das Internet wie das Einkaufen in Webshops oder die Kommunikation per Email, über Chatprogramme oder auf Webseiten entstehen unzählige Datenmengen sozialen Verhal

2 1. Einleitung tens. Eine moderne Variante klassischer sozialer Netzwerke entsteht durch die sehr populӓr gewordenen Online Netzwerke wie Facebook (www.facebook.com), Myspace (www.myspace.com) oder StudiVerzeichnis (www.studivz.net). Auf diesen Webseiten erstellen Nutzer ein persönliches Profil und interagieren mit anderen Nutzern über das Verbinden ihrer Profile, das Versenden von Nachrichten, die Bildung von Gruppen, die Planung von Veranstaltungen, die Veröffentlichung gemeinsamer Fotos und ӓhnliche Aktivitüten. Auf der Facebook-eigenen Statistikseite (vgl. [93]) werden Ende des Jahres 2011 über 800 Millionen aktive Nutzer ausgewiesen, von denen sich über die Hӓlfte mindestens einmal pro Tag einloggen. Die weltweite Verteilung der Freundschaften bezogen auf die angegebenen Wohnorte hat der Facebook-Praktikant Paul Butler im Dezember 2010 untersucht (siehe Butler (2010a) [54]). Es hat ihn nach eigenen Angaben interessiert, wie Geografie und politische Grenzen sich darauf auswirken, wo Leute und ihre jeweiligen Freunde leben. Konkret wurde fur jedes Stӓdtepaar ein Kantengewicht definiert, basierend auf der Anzahl der Freundschaften sowie der euklidischen Distanz zwischen ihnen. Eine Visualisierung dieser Kanten mit verschiedenen Helligkeiten in Abhӓngigkeit ihrer Bedeutung ergibt deutlich sichtbar die Struktur der Kontinente und in einigen Fӓllen sogar den Verlauf von Landesgrenzen. Diese Anwendung zeigt sehr anschaulich die Existenz eng vernetzter Gruppen in einem speziellen sozialen Netzwerk. Folgendes Bild ist bei Butler (2010b) [55] zu finden: Abbildung 1.1: Weltweite Freundschaften im sozialen Netzwerk Facebook. Im Marketing ist die Analyse sozialer Netzwerke von großer Bedeutung (siehe z.b. Van den Bulte/Wuyts (2007) [264]). Neben der Platzierung von Werbe-

1. Einleitung 3 botschaften ist es mӧglich, Gruppendynamiken und die Verbreitung von Meinungen zu untersuchen. Eine weitere klassische Anwendung im Marketing ergibt sich fuär Webseiten, auf denen Produkte erworben werden koännen. Fuär die Betreiber ist es interessant, Kunden sinnvolle Produktempfehlungen zu geben. Basierend auf der Kaufhistorie verschiedener Nutzer ermitteln sogenannte Recommender Systeme (siehe z.b. Gaul/Schm idt-thiem e (2002a/2002b) [116, 117]) Gruppen von Artikeln, die häufig zusammen gekauft werden. Käufer werden bei dem Erwerb eines Produkts auf die entsprechenden anderen Waren hingewiesen. Eine Erweiterung dieses Forschungsgebiets beinhaltet die simultane Klassifikation der Kunden anhand gekaufter Produkte. Diese Fragestellung ist unter dem Begriff zweimodale Clusteranalyse bekannt (vgl. Abschnitt 4.8.2). Selbstredend ist das World W ide Web ein Netzwerk, trägt es doch diesen Ausdruck schon im Namen. Betrachtet man die Webseiten als Knoten und die Verlinkungen als gerichtete Kanten, so kӧnnen Seiten innerhalb eines Clusters zum Beispiel ähnliche Themen behandeln oder von den gleichen Anbietern betrieben werden. In der Informatik ergibt sich bei dem Einsatz von parallelem Rechnen innerhalb eines Computerverbundes oder auf Parallelrechnern (siehe z.b. Grama (2003) [126]) ein Spezialfall der Suche nach Clustern in Netzwerken. Das Ziel ist die Zuweisung der parallel durchzufuährenden Aufgaben zu Prozessoren, so dass die notwendige Kommunikation zwischen diesen mӧglichst gering ist. Diese Fragestellung lässt sich als Clusterproblem formulieren. Dabei sind ungefähr gleich große Gruppen von Prozessoren gesucht, so dass die Anzahl an technischen Verbindungen zwischen Prozessoren aus verschiedenen Clustern minimal ist. Dieser Spezialfall der Clusteranalyse in Netzwerken, in welchem gleich große Cluster erwunscht sind, heißt Graph-Partitionierung (siehe Abschnitt 2.2.2). In anderen Fragestellungen, beispielsweise den oben genannten, ist die Einteilung der Objektmenge in gleich große Gruppen nicht unbedingt sinnvoll. Schließlich werden in der Biologie die Interaktionen zwischen Proteinen durch Netzwerke abgebildet. Cluster sind in dieser Anwendung Gruppen von Proteinen, welche dieselben Funktionen innerhalb von Zellen aufweisen. Weitere biologische Anwendungen werden unter anderem von Junker/Schreiber (2008) [149] dargelegt. Viele der auftretenden Clusterstrukturen in Netzwerken sind hierarchisch organisiert (vgl. Simon (1962) [253]). Das bedeutet, ein Netzwerk besteht aus Clustern, die jeweils in kleinere Cluster zerfallen, welche ihrerseits aus noch kleineren Gruppen zusammengesetzt sind. Die Module dieser Struktur werden genestete Cluster genannt (vgl. Abschnitt A.1). Die von Menschen geschaffene Einteilung von Institutionen wie Firmen oder Universitäten in Abteilungen, Bereiche und Fakultäten stellt ein Beispiel dafür dar. Ein biologisches Netzwerk

4 1. Einleitung mit hierarchischer Clusterordnung ist der menschliche Körper. Dieser setzt sich aus Organen zusammen, welche aus Gewebe bestehen, das wiederum aus Zellen aufgebaut ist. Frühe Betrachtungen von Netzwerken stammen unter anderem aus dem Bereich der Sozialen Netzwerkanalyse von Georg Simmel (siehe z.b. Simmel (1890) [252]) und datieren auf das Ende des 19. Jahrhunderts. Zunӓchst geschah die Betrachtung aus rein soziologischer Sicht. Im Laufe der Zeit wurden diese Untersuchungen mit Methoden aus anderen Bereichen verknüpft. Beispielsweise verwendete Homans (1950) [137] Matrizen zur Darstellung sozialer Netzwerke. Die Zeilen und Spalten dieser Matrizen ordnete er so um, dass in Teilmatrizen die zwischen den Clustern vorhandenen Strukturen zusammengefasst werden (vgl. Abschnitt 4.8.1). Die Arbeit von zwei Physikern (siehe insbesondere Girvan/Newman (2002) [119] und Newman/Girvan (2004) [213]) trug Anfang des 21. Jahrhunderts zu einem verstӓrkten Interesse von Naturwissenschaftlern, Informatikern und Mathematikern an dem Thema der Clusteranalyse von Netzwerken bei (vgl. Kapitel 3 und 4). Die Autoren entwickelten ein divisi- ves hierarchisches Clusterverfahren (siehe Abschnitt 4.3), das diverse Autoren zu Weiterentwicklungen sowie zur Konzeption eigener Algorithmen inspirierte. Außerdem entfachten sie die Diskussion über die Messung der Göte von Clusterlosungen durch die Präsentation eines Gutemaßes namens Modularitöt neu (vgl. Abschnitt 3.1). Ein Überblick uber die Entwicklung dieses Forschungsgebiets findet sich beispielsweise bei Fortunato (2010) [103]. Nicht zuletzt föhrt der rasante Anstieg an sozialer Interaktion im Internet zu einer Vielzahl an Datensӓ tzen, die unter anderem aus Sicht des Marketing von großer Bedeutung sind. Diese Entwicklung foördert das Interesse an Algorithmen zur Clusteranalyse in Netzwerken. Die bisher beschriebene Art der Clusteranalyse in Netzwerken ist nicht mit der Clusteranalyse von Netzwerken zu verwechseln. Dabei wird eine Menge von Netzwerken betrachtet, und Gruppen ӓ hnlicher Netzwerke werden in Cluster sortiert (siehe Abschnitt 4.8.4.1). Im Vergleich zu der oben eingeführten Clusteranalyse in Netzwerken wird die zweite Art der Problemstellung in der vorliegenden Arbeit als Clusteranaylse von Netzwerken oder - bezogen auf eine wichtige Anwendung dieser - als clusterweise Aggregation von Relationen (vgl. z.b. Gaul/Schader (1988) [114]) bezeichnet. Zwar haben diverse Autoren in der Vergangenheit Verfahren aus unterschiedlichen Forschungsrichtungen zur Clusterbildung in Netzwerken eingesetzt (siehe insbesondere Abschnitte 4.1 bis 4.7), jedoch wurde die Clusteranalyse von (U n-)ӓ hnlichkeits- bzw. Distanzdaten bisher vernachlӓssigt. Es handelt sich bei dieser sogenannten klassischen Clusteranalyse von (Un-)Ӓ hnlichkeits- und Distanzdaten um einen bekannten und gut erforschten Bereich, der unter anderem

1. Einleitung 5 häufig im Marketing eingesetzt wird (vgl. z.b. Arabie/H ubert (1995) [8]). Zum Einteilen von Käufern oder Produkten in Gruppen nach bestimmten Kriterien bietet die klassische Clusteranalyse für symmetrische Daten diverse Verfahren. Die grundlegenden Ideen dieser Art der Clusteranalyse wurden zwar auf Netzwerke übertragen, aber einen Einsatz ebendieser konkreten Methoden auf Netzwerkdaten gibt es bislang nicht. Die Anwendung klassischer Clusteranalysealgorithmen, die urspruänglich für (Un-)Ӓ hnlichkeits- bzw. Distanzdaten entwickelt wurden, auf Netzwerke ist ein erstes Ziel der vorliegenden Arbeit. Dazu ist eine Übertragung der Adjazenzbeziehungen des Netzwerks in Distanzdaten notwendig. Dafür wird ein klassischer Distanzbegriff innerhalb von Netzwerken verwendet, nämlich die Länge eines kürzesten Weges in einem Netzwerk. A n schließend wird diese neue Methode zum Clustern ungewichteter, ungerichteter Netzwerke auf Netzwerke mit gewichteten und gerichteten Kanten erweitert. In der vorliegenden Arbeit werden in Kapitel 2 zunaächst grundlegende Begriffe aus der Netzwerktheorie und der Clusteranalyse in Netzwerken definiert. Die beiden nachfolgenden Kapitel dienen der Erlaäuterung weiterer Konzepte, die im Zusammenhang mit der Clusteranalyse in Netzwerken stehen. Dabei werden auch Netzwerke mit gewichteten und gerichteten Kanten betrachtet. Konkret wird die Messung der Güte von Clusterings in Netzwerken in Kapitel 3 behandelt. Ein Schwerpunkt liegt dabei auf dem oben erwähnten Maß der Modularität. Bekannte Methoden zum Clustern von Netzwerken werden in Kapitel 4 dargestellt. Der Fokus der vorliegenden Arbeit liegt auf der Vorstellung eines Clusterverfahrens, welches im ersten Schritt Netzwerkdaten in Distanzdaten umwandelt. Somit bietet sich für ungewichtete, ungerichtete Netzwerke der Vorteil, dass anschließend agglomerative hierarchische Algorithmen aus der klassischen Clusteranalyse eingesetzt werden kӧnnen. Die Guätemessung erfolgt wiederum unter Verwendung der Modularität innerhalb der zu analysierenden Netzwerke. Weiterhin wird abschließend - wie es bei der Klassifikation von Distanzdaten uäblich ist - ein fuär Netzwerke angepasstes Austauschverfahren durchgeführt. Die Darstellung der Methode für ungewichtete und ungerichtete Netzwerke sowie ihre Erweiterungen fuär Netzwerke mit gewichteten und gerichteten Kanten erfolgt in Kapitel 5. Bei der Übertragung der Vorgehensweise auf Netzwerke mit gewichteten Kanten ist zu beachten, dass hohe Kantengewichte häufig als enge Verbindungen interpretiert werden, während große Distanzen im Normalfall schwach ausgeprägten Beziehungen entsprechen. Die Erweiterung der Methode für Netzwerke mit gerichteten Kanten stellt eine noch grӧßere Herausforderung dar, weil sich aus gerichteten Adjazenzbeziehungen asymmetrische Distanzdaten ergeben und die Clusteranalyse dieser weniger intensiv erforscht wurde als im symmetrischen Fall. Zur Analyse dieser neuen Clustermethode fuär Netzwerke wird in Kapitel 6 gezeigt, welche Ergebnisse ihre Anwendung

6 1. Einleitung auf aus der Literatur bekannte, reale und computergenerierte Benchmark Netzwerke liefert. Abschließend gibt Kapitel 7 neben einer Zusammenfassung der vorliegenden Arbeit ein Fazit des vorgestellten Verfahrens sowie einen kurzen Ausblick auf zukünftig mögliche Richtungen der Forschung.