L A TEXVorlage. LaTeX Vorlage für wissenschaftliche Dokumente. Diplomingenieur. (Dipl.-Ing.)

Ähnliche Dokumente

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Wie Google Webseiten bewertet. François Bry

Konzepte der Informatik

Grundlagen der Theoretischen Informatik, SoSe 2008

Primzahlen und RSA-Verschlüsselung

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Professionelle Seminare im Bereich MS-Office

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Diskrete Modellierung

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

1 topologisches Sortieren

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Einführung in die Algebra

Anleitung über den Umgang mit Schildern

Kapiteltests zum Leitprogramm Binäre Suchbäume

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Zeichen bei Zahlen entschlüsseln

1 Mathematische Grundlagen

Geld Verdienen im Internet leicht gemacht

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Physik & Musik. Stimmgabeln. 1 Auftrag

Lange Nacht der Wissenschaft. Ein Klassiker. Die Mathematik der Kürzesten Wege

4. BEZIEHUNGEN ZWISCHEN TABELLEN

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

Es gilt das gesprochene Wort. Anrede

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

A1.7: Entropie natürlicher Texte

Dokumentation von Ük Modul 302

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Leichte-Sprache-Bilder

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Alle Schlüssel-Karten (blaue Rückseite) werden den Schlüssel-Farben nach sortiert und in vier getrennte Stapel mit der Bildseite nach oben gelegt.

SEO Erfolg mit themenrelevanten Links

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Was ist Sozial-Raum-Orientierung?

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Suchmaschinenoptimierung (SEO) für Ärzte Fallbeispiel Google

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Folge 19 - Bäume Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Studie über Umfassendes Qualitätsmanagement ( TQM ) und Verbindung zum EFQM Excellence Modell

Anleitung auf SEITE 2

Lineare Differentialgleichungen erster Ordnung erkennen

Layoutmodelle. Steffen Schwientek Große Klostergasse Friedberg schwientek@web.de Web :schlaukopp.org

Tutorial: Homogenitätstest

Antrag für ein Schlichtungs-Verfahren

Umgang mit Schaubildern am Beispiel Deutschland surft

Ein neuer Beweis, dass die Newton sche Entwicklung der Potenzen des Binoms auch für gebrochene Exponenten gilt

Das Leitbild vom Verein WIR

- Google als Suchmaschine richtig nutzen -

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Lineare Gleichungssysteme

Protect 7 Anti-Malware Service. Dokumentation

Grundbegriffe der Informatik

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

WS 2009/10. Diskrete Strukturen

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Speicher in der Cloud

Modellbildungssysteme: Pädagogische und didaktische Ziele

Das Persönliche Budget in verständlicher Sprache

Und im Bereich Lernschwächen kommen sie, wenn sie merken, das Kind hat Probleme beim Rechnen oder Lesen und Schreiben.

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Kapitel 3 Frames Seite 1

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Andreas Rühl. Investmentfonds. verstehen und richtig nutzen. Strategien für die optimale Vermögensstruktur. FinanzBuch Verlag

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

IRF2000 Application Note Lösung von IP-Adresskonflikten bei zwei identischen Netzwerken

1. Was ihr in dieser Anleitung

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

7 Rechnen mit Polynomen

WEBTEXTEN. Tipps und Tricks rund um das Webtexten. Version 1 / April 2014 gutgemacht.at Digitalmarketing GmbH

Informatik Kurs Simulation. Hilfe für den Consideo Modeler

WIE WIRKLICH IST DIE WIRKLICHKEIT WIE SCHNELL WERDEN SMART GRIDS WIRKLICH BENÖTIGT? DI Dr.techn. Thomas Karl Schuster Wien Energie Stromnetz GmbH

Darum geht es in diesem Heft

50 Fragen, um Dir das Rauchen abzugewöhnen 1/6

Step by Step Webserver unter Windows Server von Christian Bartl

Plotten von Linien ( nach Jack Bresenham, 1962 )

4 Aufzählungen und Listen erstellen

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Informationsblatt Induktionsbeweis

Lichtbrechung an Linsen

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Transkript:

Fakultät... Institut für... L A TEXVorlage LaTeX Vorlage für wissenschaftliche Dokumente Vorgelegt von : Christian Gatzlaff Geboren am : Irgendwann halt zur Erlangung des akademischen Grades Diplomingenieur (Dipl.-Ing.) Betreuer :... Verantwortlicher Hochschullehrer : Prof.... Matrikelnummer :... Eingereicht am : 13. August 2010, Ort

Selbstständigkeitserklärung Hiermit erkläre ich, Christian Gatzlaff, dass die von mir am heutigen Tag an der Fakultät... eingereichte L A TEXVorlage zum Thema LaTeX Vorlage für wissenschaftliche Dokumente selbstständig verfasst wurde und ich keine anderen als die angegebenen Quellen und Hilfsmittel benutzt, sowie Zitate kenntlich gemacht habe. Ort, den 13. August 2010 Christian Gatzlaff - II -

Inhaltsverzeichnis 1 Einleitung 1 2 WebCrawling 2 2.1 Web als Graph............................... 2 2.1.1 Statistiken und empirische Untersuchungen............ 3 2.1.2 Struktur des Web-graphes..................... 4 2.1.3 Scal-Free vs. Random Model.................... 4 2.2 The Dynamics of the Web......................... 6 2.2.1 Web Growth Dynamics....................... 6 2.2.2 Document Update Dynamics.................... 7 2.3 Aspekte des Crawlens............................ 8 2.3.1 Importnaz Metriken für Webseiten................. 8 2.3.2 Crawler Modele........................... 10 3 Zusammenfassung 15 A Quelltexte 16 - III -

Abbildungsverzeichnis 2.1 In- and out-degree distributions show a remarkable similarity over two crawls, run in May and October 1999. Each crawl counts well over 1 billion distinct edges of the web graph.................. 12 2.2 Connectivity of the web: one can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE a passage from a portion of IN to a portion of OUT without touching SCC............................ 13 2.3 Complete bipartite graph NK-clan with N=2, K=10........... 14 2.4 RANDOM VERSUS SCALE-FREE NETWORK............ 14 - IV -

Tabellenverzeichnis 1.1 Tabellenüberschrift............................. 1 - V -

Abkürzungsverzeichnis ADC Elko Analog-Digital-Wandler (Analog Digital Converter) Elektrolyt-Kondensator Muxer Multiplexer - VI -

1 Einleitung Blalala Tabelle 1.1: Tabellenüberschrift Spalte 1 Spalte 2 Spalte 3 1 1.2 1,3 2 2.2 2.3 3 3.2 3.3-1 -

2.1 Web als Graph Die Web Seiten die mit Hyperlink miteinander verbunden sind bilden einen Web Graph, der ein Ausgangspunkt für viele Anwendungen unter anderen Web Crawler ist. Ich mochte zuerst kurz Eigenschaften diesen Graph diskutieren wie z.b seine Große und Wachstum. Danach gehe ich durch bekannten Statistiken und Messungen über seine mikro,macro -Struktur. Letztlich werde ich die bekannten Modellen die den Web Graph beschreiben darstellen. Cyveillance eine private seit 1997 existierende Internet-monitoring Firma hat im Jahr 2000 Statistiken über große und Wachstum des Internet veröffentlicht. [19] Laut diese Statistiken: große des web Graph s beträgt 2.1 Billion knoten (knoten sind öffentliche HTTP URLs) täglich werden 7.3 Millionen neue URL zugefügt Untersuchung einen so großen und schnell wachsenden Struktur scheint eine spannende und nicht einfache Herausforderung zu sein. Um es zu realisieren muss man zuerst ein großes teil des Graph zu Entdecken und effizient zu speichern. Die durchschnittliche große eines URL betragt 80 Bytes, bei einem trivialen Einsatz hatte man 8 Gigabytes Speicher für 100 Millionen Knoten gebraucht.[6] Eine Reiche von Arbeiten befasst sich mit der Problematik und schlagen geeignet Daten Strukturen für effizienten Speicherung von Web Grafen vor.[6, 22] Der Rapide Wachstum des Web-graphes und seine große, macht die Entdeckung seiner gesamt Topologie unmöglich. Crawling als automatisierte Methode zum Web Graph Struktur Entdeckung liefern deswegen nun momentanen Bild des Netzes. Wie problematisch die topologie untersuchung ist, lasst sich am beipiel Northern Light beobachten. Diese suchmaschine deckt angeblich die grossete teil des web-graphes was aber nur 38% des gesamtes Web ist.[1] - 2 -

2.1.1 Statistiken und empirische Untersuchungen Eine Reihe von Experimenten auf Web-graph mit 200 Millionen Knoten und 1.5 Bilionen Kanten dazwischen[7] weisen drauf dass, die Verteilung von links zwischen Web Seiten dem Zipfsches Gesetz unterliegt. Barabasi, Albert[4, Barabasi, Albert] und Kumar [18, Kumar] sind in ihren Untersuchungen auf gleiche Ergebnis gestoßen. Das Gesetz nach dem Harvard -Professor für Linguistik George Kingsley Zipf ( 1902-1950 ) benannt, der es in den 1930er Jahren aufstellte [26]. Das Gesetz angewendet auf web-graphen, bestimmt wie wahrscheinlich ist dass ein Knoten einen bestimmten Grad i hat. Laut dem Zipfsches Gesetz [7] die Wahrscheinlichkeit ist proportional zu 1 i x für bestimmten x > 1. Dieser Phänomen ist eine wichtige Eigenschaft von web-graphen und gilt auch für andere statische und dynamische parameter (lasst sich im verschiedenen Aspekten beobachten)(z.b Popularität einer Seite). Um die verbindungen zwischen elementen des web-graphs zu untersuchen werden in oben erwahnten experimenten crawler benutz die auf breadth-firstsearch (BFS) algoritmus basieren.[7, 4] Sie sammlen alle Url auf die sie in einem dokument zustosen und folgen die rekursiv um neue urls und dokumente zu finden. Hierbei werden also immer zuerst alle direkt nachfolgenden Knoten des graphes bearbeitet. Die beobachtung das Anzahlt(verteilung) ein- und ausgehenden Kanten des Web-graphes dem Zipfsches Gesetz unterliegt wird in 2.1 Abbildung.2 dargestellt.[7] Die Daten stammen aus einem in Mai 1999 bei AltaVista durchgeführten crawling. Die 203 milionen untersuchten URL ergeben einen exponent Zipfsches Gesetzes α = 2.09 fur eingangs grad (in-degree) und α = 2.72 fur Ausgangs grad des Graphes. Das bedeutet im prinzip dass die Verteilung von Knoten so erfolgt dass,es ganz viele knoten mit kleinen in- und -out degree gibt und nur ganz wenige mit grossen. Bei empirischen Untersuchungen der Internet Struktur wurde noch eine Interesante beobachtung gemacht. Réka Albert, Hawoong Jeong, Albert-László Barabási [1] haben berechnet, dass die durchnitliche entfernung zwischen zwei dokumenten in einem gerichteten random-graph deren knoten distribution Zipfschen Gesetz folgt durschnitlich d = 19 betragt. Das ist theoretisch eine wichtige aussage fur link basierten crawling algorithmen. Es beudeutet also,das 2 belibige dokumenten im Internet nur 19 cliks von einander entfernt sind. Diese Entfernung hat einen algotitmischen aufwand im bezug auf internet wachstum. Es wurde berechnet das wachstum des internet um 1,000% wird die durchnitliche entfernung nur gering beinflussen von d = 194 auf d = 21.[1] - 3 -

2.1.2 Struktur des Web-graphes Die struktur der gerichteten graph deren knoten web seiten representieren und kanten dazwischen hyperlinks wird in [7] dikutiert und ist in 2.2 zu sehen. Man kann dort vier komponenten erkennen in denen der graft geteilt wird. Das erste Stück ist ein zentraler Kern. Alle seine elementen sind stark miteinander verbunden das heisst das s man aus jeder dort enthaltende Seite durch verfolgung von hyperlinks ale andere dort enthaltenden Seiten erreichen kann. Dieser Riesige stark Zusammenhängende Komponente SCC (strongly connected component), ist das Herzstück des Web. Die zweite und dritte komponente werden IN und Out genannt. IN besteht aus Seiten, die das SCC erreichen können, die aber selbst nicht aus SCC ereichber sind. Das sind z.b neue Seiten die von Users noch nicht entdeckt und verlinkt worden. OUT besteht dagegen aus Seiten, die aus SCC zugänglich sind, aber nicht umgekehrt. Das konnten z.b Corporate Websites sein, die nur interne Links enthalten. TENDRIL die lezte komponente, enthalt seiten die sowohl SCC nicht erreicht können als auch von SCC nicht erreicht werden können. Die auf 203 milionen knoten durchgefuhrte web analyse [7] ergibt ubaraschend, dass die SCC komponete relativ klein ist und ungefahr 56 milionen seite enhalt. Die drei anderen Komponenten unterscheiden sich nicht viel in ihren große und sind auf 44 Millionen Seiten abgeschätzt. Die in 2.2 dargestellte struktur ist ein macro sieht des webgraphes. Auf micro ebene, wiess der graph auch eine strukturierte Form auf. Eine davon ist vollständig bipartiter Graph auch Cores gennant, welcher eine wichtige rolle fur community Entdeckung spielt. Das ist ein graph [10], dessen Knoten sich in zwei disjunkten Mengen A und F aufteilen lassen so dass jeder Knoten aus F eine verbindung mit jeden Knoten aus A hat. Die Knoten Menge F werden fans und die Knoten Menge A authorities genannt. Das heisst fur jede Kante v,w gilt entweder v A und w F oder v F und w A. [18, Kumar] hat in 200 milionen gecrawlten Seiten 200 000 bipartiter Graphen endeckt. Andere struktur auf micro ebene ist so gennante clan graph. Ein NK-clan ist eine Menege von K knoten wo Pfad lange zwischen zwei beliebigen Knoten maximal N ist. Sie wurde im [24]benutzt um inter-site graph zu endecken und visualisieren. Clan graph und bipartiter Graph sind in 2.3 dargestellt. 2.1.3 Scal-Free vs. Random Model Durch lange Zeit haben Wissenschaftler Struktur große komplexe Netzen als zufällig betrachtet. Der von Erdős und Rényi in 1959 eingeführte Random Graph Model [15] - 4 -

basiert auf zwei Parameters, die knoten zahl n und Wahrscheinlichkeit p, dass zwei knoten durch eine kante verbunden werden. Trotz,dass Existenz solcher kante rein zufällig ist, die Knoten des resultierenden graphes haben durchschnittlich gleiche Anzahl von links. Das passiert, weil die knoten grad verteilung des random graphes das Poisson-Verteilung mit Glocke Form (abbildung Bell Curve istribution of NodeLinkages.png)hat. Das fuhrt dazu, dass Knoten mit einer großen grad sehr selten sind. Die Poisson-Verteilung wird manchmal als die Verteilung der seltenen Ereignisse bezeichnet. Im radnom graphs die Wahrscheinlichkeit, dass ein knoten mit k anderen knoten in Verbindung steht nimmt exponentiell für großen k ab. Es ist charakteristisch dass die durchschnittliche Entfernung zwischen zwei knoten in E-R Modell und clustering Koeffizient klein ist.[16] Durch Clustering Koeffizient versteht man hier Wahrscheinlichkeit dass, zwei Knoten die mit gleichen Nachbar verlinkt sind auch eine gemeinsame kante haben. Das Modell wurde von Barabasi und Albert [4,?] erweitert. Die Haupt Idee von so genannte Preferential Attachment models ist, dass die neue knoten bevorzugen mit knoten die großen Grad haben verbunden zu werden. Das hilft kleinen clustering Koeffizient zu vermeiden. //Die verteilung in- und out degree des models verfolgt Zipfsches Gesetz. Die Beobachtung, dass die Verteilung von in- und out- degree nicht durchschnittlich gleich bei allen Knoten (wie es bei random model der fall )ist, hat neuen sieht auf web Graph erschafft. Die scale-free networks beschreiben Systemen, wo paar Hubs wie yahoo dominieren.[5] Die Wissenschaftler haben scale-free Struktur in vielen System wie z.b sexual Beziehungen eines Menschen, Users verbunden durch e-mails oder manchen social-netzwerken endeckt. Es gibt zwei Grunde aus welcher im früher vorgestellte random model die hubs nicht vorkommen. Erstens Erdős und Rényi sind in ihren Modell von einer festen Anzahl von knoten ausgegangen bevor überhaupt eine kante dazwischen gelegt wurde. Das widerspricht der dynamischer Natur des Internet die alles andere als statisch ist. Der zweite lag daran wie die Kante gelegt wurde. In Random model wird sie zufällig gelegt. In scal-free model dagegen, wird das Prinzip realisiert, dass nicht alle Knoten gleich sind. Menschen können bei verlinkung ihre Seiten aus paar Billionen Seiten wählen, meistens wählen aber populären Seiten, die einfacher zu finden sind. Interessanter weise die verlinkung tendiert zu linearen verlauf. Das bedeutet dass neuer Knoten wahrscheinlich mit einer Knoten verlinkt wird,der doppelt so viel kanten wie er hat. Durch dynamischer Wachstum und Preferential Attachment enstaht ein "rich get richer"phänomen bei Hubs. Die populären Seiten werden immer mehr verlinkt und immer mehr populär. Mit Rechner Simulationen wurde gezeigt [5],dass bei so gebauten Modellen, Die Verteilung in- und out degree die Zipfsches Gesetz verfolgt. Die - 5 -

random und scal-free modele unterscheiden sich auch bei Robustheit. Bei Ausfall einer kritischer Anzahl von Knoten brecht der random model in kleine nicht mit einander verbundene Insel. Die scal-free networks sind robuster, bei Ausfall von 80% zufällig gewählter Knoten behalten sie ihren konectivitat. Es heißt dass es immer noch möglich ist ein Pfad zwischen zwei beliebigen Knoten zu finden. Generell sind die Netze sehr robust, in jedem Moment hunderte von Routers fallen aus und trotzdem das Internet bricht nicht zusammen. Die Hub Topologie hat aber eine Sicherheit Schwachstelle. Wenn Ausfall von Knoten nicht mehr zufällig erfolgt nur gezielt auf hubs, wird die konektivitet des Netzs zerstört. Die Eliminierung von nur 5 bis 15% von wichtigen Hubs resultiert in einem System Zusammenbruch. Die Epidemilogisten und Markt Forscher haben eine kritische grenze festgelegt bei der Überschreitung die Viren die ganze Population oder System gafarden konnten. Pastor-Satorass und Vespigniani [5] haben raus gefunden, dass bei scale-free networks die kritische grenze gleich Null ist. Das ist der Grund warum sich Viren in so gebauten Netzen sehr schnell verbreiten. Die Schutz solchen Knoten von cyber Attacken ist also ein wichtiger Punkt. ( fur internet.) Die Random und scal-free modele sind in 2.4 graphisch dargestellt. 2.2 The Dynamics of the Web Viele durchgeführten Experimenten bestätigen dass, web eine komplexe dynamisch wachsende Struktur ist. Diese Dynamik ist ein Schwerpunkt für web crawler und betrifft sowohl Wachstum als auch Updates auf schon existierten Seiten. 2.2.1 Web Growth Dynamics [14, Huberman und Adamic] haben einen stochastischen dynamisch wachsendem Modell benutzt um die Wachstum des Internet zu beschreiben. Bei dem Prozess wird berücksichtigt dass, es im Internet vielen URL gibt die nur aus paar und ganz wenige die aus mehrere tausend Seiten bestehen. Es wurde gefunden dass, der Wachstum gemäß power low erfolgt. Power Low sollte nicht mit zipschen Gesetz verwechselt werden in dem die variablen in eine Rangfolge gebracht werden. Unter Berücksichtigung dieses Gesetz wird angenommen dass, die so genannte day-to-day fluctuations also Schwankung in Seiten Größe proportional zu dieser Seiten Größe ist. Es ist ganz normal dass, ein URL der aus 1 Millionen Seiten besteht am einen Tag um paar hunderte neue Seiten erweitert wird. Anderseits es ist ungewöhnlich dass kleine web Seite auf einem mal um tausende - 6 -

Seiten erweitert wird. Damit der Seiten Wachstum gemäß power low erfolgt werden zwei Faktoren in Betracht genommen. Und zwar dass die Seiten in verschiedenen zeit Intervallen und mit unterschiedlichen Wachstumsraten erzeugt werden. Die Kovarianz zwischen Seiten Zuwachs rate g und zeit t glich Null ist. Das heißt es besteht kein linearer Zusammenhang zwischen den beiden Variablen. Es ist also möglich in einem zeit Intervall eine große zahl von neue Seiten auf einem mal erzeugt wird. Die Anzahl der Seiten wachst exponential, was bedeutet dass es viel mehr junge Seiten als alte gibt. Unter Berücksichtigung diesen Faktoren wird ein universaler power law definiert die besagt dass die Wahrscheinlichkeit P (n) eine Seite mit große n zu finden proportional zu n β ist. Das vorgestellte Modell beschreibt aber nicht Wachstum der gesamter web. Die so genannte Deep Web also Teil des World Wide Webs der bei einer Recherche über Suchmaschinen nicht auffindbar ist wird nicht in dem Modell berücksichtigt. Laut Bright Planet[21] Studien dieser Untermenge ist 500 mal großer als der indexierbare teil des Internet und enthält ungefähr 7,500 Terabytes Informationen. 2.2.2 Document Update Dynamics - 7 -

2.3 Aspekte des Crawlens 2.3.1 Importnaz Metriken für Webseiten. Je nachdem welches Crawling ziel verfolgt wird, werden nicht alle URL s von gleicher Bedeutung für Crawling Prozess. Das wird besonders deutlich, wenn man Seiten sammeln will, die zu einem bestimmten Thema passen. In dem Fall, wäre natürlich besser, wenn man zuerst die Seiten bearbeitet die am besten gesuchtes Thema abdecken. Wir brauchen also ein Maß, die uns hilft Wichtigkeit eines URL zu bewerten. Generell kann man einen Crawler nach seiner Fähigkeit zum ausfinden guten Seiten evaluieren. Der Schwerpunkt liegt aber da dran wie man diese Seiten erkennt. Die ImportnazMetriken sollen, eine intelligente Antwort auf die Frage, welches URL als nächstes gecrawlt werden soll, liefern. Nach [12] iste eine metrik wie folgt definiert: Es sei X eine Menge. Eine Abbildung d : X X R + heisst Metrik auf X, falls folgende Eigenschaften erfüllt sind: (M 1 )d(x, y) = 0 x = y (M 2 )d(x, y) = d(y, x), x, y X(Symmetrie) (M 3 )d(x, y) d(x, z) + d(z, y), x, y, z X(Dreiecksungleichung) Die Metriken für Webseiten erfüllen oben angegebene Definition nur zum Teil. Denn eine Metrik für Webseiten, kann durchaus denselben Wert für zwei verschiedenen Webseite liefern. Nach Axiom M 1 mussten diese Seiten aber identisch sein. Das liegt vor allem daran, dass Metriken nur gewisse Aspekte einer Webseite messen. Es stellt sich die frage ob die für ein Dokument berechnete Metrik tatsächlich seine Qualität wieder spiegelt und wie man Qualität überhaupt definiert. Man kann die Qualität einer Seite als Aspekt der Relevanz Beurteilung ansehen.[2] Am besten sieht man es am Beispiel z.b studentisches Ausarbeitung und einem Werk von Shekspir. Die beiden konnten zwar relevant zum einem Thema sein, das Shekspir Werk hat aber anscheinend mehr Qualität. [16, Kleinberg] hat die Qualität eines web Dokument mit Benutzung von Autorität definiert. Wenn ein Dokument von anderem verlinkt wird heißt es das er eine gewisse Autorität besitzt. Diese Eigenschaft wird zusätzlich verstärkt, in dem man sagt dass nicht alle verweise gleicht sind. Im folgenden werden Methoden dargestellt die man verwendet um die Wichtigkeit I(P) einer Seite P zu messen. Man unterscheidet drei Typen von Relevanz Metriken: linksbassierte, inhaltsbassierte und eine Kombination aus die beiden. - 8 -

Popularitätsbasierte Metriken Intuitiv ist eine Seite die aus viele anderen Seiten verlinkt wird, wichtiger als Seite die weniger verlinkt ist. Man kann also die in-links Anzahl einer Seite als Maas für Wichtigkeit einer Seite benutzen. Die einfachste Variante dieser Metrik zahlt die Anzahl Backlinks einer Seite, je mehr eine verlinkt wird desto besser. Man kann die Backlinks als Art Zitierung betrachten. Die Metrik kann aber nur dann korrekt berechnet werden wenn man das ganze Web kennt. Um das Problem umzugehen, werden Heuristiken auf bereits gecrawlten Seiten angewendet. [16, Der Kleinberg] weist drauf hin, dass es viele Grunde geben kann aus den ein URL verlinkt wird.(zum Beispiel ein Werbebanner) Deswegen sind Metriken die nur auf Backlinks einer Seite aufbauen Problematisch. Ein Nachteil von Backlink Metrik ist, dass alle links gleich bewertet werden. Das heißt dass, ein URL verlinkt bei Yahoo gleich wertvoll dem Link einer private Seite ist. PageRank fuhrt eine Bewertung für Wichtigkeit der Seite die zusätzlich zum Backlink Metrik berechnet wird. [?, Brin und Page] haben PageRank als Modell für Surffverhalten eines zufälligen User vorgeschlagen. Nach dem Modell wird die Wichtigkeit einer Seite durch die Wahrscheinlichkeit, dass sich ein (Random) Surfer zu irgendeiner Zeit, zufällig auf dieser Seite befindet, repräsentiert. Die Bewertung einer Seite hängt rekursiv von Bewertungen aller Seiten, die auf sie zeigen ab. Der PageRank ist eine Art von Wahrscheinlichkeitsverteilung aller Webseiten, somit sollte unter Beachtung den Dampffaktor d die Summe aller PageRanks 1 werden. Das mathematische Modell von PageRank wird in Kapitel naher betrachtet. Interessenbasierte Metriken Die Häufigkeit mit der die definierten Schlüsselwörter in einem Dokument vorkommen kann als Wichtigkeit Maß einer Seite benutzt werden. [9, Cho und Page] Erforschen eine einfache Vorgehensweise in der, das vorkommen dieser Häufigkeit oberhalb einer bestimmten grenze ein ausreichender Maß für Relevanz einer Seite gibt. Oft wird die Relevanz einer Seite durch die similarität mit dem vom User angegebenen Query bestimmt. Die Information bedarf kann als kurze oder etwas längere Beschreibung formuliert werden. Der Crawling Prozess wird durch Query gesteuert, indem die Wichtigkeit durch textuelle similarität zwischen die Seite und Qury mit Anwendung von Vector Space Model berechnet wird. Die Methode wird in Shark-Search Algorithm benuzt [13] und liefert bessere Resultate als einfache Zeichen oder reguläre ausdrücken matching. Man kann auch die Seed benutzen, um die Relevanz die gecrawlten Seiten zu bestimmen. Die - 9 -

Themen spezifischen Dokumenten aus Seed, sind von menschlichen Experten gesammelt und beurteilt, besitzen also gewisse Qualität, die nur durch menschliche Beurteilung gewährleisten werden kann. Inhalte der Seed Seiten werden in einem Dokument zusammen gefasst (so genannte Centroid) und die Kosinus similarität zwischen gefundene Seite und dem Dokument wird als Relevanz Maß für die Seite berechnet.[2] Ein Classifier kann trainiert werden um die Seiten zu identifizieren die zum gesuchter Information relevant sind. Der Traning erfolgt in dem die Seed Seiten als positive Beispiele genommen werden. So geschulte Classifier liefert ein Relevanz Bewertung für jedes untersuchtes Dokument. [8] Bei interessenbasierten Metriken wird vor allem kritisiert, dass relevante Seiten nicht gefunden werden können, weil sie die Wörter eines Queries oder einer Hierarchie nicht verwenden.[16] Es kann auch andere Extremum vorkommen, dass auf einer irrelevanten Seite Wörter sehr häufig vorkommen, die in einem Query verwendet wurden. Ortsbasierte Metriken Die Wichtigkeit einer Seite kann auch als Funktion der Standort nicht der Inhalt gesehen werden. Die einfache URL Analyse kann zum Bewertung der Seite genutzt werden. Man kann z.b die URL anhand Anzahl die Slashs im Pfad verschieden stark gewichten. Verknüpfte Metriken Die vorgestellten metrikentypen konnten auch miteinander kombiniert werden.[3] M(S) = c 1 M I (S) + c 2 M P (S) + c 3 M O (S) wobei : M I (S) : Interessenbasierte Metrik einer Seite S M P (S) :Popularitätsbasierte Metriken einer Seite S M O (S) :Ortsbasierte Metrik einer Seite S c 1, c 2, c 3 : Konstanten, um die Metriken unterschiedlich stark zu gewichten 2.3.2 Crawler Modele Das ziel den man beim Entwurf eines Crawlers verfolgt ist, dass zuerst die Seiten besucht werden, die höchstens anhand gewählten Importanz Metrik, bewerten sind. Basierend auf der abgeschätzten Relevanz muss der Crawler raten welche Seite als nächste geholt wird. Das verhalten kann durch folgende Modelle dargestellt werden: - 10 -

Crawl & Stop Modell In diesem Konzept besucht der Crawler eine festgelegte Anzahl von K Seiten mit einer beliebigen Start-URL. Ein ideal funktionierender Crawler, hatte nach dem Besuch von K Seiten aus allen verfügbaren Seiten nur die K relevantesten extrahiert. Nach einem crawl hatten wir also R 1,..., R K Seiten wobei die R 1 höchsten bewertete Seite ist. Die K gefundenen Seiten beim echten Crawler enthalten aber nur M K Seiten mit Relevanz großer oder gleich R K.[3] Um M genau anzurechnen musste die Relevanz von allen Seiten bekannt sein. Man versucht dass Problem umzugehen in dem man sich z.b nur auf eine bestimmte Domäne beschränkt. Die Performance solcher Crawler C wäre dann P CS (C) = (M 100)/K. Crawl & Stop with Threshold Modell Hier wird vorgegangen wie bei der ersten Methode. Jedoch wird ein Qualitatskriterium G für das Crawlen vergeben. Jeder Seite mit Relevanz großer als G wird als gut für crawling bewertet. Angenommen ist H Anzahl aller Seiten mit Relevanz großer als G. Dann ist die Performance für den Cralwer P ST (C) gleich den prozentualen Seiten Anteil aus H die gefunden wurden. Für K besuchten Seiten lasst sich die Performance durch P ST (C) = (K 100)/H ausdrucken. - 11 -

Abbildung 2.1: In- and out-degree distributions show a remarkable similarity over two crawls, run in May and October 1999. Each crawl counts well over 1 billion distinct edges of the web graph - 12 -

Abbildung 2.2: Connectivity of the web: one can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE a passage from a portion of IN to a portion of OUT without touching SCC. - 13 -

Abbildung 2.3: Complete bipartite graph NK-clan with N=2, K=10 Abbildung 2.4: RANDOM VERSUS SCALE-FREE NETWORK - 14 -

3 Zusammenfassung - 15 -

A Quelltexte Listing A.1: Quelltext 1 Test 2 Sub w r i t e _ f i l e ( t e x t As String ) 3 Dim f i lesavename 4 filesavename = Application. GetSaveAsFilename ( ". prg ", _ 5 f i l e F i l t e r := "PRG F i l e s (. prg ),. prg " ) 6 I f f i l esavename <> F a l s e Then 7 Open f ilesavename For Output As #1 8 P r i n t #1, t e x t 9 Close #1 10 End I f 11 End Sub - 16 -

Literaturverzeichnis Die Literaturangaben sind alphabetisch nach den Namen der Autoren sortiert. Bei mehreren Autoren wird nach dem ersten Autor sortiert. Alle gekennzeichneten Webseiten sind auf dem Stand vom... zitiert worden. [1] Albert, R., H. Jeong und A.-L. Barabasi: Diameter of the World Wide Web. 1999. [2] Amento, Brian, Loren Terveen und Will Hill: Does Authority Mean Quality? Predicting Expert Quality Ratings of Web Documents. [3] ARASU, RVIND, JUNGHOO CHO, HECTOR GARCIA-MOLINA, AN- DREAS PAEPCKE und SRIRAM RAGHAVAN: Searching the Web. [4] Barabasi, A. und R. Albert: Emergence of scaling in random networks. 1999. [5] Barabási, Albert-László und ERIC BONABEAU: Scale-Free Networks. SCIENTIFIC AMERICAN, Seite 50, 2003. [6] Bharat, Krishna, Andrei Broder, Monika Henzinger, Puneet Kumar und Suresh Venkatasubramanian.: The Connectivity Server: fast access to linkage information on the Web. Computer Networks and ISDN Systems. 1998. [7] Broder1, Andrei, Ravi Kumar, Farzin Maghoul1, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins und Janet Wiener: Graph structure in the web. [8] Chakrabarti, S., M. van den Berg und B. Dom.: Focused crawling: a new approach to topic-specific Web resource discovery. [9] Cho, J., H. Garcia-Molina und L. Page: Efficient crawling through URL ordering. 1998. - 17 -

Literaturverzeichnis [10] Efe, Kemal, Vĳay Raghavan, C. Henry Chu, Adrienne L. Broadwater, Levant Bolelli und Seyda Ertekin: The Shape of the Web and Its Implications for Searching the Web. [11] Erdős, Paul und Alfréd Rényi: On random graphs. [12] H., Amann und Escher J.: Analysis 1. Birkhäuser, 1998. [13] Hersovici1, Michael, Michal Jacovi1 Yoelle S. Maarek1, Dan Pelleg Menachem Shtalhaim1 und Sigalit Ur: THE SHARK-SEARCH ALGO- RITHM. [14] Huberman, Bernardo A. und Lada A. Adamic: Evolutionary Dynamics of the World Wide Web. Xerox Palo Alto Research Center, February 1, 2008. [15] Irgendwer, Irgendwie: Test Buch2. [16] J., Kleinberg: Authoritative sources in a hyperlinked environment. 1998. [17] Kleinberg1, Jon M., Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan und Andrew S. Tomkins: The Web as a Graph: Measurements Models and Methods. [18] Kumar, R., P. Raghavan, S. Rajagopalan und A. Tomkins: Extracting large scale knowledge bases from the Web. 1999. [19] Murray, B. und A. Moore: Sizing the internet. Cyveillance, 2000. [20] Pant, Gautam, Padmini Srinivasan und Filippo Menczer: Crawling the Web. [21] Planet, Bright: The Deep Web: Surfacing Hidden Value. White Paper, 2000. [22] Randall, Keith, Raymie Stata, Rajiv Wickremesinghe und Janet L. Wiener: The link database: Fast access to graphs of the web. Compaq Systems Research Center, 2001. [23] S., BRIN und PAGE L.: The anatomy of a large-scale hypertextual Web search engine. 1998. [24] Terveen, Loren und Will Hill: Finding and Visualizing Inter-site Clan Graphs. - 18 -

Literaturverzeichnis [25] Watts, D. J. und S. H. Strogatz: Collective dynamics of small-world networks. Nature. 1998. [26] Wikipedia: http:// de.wikipedia.org/ wiki/ Zipfsches_Gesetz, 1998. - 19 -