Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider

Größe: px

Ab Seite anzeigen:

Download "Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider"

Andreas Kohler
vor 7 Jahren
Abrufe

1 Webspider Dr. Christian Herta June 11, von 14 Dr. Christian Herta Webspider

2 Referenz-Architektur: Mercator Referenz-Architektur: Webcrawler Mercator [2] modular und Komponenten-basiert, so wird die Anforderung extensible erfüllt. (separation of concern): unterschiedliche Aufgaben/Schritte werden von unterschiedlichen Modulen ausgeführt 2 von 14 Dr. Christian Herta Webspider

3 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 3 von 14 Dr. Christian Herta Webspider

4 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 von 14 Dr. Christian Herta Webspider

5 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 3 von 14 Dr. Christian Herta Webspider

6 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 3 von 14 Dr. Christian Herta Webspider

7 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 3 von 14 Dr. Christian Herta Webspider

8 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: 3 von 14 Dr. Christian Herta Webspider

9 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: Überprüfe die URL (nach Spam, regulären Ausdrücken etc.) 3 von 14 Dr. Christian Herta Webspider

10 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: Überprüfe die URL (nach Spam, regulären Ausdrücken etc.) Ist die URL schon in der Frontier 3 von 14 Dr. Christian Herta Webspider

11 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: Überprüfe die URL (nach Spam, regulären Ausdrücken etc.) Ist die URL schon in der Frontier Gebe die URL der Frontier, wenn Kriterien (siehe oben) dies erlauben 3 von 14 Dr. Christian Herta Webspider

12 Basic crawl architecture [1] www DNS fetch parse doc FPs content seen? robots templates URL lter URL set dup URL elim URL frontier 4 von 14 Dr. Christian Herta Webspider

13 Komponenten eines Webcrawlers DNS Resolver: zugrundeliegende Netzwerk-Schicht TCP benötigt IP-Adresse - nicht Hostnamen Fetcher: Modul zum Holen der Seiten über das Netzwerk Link Extractor: Extrahieren der Link-URIs aus dem geholten Dokument URL Filter: Auslteren von URIs, z.b. nach robots.txt und regulären Ausdrücken Duplicate Detector: Duplikate erkennen URL Frontier zum Speichern der URL-Liste die heruntergeladen werden soll; Auswahl der URLs nach Priorität 5 von 14 Dr. Christian Herta Webspider

14 URL Normalisierung Denition: URL-Nomalisierung Unter URL Normalisierung versteht man die Transformation einer URL in eine kanonische Form. Beispiele für die Normalisierung: für relative URLs z.b. auf der Domain gibt es relative Angabe /home.html entspricht Lowercasing; folgende URLs sind äquivalent Entfernen von Session IDs aus der URL 6 von 14 Dr. Christian Herta Webspider

15 Duplikate Content seen Für jede Seite muss überprüft werden, ob der (fast) gleiche Inhalt nicht schon auf einer anderen Seite gefunden wurde Volle Duplikate: Dokument-Fingerprint (Hash-Code) Fast Duplikate (near duplicates): Shingles Überspringe Duplikate 7 von 14 Dr. Christian Herta Webspider

16 Frontier Komponente Begri In der Frontier stehen die extrahierten URLs, die gecrawled werden sollen Synonym: (logische) request queue 8 von 14 Dr. Christian Herta Webspider

17 Aufgabe der Frontier Auswahl der URIs, die als nächstes gespidert werden sollen, unter Berücksichtigung verschiedener Kriterien: politeness policies: Auswahl der URIs nach Wichtigkeit, idealerweise bevorzugt Seiten mit höherer Qualität bei incrementellem Spidern: gewährleisten der Aktualität der Web-Seiten - update Raten der Webseiten Auslasten aller Threads 9 von 14 Dr. Christian Herta Webspider

18 Mercator URL Frontier [1][2] Prioritizer 1 2 F F front queues Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

19 Mercator URL Frontier [1][2] Prioritizer 1 2 F URLs ow in from the top into the frontier. F front queues Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

20 Mercator URL Frontier [1][2] Prioritizer 1 2 F URLs ow in from the top into the frontier. Front queues manage prioritization. F front queues Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

21 Mercator URL Frontier [1][2] Prioritizer 1 2 F F front queues URLs ow in from the top into the frontier. Front queues manage prioritization. Back queues enforce politness. Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

22 Mercator URL Frontier [1][2] Prioritizer 1 2 F F front queues URLs ow in from the top into the frontier. Front queues manage prioritization. Back queues enforce politness. Each queue is FIFO. Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

23 Architektur von Mercator [2] 11 von 14 Dr. Christian Herta Webspider

24 Verteilter Crawler Um einen groÿen Anteil des Internets (in vertretbarer Zeit) zu spidern, ist eine Verteilung des Crawlers auf mehrere Maschinen unumgänglich Partitionierung über Hash auf Hostname Kommunikation zwischen Maschinen nötig, damit die zu crawlenden URLs verteilt werden 12 von 14 Dr. Christian Herta Webspider

25 Distributed crawler [1] www DNS fetch parse doc FPs to other nodes URL set dup content URL host seen? lter splitter URL elim URL frontier from other nodes 13 von 14 Dr. Christian Herta Webspider

26 Open Source Spider nutch grub (grub.org) Heritrix Apache Droids Aperture 14 von 14 Dr. Christian Herta Webspider

27 H. S. Christopher Manning, P. Raghavan. Introduction to Information Retrieval. Cambridge, A. Heydon and M. Najork. Mercator: A scalable, extensible web crawler. World Wide Web, 2(4):219229, von 14 Dr. Christian Herta Webspider

Ähnliche Dokumente

Information-Retrieval: Web-Retrieval

Information-Retrieval: Web-Retrieval Claes Neuefeind Fabian Steeg 21. Januar 2010 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell