Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider

Größe: px
Ab Seite anzeigen:

Download "Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider"

Transkript

1 Webspider Dr. Christian Herta June 11, von 14 Dr. Christian Herta Webspider

2 Referenz-Architektur: Mercator Referenz-Architektur: Webcrawler Mercator [2] modular und Komponenten-basiert, so wird die Anforderung extensible erfüllt. (separation of concern): unterschiedliche Aufgaben/Schritte werden von unterschiedlichen Modulen ausgeführt 2 von 14 Dr. Christian Herta Webspider

3 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 3 von 14 Dr. Christian Herta Webspider

4 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 von 14 Dr. Christian Herta Webspider

5 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 3 von 14 Dr. Christian Herta Webspider

6 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 3 von 14 Dr. Christian Herta Webspider

7 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 3 von 14 Dr. Christian Herta Webspider

8 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: 3 von 14 Dr. Christian Herta Webspider

9 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: Überprüfe die URL (nach Spam, regulären Ausdrücken etc.) 3 von 14 Dr. Christian Herta Webspider

10 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: Überprüfe die URL (nach Spam, regulären Ausdrücken etc.) Ist die URL schon in der Frontier 3 von 14 Dr. Christian Herta Webspider

11 Schritte beim Spidern 1 Nehme die "nächste" URL aus der Frontier 2 Hole (Fetch) das Dokument zu der URL aus dem Netz 3 Überprüfe, ob der Inhalt des Dokuments schon "gesehen" wurde; falls ja, überspringe die folgenden Schritte 4 Speichere das Dokument zur weiteren Verarbeitung 5 Parse das Dokument und extrahiere alle URLs 6 für jede extrahierte URL: Überprüfe die URL (nach Spam, regulären Ausdrücken etc.) Ist die URL schon in der Frontier Gebe die URL der Frontier, wenn Kriterien (siehe oben) dies erlauben 3 von 14 Dr. Christian Herta Webspider

12 Basic crawl architecture [1] www DNS fetch parse doc FPs content seen? robots templates URL lter URL set dup URL elim URL frontier 4 von 14 Dr. Christian Herta Webspider

13 Komponenten eines Webcrawlers DNS Resolver: zugrundeliegende Netzwerk-Schicht TCP benötigt IP-Adresse - nicht Hostnamen Fetcher: Modul zum Holen der Seiten über das Netzwerk Link Extractor: Extrahieren der Link-URIs aus dem geholten Dokument URL Filter: Auslteren von URIs, z.b. nach robots.txt und regulären Ausdrücken Duplicate Detector: Duplikate erkennen URL Frontier zum Speichern der URL-Liste die heruntergeladen werden soll; Auswahl der URLs nach Priorität 5 von 14 Dr. Christian Herta Webspider

14 URL Normalisierung Denition: URL-Nomalisierung Unter URL Normalisierung versteht man die Transformation einer URL in eine kanonische Form. Beispiele für die Normalisierung: für relative URLs z.b. auf der Domain gibt es relative Angabe /home.html entspricht Lowercasing; folgende URLs sind äquivalent Entfernen von Session IDs aus der URL 6 von 14 Dr. Christian Herta Webspider

15 Duplikate Content seen Für jede Seite muss überprüft werden, ob der (fast) gleiche Inhalt nicht schon auf einer anderen Seite gefunden wurde Volle Duplikate: Dokument-Fingerprint (Hash-Code) Fast Duplikate (near duplicates): Shingles Überspringe Duplikate 7 von 14 Dr. Christian Herta Webspider

16 Frontier Komponente Begri In der Frontier stehen die extrahierten URLs, die gecrawled werden sollen Synonym: (logische) request queue 8 von 14 Dr. Christian Herta Webspider

17 Aufgabe der Frontier Auswahl der URIs, die als nächstes gespidert werden sollen, unter Berücksichtigung verschiedener Kriterien: politeness policies: Auswahl der URIs nach Wichtigkeit, idealerweise bevorzugt Seiten mit höherer Qualität bei incrementellem Spidern: gewährleisten der Aktualität der Web-Seiten - update Raten der Webseiten Auslasten aller Threads 9 von 14 Dr. Christian Herta Webspider

18 Mercator URL Frontier [1][2] Prioritizer 1 2 F F front queues Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

19 Mercator URL Frontier [1][2] Prioritizer 1 2 F URLs ow in from the top into the frontier. F front queues Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

20 Mercator URL Frontier [1][2] Prioritizer 1 2 F URLs ow in from the top into the frontier. Front queues manage prioritization. F front queues Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

21 Mercator URL Frontier [1][2] Prioritizer 1 2 F F front queues URLs ow in from the top into the frontier. Front queues manage prioritization. Back queues enforce politness. Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

22 Mercator URL Frontier [1][2] Prioritizer 1 2 F F front queues URLs ow in from the top into the frontier. Front queues manage prioritization. Back queues enforce politness. Each queue is FIFO. Biased front queue selector Back queue router 3 B back queues Single host on each 1 2 B 3 3 Back queue selector Heap 10 von 14 Dr. Christian Herta Webspider

23 Architektur von Mercator [2] 11 von 14 Dr. Christian Herta Webspider

24 Verteilter Crawler Um einen groÿen Anteil des Internets (in vertretbarer Zeit) zu spidern, ist eine Verteilung des Crawlers auf mehrere Maschinen unumgänglich Partitionierung über Hash auf Hostname Kommunikation zwischen Maschinen nötig, damit die zu crawlenden URLs verteilt werden 12 von 14 Dr. Christian Herta Webspider

25 Distributed crawler [1] www DNS fetch parse doc FPs to other nodes URL set dup content URL host seen? lter splitter URL elim URL frontier from other nodes 13 von 14 Dr. Christian Herta Webspider

26 Open Source Spider nutch grub (grub.org) Heritrix Apache Droids Aperture 14 von 14 Dr. Christian Herta Webspider

27 H. S. Christopher Manning, P. Raghavan. Introduction to Information Retrieval. Cambridge, A. Heydon and M. Najork. Mercator: A scalable, extensible web crawler. World Wide Web, 2(4):219229, von 14 Dr. Christian Herta Webspider

Information-Retrieval: Web-Retrieval

Information-Retrieval: Web-Retrieval Information-Retrieval: Web-Retrieval Claes Neuefeind Fabian Steeg 21. Januar 2010 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 Prof. Dr. Gerd Stumme, Wi.-Inf. Beate Krause 08. Juli 2009 1 Metasuchmaschinen Eine Metasuchmaschine ist eine Suchmaschine, die die

Mehr

6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen

6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen 6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, MSc. Wi-Inf. Beate Krause 10. Januar 2008 1 Metasuchmaschinen Eine

Mehr

Einführung in Webspider

Einführung in Webspider Einführung in Webspider Dr. Christian Herta June 8, 2009 1 von 31 Dr. Christian Herta Einführung in Webspider Outline 1 Einführung 2 Anforderungen Robustness Politeness and Legal Issues Quality and Coverage

Mehr

Web Crawling Die Erschließung des Webs

Web Crawling Die Erschließung des Webs Web Crawling Die Erschließung des Webs Ronny Harbich Otto-von-Guericke-Universität 5. Dezember 2007 1/24 Ronny Harbich Web Crawling Die Erschließung des Webs Übersicht 1 2 3 4 2/24 Ronny Harbich Web Crawling

Mehr

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Themen der

Mehr

Web Connector. Installation und Konfiguration. Version 2016 Fall Release

Web Connector. Installation und Konfiguration. Version 2016 Fall Release Web Connector Installation und Konfiguration Version 2016 Fall Release Status: 10. Jänner 2017 Copyright Mindbreeze GmbH, A-4020 Linz, 2017. Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

6. Suche im World Wide Web

6. Suche im World Wide Web 6. Suche im World Wide Web Motivation Suche im World Wide Web ist heute eine der populärsten Anwendungen von Methoden des Information Retrievals Suchmaschinen (z.b. Altavista, Excite) in den frühen 1990ern

Mehr

Kapitel 9 Architektur eines Retrievalsystems

Kapitel 9 Architektur eines Retrievalsystems Kapitel 9 Architektur eines Retrievalsystems HHU Düsseldorf, WS 2008/09 Information Retrieval 138 HHU Düsseldorf, WS 2008/09 Information Retrieval 139 Zeichensätze ASCII 7-bit-Code (128 Zeichen) 1000111111001011101011100101111001111100110100000100

Mehr

Einführung. Internet vs. WWW

Einführung. Internet vs. WWW Einführung Bernhard Plattner 1-1 Internet vs. WWW "the Internet is the entirety of all computers which are interconnected (using various physical networking technologies) and employ the Internet protocol

Mehr

Evaluierung von Suchmaschinen-Software

Evaluierung von Suchmaschinen-Software Vortrag zur Diplomarbeit Evaluierung von Suchmaschinen-Software 8. Juni 2006 Thimo Eichstädt T. Eichstädt 8. Juni 2006 Folie 1 Eine kurze Einleitung Aufgabenstellung Evaluierung von fünf Suchmaschinen-Programmen

Mehr

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung Webcrawler Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung Inhalt Einführung: Definition Verwendung von Web Crawlers Probleme von Crawling Robots Exclusion: Robots.txt Robots

Mehr

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006 Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.

Mehr

Google Search Appliance Feed Indizierung mit Mindbreeze InSpire

Google Search Appliance Feed Indizierung mit Mindbreeze InSpire Google Search Appliance Feed Indizierung mit Mindbreeze InSpire Konfiguration und Indizierung Version 2016 Fall Release Status: 23. September 2016 Copyright Mindbreeze GmbH, A-4020 Linz, 2017. Alle Rechte

Mehr

JiveSoftware Jive Connector

JiveSoftware Jive Connector JiveSoftware Jive Connector Installation und Konfiguration Version 2017 Summer Release Status: 5. Oktober 2017 Copyright Mindbreeze GmbH, A-4020 Linz, 2017. Alle Rechte vorbehalten. Alle verwendeten Hard-

Mehr

Sicherheit von Webapplikationen Sichere Web-Anwendungen

Sicherheit von Webapplikationen Sichere Web-Anwendungen Sicherheit von Webapplikationen Sichere Web-Anwendungen Daniel Szameitat Agenda 2 Web Technologien l HTTP(Hypertext Transfer Protocol): zustandsloses Protokoll über TCP auf Port 80 HTTPS Verschlüsselt

Mehr

Ontologiegestützte Suche in unstrukturierten Daten

Ontologiegestützte Suche in unstrukturierten Daten Ontologiegestützte Suche in unstrukturierten Daten Veranstalter: Prof. Dr. Lausen Betreuer: Kai Simon, Thomas Hornung (Team) Projekt Anforderungen Bachelor (6 ECTS) [entsprechen 180 Stunden] Softwareentwicklung

Mehr

Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page

Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page Heinrich-Heine Universität Düsseldorf Informationswissenschaft Professor Stock Sommersemster 2004 Daniel Ritter Übersicht 1. Was ist ein

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer World Wide Web 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt.

Mehr

Systeme II 13. Woche Data Centers und Verteiltes Hashing

Systeme II 13. Woche Data Centers und Verteiltes Hashing Systeme II 13. Woche Data Centers und Verteiltes Hashing Christian Schindelhauer Technische Fakultät Rechnernetze und Telematik Albert-Ludwigs-Universität Freiburg World Wide Web Client-Server-Architektur

Mehr

Hypertext Transfer Protocol

Hypertext Transfer Protocol Ingo Blechschmidt LUGA 6. Juli 2005 Inhalt 1 Geschichte Verwendung von HTTP 2 Typischer Ablauf Request-Methoden Header-Felder Keep-Alive 3 Nutzen von Proxies Proxies bei HTTP CONNECT-Methode

Mehr

Web Grundlagen zum Spidering

Web Grundlagen zum Spidering May 22, 2009 Outline Adressierung 1 Adressierung 2 3 4 Uniform Resource Locator URL Jede Seite im Internet wird eindeutig über eine URL identiziert, z.b. http://www.christianherta.de/informationretrieval/index.html

Mehr

Einrichten von Internet Firewalls

Einrichten von Internet Firewalls Einrichten von Internet Firewalls Sicherheit im Internet gewährleisten D. Brend Chapman & Elizabeth Zwicky Deutsche Übersetzung von Katja Karsunke & Thomas Merz i O'REILLY Cambridge Köln Paris Sebastopol

Mehr

(Software) Architektur der Dinge. Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT

(Software) Architektur der Dinge. Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT (Software) Architektur der Dinge Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT Hardware Mainframe Speichersysteme Rechner Kopplung Zentralisierung Anwendungsprogramme Software

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Uwe Dick Paul Prasse Michael Großhans World Wide Web 1990 am CERN von Tim Berners Lee

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Paul Prasse Michael Großhans World Wide Web 1990 am CERN von Tim Berners Lee zum besseren

Mehr

Hochverteilte Datenhaltung im Internet

Hochverteilte Datenhaltung im Internet Hochverteilte Datenhaltung im Internet Fachseminar Verteilte Systeme 11. Juni 2002, Nicolas Burri Betreuung: M. Langheinrich Seminar-Leitung: Prof. F. Mattern Um was geht es? Napster? Gnutella? Edonkey2000?

Mehr

When your browser turns against you Stealing local files

When your browser turns against you Stealing local files Information Security When your browser turns against you Stealing local files Eine Präsentation von Alexander Inführ whoami Alexander Inführ Information Security FH. St Pölten Internet Explorer Tester

Mehr

HTTP. Arthur Zaczek. Aug 2015

HTTP. Arthur Zaczek. Aug 2015 Arthur Zaczek Aug 2015 1 Einleitung 1.1 Definition Das Hypertext Transfer Protocol (HTTP, dt. Hypertext-Übertragungsprotokoll) ist ein Protokoll zur Übertragung von Daten über ein Netzwerk. Es wird hauptsächlich

Mehr

Suchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012

Suchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012 Suchen und Finden mit Lucene und Solr Florian Hopf 04.07.2012 http://techcrunch.com/2010/08/04/schmidt-data/ Suche Go Suche Go Ergebnis 1 In Ergebnis 1 taucht der Suchbegriff auf... Ergebnis 2 In Ergebnis

Mehr

HTTrack2WARC. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart

HTTrack2WARC. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart HTTrack2WARC Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart 1 Inhalt Datenformat von Webarchiven WARC (Webarchive File Format) Konzept HTTrack to - WARC Erste

Mehr

Hermann von Helmholtz-Zentrum für Kulturtechnik Übung: Multimedia-Anwendungen in den Wissenschaften. Tutorium. Web-Publishing. 15.

Hermann von Helmholtz-Zentrum für Kulturtechnik Übung: Multimedia-Anwendungen in den Wissenschaften. Tutorium. Web-Publishing. 15. Tutorium Web-Publishing 15. Dezember 2003 Programm Funktionen und Nutzung eines Web-Browsers (am Beispiel des Mozilla Navigator) Web-Dokumente erstellen (mit dem Mozilla Composer) Was macht ein Web-Browser

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Crawler Approaches and Technology

Crawler Approaches and Technology Übungsarbeit Information Search and Retrieval Technische Universität Graz WS 2010 Crawler Approaches and Technology Karl Kappaun Karl.kappaun@student.tugraz.at Tomislav Maricic t.maricic@student.tugraz.at

Mehr

Seminar Peer-to-Peer Netzwerke 06/07

Seminar Peer-to-Peer Netzwerke 06/07 YaCy: P2P Web-Suchmaschine Seminar Peer-to-Peer Netzwerke 06/07 Lehrstuhl für Rechnernetze und Telematik Albert-Ludwigs-Universität Freiburg Fakultät für Angewandte Wissenschaften Daniel Rebei daniel@rebei.de

Mehr

Seminar: Innovative Netztechnologien

Seminar: Innovative Netztechnologien Seminar: Innovative Netztechnologien Content Distribution Networks Andreas Siemer 06/2002 1 Inhalt 1. Content Networking 2. 3. Akamai 2 Begriffe: Content Networking Inhalt (Content) im Internet verfügbare

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Peter Haider Paul Prasse WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf

Mehr

Überblick über das Oracle Internet File System. PEGAS systemhaus 2001 PEGAS Firmenpräsentation

Überblick über das Oracle Internet File System. PEGAS systemhaus 2001 PEGAS Firmenpräsentation Überblick über das Oracle Internet File System Seite 1 - Oktober 2001 Name: Über PEGAS... PEGAS systemhaus gmbh Adresse: Rudolf-Diesel-Str. 1 82166 Gräfelfing/München Germany Telefon: +49 (089) 898157

Mehr

Context-adaptation based on Ontologies and Spreading Activation

Context-adaptation based on Ontologies and Spreading Activation -1- Context-adaptation based on Ontologies and Spreading Activation ABIS 2007, Halle, 24.09.07 {hussein,westheide,ziegler}@interactivesystems.info -2- Context Adaptation in Spreadr Pubs near my location

Mehr

Stand der Entwicklung von Shibboleth 2

Stand der Entwicklung von Shibboleth 2 Stand der Entwicklung von Shibboleth 2 5. Shibboleth-Workshop Berlin, 17. Oktober 2007 Bernd Oberknapp Universitätsbibliothek Freiburg E-Mail: bo@ub.uni-freiburg.de Übersicht Offizieller Status Kommunikation

Mehr

Situation-Adaptive Multimodal Dialogue Platform. Übersicht

Situation-Adaptive Multimodal Dialogue Platform. Übersicht S am Situation-Adaptive Multimodal Dialogue Platform Übersicht Multimodal Dialog System Multimodal Unterstützung verschiedenster Eingabe- und Ausgabekanäle, sowohl alternativ als auch kombiniert What is

Mehr

Loslegen mit Contrexx: In 10 Schritten zur professionellen Webseite.

Loslegen mit Contrexx: In 10 Schritten zur professionellen Webseite. Loslegen mit Contrexx: In 10 Schritten zur professionellen Webseite. Autor: Nicolas Müller Juli 2012 www.contrexx.com 1 Einleitung Diese Anleitung soll Ihnen helfen eine professionelle Webseite zu erstellen

Mehr

Webarchivierung im BSZ. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Göppingen, 2. Mai 2012

Webarchivierung im BSZ. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Göppingen, 2. Mai 2012 Webarchivierung im BSZ Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Göppingen, 2. Mai 2012 Inhalt Webarchivierung im BSZ als Teil der Langzeitarchivierung mittels SWBcontent SWBcontent

Mehr

Modul Software Komponenten 01 Komponenten

Modul Software Komponenten 01 Komponenten Modul Software Komponenten 01 Komponenten Martin Jud Inhalt 1. Begriff 2. Bedeutung 3. Nutzen 4. Entwurf mit Komponenten HSLU T&A, 14.09.2008 Modul SWK - 01-Komponenten - Martin Jud 2 1. Begriff Definition

Mehr

Websites optimieren für Google & Co.

Websites optimieren für Google & Co. Sebastian Röring Websites optimieren für Google & Co. schnell+kompakt Suchmaschinen link zu meiner Seite Diesen

Mehr

DEUTSU. SO01 WaYo Massivholz solid wood Esstisch dining table. Produkt Datenblatt product datasheet. Designer : Ulrich Bähring, Björn Bertheau

DEUTSU. SO01 WaYo Massivholz solid wood Esstisch dining table. Produkt Datenblatt product datasheet. Designer : Ulrich Bähring, Björn Bertheau EUTSU Produkt atenblatt SO01 WaYo Massivholz solid wood Esstisch dining table esigner : Ulrich Bähring, Björn Bertheau WaYo steht im japanischen für japanische und westliche Einflüsse. Es vereint die unterschiedlichen

Mehr

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche Spiders (Roboters/Bots/Crawlers) Websuche Spidering Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Websuche Spidering 1

Websuche Spidering 1 Websuche Spidering 1 Spiders (Roboters/Bots/Crawlers) Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

MoNav & OSRM Ein Jahr später

MoNav & OSRM Ein Jahr später Christian Vetter & Dennis Luxen 1 Dennis Luxen & Christian Vetter: Nokia Gate5 GmbH & Karlsruhe nokia.com Institute of & Technology kit.edu -Part I- MoNav 2 Dennis Luxen & Christian Vetter: Was ist MoNav?

Mehr

Benennung und Identifizierung von Ressourcen im verteilten System. Abbildung der Namen auf die dahinter stehenden Objekte

Benennung und Identifizierung von Ressourcen im verteilten System. Abbildung der Namen auf die dahinter stehenden Objekte Namen und Adressen Motivation Benennung und Identifizierung von Ressourcen im verteilten System Rechenknoten (Domain Name) Ports (Service Name) Objekte (Object ID) Dateien (File Name) Benutzer (UID) Webseiten

Mehr

Internet-Blocking: Was ist technisch möglich?

Internet-Blocking: Was ist technisch möglich? Fakultät Informatik, Institut für Systemarchitektur, Professur Datenschutz und Datensicherheit Internet-Blocking: Was ist technisch möglich? Stefan Köpsell, sk13@inf.tu-dresden.de Das Internet eine historische

Mehr

Websuche Spidering 1

Websuche Spidering 1 Websuche Spidering 1 Spiders (Roboters/Bots/Crawlers) Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

OpenStack in der Praxis

OpenStack in der Praxis OpenStack in der Praxis B1 Systems GmbH http://www.b1-systems.de c B1 Systems GmbH 2004 2012 Chapter -1, Slide 1 OpenStack in der Praxis Agenda c B1 Systems GmbH 2004 2012 Chapter 0, Slide 1 Agenda Cloud-Definition

Mehr

Einführung. Übersicht

Einführung. Übersicht Einführung Erik Wilde TIK ETH Zürich Sommersemester 2001 Übersicht Durchführung der Veranstaltung Termine (Vorlesung und Übung) Bereitstellung von Informationen Einführung Internet Internet als Transportinfrastruktur

Mehr

Oracle Weblogic Administration Grundlagen

Oracle Weblogic Administration Grundlagen Oracle Weblogic Administration Grundlagen Seminarunterlage Version: 1.12 Version 1.12 vom 15. Juni 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

iport iport Systemarchitektur und Administration Marco Ledwon Verbundzentrale des GBV VZG

iport iport Systemarchitektur und Administration Marco Ledwon Verbundzentrale des GBV VZG iport Systemarchitektur und Administration Marco Ledwon Verbundzentrale des GBV 1 System Architektur iport wurde für UNIX-Betriebssysteme entwickelt (Linux,, Solaris, OSF) Technisch besteht iport aus einem

Mehr

7. OSI-Modell als Rollenspiel

7. OSI-Modell als Rollenspiel 7.1 Rollen Mit Hilfe eines Rollenspiels soll der gesamte Ablauf der Anfrage einer Webseite bei einem Web-Server dargestellt werden. An einer Web-Anfrage sind folgende Rollen beteiligt: 1. User 2. Browser

Mehr

SWBregio. Handreichung. (Stand: )

SWBregio. Handreichung. (Stand: ) SWBregio Handreichung (Stand: 10.06.2016) Suche Suchen + Browsen: ohne Login Editieren: mit Login Suche: links- + rechts trunkiert 2 Erweiterte Suche Einfach ausprobieren! 3 Browsen Liste der Dokumentarten

Mehr

Web Solutions for Livelink

Web Solutions for Livelink Web Solutions for Livelink Current Status and Roadmap (Stand: September 2007) 2007 RedDot Solutions Web Solutions für Open Text Livelink ES Integrate Nahtlose Integration mit dem Livelink Enterprise Server

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Übung - Mit Wireshark eine UDP-DNS-Aufzeichnung untersuchen

Übung - Mit Wireshark eine UDP-DNS-Aufzeichnung untersuchen Übung - Mit Wireshark eine UDP-DNS-Aufzeichnung untersuchen Topologie Lernziele Teil 1: Wireshark für das Erfassen von Paketen vorbereiten Auswahl einer geeigneten Netzwerk-Schnittstelle, um Pakete zu

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,

Mehr

Installation des CMS-Systems Contao auf einem Windows-Rechner mit XAMPP

Installation des CMS-Systems Contao auf einem Windows-Rechner mit XAMPP XAMPP Installation des CMS-Systems Contao auf einem Windows-Rechner mit XAMPP XAMPP ist eine vollständig kostenlose, leicht zu installierende Apache-Distribution, die MySQL, PHP und Perl enthält. Das XAMPP

Mehr

Botnetz DoS & DDoS. Botnetze und DDoS. Ioannis Chalkias, Thomas Emeder, Adem Pokvic

Botnetz DoS & DDoS. Botnetze und DDoS. Ioannis Chalkias, Thomas Emeder, Adem Pokvic Ioannis Chalkias Thomas Emeder Adem Pokvic Gliederung 1 Botnetz Aufbau eines Botnetzes I Der Bot Der Bot-Master Funktionsweise Zweck eines Botnetze I Zweck eines Botnetze II Arten I Arten II Botnetz Beispiele

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

Trend Micro: Total Web Threat Protection

Trend Micro: Total Web Threat Protection Trend Micro: Total Web Threat Protection Trend Micro: Total Web Threat Protection Johannes Komarek Sales Engineer Agenda Die Bedrohungslandschaft im Wandel der Zeiten Beispiel für eine Internet-Bedrohung:

Mehr

Form und Darstellung von Informationen

Form und Darstellung von Informationen Form und Darstellung von Informationen 1. Computermetaphern 2. Beschreibungssprachen für Texte 3. Grammatiken zur Beschreibung syntaktischer Strukturen 4. Beispiel einer Textbeschreibungssprache: HTML

Mehr

1 Änderungen bei Windows Server 2008 R2

1 Änderungen bei Windows Server 2008 R2 1 Änderungen bei Windows Server 2008 R2 1.1 Der BranchCache Eine völlig neue Möglichkeit, auf Ressourcen zuzugreifen, bietet der BranchCache. In vielen Firmen gibt es Zweigstellen, die mit der Hauptstelle

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Einführung in Apache Solr

Einführung in Apache Solr Einführung in Apache Solr Markus Klose & Daniel Wrigley O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo Inhalt Vorwort IX Einleitung XI 1 Schnelleinstieg in Solr 1 Was ist Solr? 1 Was ist Lucene?

Mehr

Automatische Identifikation relevanter Domains zur Web-Archivierung

Automatische Identifikation relevanter Domains zur Web-Archivierung Technical Report KN 2014 DISY 01 Automatische Identifikation relevanter Domains zur Web-Archivierung Thomas Zink Oliver Haase Marcel Waldvogel Lehrstuhl Software Engineering und Verteilte System Hochschule

Mehr

Rangierungsprizipien 1bei Suchsystemen

Rangierungsprizipien 1bei Suchsystemen Rangierungsprizipien 1bei Suchsystemen Rangierungsprinzip 1 Je mehr Suchbegriffe in einem Dokument vorkommen, desto wahrscheinlicher ist das Dokument relevant. Rangierungsprinzip 2 Je häufiger ein Suchbegriff

Mehr

Einrichten einer Serverumgebung

Einrichten einer Serverumgebung Staatliche Fachschule für Mechatronik- und Elektrotechnik Einrichten einer Serverumgebung von Voit Alexander, Wagemann Andreas 4. April 2018 Staatliche Fachschule für Mechatronik- und Elektrotechnik Betreuer:

Mehr

David Mika. Donnerstag, den 15. März 2012. Verein zur Förderung der privaten Internet Nutzung e.v. Suchen und Finden im Internet. david@ping.

David Mika. Donnerstag, den 15. März 2012. Verein zur Förderung der privaten Internet Nutzung e.v. Suchen und Finden im Internet. david@ping. Suchen im David Mika Verein zur Förderung der privaten Nutzung e.v. Donnerstag, den 15. März 2012 Themenüberblick 1 2 3 4 5 6 Informationsflut im Jeder kann schnell und einfach Dokumente publizieren Aktuell

Mehr

Funktion USG 100 USG 200. Anzahl MAC Adressen 5 6. Flash size 256 256. DRAM size 256 256. Max. Anzahl VLAN Interface 32 32

Funktion USG 100 USG 200. Anzahl MAC Adressen 5 6. Flash size 256 256. DRAM size 256 256. Max. Anzahl VLAN Interface 32 32 Funktion USG 100 USG 200 Anzahl MAC Adressen 5 6 Flash size 256 256 DRAM size 256 256 Max. Anzahl VLAN Interface 32 32 Max. Anzahl Virtual (alias) Interface 4 pro Interface 4 pro Interface Max. Anzahl

Mehr

Vorlesung SS 2001: Sicherheit in offenen Netzen

Vorlesung SS 2001: Sicherheit in offenen Netzen Vorlesung SS 2001: Sicherheit in offenen Netzen 2.6 Internet Domain Name Service - DNS Prof. Dr. Christoph Meinel Informatik, Universität Trier & Institut für Telematik, Trier Prof. Dr. sc. nat. Christoph

Mehr

Sicherheitslücken in Webanwendungen -

Sicherheitslücken in Webanwendungen - Manuel Ziegler Web Hacking Sicherheitslücken in Webanwendungen - Lösungswege für Entwickler Mit Playground im Internet HANSER Vorwort IX 1 Sicherheitsprobleme im Internet und deren Folgen 1 1.1 Sicherheitsprobleme

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Eine Untersuchung der Funktionen des Apache Wicket Webframeworks

Eine Untersuchung der Funktionen des Apache Wicket Webframeworks Eine Untersuchung der Funktionen des Apache Wicket Webframeworks Seminararbeit von Olaf Matticzk 1 15.01.2016 (c) by synaix 2016 synaix...your business as a service. Agenda 1. Einleitung 2. Webanwendungen

Mehr

yasxtouch Firmware Update

yasxtouch Firmware Update Inhaltsverzeichnis /Content Inhalt Inhaltsverzeichnis /Content... 1 1. Funktionsweise / Functionality... 2 2. Speichern der Einstellungen / Backup Settings... 2 2.1 Anmelden am Serveradmin / Login Serveradmin...

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEM = Search Engine Marketing SEA SEO Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

Microservice-Architektur am Beispiel mobiler Anwendungen

Microservice-Architektur am Beispiel mobiler Anwendungen Microservice-Architektur am Beispiel mobiler Anwendungen Microservice-Architektur Basics (Quelle: http://martinfowler.com/articles/microservices.html) Microservice-Architektur Basics Was wird benötigt?

Mehr

Inhaltsübersicht. Vorwort I Installation RAID- und LVM-Grundlagen Ubuntu-Server-Installation Erste Schritte...

Inhaltsübersicht. Vorwort I Installation RAID- und LVM-Grundlagen Ubuntu-Server-Installation Erste Schritte... Inhaltsübersicht Vorwort... 13 I Installation... 15 1 RAID- und LVM-Grundlagen... 17 2 Ubuntu-Server-Installation... 37 3 Erste Schritte... 57 II Administration... 63 4 Systemkonfiguration... 65 5 Systemstart

Mehr

T H E P O W E R O F B U I L D I N G A N D M A N A G I N G N E T W O R K S. Operations

T H E P O W E R O F B U I L D I N G A N D M A N A G I N G N E T W O R K S. Operations T H E P O W E R O F B U I L D I N G A N D M A N A G I N G N E T W O R K S by ERAMON GmbH Welserstraße 11 86368 Gersthofen Germany Tel. +49-821-2498-200 Fax +49-821-2498-299 info@eramon.de Inhaltsverzeichnis

Mehr

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking Geschichte des Internets Suchmaschinen Fachinformationszentren Kurze Geschichte des Internets Internet: Geschichte beginnt mit der Entwicklung paketvermittelter Netze. Bei der Paketvermittlung werden Nachrichten

Mehr

Skalierbarer ILIAS Betrieb auf OpenStack OpenNebula Cloud. (Unter Nutzung günstiger Off-the-shelf-Hardware )

Skalierbarer ILIAS Betrieb auf OpenStack OpenNebula Cloud. (Unter Nutzung günstiger Off-the-shelf-Hardware ) Skalierbarer ILIAS Betrieb auf OpenStack OpenNebula Cloud (Unter Nutzung günstiger Off-the-shelf-Hardware ) Vorstellung des Unternehmens Gründung im Juni 2000 Bereits zuvor Kooperation der drei Gründer

Mehr

Data Protection von Microsoft Applikationen mit Tivoli Storage Manager

Data Protection von Microsoft Applikationen mit Tivoli Storage Manager Data Protection von Microsoft Applikationen mit Tivoli Storage Manager Windows 7 / 8 Windows Server 2008/2008 R2 Windows Server 2012 /2012 R2 Microsoft Hyper-V Exchange Server 2010/2013 Sharepoint 2010

Mehr

Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs

Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs BNC/XML 7 BNC/XML XML BNC XSLT extensible Markup Language I XML erlaubt es, strukturierte Daten in Textdateien zu speichern. Zum Schreiben und Lesen von XML-Dateien genügen einfache Text-Editoren wie Emacs

Mehr

2. Installation unter Windows 7 (64bit) mit Internetexplorer 11.0

2. Installation unter Windows 7 (64bit) mit Internetexplorer 11.0 1. Allgemeines Der Zugang zum Landesnetz stellt folgende Anforderungen an die Software: Betriebssystem: Windows 7 32 - / 64 - bit Windows 8.1 64 - bit Windows 10 64 - bit Windows Server Windows Server

Mehr

6. Vorlesung. Power Laws Modell der bevorzugten Verbindung Small World-Phänomen und -Netze Watts-Strogatz Modell. Kompression des Web-Graphen

6. Vorlesung. Power Laws Modell der bevorzugten Verbindung Small World-Phänomen und -Netze Watts-Strogatz Modell. Kompression des Web-Graphen 6. Vorlesung Web Struktur I Power Laws Modell der bevorzugten Verbindung Small World-Phänomen und -Netze Watts-Strogatz Modell Kompression des Web-Graphen Seite 146 Beobachtete Phänomene Wenige Multi-Milliardäre,

Mehr

Einführung in parallele Dateisysteme am Beispiel von GPFS. Proseminar von Jakob Schmid im SS 2014

Einführung in parallele Dateisysteme am Beispiel von GPFS. Proseminar von Jakob Schmid im SS 2014 Einführung in parallele Dateisysteme am Beispiel von GPFS Proseminar von Jakob Schmid im SS 2014 Gliederung Definition Anwendungsgebiete Anforderungen Beispiel: General Parallel File System (GPFS) Zusammenfassung

Mehr