HTTrack2WARC. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart



Ähnliche Dokumente
Anwendertreffen SWBcontent WLB Stuttgart. Renate Hannemann, Dr. Barbara Löhle, Stefan Wolf

Webarchivierung im BSZ. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Göppingen, 2. Mai 2012

SWBcontent Heritrix 3.x Konfigurations-UI. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Dienstag,

AWV AK 6.2. WARC ISO Frankfurt am Main 19. März 2012 Dr. Hubert Salm

Eine Untersuchung der Funktionen des Apache Wicket Webframeworks

4 Installation und Verwaltung

Protokoll Anwendertreffen SWBcontent , 11:00-16:30, BSZ Stuttgart

THEMA: HALTEN SIE IHRE SAS UMGEBUNG SAUBER MIT DEM SAS ENVIRONMENT MANAGER FRANK LEISTEN, FLITCON GMBH

INSPIRE and Beyond Darmstadt, Germany.

Elisabeth Stettler. Business Consultant. Andreas Gerig. Consultant/Projekt Manager.

PROBADO Systemarchitektur

Merkblatt zur elektronischen Angebotsabgabe

Anleitung zur Integration der /data.mill API in SAP Java Applikationen

Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider

Node.js Einführung Manuel Hart

DIAMETER Base Protocol (RFC3588)

Web Connector. Installation und Konfiguration. Version 2016 Fall Release

Google Gears Offline Web?

INSPIRE Themen im Betrieb Überblick

Webanwendungen mit Java und JavaServerPages

Einführung Servlets. JEE Vorlesung Teil 2. Ralf Gitzel

Arbeitsgemeinschaft Geodateninfrastruktur Südhessen. Taxonomie: Begriffs-ID (mit Verschachtelungstiefe)

Updates sicher und flexibel gestalten mit Linux

Computop Mobile SDK Authentisierung Integration Guide

Update Information. Independence Pro Software Suite 3.0 & Sound Libraries

Preservation Planning im Digitalen Archiv Österreich. Hannes Kulovits

SWBcontent-Anwendertreffen 2013 Protokoll

2. WWW-Protokolle und -Formate

Die Nutzung von Webservices in der Oracle Datenbank. 11 März 2010

SWBregio. Handreichung. (Stand: )

Einführung Servlets. JEE Vorlesung Teil 2. Ralf Gitzel

1 Erläuterungen zur Datensatzbeschreibung

Kerberos Authentifizierung

Dr. Friedrich Schanda Projektmanagement PENTASYS AG

HIT-Projektwebseite mit Expression Web

IT-KONZEPT I NHALTSVERZEICHNIS DER E VANGELISCHEN L ANDESKIRCHE IN W ÜRTTEMBERG

Tobias Steinke. Webarchivierung als internationale Aufgabe

Der MyCoRe-URI-Resolver

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

30 Jahre Server Von Transaktionssystemen zu Web-Services

4. RADAR-WORKSHOP RADAR APPLICATION PROGRAMMING INTERFACE KARLSRUHE, 25./26. JUNI Matthias Razum, FIZ Karlsruhe

Erste Schritte mit der HTTP Client Bibliothek

Herausforderungen bei der Langzeitverfügbarkeit von

GDI-Forum Nordrhein-Westfalen Technischer Workshop 2 - Geodienste INSPIRE-konforme Download-Dienste. Inhalt

IIS 7.5 mit Exchange Server 2010 OWA FBA Intern und Extern ueber Forefront TMG

Codegenerierung mit Xtend. 21. Januar 2015

Agenda. IT-Symposium Secure Enterprise Search. Suchen und finden mit Suchmaschinen. Oracle SES Überblick

Bausteine einer VRE für die Linguistik - Beispiel:

Botnetz DoS & DDoS. Botnetze und DDoS. Ioannis Chalkias, Thomas Emeder, Adem Pokvic

Semantische und konzeptionelle Modellierung

Consulting, Development, Deployment, Training and Support for Media-IT. Datum: Daniel Dimitrijevic

Google Search Appliance Feed Indizierung mit Mindbreeze InSpire

Von WMS zu WMTS zu Vektor-Tiles

FileZilla - Anleitung

Benutzerhandbuch. Neukirchen

Die Nutzung internationaler Standards in MEX

Persistenzschicht in Collaborative Workspace

Revision History. Version Datum Änderungen Integration Update über Webserver Initiale Version

WALL&KOLLEGEN RECHTSANWÄLTE AVVOCATI BARRISTER-AT-LAW MÜNCHEN INNSBRUCK BOZEN

Von Spidern und Baggern

Aspekte der Datenqualität, Adressierung und Auszeichnung von Dokumenten

Internet-Software: Allgemeines

Addition und Subtraktion ungleichnamiger Brüche

Dokumentenmanagement als effizientester Hebel für die Digitalisierung

SEO KURZ-CHECK WHEELSANDMORE.DE

Web Grundlagen zum Spidering

Digitales Repository. Inhalt Das digitale Repository...2 Grundkonfiguration...6 Erweiterte Konfiguration unter Unix/Linux...7

Apache HTTP Server Administration

Browser mit SSL und Java, welcher auf praktisch jedem Rechner ebenso wie auf vielen mobilen Geräten bereits vorhanden ist

Erste Schritte im Lieferantenportal

Schulung SWBcontent. Stand

Aufgabenteilung und Partnerschaft bei der Webarchivierung mit SWBcontent. München, BSB, Stefan Wolf BSZ Baden-Württemberg

DOI-Desk der ETH Zürich: Ein Service für den Schweizer Hochschul- und Forschungsbereich

Dokumenten- und Publikationsserver

*Hierzu wird Microsoft Word benötigt. Mit freien Textverarbeitungen wie Open Office ist dies leider nicht möglich.

PG5 Starter Training Webeditor 8 Applikation Dateisystem Daniel Ernst DE

Dokumentation Down- und Upload Programm von ABAP und DDIC Elementen

F. Kathe ROS Folie 1

Einführung Internet Geschichte, Dienste, Intra /Extranet, Browser/Server, Website Upload. Dipl. Ing. Dr. Alexander Berzler

Massenamtssignaturen. 2 Lösungsansätze. Thomas Rössler Wien, 25. März

Empfehlungen für die Zukunft Mehrwerte für Ihre Daten. Prof. Felix Sasaki (Deutsches Forschungszentrum für Künstliche Intelligenz)

OWASP Stammtisch München Sep 2014 XSS und andere Sicherheitslücken aus der Perspektive des Programmcodes

Proxy Sniffer Professional Edition V4.1-C Release Notes Deutsche Ausgabe

Übung - Mit Wireshark eine UDP-DNS-Aufzeichnung untersuchen

Ein Java Repository für digitalen Content in Bibliotheken

Integration von UIS-Webdiensten

Klaus Eckstein, Daniel Hillinger Cloud Control - hochverfügbar von Kopf bis Fuß

Bulk Web-Crawler mit Spring Batch

PG5 Starter Training Applikation Dateisystem Daniel Ernst DE

Erstellung eines Channel Wallpapers für MSN. Juni 2010

SWBdok. Handreichung

K F Z - verbrauchsstatistik

BI Publisher Berichtswesen einfach und sicher. Alexander Klauss Centric IT Solutions GmbH

Installationshinweise der FSM Software

Produktinformation. CANalyzer.Ethernet

Web Solutions for Livelink

INSPIRE Netzdienste / Darstellungsdienste

Einführung in die Modelltransformation mit Xtend

JiveSoftware Jive Connector

Transkript:

HTTrack2WARC Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart 1

Inhalt Datenformat von Webarchiven WARC (Webarchive File Format) Konzept HTTrack to - WARC Erste Beispiele der Umschreibung 2 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

Datenformat von Webarchiven HTTrack Webarchive: HTTrack ist ein populärer Open Source Web Crawler, der in C geschrieben ist. Ein HTTrack Webarchiv basiert auf der File and Folder Strategie, d.h. dass jede geharvestete URL in einem separaten File gepeichert wird. Der Directory und Filename wird aus der originalen URL erzeugt (vgl. Christensen 2004). Dies hat im Fall umfangreicher Downloads eine riesige Menge z.t. sehr kleiner Files im Filesystem zur Folge. Betriebssysteme und insbesondere Backup-Systeme haben damit große Probleme. 3 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

Datenformat von Webarchiven WARC (Webarchive File Format: ISO 28500:2009 im Mai 2009): Im Gegensatz zur File and Folder Strategie wird im Fall von WARC das Prinzip eines selbstbeschreibenden, strukturierten und z.t. sehr großen Files mit embedded binären Files verfolgt. (aber kein XML-Format) Die Strategie besteht also darin, eine große Anzahl von downloaded Files (eines pro URL) in eine kleine Zahl von Text-Files zu aggregieren. Derartige große Text-Files enthalten eine große Sequenz von Dokumenten Records. Metadaten, die den Crawl beschreiben,werden an den Beginn des Files gestellt. 4 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

WARC Das WARC File Format ist dafür konzipiert, sowohl die Daten der aus den URLs generierten Files zu speichern, als auch die Kontroll-Informationen der Application Layer Protokolle mitzuloggen, d.h. der Netzwerkverkehr wird aufgezeichnet. Ein WARC File besteht aus einer Sequenz WARC Records. Fundamental sind die 8 verschiedenen Record Types je WARC Record: 'warcinfo' steht am Beginn eines WARC Files. 'Warcinfo' enthält optionale Felder, z.b. operator, software, robots. (vgl. Beginn eines crawler-beans.cxml File). 'response' enthält den üblichen Response eines requested Web Servers. 'resource' enthält eine 'response' Type Record ohne vollständige Protokoll Information. 5 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

WARC 'request' enthält (wie der 'response') die vollständige Protokollinformation des Request an einen Webserver. 'metadata' stellen zusätzliche Content im Kontext von harveted Resourcen dar. 'revisit' im Kontext eines wiederholten Downloads eins schon archvierten Contents. 'conversion' enthält einen alternativen Content des Content eines anderen Record. 'continuation' nötog aus formalen Gründen, im Falle von Multi-Part-Warc-Files. Im Falle der Umschreibung von HTTrack Downloads in WARC- Files sind nur die rot markierten Types zu beachten. 6 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

WARC 'warcinfo' benutzt das WARC-Filename template: ${prefix}-${timestamp17}-${serialno}-${heritrix.pid}~${heritrix.hostname}~${heritrix.port} 7 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

WARC 'response': dns IP lookup 8 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

'response' 'request' 'metadata': robots.txt WARC 9 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

'response' 'request' 'metadata': robots.txt WARC 10 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

'response' 'request' 'metadata': robots.txt WARC 11 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

Konzept: HTTrack to - WARC HTTrack Downloads enthalten nur den Response eines requested Webservers. Deswegen kann nur der WARC Record- Type 'response' aus den HTTrack erzeugt werden. Mittels des WARC Record-Types 'resource' können auch single pdf-downloads bzw. Uploads ohne hts-cache in das WARC Format umgeschrieben werden. Ein Web-Download im WARC Format sollte so realistisch und umfangreich als möglich den Netzwerkverkehr mitloggen. Aber mit weniger Informationen kann auch ein formal richtiges WARC- File erzeuget weredn. Zur Umschreibung des HTTrack-Downloads wird die Java- Library heritrix-commons-3.1.x.jar benötigt. Diese enthält das org.archive.io.warc mit den zu WARC gehörigen Java-Classes. 12 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

Erste Beispiele der Umschreibung Eine Umschreibung mittels der Anwendung HTTrack2Warc ist wenig spektakulär, wenn diese den korrekten Inhalt darstellt. Wir haben zunächst ein einzelnes pdf-file gewandelt, das manuell mit einem hts-cache erzeugt wurde (Flyer der Kykladen- Ausstellung des Badischen Landesmuseums.) Das 2. Beispiel ist ein normaler Webdownload (Ausstellung: Die Vandalen des Badischen Landesmuseums). Diese Umschreibung ist noch fehlerhaft. Hier muß nachgearbeitet werden. In beiden Fällen werden WARC-Type Records des Typs 'response' erzeugt. 13 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

Erste Beispiele der Umschreibung HTTrack-Download- Uploaded in boatest.bsz-bw.de 14 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

Erste Beispiele der Umschreibung Generiertes WARC-File 15 Dr. Barbara Löhle HTTrack2WARC 17.04.2013

HTTrack-Download- Uploaded in boatest.bsz-bw.de Installationsüberblick 16 Dr. Barbara Löhle SWBcontent: Systemarchitektur 17.04.2013

Erste Beispiele der Umschreibung 17 Dr. Barbara Löhle HTTrack2WARC 17.04.2013