HTTrack2WARC Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart 1
Inhalt Datenformat von Webarchiven WARC (Webarchive File Format) Konzept HTTrack to - WARC Erste Beispiele der Umschreibung 2 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
Datenformat von Webarchiven HTTrack Webarchive: HTTrack ist ein populärer Open Source Web Crawler, der in C geschrieben ist. Ein HTTrack Webarchiv basiert auf der File and Folder Strategie, d.h. dass jede geharvestete URL in einem separaten File gepeichert wird. Der Directory und Filename wird aus der originalen URL erzeugt (vgl. Christensen 2004). Dies hat im Fall umfangreicher Downloads eine riesige Menge z.t. sehr kleiner Files im Filesystem zur Folge. Betriebssysteme und insbesondere Backup-Systeme haben damit große Probleme. 3 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
Datenformat von Webarchiven WARC (Webarchive File Format: ISO 28500:2009 im Mai 2009): Im Gegensatz zur File and Folder Strategie wird im Fall von WARC das Prinzip eines selbstbeschreibenden, strukturierten und z.t. sehr großen Files mit embedded binären Files verfolgt. (aber kein XML-Format) Die Strategie besteht also darin, eine große Anzahl von downloaded Files (eines pro URL) in eine kleine Zahl von Text-Files zu aggregieren. Derartige große Text-Files enthalten eine große Sequenz von Dokumenten Records. Metadaten, die den Crawl beschreiben,werden an den Beginn des Files gestellt. 4 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
WARC Das WARC File Format ist dafür konzipiert, sowohl die Daten der aus den URLs generierten Files zu speichern, als auch die Kontroll-Informationen der Application Layer Protokolle mitzuloggen, d.h. der Netzwerkverkehr wird aufgezeichnet. Ein WARC File besteht aus einer Sequenz WARC Records. Fundamental sind die 8 verschiedenen Record Types je WARC Record: 'warcinfo' steht am Beginn eines WARC Files. 'Warcinfo' enthält optionale Felder, z.b. operator, software, robots. (vgl. Beginn eines crawler-beans.cxml File). 'response' enthält den üblichen Response eines requested Web Servers. 'resource' enthält eine 'response' Type Record ohne vollständige Protokoll Information. 5 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
WARC 'request' enthält (wie der 'response') die vollständige Protokollinformation des Request an einen Webserver. 'metadata' stellen zusätzliche Content im Kontext von harveted Resourcen dar. 'revisit' im Kontext eines wiederholten Downloads eins schon archvierten Contents. 'conversion' enthält einen alternativen Content des Content eines anderen Record. 'continuation' nötog aus formalen Gründen, im Falle von Multi-Part-Warc-Files. Im Falle der Umschreibung von HTTrack Downloads in WARC- Files sind nur die rot markierten Types zu beachten. 6 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
WARC 'warcinfo' benutzt das WARC-Filename template: ${prefix}-${timestamp17}-${serialno}-${heritrix.pid}~${heritrix.hostname}~${heritrix.port} 7 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
WARC 'response': dns IP lookup 8 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
'response' 'request' 'metadata': robots.txt WARC 9 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
'response' 'request' 'metadata': robots.txt WARC 10 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
'response' 'request' 'metadata': robots.txt WARC 11 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
Konzept: HTTrack to - WARC HTTrack Downloads enthalten nur den Response eines requested Webservers. Deswegen kann nur der WARC Record- Type 'response' aus den HTTrack erzeugt werden. Mittels des WARC Record-Types 'resource' können auch single pdf-downloads bzw. Uploads ohne hts-cache in das WARC Format umgeschrieben werden. Ein Web-Download im WARC Format sollte so realistisch und umfangreich als möglich den Netzwerkverkehr mitloggen. Aber mit weniger Informationen kann auch ein formal richtiges WARC- File erzeuget weredn. Zur Umschreibung des HTTrack-Downloads wird die Java- Library heritrix-commons-3.1.x.jar benötigt. Diese enthält das org.archive.io.warc mit den zu WARC gehörigen Java-Classes. 12 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
Erste Beispiele der Umschreibung Eine Umschreibung mittels der Anwendung HTTrack2Warc ist wenig spektakulär, wenn diese den korrekten Inhalt darstellt. Wir haben zunächst ein einzelnes pdf-file gewandelt, das manuell mit einem hts-cache erzeugt wurde (Flyer der Kykladen- Ausstellung des Badischen Landesmuseums.) Das 2. Beispiel ist ein normaler Webdownload (Ausstellung: Die Vandalen des Badischen Landesmuseums). Diese Umschreibung ist noch fehlerhaft. Hier muß nachgearbeitet werden. In beiden Fällen werden WARC-Type Records des Typs 'response' erzeugt. 13 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
Erste Beispiele der Umschreibung HTTrack-Download- Uploaded in boatest.bsz-bw.de 14 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
Erste Beispiele der Umschreibung Generiertes WARC-File 15 Dr. Barbara Löhle HTTrack2WARC 17.04.2013
HTTrack-Download- Uploaded in boatest.bsz-bw.de Installationsüberblick 16 Dr. Barbara Löhle SWBcontent: Systemarchitektur 17.04.2013
Erste Beispiele der Umschreibung 17 Dr. Barbara Löhle HTTrack2WARC 17.04.2013