Instrumentierung der htdig-suchmaschine zum Qualitäts-Monitoring von Websites

Größe: px
Ab Seite anzeigen:

Download "Instrumentierung der htdig-suchmaschine zum Qualitäts-Monitoring von Websites"

Transkript

1 Fachhochschule Wiesbaden Fachbereich Informatik Diplomarbeit zur Erlangung des akademischen Grades Diplom-Informatiker (FH) Instrumentierung der htdig-suchmaschine zum Qualitäts-Monitoring von Websites vorgelegt von Walantis Giosis am 31. Oktober 2002 Referent: Prof. Dr. Karl-Otto Linn Koreferent: Prof. Dr. Reinhold Kröger

2 Eidesstattliche Erklärung Hiermit versichere ich, dass ich die vorliegende Diplomarbeit selbständig und nur unter Verwendung der angegebenen Hilfsmittel und Literaturquellen verfasst habe. Walantis Giosis Wiesbaden, 31. Oktober

3 Inhaltsverzeichnis 1 Einleitung 6 2 Grundlagen Das World Wide Web Auszeichnungssprachen SGML HTML Suchmaschinen Die htdig-suchmaschine Weitere Hilfsprogramme Die pcre-bibliothek Tidy und Curl Das Qt-Toolkit

4 3 Konzept Allgemeines Grobarchitektur Qualitäts-Monitoring von Websites Herleitung der Operationen HTML-Analyse Performance-Analyse Meta Description-Analyse Meta Keywords-Analyse Komplexitäts-Analyse Vollständigkeits-Analyse Instrumentierung von htdig Getrennte Datenhaltung Herleitung der Bewertungskriterien Navigation in Websites Die grafische Schnittstelle

5 4 Implementierung Implementierungsumgebung Softwarearchitektur Die Datenbasis Instrumentierung von htdig Erweiterung in der Image-Datenbank Die getsize-funktion Meta Keywords Versteckte Hyperlinks Speicherung der Extensions-Datenbank Das Engine-Modul Die Datenstrukturen Der Zugriff auf die Datenbanken Die Verwaltung der Daten Der Zugriff auf die Daten Die Quality-Klasse Die PCREGEX-Klasse Implementierungsstatistik Das Qualitäts-Monitoring Die HTML-Analyse Die Performance-Analyse Die Meta Description-Analyse Die Meta Keywords-Analyse Die Komplexitäts-Analyse

6 4.6.6 Die Vollständigkeits-Analyse Die Navigation Die inhaltsbasierte Navigation Implementierungsstatistik Das Filter-Modul Implementierungsstatistik Das Info-Modul Implementierungsstatistik Das Hauptprogramm Die Verwaltung der Bewertungsparameter Implementierungsstatistik Zusammenfassung und Ausblick Literaturverzeichnis 110 A Inhalt der CD 112 B Installationsanleitung 118 5

7 Kapitel 1 Einleitung Das World Wide Web (WWW) ist ein Teilnetzwerk des Internet und besteht aus einer Vielzahl von Rechnern, die miteinander vernetzt sind. Diese Rechner (im Folgenden Web-Server bezeichnet) enthalten Informationen, die in Form von HyperText existieren. HyperText- Dokumente lassen sich durchsuchen, lesen und ändern. Sie ermöglichen Verweise (engl. Hyperlinks) auf andere Dokumente, die mit Hilfe des Benutzers erreicht werden. HyperText- Dokumente werden in HTML verfasst (HyperText Markup Language). Bei HTML handelt es sich um eine Sprache, die dem Verfasser eines HTML-Dokuments ermöglicht, mit Hilfe von Befehlen, Texte zu strukturieren. Dazu wird noch die HyperText-Funktionalität verwendet, um z. B. mit Hilfe von Hyperlinks auf weitere HTML-Dokumente zu verweisen. Neben der textuellen Information und den Verweisen besteht mit HTML die Möglichkeit, die Dokumente grafisch zu gestalten. Mit Hilfe von Bildern und bunten Tabellen bleiben dem Verfasser eines HTML-Dokuments viele Möglichkeiten offen, um ein Dokument entsprechend aufzubereiten. Um die einzelnen HTML-Dokumente eines Verfassers im WWW zu organisieren, werden diese als eine Menge zusammengefasst und als Website bezeichnet. Eine Website wird auf einem Web-Server abgelegt und ist fortan Teil des WWW. Mit Hilfe eines Browsers kann sich der Benutzer durch das WWW bewegen und die einzelnen HTML-Dokumente betrachten. 6

8 KAPITEL 1. EINLEITUNG Im WWW befindet sich ein breites Angebot von Websites. Neben Firmen- und Angebotspräsentationen stellen auch viele Privatanwender ihre Informationen frei zur Verfügung. Dabei wird ein großer Wert auf die grafisch Darstellung der HTML-Dokumente gelegt, weil diese beim Benutzer vor dem eigentlichen Informationsinhalt ersichtlich wird. Die grafische Aufbereitung eines HTML-Dokuments ist von jedem Betrachter individuell zu bewerten und lässt sich nicht mit Hilfe eines Rechners bewerten. Im Rahmen dieser Diplomarbeit wird gezeigt, wie sich eine Website qualitativ bewerten lässt. Dabei werden hauptsächlich die inhaltlichen und strukturellen Eigenschaften einer Website untersucht - die grafische Eigenschaft wird nicht weiter betrachtet. Anhand des Aufbaus der einzelnen HTML-Dokumente lässt sich z. B. feststellen, ob die Website kompliziert aufgebaut ist (zu wenige Verweise innerhalb der HTML-Dokumente). Dies ist für den Betracher der Website relevant, da die angebotenen Informationen möglichst einfach zugänglich sein sollen. Mit Hilfe einer syntaktischen Analyse für HTML-Dokumente lässt sich überprüfen, ob diese fehlerfrei in HTML verfasst wurden. Die Fehlerfreiheit ermöglicht ein problemloses Darstellen des Dokuments in gängigen Browsern. Die notwendigen Informationen für die Qualitätsmessung liefert das Programm htdig. Dabei handelt es sich um einen sog. Web-Spider, der die HTML-Dokumente einer Website sammelt und bestimmte Informationen aus diesen extrahiert. Die Informationen müssen auf ihre Eignung untersucht werden, um festzustellen, ob diese für eine Qualitätsmessung nützlich sind. Die Instrumentierung erweitert htdig, um weitere Informationen zu extrahieren, die für die Qualitätsmessung notwendig sind. In einem weiteren Teil der Arbeit wird ein System entwickelt, welches die Beziehungen innerhalb einer Website darstellt. Dabei werden die einzelnen Teile einer Website (HTML- Dokumente und Verweise auf weitere Daten, z. B. Bilder) als abstrakte Objekte dargestellt und anhand ihrer Verweise mit einem Graph verbunden. Dem Benutzer wird die Möglichkeit gegeben, Teile der Website übersichtlich zu betrachten und sich darin zu bewegen (die sog. Navigation). Mit Hilfe der Qualitätsmessung für eine Website und der Navigation wird ein System vorgestellt, das bis zum heutigen Stand noch nicht in dieser Form existiert. 7

9 KAPITEL 1. EINLEITUNG Die Gliederung dieser Arbeit besteht aus weiteren drei Kapiteln: Kapitel 2 beginnt mit wichtigen Grundlagen des WWW in Bezug auf Websites und Web-Spidern. Dann werden die verwendeten Programme beschrieben, die für die Qualitätsmessung erforderlich sind (z. B. htdig). Kapitel 3 beschreibt das Konzept und die Herleitung der Ideen, die für das entwickelte System genutzt wurden. In Kapitel 4 ist ausführlich beschrieben, wie die Implementierung des Konzepts durchgeführt wurde. Dabei werden Klassendiagramme und Quelltext-Auszüge vorgestellt, die das Verständnis des Kapitels unterstützen. Im abschließenden Kapitel 5 sind die Ergebnisse dieser Arbeit zusammengefasst. Anschließend folgt ein Ausblick, wie die bestehende Arbeit erweitert werden kann. Zum Verständnis dieser Arbeit werden gewisse Grundlagen vorausgesetzt. Dazu gehören Kenntnisse in HTML, Client/Server-Umgebungen und TCP/IP. Die Funktionen einer syntaktischen Analyse (Parser) sollten aus dem Compilerbau bekannt sein. Um den Implementierungsteil zu verstehen, sind UML- und Programmierkenntnisse (vorzugsweise in C++) erforderlich. Begriffe aus der Softwaretechnik (Singleton, Interface, Klassendiagramm) sind wichtig, um die Implementierung des Systems zu verstehen. 8

10 Kapitel 2 Grundlagen 2.1 Das World Wide Web Das WWW erfordert eine Möglichkeit, um die Vielzahl der Websites, und den darin enthaltenen HTML-Dokumenten, in den Web-Servern zu adressieren. Dies wird mit dem Prinzip der Uniform Resource Locator (URL) gelöst, die jedes HTML-Dokument im WWW eindeutig kennzeichnet. Die URL ist eine Zeichenkette und besteht aus drei Teilen: 1. Kommunikations-Protokoll (z. B. http) 2. IP-Adresse des Web-Servers (z. B ) 3. Name des HTML-Dokuments (z. B. index.html) 9

11 KAPITEL 2. GRUNDLAGEN 2.1. DAS WORLD WIDE WEB Eine URL ist in der Lage HTML-Dokumente zu adressieren, die andere Kommunikations- Protokolle zum Informationsaustausch nutzen (z. B. ftp). Statt der IP-Adresse wird eine textuelle Bezeichnung verwendet, weil diese einfacher zu merken ist. Die Zuordnung von textuellen Bezeichnern zu IP-Adressen wird von einer zentralen Stellen vergeben (z. B. DENIC 1 ). Damit ist gewährleistet, dass ein bestimmter Bezeichner nur einer bestimmten IP-Adresse im WWW entspricht. Anschließend folgt der Name des HTML-Dokuments. Das WWW basiert auf einer Client/Server-Struktur. Die Server-Seite wird mit den Web- Servern gebildet. Die Client-Seite wird hauptsächlich durch einen sog. Web-Browser (kurz Browser) repräsentiert. Ein Browser stellt, mit Hilfe einer URL, eine Anfrage an den Web- Server. Nach erfolgreicher Verbindung zwischen der Client- und der Server-Seite, sendet der Web-Server das angeforderte HTML-Dokument an den Browser, welcher schließlich den Inhalt des HTML-Dokuments interpretiert und entsprechend darstellt [LL99]. Die Kommunikation zwischen Web-Server und Browser geschieht mittels dem HyperText Transfer Protocol (HTTP). HTTP ist ein Protokoll, welches über eine TCP/IP Verbindung Datenaustausch (nicht nur HTML-Dokumente) zwischen Web-Server und Browser ermöglicht. Mit Hilfe von drei wichtigen Methoden, GET, POST und HEAD werden Anfragen gestellt bzw. beantwortet. Grundsätzlich stellt ein Browser mit Hilfe einer URL, eine Anfrage am Web-Server. Der Web-Server reagiert darauf und startet die Übertragung des angeforderten HTML-Dokuments. Das folgende Beispiel zeigt die Kommunikation zwischen Web- Server (IP: , Name: localhost) und Client (telnet 2 ). Das Beispiel in der folgenden Seite soll den Vorgang klarmachen: 1 2 Mehr Informationen über dieses Programm erhält man mit: man telnet 10

12 KAPITEL 2. GRUNDLAGEN 2.1. DAS WORLD WIDE WEB # telnet 80 Trying Connected to localhost. Escape character is ˆ]. GET /index.html HTTP/1.0 HTTP/ OK Date: Wed, 07 Aug :05:02 GMT Server: Apache/ (Unix) Last-Modified: Sun, 04 Aug :42:14 GMT ETag: "b91e7-ed9-3d4cdad6" Accept-Ranges: bytes Content-Length: 3801 Connection: close Content-Type: text/html <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <HTML> <HEAD><TITLE>Dokument-Titel</TITLE></HEAD> <BODY>Dokument-Inhalt</BODY> </HTML> Connection closed by foreign host. Aus dem Beispiel wird ersichtlich, dass eine erfolgreiche TCP/IP-Verbindung mit dem Web- Server localhost auf Port 80 hergestellt wird. Die anschließende GET-Methode verursacht eine Anfrage am Web-Server. Sie enthält die URL des angefragten HTML-Dokuments und die HTTP-Version. Der Web-Server liefert auf diese Anfrage eine Request-Antwort, die z. B. die Größe des angeforderten HTML-Dokuments enthält. Die Verbindung wird nach der Übertragung getrennt. 11

13 KAPITEL 2. GRUNDLAGEN 2.2. AUSZEICHNUNGSSPRACHEN Ein HTML-Dokument kann mit Hilfe von Hyperlinks (Verweisen) zu weiteren HTML-Dokumenten verweisen. Dabei wird die URL eines referenzierten HTML-Dokuments, vom Verfasser, in den Hyperlink eingegeben. URL s können beliebige Daten (physikalische Dateien) adressieren. Daraus folgt, dass ein HTML-Dokument, neben HTML-Dokumenten, beliebige Verweise auf Daten haben kann (z. B. Bilder, Videos, Musik usw.). Unter dem Begriff Ressource wird eine physikalische Datei verstanden, die sich mit Hilfe von Hyperlinks in einem HTML-Dokument referenzieren lässt. Eine Website besteht aus einer Menge von Ressourcen (HTML-Dokumente, Bilder usw.) und diese sind durch Hyperlinks miteinander verbunden. Die Website wird in der Regel über das Start-Dokument 3 erreicht. Das Start-Dokument hat immer den Namen index.html und braucht nicht im Browser aufgeführt zu werden (der Browser fügt den Namen des Start-Dokuments zu der URL hinzu). Über das Start-Dokument werden weitere Ressourcen referenziert, die wiederum auf das Start-Dokument bzw. auf weitere Ressourcen verweisen können. 2.2 Auszeichnungssprachen Die folgenden Abschnitte erläutern die Herleitung von HTML. Anschließend wird auf die wichtigsten Eigenschaften zu HTML eingegangen. Eine geeignete Dokumentation zu diesem Thema gibt es unter [Mün01] SGML SGML (Standard Generalized Markup Language) ist seit 1986 ein internationaler Standard [ISO 8879] zur Definition von geräteunabhängigen und systemunabhängigen Methoden, um Texte in elektronischer Form darzustellen. SGML ist eine sog. Markup Language (Auszeichnungssprache). Auszeichnungssprachen ermöglichen mit Hilfe von Tags (Markern), die nur 3 Der Begriff Homepage ist der bekanntere Begriff. Dieser wird jedoch oft als Synonym zum Begriff Website eingesetzt, was nicht richtig ist. 12

14 KAPITEL 2. GRUNDLAGEN 2.2. AUSZEICHNUNGSSPRACHEN aus textuellen Zeichen bestehen, die Struktur eines Dokuments zu beschreiben. Dabei werden z. B. Tags in einem SGML-Dokument verwendet, um Überschriften vom eigentlichen Textkörper zu trennen. Neben Formatieranweisungen für Dokumente, gestattet SGML die Festlegung einer bestimmten Grammatik (die wiederum aus neu definierten Tags besteht). Neu definierte Tags werden in der sog. DTD-Datei (Document Type Definition) eingetragen. Mit SGML wird z. B. die Sprache HTML beschrieben. SGML DTD Basis grammatik SGML Dokument Abb Ein einfacher Aufbau eines SGML-Dokuments Abbildung 2.1 zeigt den Aufbau eines SGML-Dokuments mit Hilfe der DTD-Datei. Die DTD-Datei basiert ausschließlich auf die Basisgrammatik und beschreibt neue Tags, die im entsprechenden SGML-Dokument verwendet werden. SGML ist ein neutrales Format, da SGML-Dokumente (bedingt durch die Standardisierung) keinen kurzfristigen Änderungen unterworfen sind. Dies ermöglicht die Verwendung eines SGML-Dokuments für die verschiedensten Ausgabeformate (z. B. im Buchdruck oder als HTML-Dokument im Browser dargestellt). SGML-Dokumente und entsprechende DTD-Dateien werden in textueller Form gehalten. Dadurch wird gewährleistet, dass diese plattformunabhängig bearbeitet und wiedergegeben werden können. Mehr über SGML steht unter [Rie95]. 13

15 KAPITEL 2. GRUNDLAGEN 2.2. AUSZEICHNUNGSSPRACHEN HTML Bei HTML handelt es sich um eine Auszeichnungssprache in textueller Form. Die Tags der Sprache werden, analog zu SGML-Dokumenten, in einer DTD-Datei festgelegt. Tags werden, in HTML, ausschließlich in spitzen Klammern notiert und kommen meistens paarweise vor: Das öffnende Tag <tag> hat also ein Gegenstück, das schließende Tag </tag>. Dazwischen wird die textuelle Information verfasst. Neben grafischen Auszeichnungs-Tags (um z. B. Tabellen darzustellen) und strukturellen Tags (Aufteilung eines HTML-Dokuments in mehrere Teile, den sog. Frames), wird die HyperText-Funktionalität unterstützt: Mit Hilfe von Hyperlinks werden Verweise auf weitere HTML-Dokumente (Ressourcen) festgelegt. Dokument 1 Dokument 2 Website 1 Website 1 Dokument 1 Website 2 Abb Verweise zwischen Dokumenten (intern und extern) In Abbildung 2.2 sind zwei Hyperlinks zwischen drei HTML-Dokumente dargestellt. Die Verweise können auf Ressourcen zeigen, die in anderen Websites existieren (sog. externe Hyperlinks). Verweise innerhalb der Website werden als interne Hyperlinks bezeichnet. Ein HTML-Dokument kann mit jedem beliebigen Texteditor verfasst werden - die wichtigste Voraussetzung dabei ist, dass sich der Verfasser mit HTML auskennt. Die Verwendung von kommerziellen Produkten ist nicht notwendig, jedoch gibt es Softwarelösungen, die komplexe HTML-Dokumente, anhand von Anweisungen des Benutzers, generieren können (z. B. Microsoft Frontpage u. a.). 14

16 KAPITEL 2. GRUNDLAGEN 2.2. AUSZEICHNUNGSSPRACHEN Die Grundstruktur eines HTML-Dokuments enthält drei Teile: 1. Eine SGML-Anweisung mit der aktuellen Versionsnummer der verwendeten Sprache 2. Einen Kopfbereich, eingeschlossen in <HEAD></HEAD>-Tags 3. Einen Dokumentkörper mit der eigentlichen Information Ein minimales und nach dem aktuellen HTML-Standard 4.01 entwickeltes HTML-Dokument sie wie folgt aus: <!DOCTYPE HTML PUBLIC "-//W3C/DTD HTML 4.01//EN" "http://www.w3.org/tr/html4/strict.dtd"> <HTML> <HEAD>Document Title</HEAD> <BODY> <H1>Hello HTML-World...</H1> </BODY> </HTML> Die erste Zeile beschreibt, dass sich das HTML-Dokument auf den HTML-Standard 4.01 bezieht. Zusätzlich wird die Angabe gemacht, welche DTD-Datei verwendet werden soll (anhand deren URL). Das <HTML>-Tag ist der Wurzelknoten und beinhaltet alle weiteren HTML-spezifischen Tags. Der Kopfbereich enthält ein <TITLE>-Tag, das den Dokument- Titel beinhaltet. Der Dokument-Titel wird oft als irrelevant betrachtet und nicht zur Verfügung gestellt oder mit nicht aussagekräftigen Inhalten versehen, weil es für die Darstellung des HTML-Dokuments nicht notwendig ist. Es gibt jedoch Gründe für einen geeigneten Dokument-Titel [Mün01]: Der Titel wird in der Titelzeile des Browser-Fensters angezeigt Der Titel wird wird als Name in der Bookmark-Liste des Browsers verwendet Für diverse Suchmaschinen und Suchprogramme dient der Titel als Verweis auf das dazugehörige HTML-Dokument Der Kopfbereich eines HTML-Dokuments kann weitere Tags enthalten. Die wichtigsten Tags, die für diese Arbeit relevant sind, werden nun beschrieben. 15

17 KAPITEL 2. GRUNDLAGEN 2.2. AUSZEICHNUNGSSPRACHEN Meta-Informationen Meta-Informationen sind optionale Angaben im Kopfbereich eines HTML-Dokuments, die hauptsächlich für Suchmaschinen und Web-Server interessant sind. Dabei handelt es sich um Eigenschaft-Wert-Paare. Mit Meta-Informationen in einem HTML-Dokument wird z. B. der Name des Verfassers festgelegt, der das entsprechende HTML-Dokument geschrieben hat. Viel interessanter ist für die Arbeit, dass mit Hilfe von Meta-Informationen die Popularität bzw. Bewertung des HTML-Dokuments in Suchmaschinen beeinflusst wird. Eine Liste von Stichwörtern, die mit dem eigentlichen Dokumentinhalt in engem Zusammenhang stehen, dient für eine Suchmaschine als Datenquelle (Suchmaschinen werden in Abschnitt 2.3 beschrieben). Der aktuelle HTML-Standard 4.01 legt fest, dass Meta-Informationen in Eigenschaft = Wert-Paare auftreten müssen. Die Einteilung der Meta-Informationen erfolgt in zwei Gruppen: 1. Angaben, die sich auf den Web-Server beziehen 2. Sonstige Angaben, die z. B. für Suchmaschinen bestimmt sind Eine Meta-Information hat grundsätzlich folgende Form: <META HTTP-EQUIV="Eigenschaft" CONTENT="Wert"> für die erste Gruppe bzw. <META NAME="Eigenschaft" CONTENT="Wert"> für die zweite Gruppe. Das folgende Beispiel beschreibt die Funktion der Expires Meta- Information: <META HTTP-EQUIV="Expires" CONTENT="Thu, 31 Oct :00:00 GMT"> 16

18 KAPITEL 2. GRUNDLAGEN 2.2. AUSZEICHNUNGSSPRACHEN Mit dieser Meta-Information wird im Kopfbereich eines HTML-Dokuments ein Verfallsdatum festgelegt. Ist dieses Datum nicht abgelaufen, wird das Dokument aus dem Browser- Cache (sofern vorhanden) geladen. Nach Ablauf des festgelegten Zeitpunktes, wird das HTML-Dokument, bei einer Neuanforderung, vom Web-Server neu übertragen und im Browser-Cache abgelegt. Dies hat den Vorteil, dass man Übertragungszeit spart, weil das HTML- Dokument nicht immer vom Web-Server übertragen werden muss. Eine Null als Wert für die Expires Meta-Information bewirkt, dass das HTML-Dokument immer vom Web-Server übertragen wird, falls dieses angefordert wird. Ein Beispiel einer Meta-Information für die zweite Gruppe ist: <META NAME="keywords" LANG="de" CONTENT="Diplom, FH, Wiesbaden"> Ein HTML-Dokument mit obiger Meta-Information beschreibt, dass seine eigentliche Information im Textkörper mit drei deutschen Stichwörtern beschrieben wird. Die LANG-Angabe gibt die Landessprache an, in welcher die Stichwörter geschrieben sind. Suchmaschinen, die mit Hilfe von Meta-Informationen HTML-Dokumente indizieren, speichern die Stichwörter zusammen mit der URL des HTML-Dokuments in eine Datenbank. Bei der eigentlichen Suche wird auf diese Stichwörter zurückgegriffen. Die Auswertung der Meta-Informationen ist ein wichtiger Bestandteil dieser Arbeit. In Kapitel 3 werden Analyse-Operationen vorgestellt, mit deren Hilfe die Meta-Informationen bewertet werden können. 17

19 KAPITEL 2. GRUNDLAGEN 2.3. SUCHMASCHINEN 2.3 Suchmaschinen Bei Suchmaschinen handelt es sich um Programme, die zwei Funktionen haben: 1. Suche nach bestimmten HTML-Dokumenten 2. Automatisches Sammeln und Indizieren von HTML-Dokumenten Die Suche wird in der Regel über eine grafische Schnittstelle gestartet. Der Benutzer hat die Möglichkeit, bestimmte Wörter, Sätze usw. kombiniert einzugeben (mit Hilfe von logischen Operatoren) und die Suche zu starten. Moderne Suchmaschinen 4 bieten mittlerweile die Möglichkeit, verschiedene Dokumente zu durchsuchen (neben HTML-Dokumente gibt es z. B. PDF- oder PostScript-Dokumente). Das Sammeln und Indizieren kann für bestimmte Suchmaschinen wegfallen, wenn folgende vier Arten von Suchmaschinen betrachtet werden: 1. Katalogbasierte Suchmaschinen (z. B. 2. Volltext-Suchmaschinen (z. B. 3. Meta-Suchmaschinen (z. B. 4. Spezialisierte Suchmaschinen (z. B. Die folgenden Abschnitte befassen sich nun mit den verschiedenen Suchmaschinen-Arten. 4 z. B. 18

20 KAPITEL 2. GRUNDLAGEN 2.3. SUCHMASCHINEN Katalogbasierte Suchmaschinen Eine katalogbasierte Suchmaschine besteht aus einer hierarchisch aufgebauten Informationsstruktur. Ihre Struktur wird mit Hilfe von Themen definiert, den sog. Obergruppen. Die Obergruppen lassen sich in weitere Untergruppen aufspalten, die sich mit spezialisierten Bereichen eines Themengebiets beschäftigen. Dabei werden beispielsweise die Obergruppen Gesundheit, Wirtschaft, Nachrichten und Freizeit festgelegt. Diese Obergruppen enthalten dann zum Thema entsprechend weitere Verweise auf Untergruppen, die sich mit spezialisierten Bereichen einer Obergruppe beschäftigen. Für die Obergruppe Wirtschaft wird z. B. die Untergruppe Börse definiert, die sich ausschließlich mit Themen der Börse beschäftigt. Suchmaschine... Gesundheit... Medizin... Obergruppe Untergruppe Untergruppe Umweltmedizin Dokument Abb Katalogbasierte Suchmaschine Abbildung 2.3 zeigt ein weiteres Beispiel für die Obergruppe Gesundheit. Dazu gehört die Untergruppe Medizin, die weiter unterteilt ist und den Bereich Umweltmedizin enthält. Der Inhalt von katalogbasierten Suchmaschinen ist im Vergleich zu anderen Suchmaschinen klein, weil keine automatisierte Suche und Indizierung von Dokumenten erfolgt. Der Inhalt wird von Menschen (sog. Redakteure) gefüllt. Das bedeutet, dass Dokumente, die zum Datenbestand einer katalogbasierten Suchmaschine aufgenommen werden sollen, der Subjektivität und dem Kenntnisstand eines Redakteurs unterliegen. Er muss entscheiden, ob 19

21 KAPITEL 2. GRUNDLAGEN 2.3. SUCHMASCHINEN ein Dokument in eine bestimmte Gruppe der Suchmaschine aufgenommen wird. Die Kosten einer solchen Suchmaschine sind wesentlich höher, da für die Pflege und Erweiterung des Datenbestands mehrere Mitarbeiter notwendig sind. Der Vorteil ist, dass hochwertige Informationen über bestimmte Themen schnell gefunden werden können (da eine übersichtliche Informationsstruktur besteht). Volltext-Suchmaschinen Volltext-Suchmaschinen haben Datenbestände, die mit Hilfe von Programmen, den sog. Spidern (auch Crawler oder Robots genannt), automatisch gefüllt und aktualisiert werden. Beim Aufbau einer Volltext-Suchmaschine muss ein Datenbestand vorliegen. Dieser wird durch manuelles Eintragen von URL s erstellt, den Rest erfüllen die Spider. Weiterhin bieten sie die Möglichkeit, URL s von Websites in die Suchmaschine einzutragen. Somit ist dies ein Schritt, um z. B. für die Popularität der eigenen Website zu sorgen. Spider sind Programme, die eine Liste von URL s (aus den vorhandenen Datenbestand) besuchen und die damit assoziierten HTML-Dokumente erhalten. Im Prinzip gleicht ihre Arbeitsweise die eines Browsers, mit dem Unterschied, dass die erhaltenen Daten nicht zur Darstellung genutzt werden, sondern zur Indizierung weitergeleitet werden. Spider durchsuchen ein HTML-Dokument auf weitere Verweise und verfolgen diese. Verweise auf passwortgeschützte HTML-Dokumente und Fremdformate (z. B. Binärdaten) werden nicht weiter verfolgt. Die Indizierung der gesammelten Dokumente extrahiert Teile (Titel, Meta-Informationen, Text aus dem Dokumentkörper) aus diesen und speichert sie in einer Datenbank. Die Informationen in der Datenbank werden mit der entsprechenden URL verknüpft. Das Such-Interface auf das der Benutzer zugreift, nimmt seine Anfragen an und stellt diese an die darunterliegende Datenbank weiter. Die entsprechenden Resultate aus der Datenbank werden als Antwort, in Form eines HTML-Dokuments, an das Interface zurückgeschickt. Die folgende Abbildung zeigt den grundlegenden Aufbau: 20

22 KAPITEL 2. GRUNDLAGEN 2.3. SUCHMASCHINEN request receive Internet Abfrage Ergebnis Suchmaschine Spider Ergebnis Indizierung Info DB Abfrage Abb Arbeitsweise einer Volltext-Suchmaschine In Abbildung 2.4 wird die Struktur und die Arbeitsweise einer Volltext-Suchmaschine dargestellt. Die Suchmaschine ist von den Spidern getrennt, obwohl im Allgemeinen beide Systeme als Suchmaschine bezeichnet werden. Die Stärke von Volltext-Suchmaschinen ist auch gleichzeitig ihre Schwäche: Den Erfolg über die Suchergebnisse beeinflusst maßgeblich der Benutzer. Er kann nur nach einzelnen Stichwörtern suchen (z. B. Diplomarbeit). Dabei erscheinen viele Ergebnisse, die erst einmal untersucht werden müssen. Eine genaurere Suchangabe erleichtert oft diese Untersuchung, indem nach z. B. Phrasen wie "Wie verfasse ich eine Diplomarbeit" gesucht wird. Dies ist wesentlich konkreter und erhöht die Chance, die erwünschten Ergebnisse zu finden. Möglich ist auch die Suche nach Stichwörtern, die mit logischen Operatoren verknüpft sind. Eine Suche kann z. B. nach "Diplomarbeit AND Informatik NOT Wirtschaft" sein. Hiermit wird erzielt, dass indizierte Dokumente durchsucht werden, welche die Wörter Diplomarbet und Informatik, aber nicht Wirtschaft enthalten. Mit Hilfe der logischen Operatoren kann der Suchbereich eingegrenzt werden. Neben diesen grundlegenden Eigenschaften, bieten moderne Suchmaschinen weitere Dienste an, z. B. das Übersetzen von HTML-Dokumenten in andere Sprachen, nicht auffindbare Dokumente (die jedoch indiziert wurden) aus den Suchmaschinen-Caches anzubieten usw. Durch ihren recht großen Datenbestand sind solche Art von Suchmaschinen sehr beliebt und werden häufig eingesetzt. 21

23 KAPITEL 2. GRUNDLAGEN 2.3. SUCHMASCHINEN Meta-Suchmaschinen Bei Meta-Suchmaschinen handelt es sich um Schnittstellen, die Suchanfragen gleichzeitig an weitere Suchmaschinen weiterleiten. Dabei hat eine Meta-Suchmaschinen keinen eigenen Datenbetsand. Die Suchergebnisse aus den benutzten Suchmaschinen werden zusammengefasst und identische Ergebnisse entfernt. Meta Suchmaschine Anfrage Filtern Anfrage Suchmaschine 1 Ergebnis... Ergebnis Suchmaschine N Abb Aufbau einer Meta-Suchmaschine Der Aufbau einer Meta-Suchmaschine in Abbildung 2.5 zeigt, dass die darunterliegenden Suchmaschinen nicht einer Art entsprechen müssen. Es ist möglich, dass alle besprochenen Suchmaschinen-Arten eingesetzt werden können. Meta-Suchmaschinen haben den Vorteil, dass sie schnell eine Menge von Ergebnissen liefern, die mit Hilfe von mehreren Suchmaschinen ermittelt werden. Ein Nachteil bei der Benutzung von Meta-Suchmaschinen ist, dass zusätzliche Optionen der darunterliegenden Suchmaschinen nicht genutzt werden. Viele Suchmaschinen haben Optionen zur Beeinflussung der Suchergebnisse. Diese können aufgrund der vereinfachten Benutzung durch die Meta-Suchmaschine nicht genutzt werden. Dadurch werden nicht immer die optimalsten Suchergebnisse ermittelt. 22

24 KAPITEL 2. GRUNDLAGEN 2.3. SUCHMASCHINEN Spezialisierte Suchmaschinen Alle zuvor vorgestellten Suchmaschinen-Arten können als spezialisierte Suchmaschinen bezeichnet werden, wenn diese auf ein bestimmtes Gebiet ausgelegt sind (z. B. Firmennamen, Telefonbuch usw.). Das herkömmliche Telefonbuch ist z. B. vergleichbar mit einer speziellen Suchmaschine: In einem Telefonbuch kann nur nach Nachnamen gesucht werden, um die entsprechenden Telefonnummern zu ermitteln. Generell sind Suchmaschinen wohl eines der meistgebrauchten Dienste im Internet. Ohne diese Werkzeuge ist es mühsam, Informationen aus dem WWW zu finden. Diese Arbeit beschäftigt sich mit einer Suchmaschine, die nicht zum Suchen genutzt wird. Es werden eher die spider- und indizierungsspezifischen Aktivitäten der Suchmaschine genutzt, um an Informationen von Websites heranzukommen. 23

Proseminar: Website-Management-Systeme

Proseminar: Website-Management-Systeme Proseminar: Website-Management-Systeme Thema: Web: Apache/Roxen von Oliver Roeschke email: o_roesch@informatik.uni-kl.de Gliederung: 1.) kurze Einleitung 2.) Begriffsklärung 3.) Was ist ein Web? 4.) das

Mehr

Urbacher Computer-Forum

Urbacher Computer-Forum 28.05.12 Vortrag: Unsere Webseite u-g-o und allgemeine Internetbegriffe Website Als Website, Webpräsenz, Webangebot, Webauftritt oder auch Netzauftritt wird ein ganzes Projekt im World Wide Web bezeichnet,

Mehr

Arbeiten im Datennetz der Universität Regensburg

Arbeiten im Datennetz der Universität Regensburg Wiwi-Workshop Uni Regensburg April 2002 Arbeiten im Datennetz der Universität Regensburg - Einführung in HTML, Teil II Arbeiten mit AOLPress - Dr. Wirtschaftswissenschaftliche Fakultät Universität Regensburg

Mehr

42: Das Erste-Hilfe- System im WWW

42: Das Erste-Hilfe- System im WWW INFOS & KOMMUNIKATION 42: Das Erste-Hilfe-System im WWW Technische Grundlagen Aufruf und Bedienung Themen Weitere Informationsquellen Forschungs- & Entwicklungsberichte Implementierung eines 3D-Strömungscodes

Mehr

Inhaltsverzeichnis. Open-Xchange Authentication & Sessionhandling

Inhaltsverzeichnis. Open-Xchange Authentication & Sessionhandling Open-Xchange Authentication & Sessionhandling Version Date Author Changes 1.0 28.08.2006 Stephan Martin Initiale Version 1.1 29.08.2006 Marcus Klein Details Authentication via JSON 1.2 04.09.2006 Stephan

Mehr

Rechnernetze Übung 12

Rechnernetze Übung 12 Rechnernetze Übung 12 Frank Weinhold Professur VSR Fakultät für Informatik TU Chemnitz Juli 2011 Sie kennen sicherlich sogenannte Web-Mailer, also WWW-Oberflächen über die Sie Emails lesen und vielleicht

Mehr

Online-Publishing mit HTML und CSS für Einsteigerinnen

Online-Publishing mit HTML und CSS für Einsteigerinnen mit HTML und CSS für Einsteigerinnen Dipl.-Math. Eva Dyllong Universität Duisburg Dipl.-Math. Maria Oelinger spirito GmbH IF MYT 07-2002 Grundlagen Frau erfahrt, wie das Internet aufgebaut ist, aus welchen

Mehr

Konzepte zur Datenhaltung für Webseiten in einem Web-Content- Management-System

Konzepte zur Datenhaltung für Webseiten in einem Web-Content- Management-System Konzepte zur Datenhaltung für Webseiten in einem Web-Content- Management-System Web-Content-Management-Systeme () dienen dazu, komplexe Websites zu verwalten und den Autoren einzelner Webseiten möglichst

Mehr

Man unterscheidet zwischen LAN (Local Area Network) und WAN (Wide Area Network), auch Internet genannt.

Man unterscheidet zwischen LAN (Local Area Network) und WAN (Wide Area Network), auch Internet genannt. Netzwerk Ein Netzwerk wird gebildet, wenn mehrere Geräte an einem Switch mit Netzwerkkabeln angeschlossen werden. Dabei können die einzelnen Geräte miteinander kommunizieren und über ein Netzwerkprotokoll

Mehr

Client/Server-Systeme

Client/Server-Systeme Frühjahrsemester 2011 CS104 Programmieren II / CS108 Programmier-Projekt Java-Projekt Kapitel 3: /Server-Architekturen H. Schuldt /Server-Systeme Ein zweischichtiges /Server-System ist die einfachste Variante

Mehr

WEBSEITEN ENTWICKELN MIT ASP.NET

WEBSEITEN ENTWICKELN MIT ASP.NET jamal BAYDAOUI WEBSEITEN ENTWICKELN MIT ASP.NET EINE EINFÜHRUNG MIT UMFANGREICHEM BEISPIELPROJEKT ALLE CODES IN VISUAL BASIC UND C# 3.2 Installation 11 Bild 3.2 Der Webplattform-Installer Bild 3.3 IDE-Startbildschirm

Mehr

http://www.therealgang.de/

http://www.therealgang.de/ http://www.therealgang.de/ Titel : Author : Kategorie : Vorlesung HTML und XML (Einführung) Dr. Pascal Rheinert Sonstige-Programmierung Vorlesung HTML / XML: Grundlegende Informationen zu HTML a.) Allgemeines:

Mehr

Bilder im Internet. Hans Magnus Enzensberger

Bilder im Internet. Hans Magnus Enzensberger Kapitel 4 Alle reden von Kommunikation, aber die wenigsten haben sich etwas mitzuteilen. Hans Magnus Enzensberger Bilder im Internet Nach der etwas umfangreichen vorangehenden Lektion zum Ausklang der

Mehr

Angewandte Informatik

Angewandte Informatik Angewandte Informatik Teil 9.1 Web Seiten V1.3 12.03.2011 1 von 37 Inhaltsverzeichnis 3... Welche Browser werden verwendet? 4... Mit welchen Browser surft die Welt? 5... Wie kommt der Browser zur Seite?

Mehr

Glossar. KML TP2, Informationsdienste

Glossar. KML TP2, Informationsdienste KML TP2, Informationsdienste BaseEngine Die BaseEngine ist für die Darstellung der gesamten Webseite verantwortlich. Sie sorgt z.b. für den Aufbau der Navigationsmenüs. Jedes VIP-Objekt ist automatisch

Mehr

Grundlagen der WWW- und Dokumenten-Architektur. Robert Strzebkowski TFH Berlin

Grundlagen der WWW- und Dokumenten-Architektur. Robert Strzebkowski TFH Berlin Grundlagen der WWW- und Dokumenten-Architektur Grundlagen der WWW- und Dokumenten-Architektur 1. Die Grundbestandteile vom World Wide Web 2. Das HTTP-Protokoll und 3. Was sind 'URL' und 'URI'? 4. Dynamische

Mehr

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking Geschichte des Internets Suchmaschinen Fachinformationszentren Kurze Geschichte des Internets Internet: Geschichte beginnt mit der Entwicklung paketvermittelter Netze. Bei der Paketvermittlung werden Nachrichten

Mehr

Glossar. SVG-Grafiken in Bitmap-Grafikformate. Anweisung Eine Anweisung ist eine Folge aus Schlüsselwörtern, Variablen, Objekten,

Glossar. SVG-Grafiken in Bitmap-Grafikformate. Anweisung Eine Anweisung ist eine Folge aus Schlüsselwörtern, Variablen, Objekten, Glossar Anweisung Eine Anweisung ist eine Folge aus Schlüsselwörtern, Variablen, Objekten, Methoden und/oder Eigenschaften, die eine bestimmte Berechnung ausführt, eine Eigenschaft ändert oder eine Methode

Mehr

CARM-Server. Users Guide. Version 4.65. APIS Informationstechnologien GmbH

CARM-Server. Users Guide. Version 4.65. APIS Informationstechnologien GmbH CARM-Server Version 4.65 Users Guide APIS Informationstechnologien GmbH Einleitung... 1 Zugriff mit APIS IQ-Software... 1 Zugang konfigurieren... 1 Das CARM-Server-Menü... 1 Administration... 1 Remote-Konfiguration...

Mehr

CAS genesisworld.exchange connect Abgleich von Adressen und Terminen

CAS genesisworld.exchange connect Abgleich von Adressen und Terminen Abgleich von Adressen und Terminen Stand Juni 2004 Was ist CAS genesisworld.exchange connect? Inhalt 1 Was ist CAS genesisworld.exchange connect?... 3 2 Systemvoraussetzungen... 5 2.1 Software...5 2.2

Mehr

Design anpassen eine kurze Einführung

Design anpassen eine kurze Einführung Design anpassen eine kurze Einführung Das gesamte Layout von Papoo basiert auf modernen CSS Layouts die vollständig ohne Layout Tabellen funktionieren. Um schnell vorhandene Designs anpassen zu können

Mehr

Anwendungsprotokolle: HTTP, POP, SMTP

Anwendungsprotokolle: HTTP, POP, SMTP Anwendungsprotokolle: HTTP, POP, SMTP TCP? UDP? Socket? eingesetzt, um Webseiten zu übertragen Zustandslos Nutzt TCP Client schickt Anfrage ( HTTP-Request ) an Server, Server schickt daraufhin Antwort

Mehr

Handbuch zum besseren Verständnis des Webalizers Kurzanleitung

Handbuch zum besseren Verständnis des Webalizers Kurzanleitung Handbuch zum besseren Verständnis des Webalizers Kurzanleitung Eine Orientierungshilfe von die-netzwerkstatt.de Vorwort Inhalt Dieses Dokument beschreibt den Aufbau der Auswertung der Webserver-Statistiken.

Mehr

Informatik I: Einführung in die Programmierung

Informatik I: Einführung in die Programmierung Informatik I: Einführung in die Programmierung 21. Das WWW befragen Albert-Ludwigs-Universität Freiburg Bernhard Nebel 13.01.2015 1 13.01.2015 B. Nebel Info I 3 / 17 Oft braucht ein Programm Informationen,

Mehr

Administrator-Anleitung

Administrator-Anleitung Administrator-Anleitung für die Typ 1 Installation der LEC-Web-Anwendung auf einem Microsoft Windows Netzwerkserver Ansprechpartner für Fragen zur Software: Zentrum für integrierten Umweltschutz e.v. (ZiU)

Mehr

BANKETTprofi Web-Client

BANKETTprofi Web-Client BANKETTprofi Web-Client Konfiguration und Bedienung Handout für die Einrichtung und Bedienung des BANKETTprofi Web-Clients im Intranet / Extranet Der BANKETTprofi Web-Client Mit dem BANKETTprofi Web-Client

Mehr

Hinweise zur Bestellung anonymer Zählmarken

Hinweise zur Bestellung anonymer Zählmarken Allgemein Hinweise zur Bestellung anonymer Zählmarken Grundlage für die reguläre Ausschüttung im Bereich Texte im Internet / METIS ist die Zählung der Zugriffe mittels einer Zählmarke. Diese Zählmarke

Mehr

ESB - Elektronischer Service Bericht

ESB - Elektronischer Service Bericht Desk Software & Consulting GmbH ESB - Elektronischer Service Bericht Dokumentation des elektronischen Serviceberichts Matthias Hoffmann 25.04.2012 DESK Software und Consulting GmbH Im Heerfeld 2-4 35713

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Technische Anforderungen. zum Empfang. von XML-Nachrichten

Technische Anforderungen. zum Empfang. von XML-Nachrichten Technische Anforderungen zum Empfang von XML-Nachrichten 25.11.2004 Peer Uwe Peters 2 1 Inhaltsverzeichnis 1 INHALTSVERZEICHNIS... 2 2 ZIEL DIESES DOKUMENTS... 3 3 KONTEXT... 3 4 SENDEWEG... 4 5 ERREICHBARKEIT...

Mehr

Mein Internetauftritt auf dem Prüfstand

Mein Internetauftritt auf dem Prüfstand Mein Internetauftritt auf dem Prüfstand Praxisseminar am 13.03.2008 Dr. Wolfgang Krauß Krauß-Marketing Unternehmensberatung Chemnitz www.krauss-marketing.de Das Marketing befindet sich im Umbruch These:

Mehr

Kapitel 3 Frames Seite 1

Kapitel 3 Frames Seite 1 Kapitel 3 Frames Seite 1 3 Frames 3.1 Allgemeines Mit Frames teilt man eine HTML-Seite in mehrere Bereiche ein. Eine Seite, die mit Frames aufgeteilt ist, besteht aus mehreren Einzelseiten, die sich den

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Starten Sie das Shopinstallatonsprogramm und übertragen Sie alle Dateien

Starten Sie das Shopinstallatonsprogramm und übertragen Sie alle Dateien 3. Installation Ihres Shops im Internet / Kurzanleitung Kurzanleitung: Starten Sie das Shopinstallatonsprogramm und übertragen Sie alle Dateien Geben Sie während der Webbasierten Installationsroutine alle

Mehr

4 Die FrontPage-Website

4 Die FrontPage-Website 4 Die FrontPage-Website Ziele dieses Kapitels A Sie lernen die Struktur einer Website kennen. A Sie können Websites verschachteln. A Sie können Websites konvertieren. Microsoft Office Frontpage 2003 Einführung

Mehr

+OK aixrs1.hrz.uni-essen.de POP3 3.3(18) w/imap2 client (Comments to MRC@CAC.Washington.EDU) at Fri, 23 Jan 1998 17:08:20 +0100 (MEZ)

+OK aixrs1.hrz.uni-essen.de POP3 3.3(18) w/imap2 client (Comments to MRC@CAC.Washington.EDU) at Fri, 23 Jan 1998 17:08:20 +0100 (MEZ) Anwendung der BON Problemstellung Implementierung eines einfachen POP3-Clients Anforderungsbeschreibung Es soll ein einfacher POP3-Kommandozeilen-Client entworfen werden, welcher über eine Internet- Verbindung

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Black-Hat Search Engine Optimization (SEO) Practices for Websites

Black-Hat Search Engine Optimization (SEO) Practices for Websites Beispielbild Black-Hat Search Engine Optimization (SEO) Practices for Websites Damla Durmaz - 29. Januar. 2009 Proseminar Technisch Informatik Leitung: Georg Wittenburg Betreuer: Norman Dziengel Fachbereich

Mehr

COLLECTION. Installation und Neuerungen. Märklin 00/H0 Jahresversion 2009. Version 7. Die Datenbank für Sammler

COLLECTION. Installation und Neuerungen. Märklin 00/H0 Jahresversion 2009. Version 7. Die Datenbank für Sammler Die Datenbank für Sammler COLLECTION Version 7 Installation und Neuerungen Märklin 00/H0 Jahresversion 2009 Stand: April 2009 Inhaltsverzeichnis Inhaltsverzeichnis... 2 VORWORT... 3 Hinweise für Anwender,

Mehr

Ursprung des Internets und WWW

Ursprung des Internets und WWW Ursprung des Internets und WWW Ende der 60er Jahre des letzten Jahrtausends wurde in den USA die Agentur DARPA (Defense Advanced Research Projects Agency) gegründet, mit dem Ziel den Wissens und Informationsaustausch

Mehr

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2)

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2) 14. URIs Uniform Resource Identifier 14-1 14. URIs Uniform Resource Identifier 14-2 Motivation Das WWW ist ein Hypermedia System. Es enthält: Resourcen (Multimedia Dokumente) Verweise (Links) zwischen

Mehr

Universitätsbibliothek. Technische Universität München. Internetsuche. Wissenswertes und Wissenschaftliches

Universitätsbibliothek. Technische Universität München. Internetsuche. Wissenswertes und Wissenschaftliches Internetsuche Wissenswertes und Wissenschaftliches 1. Allgemeine Suchmaschinen 2 Gezielter Suchen in Google Bestimmt nutzen Sie allgemeine Suchmaschinen (beinahe) täglich. Allerdings ist die Menge und

Mehr

Einführung in die Skriptsprache PHP

Einführung in die Skriptsprache PHP Einführung in die Skriptsprache PHP 1. Erläuterungen PHP ist ein Interpreter-Programm, das auf dem Server abgelegte Dateien dynamisch, d.h. zur Zeit des Zugriffes, aufbereitet. Zusätzlich zum normalen

Mehr

!"# $ % Internet Protokolle: HTTP 1/38

!# $ % Internet Protokolle: HTTP 1/38 !"# $ % Internet Protokolle: HTTP 1/38 1 Themenübersicht Schichtenmodell Gopher /FTP Statistik URL Einleitung Anwendungsablauf Beispiel mit Telnet Request, Response Anfragemethoden header Negotiation Proxyserver

Mehr

Themen. Anwendungsschicht DNS HTTP. Stefan Szalowski Rechnernetze Anwendungsschicht

Themen. Anwendungsschicht DNS HTTP. Stefan Szalowski Rechnernetze Anwendungsschicht Themen Anwendungsschicht DNS HTTP Anwendungsschicht OSI-Schicht 7, TCP/IP-Schicht 4 Dienste für den Nutzer/Anwender Unabhängig von den niederen Schichten Verschiedene Dienste bzw. Services DNS HTTP FTP,

Mehr

Internet Interconnected Networks - Geschichte -

Internet Interconnected Networks - Geschichte - Internet Interconnected Networks - Geschichte - 1876 Erfindung des Telefons 1941 Erfindung des ersten Computers 60er Jahre ARPA (Advanced Research Projects Agency) ARPANET Ziel: Netz, indem weltweit Rechner

Mehr

Erklärung der Webalizer Statistik

Erklärung der Webalizer Statistik Webhost Linux Erklärung der Webalizer Statistik - 1 - Erklärung der Webalizer-Statistik Dieses Dokument beschreibt den Aufbau der Auswertung der Webserver-Statistiken. Die Auswertungen sind täglich ab

Mehr

Handbuch Online-Abgleich

Handbuch Online-Abgleich Handbuch Online-Abgleich Inhalt Einleitung...1 Voraussetzungen...1 Aufruf des Online-Abgleiches...1 Übersichtsseite...1 Wahl einer Liste...1 Wahl des Online Abgleichs...2 Erstellen eines neuen Abgleiches...3

Mehr

Web Crawling Die Erschließung des Webs

Web Crawling Die Erschließung des Webs Web Crawling Die Erschließung des Webs Ronny Harbich Otto-von-Guericke-Universität 5. Dezember 2007 1/24 Ronny Harbich Web Crawling Die Erschließung des Webs Übersicht 1 2 3 4 2/24 Ronny Harbich Web Crawling

Mehr

ITPM.VAKcheck. Dokumentation

ITPM.VAKcheck. Dokumentation Dokumentation Version 1.5.0 09.2008 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis... 2 2 Einführung... 2 3 Voraussetzungen... 2 4 Start des Programms... 3 4.1 Kontenpflege... 4 4.2 Datenbank... 5 4.3 LogDatei...

Mehr

VWA Rhein-Neckar Dipl.-Ing. Thomas Kloepfer. Kommunikation I (Internet) Übung 4 PHP

VWA Rhein-Neckar Dipl.-Ing. Thomas Kloepfer. Kommunikation I (Internet) Übung 4 PHP VWA Rhein-Neckar Dipl.-Ing. Thomas Kloepfer Kommunikation I (Internet) Übung 4 PHP SS 2004 Inhaltsverzeichnis 1. PHP die serverseitige Programmiersprache...1 1.1. PHP - Bereiche in HTML definieren...1

Mehr

ARCHITEKTUR VON INFORMATIONSSYSTEMEN

ARCHITEKTUR VON INFORMATIONSSYSTEMEN ARCHITEKTUR VON INFORMATIONSSYSTEMEN File Transfer Protocol Einleitung Das World Wide Web war ja ursprünglich als verteiltes Dokumentenverwaltungssystem für die akademische Welt gedacht. Das Protokoll

Mehr

PowerBridge MSSQL Beta

PowerBridge MSSQL Beta SoftENGINE PowerBridge MSSQL Beta Dokumentation Thomas Jakob 17.04.2011 Inhalt Einrichtung der SQL Umgebung... 3 SQL-Server Installieren... 3 BüroWARE Installieren... 3 PowerBridge-SQL Modus einrichten...

Mehr

DIE GRUNDLAGEN DER FERNÜBERWACHUNG

DIE GRUNDLAGEN DER FERNÜBERWACHUNG DIE GRUNDLAGEN DER FERNÜBERWACHUNG Verbraucherleitfaden Version 1.0 Deutsch Einleitung Derzeit sind am Markt zahlreiche Videoüberwachungssysteme erhältlich, die einen digitalen Zugriff über Netzwerkverbindungen

Mehr

Installation/Update und Konfiguration des Renderservice (v1.7.0)

Installation/Update und Konfiguration des Renderservice (v1.7.0) Installation/Update und Konfiguration des Renderservice (v1.7.0) [edu- sharing Team] [Dieses Dokument beschreibt die Installation und Konfiguration des Renderservice.] edu- sharing / metaventis GmbH Postfach

Mehr

DRESDEN, 08.10.2009 CHRISTIAN.KNAUER@INF.TU-DRESEDEN.DE

DRESDEN, 08.10.2009 CHRISTIAN.KNAUER@INF.TU-DRESEDEN.DE DOKUMENTATION MAAS - MONITORING AS A SERVICE DRESDEN, 08.10.2009 CHRISTIAN.KNAUER@INF.TU-DRESEDEN.DE Dokumentation MaaS - Monitoring as a Service Inhalt 1. MaaS - Monitoring as Service... 3 1.1 Einleitung...

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

DV-Praktikum. Probleme mit der Hausaufgabe?

DV-Praktikum. Probleme mit der Hausaufgabe? DV-Praktikum Probleme mit der Hausaufgabe? Internet Was ist das Internet? Internet Was ist das Internet? Das Internet ist eine Infrastruktur; ein globales Netzwerk von Netzwerken und Einzelrechnern, in

Mehr

Automatisierte Erstellung von Software-Builds und -dokumentationen. Teil 1

Automatisierte Erstellung von Software-Builds und -dokumentationen. Teil 1 Automatisierte Erstellung von Software-Builds und -dokumentationen Teil 1 Autoren: Hagedorn, Robert; Denninger, Oliver Kontakt: {hagedorn denninger}@fzi.de Web: http://zfs.fzi.de Ort, Datum: Karlsruhe,

Mehr

Internet und Webseiten-Gestaltung

Internet und Webseiten-Gestaltung Internet und Webseiten-Gestaltung Wirtschaftsinformatik 3 Vorlesung 28. April 2004 Dipl.-Inf. T. Mättig 2004-04-28 Internet und Webseiten-Gestaltung - T. Mättig 1 Vorbemerkungen Dipl.-Inf. T. Mättig E-Mail:

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

PC-Kaufmann Supportinformation - Proxy Konfiguration für Elster

PC-Kaufmann Supportinformation - Proxy Konfiguration für Elster Seite 1 von 12 Dieses Dokument dient für Sie als Hilfe für die Konfiguration verschiedener Proxy-Server, wenn Sie Ihre Daten per Elster an das Finanzamt über einen Proxy-Server senden möchten. 1. Was ist

Mehr

Handbuch zu AS Connect für Outlook

Handbuch zu AS Connect für Outlook Handbuch zu AS Connect für Outlook AS Connect für Outlook ist die schnelle, einfache Kommunikation zwischen Microsoft Outlook und der AS Datenbank LEISTUNG am BAU. AS Connect für Outlook Stand: 02.04.2013

Mehr

Erstellen eigener HTML Seiten auf ewon

Erstellen eigener HTML Seiten auf ewon ewon - Technical Note Nr. 010 Version 1.2 Erstellen eigener HTML Seiten auf ewon 30.08.2006/SI Übersicht: 1. Thema 2. Benötigte Komponenten 3. Funktionsaufbau und Konfiguration 3.1. Unterpunkt 1 3.2. Unterpunkt

Mehr

Anleitung zum Prüfen von WebDAV

Anleitung zum Prüfen von WebDAV Anleitung zum Prüfen von WebDAV (BDRS Version 8.010.006 oder höher) Dieses Merkblatt beschreibt, wie Sie Ihr System auf die Verwendung von WebDAV überprüfen können. 1. Was ist WebDAV? Bei der Nutzung des

Mehr

Erzherzog Johann Jahr 2009

Erzherzog Johann Jahr 2009 Erzherzog Johann Jahr 2009 Der Erzherzog Johann Tag an der FH JOANNEUM in Kapfenberg Was wird zur Erstellung einer Webseite benötigt? Um eine Webseite zu erstellen, sind die folgenden Dinge nötig: 1. Ein

Mehr

Herzlich willkommen im Modul Informatik Grundlagen

Herzlich willkommen im Modul Informatik Grundlagen Herbstsemester 2010/2011 Herzlich willkommen im Modul Informatik Grundlagen Wirtschaftsingenieurwesen: 1. Semester Dozent: Martin Hüsler Fachhochschule Nordwestschweiz FHNW / Martin Hüsler 1 Ablauf: 1.

Mehr

Gefahren aus dem Internet 1 Grundwissen April 2010

Gefahren aus dem Internet 1 Grundwissen April 2010 1 Grundwissen Voraussetzungen Sie haben das Internet bereits zuhause oder an der Schule genutzt. Sie wissen, was ein Provider ist. Sie wissen, was eine URL ist. Lernziele Sie wissen, was es braucht, damit

Mehr

Installation des edu- sharing Plug- Ins für Moodle

Installation des edu- sharing Plug- Ins für Moodle Installation des edu- sharing Plug- Ins für Moodle [edu-sharing Team] [Dieses Dokument beschreibt die Installation und Konfiguration des edu-sharing Plug-Ins für das LMS Moodle.] edu- sharing / metaventis

Mehr

Dokumentation Projekt Virtuelles Tagebuch

Dokumentation Projekt Virtuelles Tagebuch Priv.Doz. Dr. Michael Hahsler Institut für Informationswirtschaft Dokumentation Projekt (Matr. Nr. 9806106) - 1 - 1 Problembeschreibung Das Ziel dieses Projektes ist es, ein Tagebuch in elektronischer

Mehr

Dokumentation Authentische Strukturdaten

Dokumentation Authentische Strukturdaten Dokumentation Version 1.1 Version 1.0 Seite 1/18 31.10.2008 Inhaltsverzeichnis 1. Allgemeines...3 1.1 Phasenmodell...3 1.1.1 Phase I...3 1.1.2 Phase II...3 1.1.3 Phase III...3 1.2 Datenaktualität...3 2.

Mehr

Recommended Search Engine Optimization

Recommended Search Engine Optimization Beispielbild Recommended Search Engine Optimization by Ralf Kuschel Student, Freie Universität Berlin Directory 2 Architektur 3 Architektur Document Index übernimmt die Datenverwaltung teilt Dokumenten

Mehr

d e S I G n & d e v e L O P M e n T TYPO3 AdvAnced

d e S I G n & d e v e L O P M e n T TYPO3 AdvAnced DESIGN & DEVELOPMENT TYPO3 Advanced 1 Einleitung / Inhalt 2 / 13 Einleitung Dieses Dokument weist Sie durch die Funktion des Open Source CMS TYPO3. In wenigen, einfachen Schritten wird Ihnen bebildert

Mehr

Qualitool Benutzerhandbuch

Qualitool Benutzerhandbuch Qualitool Benutzerhandbuch 1. ALLGEMEINES... 2 2. EINRICHTUNG DER PRÜFREGELN... 3 3. AUFRUF DES PROGRAMMS... 4 4. ARBEITSORDNER EINSTELLEN... 5 5. PRÜFMASKE... 6 6. EINZELNE DATEIEN PRÜFEN... 7 7. AUTOMATISCHES

Mehr

Information über die WebServices der Parlamentsdienste

Information über die WebServices der Parlamentsdienste Parlamentsdienste Services du Parlement Servizi del Parlamento Servetschs dal parlament Information über die WebServices der Parlamentsdienste Version 4 Verlauf Version Datum Kommentar Person 0.1 25.03.11

Mehr

Automail für fli4l. Kurze Beschreibung der Umgebung. Das Problem. LinuxFocus article number 308 http://linuxfocus.org. by Stefan Blechschmidt

Automail für fli4l. Kurze Beschreibung der Umgebung. Das Problem. LinuxFocus article number 308 http://linuxfocus.org. by Stefan Blechschmidt LinuxFocus article number 308 http://linuxfocus.org Automail für fli4l by Stefan Blechschmidt About the author: Abstract: Als gelernter Elektriker hat man mich 1990 vor einen CAD

Mehr

Leitfaden zur Installation von BitByters.Backup

Leitfaden zur Installation von BitByters.Backup Leitfaden zur Installation von BitByters.Backup Der BitByters.Backup - DASIService ist ein Tool mit dem Sie Ihre Datensicherung organisieren können. Es ist nicht nur ein reines Online- Sicherungstool,

Mehr

Webhost Unix Statistik

Webhost Unix Statistik Webhost Unix Statistik Für jeden Betreiber eines Webservers ist es natürlich auch interessant zu wissen, welchen Erfolg das eigene Angebot hat und welche Seiten denn am öftesten abgerufen werden. Da jeder

Mehr

4. Datenabfrage mit QBE 11

4. Datenabfrage mit QBE 11 Informationsbestände analysieren Datenabfrage mit QBE 4. Datenabfrage mit QBE 11 4.1. QBE vs. SQL Relationale Datenbanken haben schon früh den Anspruch gestellt, auch für Nicht- Informatiker nutzbar zu

Mehr

AWSTATS Statistik benutzen und verstehen

AWSTATS Statistik benutzen und verstehen AWSTATS Statistik benutzen und verstehen Seite stat. domäne (z.b. stat.comp-sys.ch) im Internetbrowser eingeben und mit Benutzernamen und Passwort anmelden (gemäss Anmeldedaten) Monat und Jahr wählen OK

Mehr

Client/Server-Systeme

Client/Server-Systeme Fachbereich Informatik Projektgruppe KOSI Kooperative Spiele im Internet Client/Server-Systeme Vortragender Jan-Ole Janssen 26. November 2000 Übersicht Teil 1 Das Client/Server-Konzept Teil 2 Client/Server-Architekturen

Mehr

TimeMachine. Time CGI. Version 1.5. Stand 04.12.2013. Dokument: time.odt. Berger EDV Service Tulbeckstr. 33 80339 München

TimeMachine. Time CGI. Version 1.5. Stand 04.12.2013. Dokument: time.odt. Berger EDV Service Tulbeckstr. 33 80339 München Time CGI Version 1.5 Stand 04.12.2013 TimeMachine Dokument: time.odt Berger EDV Service Tulbeckstr. 33 80339 München Fon +49 89 13945642 Mail rb@bergertime.de Versionsangaben Autor Version Datum Kommentar

Mehr

8 Kapitel TypoScript 219

8 Kapitel TypoScript 219 8 Kapitel TypoScript TypoScript gehört zu den umfangreichsten und zugleich wichtigsten Bereichen, die ein TYPO3 Integrator beherrschen muss. Nahezu die gesamte Erstellung einer Website, angefangen bei

Mehr

Homepages Einführung

Homepages Einführung Homepages Einführung für den PC-Senioren-Club Konstanz Tom Novacek 27.05.2011 "Daten" = Anweisungen für ein Programm, formuliert in einer (geschriebenen) Sprache, die das Programm versteht WORD: Sprache

Mehr

Microsoft SQL Server 2014 Express & EPLAN Plattform. EPLAN-Product-IT-Support / FOS / 2015 1

Microsoft SQL Server 2014 Express & EPLAN Plattform. EPLAN-Product-IT-Support / FOS / 2015 1 Microsoft SQL Server 2014 Express & EPLAN Plattform 1 Microsoft SQL Server & EPLAN Plattform Übersicht Download - Microsoft SQL Server 2014 Express mit Advances Services Installation - Microsoft SQL Server

Mehr

Automatisiertes Informationsmanagement für Microsoft Exchange Server

Automatisiertes Informationsmanagement für Microsoft Exchange Server Windream Exchange Automatisiertes Informationsmanagement für Microsoft Exchange Server Facts: Zugriff auf E-Mails sowohl aus Microsoft Outlook als auch aus Windream Komfortable Recherche und Verwaltung

Mehr

Scalera Mailplattform Dokumentation für den Anwender Installation und Konfiguration des Outlook Connectors

Scalera Mailplattform Dokumentation für den Anwender Installation und Konfiguration des Outlook Connectors Installation und Konfiguration des Outlook Connectors Vertraulichkeit Die vorliegende Dokumentation beinhaltet vertrauliche Informationen und darf nicht an etwelche Konkurrenten der EveryWare AG weitergereicht

Mehr

Internet-Blocking: Was ist technisch möglich?

Internet-Blocking: Was ist technisch möglich? Fakultät Informatik, Institut für Systemarchitektur, Professur Datenschutz und Datensicherheit Internet-Blocking: Was ist technisch möglich? Stefan Köpsell, sk13@inf.tu-dresden.de Das Internet eine historische

Mehr

Datenzugriff über VPN

Datenzugriff über VPN Leitfaden Datenzugriff über VPN Einführung Ab der Version 3.0 besteht bei einer Installation von SPG-Verein die Möglichkeit, den Programmund Datenbereich getrennt abzulegen. Dadurch kann u. a. der Datenbereich

Mehr

Web Grundlagen zum Spidering

Web Grundlagen zum Spidering May 22, 2009 Outline Adressierung 1 Adressierung 2 3 4 Uniform Resource Locator URL Jede Seite im Internet wird eindeutig über eine URL identiziert, z.b. http://www.christianherta.de/informationretrieval/index.html

Mehr

Die Statistiken von SiMedia

Die Statistiken von SiMedia Die Statistiken von SiMedia Unsere Statistiken sind unter folgender Adresse erreichbar: http://stats.simedia.info Kategorie Titel Einfach Erweitert Übersicht Datum und Zeit Inhalt Besucher-Demographie

Mehr

INFOLOGIS AG EXZELLENT IN DER UMSETZUNG VON UNTERNEHMENSSTRATEGIEN. Aufbau einer Project Wiki

INFOLOGIS AG EXZELLENT IN DER UMSETZUNG VON UNTERNEHMENSSTRATEGIEN. Aufbau einer Project Wiki INFOLOGIS AG EXZELLENT IN DER UMSETZUNG VON UNTERNEHMENSSTRATEGIEN. Aufbau einer Project Wiki Allgemein Project WIKI Das optimale Know-How-Tool für Ihr Projekt. Wissen, Templates und Dokumente auf Knopfdruck.

Mehr

Handbuch Datenpunktliste - Auswerte - Tools

Handbuch Datenpunktliste - Auswerte - Tools Handbuch Datenpunktliste - Auswerte - Tools zur Bearbeitung von Excel Datenpunktlisten nach VDI Norm 3814 für Saia PCD Systeme alle Rechte bei: SBC Deutschland GmbH Siemensstr. 3, 63263 Neu-Isenburg nachfolgend

Mehr

Datenbank-basierte Webserver

Datenbank-basierte Webserver Datenbank-basierte Webserver Datenbank-Funktion steht im Vordergrund Web-Schnittstelle für Eingabe, Wartung oder Ausgabe von Daten Datenbank läuft im Hintergrund und liefert Daten für bestimmte Seiten

Mehr

bnsyncservice Installation und Konfiguration bnnetserverdienst Voraussetzungen: KWP Informationssysteme GmbH Technische Dokumentation

bnsyncservice Installation und Konfiguration bnnetserverdienst Voraussetzungen: KWP Informationssysteme GmbH Technische Dokumentation bnsyncservice Voraussetzungen: Tobit DAVID Version 12, DVWIN32: 12.00a.4147, DVAPI: 12.00a.0363 Exchange Server (Microsoft Online Services) Grundsätzlich wird von Seiten KWP ausschließlich die CLOUD-Lösung

Mehr

3. Baumstrukturen. 3.1 Dateien und Ordner

3. Baumstrukturen. 3.1 Dateien und Ordner bertram.hafner@t-online.de Informatik 7 Seite 1 3. Baumstrukturen 3.1 Dateien und Ordner Schreibe einen kurzen Text und speichere ihn ab. Verändere den Text und speichere ihn unter einem neuen Namen ab.

Mehr

www.ev-forum-westfalen.de/efwm/

www.ev-forum-westfalen.de/efwm/ ZOLLER, Hanspeter 1/18 www.ev-forum-westfalen.de/efwm/ Was bedeuten IP, URL, DNS, HTML, PHP, CMS? Wie logge ich mich ein? Was bewirkt man mit den einzelnen Typo3-Symbolen ('icons')? Wie ändere ich den

Mehr

5.4 Die Benachrichtigung (Notification)

5.4 Die Benachrichtigung (Notification) 160 Bekannte Probleme Windows Phone Im Emulator wird immer die Connection.UNKNOWN zurückgegeben. ios und Bada Es wird leider nur unterschieden, ob es eine mobile oder WiFi-Verbindung gibt. Der Grad der

Mehr

RÖK Typo3 Dokumentation

RÖK Typo3 Dokumentation 2012 RÖK Typo3 Dokumentation Redakteur Sparten Eine Hilfe für den Einstieg in Typo3. Innpuls Werbeagentur GmbH 01.01.2012 2 RÖK Typo3 Dokumentation Inhalt 1) Was ist Typo3... 3 2) Typo3 aufrufen und Anmelden...

Mehr

Das Internet. Das Internet. Das Internet. Was ist das Internet? Was ist das Internet? Was ist das Internet?

Das Internet. Das Internet. Das Internet. Was ist das Internet? Was ist das Internet? Was ist das Internet? Das Internet Was ist das Internet? Das Internet Was ist das Internet? Gesamtheit aller weltweit zusammengeschlossener Computer-Netzwerke Vorraussetzung für Datenaustausch ist Kommunikation über ein standardisiertes

Mehr