Recherchieren im Internet Univ.-Prof. Dr. Rony G. Flatscher (Rony.Flatscher@wu-wien.ac.at) Abteilung für Wirtschaftsinformatik Wirtschaftsuniversität Wien (http://www.wu-wien.ac.at) Abt. für Wirtschaftsinformatik (http://www.wu-wien.ac.at/wi) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 1
Recherchieren im Internet Ziele Erarbeitung des Kerns des für das Recherchieren im Internet notwendige Wissen Überblick Zusammenhänge Grundlagen Einführung in die Nutzung von Suchmaschinen Einfache Abfragen Komplexe Abfragen Weiterführende URLs Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 2
Internet und World-Wide-Web Berkeley, June 1999 ca. 500 Milliarden Dokumente weltweit Umfang verdoppelt sich etwa alle sechs Monate ca. 30 Millionen WWW-Server -zig Millionen Web-Klienten Dataquest, Juni 1999 allein in Europa Ende 1998 etwa 35 Millionen Internetbenutzer Verdoppelung innerhalb eines einzigen Jahres! Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 3
Internet TCP/IP (1) Transmission Control Protocol/Internet Protocol IP Sammlung von Protokollen Regeln für das Versenden und Empfangen von Daten Netzwerke Netz von Netzwerken Adressierung IP-Adresse ("IP-Nummer") Basisprotokoll Verpackt Daten in "Pakete", addressiert und verschickt diese an Rechner Legt fest, wieviel Daten maximal in einem Paket enthalten sein können Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 4
Internet TCP/IP (2) TCP Übertragungsprotokoll Nutzt IP Teilt die zu übertragenden Daten in Pakete auf Überprüft, ob alle Pakete ans Ziel gelangt sind Setzt erhaltene Pakete in der richtigen Reihenfolge zusammen TCP/IP als Basis weiterer Protokolle, z.b. telnet ftp gopher http... Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 5
Internet TCP/IP (3) TCP/IP als Basis weiterer Protokolle (Fortsetzung) Protokolle zumeist mit "Socket" (Steckdose) implementiert Die Steckdose verfügt dabei über unzählig verschiedene "Ports" (Öffnungen) Standardisierte TCP/IP-Protokolle sind unter Kenntnis der entsprechenden, vordefinierten Öffnung (Port-Nummer) ansprechbar Zuordnung der Protokolle zu den Standard-Ports üblicherweise in der Konfigurationsdatei "services" enthalten http-standard-port: 80 Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 6
Internet IP-Adressierung Identifiziert jeden am Internet teilhabenden Rechner weltweit eindeutig! Besteht aus vier Bytes Übliche Notation trennt die vier einzelnen Bytes durch einen Punkt, z.b. 137.208.127.33 Besteht aus einer Identifikation des Netzwerks und des Rechners innerhalb des Netzwerkes, z.b. 137.208.127.33 Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 7
Internet Eindeutiger Rechnername (1) "Domain name" Weltweit eindeutiger (textueller) Bezeichner für einen Namensraum, dessen Auflösung von rechts nach links erfolgt, z.b. WU-Wien academic austria wu-wien.ac.at Jeder Rechnername innerhalb eines Namensraumes muß eindeutig sein, z.b. isis.wu-wien.ac.at www.wu-wien.ac.at Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 8
Internet Eindeutiger Rechnername (2) Endung (Namensbestandteil nach dem letzten Punkt) Zweistellig ISO-Kurzbezeichnung des Landes, z.b. at, de, fr, it, ru, uk,... anschließend eine zweistellige Bezeichnung der Art co, ac, gv, or,... Dreistellig Rechner der Vereinigten Staaten com, edu, gov, mil, net, org,... "Domain Name Server" (DNS) Setzt die Rechnernamen in IP-Adressen um Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 9
Internet World-Wide-Web (WWW) Hypertext Transfer Protocol (http), Port 80 Zustandsloses Protokoll zum Abrufen von Dokumenten von einem http-server Notwendigkeit z.b. von "Cookies" Uniform Resource Locator (URL) Adressierung Textdateien, die URLs enthalten können Aufbau eines URLs http://www.wu-wien.ac.at:80/index.html Protokoll Rechnername Port Pfad zum http://www.wu-wien.ac.at Dokument http://137.208.127.71 Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 10
Auszeichnungs-Standards HTML (1) "Hypertext Markup Language" Auszeichnung von Texten Elemente für Verweise auf andere Dokumente Multimedia-Objekte Trennung zwischen Struktur und Darstellung <!doctype html public '-//W3C//DTD HTML 4.0 Transitional//EN' 'http://www.w3.org/tr/rec-html40-971218/loose.dtd'> <HTML> <HEAD>... Angaben über das Dokument selbst ("Meta-Informationen")... </HEAD> <BODY>... Dokument (Instanz der html-dtd)... </BODY> </HTML> Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 11
Auszeichnungs-Standards HTML (2) Wichtige <HEAD>-Elemente <TITLE> Titel des Dokuments (Titelleiste) <META> Metainformationen (z.b. Autor, Stichwörter) Beispiele: <meta name='generator' content='xml/xh/lark' > <meta name='autor' content='rony G. Flatscher'> <meta name='keywords' content='wu-wien, Internet, Effizient Recherchieren, Wirtschaftsinformatik'> <LINK> Verweismöglichkeiten, z.b. für CSS Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 12
Auszeichnungs-Standards HTML (3) Roboter Lesen HTML-Dokumente Extrahieren die Meta-Elemente im HEAD-Element Suchmaschinen können daher URLs und die genau dazu gehörenden Metainformationen mit relativ geringem Aufwand speichern Standardisierte Meta-Attribute wie "Generator", "Author", "Keywords" besonders wichtig Analysieren die BODY-Elemente können den Verweisen (Hyperlinks) der A-Elemente folgen und die entsprechenden Dokumente rekursiv lesen, analysieren und für Suchmaschinen speichern Grundsätzlich Extrahieren aller Wörter des ausgezeichneten Textes! Aufbau z.b. von Indices für Suchmaschinen. Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 13
Suchmaschinen Überblick (1) Kurzcharakterisierung Softwaresystem ermöglicht Zugriff auf die Ergebnisse von analysierten Dokumenten Benutzerschnittstelle zur Entgegennahme von Abfragen Erzeugt als Ergebnis Dateien, die jene Daten beinhalten, die die Suchkritierien erfüllen Verweise auf jene Daten (in diesem Fall: Dokumente), die den Suchkriterien entsprechen Einsatz von Robotern, die automatisiert und ununterbrochen WWW-Server absuchen (HTML-) Dokumente abrufen, analysieren und beschlagworten Ergebnisse in geeigneter Form für die Suchmaschinen speichern Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 14
Suchmaschinen Überblick (2) Kurzcharakterisierung (Fortsetzung) Meta-Suchmaschinen Keine Suchmaschinen im eigentlichen Sinne Benutzen die eingegebene Abfrage, um damit zahlreiche (fremde) Suchmaschinen zu befragen manche Meta-Suchmaschinen zeigen die Abfragen in der Syntax der Ziel-Suchmaschinen an, ehe sie nach Benutzereingabe die Suche selbst in allen (!) Suchmaschinen veranlassen Aufbereitung der Suchergebnisse von Meta-Suchmaschinen getrennt nach Suchmaschine zusammengefaßt, wie wenn die Meta-Suchmaschine selbst das Ergebnis direkt geliefert hätte Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 15
Suchmaschinen Abfragen Suchdaten Volltext Indextabellen, die aus den analysierten Daten gewonnen wurden Unterstützung durch Thesaurii möglich Einfache Abfragen Liste von Begriffen Phrasen (in "..." eingeschlossen) Komplexe Abfragen Möglichkeit, das Auftreten von Begriffen und Phrasen mit Hilfe der Boole'schen Algebra näher zu bestimmen Unterscheiden sich von Suchmaschine zu Suchmaschine Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 16
Suchmaschinen Einfache Abfragen (1) Einfache Abfragen Liste von ein oder mehreren Begriffen, die im Suchergebnis enthalten sein sollen Rony Flatscher Begriffe können ein + (Plus-Zeichen) oder ein - (Minus-Zeichen) vorangestellt haben -Rony +Flatscher Phrasen in "..." eingeschlossene Begriffe, die alle vorkommen müssen "Rony Flatscher" Manchmal können Begriffe auch mit einem * (Stern-Zeichen) abgeschlossen werden Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 17
Suchmaschinen Einfache Abfragen (2) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 18
Suchmaschinen Einfache Abfragen (3) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 19
Suchmaschinen Einfache Abfragen (4) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 20
Suchmaschinen Einfache Abfragen (5) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 21
Suchmaschinen Komplexe Abfragen (1) Komplexe Abfragen Möglichkeit, das Auftreten von Begriffen und Phrasen mit Hilfe der Boole'schen Algebra näher zu bestimmen AND OR NOT Möglichkeit, Boole'sche Ausdrücke zu klammern und damit eine andere Abarbeitungsreihenfolge zu erzwingen Möglichkeit, einen Begriff als nahe zu einem anderen Begriff anzugeben (NEAR) Unterscheiden sich von Suchmaschine zu Suchmaschine Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 22
Suchmaschinen Komplexe Abfragen (2) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 23
Suchmaschinen Komplexe Abfragen (3) Referenzierung von Marken (Elementbezeichnern), z.b. auf AltaVista title:text alle Seiten mit "text" in Titelzeile, z.b. rony domain:text alle Seiten auf Rechnern, deren Namen mit "text" endet, z.b. at für Österreich host:text durchsucht Rechner, der "text" heisst, z.b. www.wu-wien.ac.at url:text alle Seiten, die "text" als Bestandteil eines URLs aufweisen, z.b. wwwi.wu-wien link:urltext alle Seiten, die einen URL enthalten, der auf "text" weist, z.b. wwwi.wu-wien Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 24
Suchmaschinen Komplexe Abfragen (4) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 25
Suchmaschinen Komplexe Abfragen (5) Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 26
Suchmaschinen Tips zu Abfragen (1) Überlegen (analysieren) Sie in Ruhe Ihr Rechercheproblem, nicht auf "gut Glück" suchen! hohe Wahrscheinlichkeit, einem Zeitfresser aufzusitzen Überlegen Sie u.a. welche Wörter, Begriffe sind typisch und werden daher häufig verwendet? gibt es Fachbegriffe, die selten auftreten, aber gehäuft für Ihr Rechercheproblem? verwenden Sie Phrasen, wenn Sie können! nutzen Sie komplexe Abfragen, indem Sie die Suchkriterien so exakt wie möglich angeben überprüfen Sie aber, ob die Abfrage Ihr gesuchtes Ergebnis tatsächlich liefern kann! formulieren Sie, sofern es geht, positiv nicht negativ! Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 27
Suchmaschinen Tips zu Abfragen (2) Verwenden Sie im Zweifel immer die Kleinschreibung, die immer auch die entsprechenden Großschreibungen finden kann umgekehrt gilt das nicht immer! Nutzen Sie die Möglichkeit, mit Suchergebnissen weiterzuarbeiten, sofern sie dies erlaubt für Rechercheprobleme, die aus welchen Gründen immer, explorativ bearbeitet werden sollen in einem solchen Fall empfiehlt es sich auch, die Suche mit Meta-Suchmaschinen zu beginnen! Arbeiten Sie sich in die Suchmöglichkeiten jener Suchmaschinen ein, die Sie aufgrund von Experimenten als für Sie am geeignetsten ansehen! Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 28
Recherchieren im Internet URLs (1) http://www.lib.berkeley.edu/teachinglib/guides/internet/findinfo.html "Finding Information on the Internet - A TUTORIAL" Semesterweise aktualisiertes Tutorial mit Erklärungen und Verweisen zu den wichtigsten Suchmaschinen und Meta-Suchmaschinen http://vu.wu-wien.ac.at/ "Virtual University" Ausgezeichnete Sammlung von Verweisen und alternativen Recherchemöglichkeiten http://www.lib.berkeley.edu/teachinglib/guides/internet/strategies.html Berkeley-Übersicht und -Beschreibung der sieben folgenden (und wichtigen) Suchmaschinen Alta Vista Advanced Search http://www.lib.berkeley.edu/teachinglib/guides/internet/altavista.html Excite http://www.lib.berkeley.edu/teachinglib/guides/internet/excite.html Hotbot http://www.lib.berkeley.edu/teachinglib/guides/internet/hotbot.html Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 29
Recherchieren im Internet Suchmaschinen - URLs (1) Fortsetzung der beschriebenen Suchmaschinen... Infoseek http://www.lib.berkeley.edu/teachinglib/guides/internet/infoseek.html Lycos (siehe nächste Folie!) http://www.lycos.de/ http://www-english.lycos.com/ Northern Light http://www.lib.berkeley.edu/teachinglib/guides/internet/northernlight.html Yahoo! http://www.lib.berkeley.edu/teachinglib/guides/internet/yahoo.html Weitere bekannte Suchmaschinen http://www.altavista.de/ http://www.altavista.com/ Google! http://google.com/ http://www.google.com/more.html Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 30
Recherchieren im Internet Meta-Suchmaschinen - URLs (1) http://www.lib.berkeley.edu/teachinglib/guides/internet/metasearch.html Berkeley-Übersicht und -Beschreibung der vier folgenden (und wichtigen) Meta-Suchmaschinen Dogpile (14 Suchmaschinen) http://www.dogpile.com/ Inference Find (6 Suchmaschinen) http://www.infind.com/ MetaCrawler (8 Suchmaschinen) http://www.metacrawler.com/ Metafind (5 Suchmaschinen) http://www.metafind.com/ Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 31
Recherchieren im Internet Viel Erfolg beim Recherchieren! (Ihre Arbeit hat gerade erst begonnen...) Fragen? Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 32
Überblick: Boole'sche Algebra (1) Boole'sche Algebra, z.b. in der Schule Abfragen in (relationalen) Datenbanken Boole'sche Werte (Wahrheitswerte) WAHR (TRUE) FALSE (FALSE) Verkehrung der Wahrheitswerte ins Gegenteil NICHT (NOT) NOT TRUE := FALSE NOT FALSE := TRUE Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 33
Überblick: Boole'sche Algebra (2) Verknüpfungen von Wahrheitswerten mit den Boole'schen Operatoren AND und OR AND-Wahrheitstabelle TRUE and TRUE := TRUE TRUE and FALSE := FALSE FALSE and TRUE OR-Wahrheitstabelle := FALSE FALSE and FALSE := FALSE TRUE or TRUE := TRUE TRUE or FALSE := TRUE FALSE or TRUE := TRUE FALSE or FALSE := FALSE Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 34
Überblick: Boole'sche Algebra (3) Die Auswertungsreihenfolge von verknüpften Wahrheitswerten kann durch das Setzen von Klammern beeinflußt werden FALSE and FALSE or TRUE = ( FALSE and FALSE ) or TRUE = FALSE and ( FALSE or TRUE ) =? Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 35
Überblick: Boole'sche Algebra (4) Die Auswertungsreihenfolge von verknüpften Wahrheitswerten kann durch das Setzen von Klammern beeinflußt werden FALSE and FALSE or TRUE = TRUE ( FALSE and FALSE ) or TRUE = TRUE FALSE and ( FALSE or TRUE ) = FALSE Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 36
Überblick: Boole'sche Algebra (5) Die Auswertungsreihenfolge von verknüpften Wahrheitswerten kann durch das Setzen von Klammern beeinflußt werden NOT ( FALSE and FALSE or TRUE ) = NOT ( ( FALSE and FALSE ) or TRUE ) = NOT ( FALSE and ( FALSE or TRUE ) ) = Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 37
Überblick: Boole'sche Algebra (6) Die Auswertungsreihenfolge von verknüpften Wahrheitswerten kann durch das Setzen von Klammern beeinflußt werden NOT ( FALSE and FALSE or TRUE ) = FALSE NOT ( ( FALSE and FALSE ) or TRUE ) = FALSE NOT ( FALSE and ( FALSE or TRUE ) ) = TRUE Negationen sind oft sehr schwer verständlich, aber manchmal sehr hilfreich! NOT ( NOT ( FALSE and NOT FALSE ) or NOT TRUE )? Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 38
Überblick: Boole'sche Algebra (7) Negationstabelle not TRUE := FALSE not FALSE := TRUE not AND not OR := OR := AND Negationen sind manchmal sehr schwer verständlich, aber oft sehr hilfreich! NOT (NOT ( FALSE and NOT FALSE ) or NOT TRUE ) NOT (NOT ( FALSE and TRUE ) or FALSE ) NOT ( ( NOT FALSE NOT and NOT TRUE) or FALSE) NOT ( ( TRUE or FALSE ) or FALSE ) (NOT ( TRUE or FALSE ) NOT or NOT FALSE ) ( ( FALSE and TRUE ) and TRUE ) FALSE and TRUE and TRUE Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 39
Überblick: Boole'sche Algebra (8) Beispiele von bisherigen Abfragen als Boole'sche Ausdrücke Rony Flatscher Rony or Flatscher -Rony +Flatscher not Rony and Flatscher Flatscher and not Rony Rony G. Flatscher PH Ludwigsburg, 2000-01-13, Seite 40