Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung
Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische Hilfen Qualitätsmerkmale Informationszugriff bzw. -verbreitung Einführung Das Z39.50 Protokoll
Einführung Um von einer digitalen Bibliothek sprechen zu können, genügt es nicht nur viele verschiedene Medien zu digitalisieren. Dies ergäbe eine (multimediale) elektronische Bibliothek. Digitale Bibliotheken haben Systemintelligenz
IR - Problemstellung Nicht zu wissen, welches Wissen benötigt wird Dieses Nicht-Wissen zu formulieren Fachvokabular nicht zu besitzen Mangelndes Wissen bzgl. Querbeziehungen Richtige Vorstellung erst durch Evaluation
Wissenszusammenhänge subjektiv benötigt 1 5 6 2 3 7 objektiv benötigt verfügbar 4
Boolesche Suche Boolesche Informationssuche verknüpft Suchbegriffe bzw. deren Vorhandensein mit booleschen Operatoren. Bsp.: SQL Allgemeine Form: select <ATTRIBUTE> from <RELATIONEN> where <CONDITIONS>
Boolessche Suche (II) select documents.title from documentlist where ((author = Schmitz ) and (release between 1990 and 2000) and not (publisher = Springer ))
Methoden für Rankings (I) select <DOCUMENTS> from <WHEREEVER> where contains = hello and contains = world and not contains = foobar keyword # in doc 1 # in doc 2 # in doc 3 # in doc 4 hello 4 8 4 7 world 1 2 4 2 foobar 7 0 0 0 Rank / 1. 3. 2.
Methoden für Rankings (II) Es werden keine Gewichtungen oder andere Optionen des Benutzers berücksichtigt. Amortisierung von Negativtreffern ist unmöglich.
Methoden für Rankings (III) keyword weight # in doc 1 # in doc 2 # in doc 3 # in doc 4 hello 1 4 8 4 7 world 5 1 2 4 2 foobar -1 7 0 0 0 r.s.v. 2 18 24 17 Rank 4. 2. 1. 3. r.s.v. = retrieval status value
Methoden für Rankings (IV) Dieses Verfahren bezeichnet man als Coordination Level Match
Vektorraumsuche (I) Ein Dokument ν kann gesehen werden als: δ ν = ( τ, τ 2,..., τ 1 n τ 0 ( 1 ι n) ι und ) mit Bei τ handelt es sich um die unteilbaren Terme aus denen das Dokument aufgebaut ist.
Vektorraumsuche (II) Eine Anfrage µ kann ebenso gesehen werden: α µ = ( τ, τ 2,..., τ 1 n τ 0 ( 1 ι n) ι und ) mit Bei τ handelt es sich um die unteilbaren Terme aus denen die Anfrage aufgebaut ist.
Vektorraumsuche (III) = 2 2 1, cos µ ν µ ν µ ν α δ α δ σ Der Abstand σ µ,ν der beiden ergibt sich zu: Die Relevanz Φ µ,ν des Dokumentes bzgl der Anfrage ist: = = 2 2 1, cos 1 ) ( 1 ) ( µ ν µ ν ν α µ ν ν α α δ α δ δ φ σ δ φ µ µ
Vektorraumsuche (IV) σ 2 α σ 1 δ 2 δ 1 Anfrage α und die Dokumente δ 1 sowie δ 2 Im dreidimensionalen Beispielraum. Deutlich erkennt man die unterschiedlichen großen Abstände zur Anfrage. Die Dokumente Unterscheiden sich in ihrer Relevanz.
Stemming Anfragen häufig muttersprachlich formuliert Notwendigkeit von einheitlichen Worten bei beiden Suchverfahren Transformation des Wortes auf den Stamm (stemm) Verfahren nur sinnvoll wenn es bei Datenaufbereitung und Suchanfrage verwendet wird
Stoplisten Verwendung von häufig vorkommenden Worten in Anfragen und Daten führt zu hoher numerischer Relevanz der Treffer und geringem Nutzen für den Benutzer Filterung anhand von sog. Stoplisten schafft Abhilfe
Multilinguale Suche (I) for every existing tag, the cvs produces log messages exist tag cvs produce log messages existieren Marke produzieren Stamm Mitteilung vorhanden sein Schild erzeugen Klotz Bestellung leben Etikett erwirtschaften Tagebuch Nachricht Aufkleber cvs hervorbringen Protokoll Kennzeichnung cvs vorzeigen Langholz Preiszettel hervorheben
Multilinguale Suche (II) In diesem Beispiel gibt es bereits 4704 Möglichkeiten. Das Problem ist polynomial.
Fuzzy / konzeptbasierte Suche Suchbegriff nicht präzise sondern nur unscharf zu interpretieren. Namensähnlichkeiten herausfinden Fehler korrigieren Synonyme einbeziehen Oberbegriffe und Kategorienbegriffe verwenden
Semantische Hilfsmittel Thesauren: Sammlung von Synonymen, Antonymen Unter- und oberbegriffen Wörterbücher: Auflistungen gebräuchlicher Terme z.b. für die unscharfe Interpretation Klassifikationssysteme: Einteilung der Wissensgebiete (Dewey, ACM, LOC)
Qualitätsmerkmale (I) Es gibt drei Begriffe anhand derer die Qualität eines IR Systems gemessen wird. Präzision (precision) p Rücklauf (recall) r Ausfälle (fallout) f
Qualitätsmerkmale (II) p r = = ρ γ γ ρ γ ρ f = γ α ρ ρ
Zugriff und Verbreitung Zugriff über spezielles Bibliotheksprotokoll Z39.50 Mangelnde Unterstützung beim Clienten Gateway http <-> Z39.50 über CGI Scripten Interbibliothekskommunikation über Z39.50
Das Z39.50 Protokoll (I)
Das Z39.50 Protokoll (II) 1. Initialisierung Client schickt Wunsch zu kommunizieren Protokollversion und Treffermenge werden bestimmt protocolversion: Version2 options: Search, Present preferredmessagesize: 10000 prefferedrecordsize: 10000
Das Z39.50 Protokoll (III) 2. Kommunikationsablauf Client schickt Suchanfrage an den Server Server führt Suche in Datenbanken durch und erstellt Treffermenge (result set) ##part01:search request smallsetupperbound: 0 smallsetlowerbound: 1 mediumsetpresentnumber: 0 resultsetname: <NAME> databasename: <DB1>,<DB2> ##part02:query request query: THEQUERY ##part03:search response resultcount: 10 numberofrecordsretu rned: 0 nextresultposition: 0 searchstatus: true presentstatus: success
Das Z39.50 Protokoll (IV) 3. Ergebnisabfrage Der Client kann Datensätze anfordern Er kann weiter Bearbeitungsanfragen senden Dem Benutzer können die erhaltenen Daten präsentiert werden. ##part02:present resonse ##part01:present request DATASET resultsetid: NAME resultsetstartpoint: 1 numberofrecordsrequested: 1 recordcomposition: VALUE elementsetname: NAME