Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg



Ähnliche Dokumente
Information Retrieval Modelle und neue Technologien. Stand : Februar 2006

2 Evaluierung von Retrievalsystemen

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Die Statistiken von SiMedia

Urbacher-Computer-Forum. Herzlich Willkommen!

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

Thematische Abfrage mit Computerlinguistik

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Anleitung über den Umgang mit Schildern

Erfahrungen mit Hartz IV- Empfängern

TYPO3-Suchmaschinenoptimierung für Redakteure

4 Ein Internet-Auftritt muss wahrgenommen werden

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Suchmaschinenoptimierung

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage.

Ihr Weg in die Suchmaschinen

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Ersetzt die Suchmaschine den Verbund-OPAC? Erfahrungen, Perspektiven und mögliche Kooperationsfelder aus Sicht der Verbünde

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

1 topologisches Sortieren

Themenschwerpunkt Social SEO

Außerdem verwenden wir Cookies für andere Zwecke, wie zum Beispiel:

Tracking-Beispiele. Inhalt: Standard Tracking / Cookie Tracking Anchor-Tracking Direct Tracking Referer Tracking Tracking von Produkt-Feeds

1 Mathematische Grundlagen

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Sofort und zielgerichtet. Basis Know-how. Wie Sie die elementarsten Fehler beim Automatisieren vermeiden! zum maschinellen Erfolg!

David Mika. Donnerstag, den 15. März Verein zur Förderung der privaten Internet Nutzung e.v. Suchen und Finden im Internet.

Online-Sendungsverfolgung. Morgenpost Briefservice GmbH

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Übungsaufgaben Tilgungsrechnung

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

Bedienungsanleitung für Mitglieder von Oberstdorf Aktiv e.v. zur Verwaltung Ihres Benutzeraccounts auf

Anmerkungen zur Übergangsprüfung

Screening for Illustrator. Benutzerhandbuch

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

White Paper DocCheck Search

Antolin-Titel jetzt automatisch in WinBIAP kennzeichnen

Wie Google Webseiten bewertet. François Bry

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Lichtbrechung an Linsen

AutoTexte und AutoKorrektur unter Outlook verwenden

Recherchieren im Internet

Online Marketing 1/6 13. Juli 2015

Massenversand Dorfstrasse 143 CH Kilchberg Telefon 01 / Telefax 01 / info@hp-engineering.com

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Um Ihre Ziele durchzusetzen! Um Beziehungen zu knüpfen und zu pflegen! Um in Begegnungen mit anderen Ihre Selbstachtung zu wahren!

Wie funktioniert das WWW? Sicher im WWW

WinVetpro im Betriebsmodus Laptop

Viele Bilder auf der FA-Homepage

Dokumentenverwaltung im Internet

Webalizer HOWTO. Stand:

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Hyperlink-Erstellung in InDesign für

Wie Sie mit Mastern arbeiten

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Warum Suche (trotzdem) bedeutend ist

Speicher in der Cloud

Mean Time Between Failures (MTBF)

3. Die tägliche -Flut effizient verwalten

Grundbegriffe der Informatik

Integration verteilter Datenquellen in GIS-Datenbanken

Unbeschränkter Zugang zu Wissen?

So wird s gemacht - Nr. 24

Technical Note 0606 ewon

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

PHP - Projekt Personalverwaltung. Erstellt von James Schüpbach

Version White Paper ZS-TimeCalculation und die Zusammenarbeit mit dem iphone, ipad bzw. ipod Touch

Software- und Druckerzuweisung Selbstlernmaterialien

Clusterportal Interaktiv Text

Programmentwicklungen, Webseitenerstellung, Zeiterfassung, Zutrittskontrolle

mobifleet Beschreibung 1. Terminverwaltung in der Zentrale

2. Psychologische Fragen. Nicht genannt.

Gezielt über Folien hinweg springen

Erfolgreich suchen im Internet

Erstellen von x-y-diagrammen in OpenOffice.calc

Internet Kurs. Suchmaschinen

Was wir über das Internet wissen sollten. Fischen im Netz der Netze Zusammengestellt von Heinz-Arnold Schneider

Auswertung des Jahresabschlusses Bilanzanalyse 2

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Die vorliegende Arbeitshilfe befasst sich mit den Anforderungen an qualitätsrelevante

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Auf der linken Seite wählen Sie nun den Punkt Personen bearbeiten.

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Adobe Photoshop. Lightroom 5 für Einsteiger Bilder verwalten und entwickeln. Sam Jost

FLOCOM. Google beachtet nicht die Groß- bzw. Kleinschreibung: KOCHREZEPTE, kochrezepte und Kochrezepte bringen alle das gleiche Ergebnis.

Parks > Authorization Manager. Versionshinweise

Transkript:

Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg

Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien

Retrievalmodell - allgemein Ein Retrievalmodell besteht aus einer Menge D von Repräsentationen für Dokumente einer Menge Q von Repräsentationen für Benutzeranfragen einer Rankingfunktion R, die jedem Anfrage/Dokumentpaar eine reelle Zahl (das Ranking) zuweist, nach der Dokumente sortiert werden. Hinkelmann: FH Solothurn

IR-Modelle Nicht-probabilitisches Information Retrieval Boolesches Retrieval Vektorraummodell Fuzzy-Retrieval Probabilistisches Information Retrieval Wahrscheinlichkeitswerte für Benutzerinteresse Intelligentes Information Retrieval Concept Search Ähnliche Dokumente

Boolsches Modell Suche auf richtigen Dokumenten und/oder Beschreibungen Verknüpfung von Anfragebestandteilen mit AND, OR und NOT Ausgabe aller Dokumente, für die eine formulierte Bedingung zutrifft. Stärken des Booleschen Retrieval Jede beliebige Teilmenge von verschiedenen Dokumenten kann aus einem Dokumentenbestand selektiert werden einfache Implementierung Probleme des Booleschen Retrievals Größe der Antwortmenge ist schwer zu kontrollieren keine tiefergehende Ordnung auf der Antwortmenge keine Gewichtung möglich Trennung ist oftmals zu streng Frageformulierung bzw. Suchprozess schwerfällig

Boolsches Modell: Schema

Klassisches Modell - Idee Jedes Dokument wird durch spezifische Schlüsselworte in Form von Indizes dargestellt. Ein Index ist ein Kernbegriff des Dokumentes Suchmaschinen nehmen an, dass die formulierten Suchbegriffe Indizes eines Dokumentes sind. Die Bedeutung eines Indizes wird durch Gewichte ausgedrückt.

Klassisches Modell - Veranschaulichung Begriff A (1,0,0) (1,1,0) (1,1,1) Begriff B Begriff C Das Boolsche Modell drückt das Vorhandensein eines Begriffs durch eine 1, das Nichtvorhandensein durch eine 0 aus.

Vektorraummodell - Idee Binäre Gewichte sind in ihrer Aussage begrenzt, so dass nicht-binäre Gewichte die Aussagekraft erhöhen Nicht-binäre Gewichte drücken eine Ähnlichkeit zwischen Suchanfrage und jedem Dokument aus Die Ergebnismenge erlaubt ein genaueres Ranking

Vektorraummodell - Architektur Dokumente und Anfragen als Punkte in einem Vektorraum Position eines Dokument/Anfragevektors bestimmt durch Gewicht einzelner Deskriptoren Retrieval als Suche nach ähnlichen Vektoren zum Fragevektor Ähnlichkeit als Funktion über Anzahl der übereinstimmenden Suchbegriffe und Deskriptoren Ähnlichkeitsmaß notwendig (Frage nach guten Metriken!)

Vektorraummodell - Veranschaulichung

Vektorraummodell - Beispiel kredit Beispiel: Terme: kredit, person, land zwei Dokumente (1,4,3) (3,3,2) person land

Interpretation von Ähnlichkeit d 1 d 2 d 3 d 4 d 5 d 6 Ätna 1 1 2 1 1 1 Wasser 1 1 2 1 5 5 Ätna d 3 d 5,6 Richtung d 1,2,4 Wasser bestimmt durch objektinternes Verhältnis der Terme möglicherweise Hinweis auf Thema Länge (im Verhältnis zu anderen Vektoren) bestimmt durch objektübergreifendes Verhältnis der Termgewichte möglicherweise Hinweis auf Intensität eines Themas Jones/Furnas, 1987

Vektoren in Dokument/Term-Matrizen d 1 d 2 d 3 d 4 d 5 d 6 Ätna 1 1 2 1 1 1 Vesuv 1 1 2 0 2 0 Stromboli 1 1 2 1 3 3 Feuer 1 1 2 0 4 0 Wasser 1 1 2 1 5 5 Lava 1 1 2 0 6 0 Dokumenten-Vektoren T1 T2 T3 T4 T5 d1 d2 d3 d4 d5 d6 d7 d8 Term-Vektoren T1 T2 T3 T4 T5 d1 d2 d3 d4 d5 d6 d7 d8 Quelle: K. Haenelt

Ähnlichkeiten: Anwendungen im Information Retrieval T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 d1 d2 d3 d4 d5 d6 d7 d8 d1 d2 d3 d4 d5 d6 d7 d8 d1 d2 d3 d4 d5 d6 d7 d8 q Dokument/Query-Ähnlichkeit Suchfunktionen Dokument/Dokument-Ähnlichkeit Basis für Dokumentclustering zur Erweiterung der Antwort- Menge Term/Term-Ähnlichkeit Basis für Term-Clustering zur Erweiterung der Suchanfrage Quelle: K. Haenelt

Verhältnisse von Term-Gewichten d 1 d 2 d 3 d 4 d 5 d 6 Ätna 1 1 2 1 1 1 Vesuv 1 1 2 0 2 0 Stromboli 1 1 2 1 3 3 Feuer 1 1 2 0 4 0 Wasser 1 1 2 1 5 5 Lava 1 1 2 0 6 0 objektintern Verhältnis von Term i zu den anderen Termen eines Dokuments Wichtigkeit eines Terms für ein Objekt Hinweise auf semantischen Inhalt oder Themengebiet objektübergreifend Relevanz von Dokument j für Term i Jones/Furnas, 1987

Ähnlichkeitsmaße für Vektoren Korrelationsartige Maße größter Wert entspricht dem ähnlichsten Paar Cosinus des Winkels zwischen Vektoren allgemeine Vektoren (Skalarprodukt relativ zur Länge der Vektoren) normierte Vektoren (einfaches Skalarprodukt) Dice-Koeffizient Jaccard-Koeffizient Overlap-Koeffizient Distanz-Maße kleinster Wert entspricht dem ähnlichsten Paar Euklidische Distanz (Anderberg,1973,134)

Vektorraummodell Beispiel 1 d1 d2 d3 d4 abschliessen 0 0 1 0 aktiengesellschaft 1 0 0 0 auto 0 0 1 0 bärlund 0 1 0 1 bergen 1 0 0 0 bürgschaft 0 1 0 0 finanzierung 0 0 1 0 firma 0 0 0 1 halva 0 1 0 0 kaskoversicherung 0 0 1 0 kauf 0 0 1 0 kredit 1 1 1 1 person 1 1 1 0 regelung 0 0 0 1 risiko 1 0 0 0 sicherheit 0 1 0 0 vorliegen 0 1 0 0 d1 d4 sind die Dokumente

Vektorraummodell Beispiel 2 Person Kredit Bärlund d1 d2 d3 d4 q abschliessen 0 0 1 0 0 aktiengesellschaft 1 0 0 0 0 auto 0 0 1 0 0 bärlund 0 1 0 1 1 bergen 1 0 0 0 0 bürgschaft 0 1 0 0 0 finanizierung 0 0 1 0 0 firma 0 0 0 1 0 halva 0 1 0 0 0 kaskoversicherung 0 0 1 0 0 kauf 0 0 1 0 0 kredit 1 1 1 1 1 person 1 1 1 0 1 regelung 0 0 0 1 0 risiko 1 0 0 0 0 sicherheit 0 1 0 0 0 vorliegen 0 1 0 0 0 Ergebnis: q * d1 = q * d2 = q * d3 = q * d4 = 2 3 2 2

Vektorraummodell - Bewertung Verbesserung der Retrievalergebnisse Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Sortierung nach Grad der Ähnlichkeit Beste Ergebnisse für allgemeine Dokumentsammlungen Wachsende Popularität in den Internetsuchmaschinen

Vektorraummodell - Nachteile berücksichtigt nicht die Häufigkeit von Termen in Dokumenten berücksichtigt nicht die Seltenheit von Termen über alle Dokumente lange Dokumente werden bevorzugt

Modifikation Termhäufigkeit 1 d1 d2 d3 d4 abschliessen 0 0 1 0 aktiengesellschaft 2 0 0 0 auto 0 0 3 0 bärlund 0 2 0 2 bergen 1 0 0 0 bürgschaft 0 1 0 0 finanizierung 0 0 1 0 firma 0 0 0 2 halva 0 2 0 0 kaskoversicherung 0 0 1 0 kauf 0 0 1 0 kredit 2 1 1 1 person 1 2 1 0 regelung 0 0 0 1 risiko 1 0 0 0 sicherheit 0 1 0 0 vorliegen 0 1 0 0

Modifikation Termhäufigkeit 2 Person Kredit Bärlund d1 d2 d3 d4 q abschliessen 0 0 1 0 0 aktiengesellschaft 2 0 0 0 0 auto 0 0 3 0 0 bärlund 0 2 0 2 1 bergen 1 0 0 0 0 bürgschaft 0 1 0 0 0 finanizierung 0 0 1 0 0 firma 0 0 0 2 0 halva 0 2 0 0 0 kaskoversicherung 0 0 1 0 0 kauf 0 0 1 0 0 kredit 2 1 1 1 1 person 1 2 1 0 1 regelung 0 0 0 1 0 risiko 1 0 0 0 0 sicherheit 0 1 0 0 0 vorliegen 0 1 0 0 0 Ergebnis: q * d1 = 3 q * d2 = 5 q * d3 = 2 q * d4 = 3

Dokumentenähnlichkeit Finde die ähnlichsten Dokumente zu d2 d1 d2 d3 d4 abschliessen 0 0 1 0 aktiengesellschaft 2 0 0 0 auto 0 0 3 0 bärlund 0 2 0 2 bergen 1 0 0 0 bürgschaft 0 1 0 0 finanizierung 0 0 1 0 firma 0 0 0 2 halva 0 2 0 0 kaskoversicherung 0 0 1 0 kauf 0 0 1 0 kredit 2 1 1 1 person 1 2 1 0 regelung 0 0 0 1 risiko 1 0 0 0 sicherheit 0 1 0 0 vorliegen 0 1 0 0 Ergebnis: d2 * d1 = 4 d2 * d3 = 3 d2 * d4 = 5

Ranking Idee: Zähle Anzahl der Suchbegriffe aus Anfrage, die im Dokument vorkommen Anfrage: Einfluss der Drogeneinnahme auf das Gedächtnis und die kognitiven Fähigkeiten

Relevanz-Feedback Reformulierung von Anfragen nach Rückmeldung durch den Benutzer Prinzip: 1. Benutzer stellt eine Anfrage q 2. Der Benutzer bewertet die Relevanz der ersten Dokumente der Rangordnung 3. Das System berechnet eine verbesserte Anfrage aufgrund des Feedbacks (z.b. Übernahme von Termen der ausgewählten Dokumente, Ausschluss von Termen der nicht gewählten Dokumente) 4. Retrieval mit der verbesserten Anfrage 5. Evtl. Wiederholung der Schritte 2-4

Cluster - Definition Clusterverfahren versuchen, Dokumente zu klassifizieren, so dass ähnliche oder miteinander in Beziehung stehende Dokumente in einem gemeinsamen Dokumentenpool zusammengefasst werden. Dadurch tritt eine Beschleunigung des Suchverfahrens ein, da sämtliche relevanten Dokumente im günstigsten Fall mit einem einzigen Zugriff selektiert werden können

Cluster - Form

Cluster - Probleme Die Cluster müssen stabil und vollständig sein. Die Zahl der Dokumente in einem Cluster und damit die resultierende Trefferliste kann bei speziellen Dokumentationen mit homogenen Dokumenten sehr hoch sein. Im umgekehrten Fall kann die Zahl der Cluster beträchtlich sein, im Extrem können Cluster nur aus jeweils einem Dokument bestehen. Die Überschneidungsrate der Zahl der Dokumente, die in mehr als einem Cluster liegen, ist kaum kontrollierbar.

Cluster - Suche Für eine Suchanfrage wird die Ähnlichkeit mit einem Cluster anhand des Zentroiden als Clusterrepräsentanten bestimmt. Der Zentroid symbolisiert das Durchschnittsdokument eines Clusters. Seine Gewichte ergeben sich als Mittelwert der Gewichte eines Deskriptors über alle Dokumente des Clusters.

Cluster - Dokumentenaufnahme Vergleich der Deskriptoren des neuen Dokumentes D mit allen Clusterzentroiden durch die Bestimmung der Ähnlichkeitskoeffizienten ÄHN(D;Ck). Suche des Clusters mit dem maximalen Ähnlichkeitswert und Integration des Dokumentes in dieses Cluster bzw. Zuweisung zu allen Clustern, deren Ähnlichkeit einen vorgegebenen Schwellenwert überschreitet. Anschließende Neuberechnung der Clusterzentroiden

Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien

Was soll gesucht werden?

Suchmaschinen - Arten Themenkataloge Der Yahoo-Katalog als Beispiel eines Themenkataloges wird nur teilweise automatisch über Roboter gefüllt. In erster Linie sorgt ein Redaktionsstab für den Aufbau. Die Aufnahme neuer WWW-Adressen geschieht durch Benutzeranmeldung bzw. Analyse anderer Informationsquellen Es entsteht hoher redaktioneller Aufwand bei der Überprüfung und Einordnung neuer Inhalte

Suchmaschinen

Suchmaschinen - Pullsysteme Einstieg durch Aufsuchen der Homepage der Suchmaschine, z.b. http://www.google.de Die Recherche läuft über logisch verknüpfte Schlagwörter Die Ablage der Schlagwörter und der zugehörigen WWW- Adressen geschieht in leistungsfähigen Datenbanken Die Suchergebnisse werden durch ein Ranking bewertet

Suchmaschinen - Probleme Bei Verwendung von Kleinbuchstaben suchen die meisten Suchdienste standardmäßig auch alle klein und groß geschriebenen Varianten Die meisten Systeme akzeptieren deutsche Umlaute Sonderzeichen als Wortbestandteil bereiten manchen Suchmaschinen Probleme, z.b. C++ Einige Suchmaschinen (HotBot, Lycos) ignorieren Stoppwörter (for, on, from usw.)

Suchmaschinen - Suchtipps Kataloge Suche zu einem bestimmten, aber weit gefaßten Gebiet (z.b. die Sprache Java), breite Suche Suche, die einen Einstieg in ein Thema bietet Suche, bei der das thematische Umfeld interessiert Die Suchergebnismenge soll klein gehalten werden Suchmaschinen Suchen nach Eigennamen (Daten über eine Person), Individualbegriffen, Akronymen, exotischen Begriffen Suche in URLs Suche nach Themenaspekten, die sich mit Begriffen abgrenzen lassen

Suchmaschinen - Grenzen... decken nur einen Teil des WWW ab Das WWW wächst schneller als die Kapazität der Indizes.... kann keine dynamischen Seiten berücksichtigen Vom Server erzeugte Seiten werden nicht gefunden... Suchkriterien werden nicht richtig interpretiert Suchmaschinen erkennen keine semantischen oder geographischen Zusammenhänge

Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien

Google - Historie 1995 Lawrence Page & Sergey Brin an der Stanford University 1996 Zusammenarbeit an BackRub 1997 Veröffentlichung The Anatomy of a Large-Scale Hypertextual Web Search Engine => Google 1998 Gründung Google Inc. 2004 Börsengang

Crawler Basisinfos aus Title-Tag HTML-Head Meta-Tags (Keywords)

Crawler - Automatische Informationsbeschaffung Crawler (or robots) durchsuchen das WWW durch Hyperlink- Verfolgung. Sie erkennen keine semantischen Zusammenhänge. Die WWW-Dokumente werden auf Schlagwörter analysiert und in die Datenbank der Suchmaschine eingefügt bzw. dort aktualisiert Seiten werden durch Verfolgen von Hyperlinks gefunden. Start der Suche ist die Homepage Crawler verboten! Quelle : Bandholtz, SAG 2000

Indexer Inexer oder Parser, trennt relevante Informationen von Datensammlung entfernt Konjunktionen und Pluralbildung entfernt zu lange Keyword-Listen von Spam-Seiten

Ranking Geschwindigkeit Skalierbarkeit Spamresistenz Plausibilität

Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien

Motivation Viele XML-Dokumente enthalten große Textanteile Damit möchte man Anfragen stellen, wie aus dem Information Retrieval bekannt Anfragesprachen (XPath, XQuery) nicht geeignet, um hier die gewünschten Anfragen zu stellen Erweiterung dieser Anfragesprachen

Image Retrieval - QBIC QBIC (http://wwwqbic.almaden.ibm.com/) Farbe Skizze Layout Textur Ähnlichkeit

Image Retrieval - Blobworld

Literatur Information Retrieval Vorlesungsmanuskript: Norbert Fuhr, http://www.is.informatik.uniduisburg.de/teaching/lectures/ir_ss03/index.html Vorlesungsmanuskript: Reginald Ferber http://teefix.fernuni-hagen.de/~ferber/kurse/dm-ir/index.html Tamino www.softwareag.com Harald Schöning, Tamino - ein reines XML-Datenbanksystem, Tutorial, FH Nürnberg