Vorlesung Suchmaschinen

Transkript

1 Vorlesung Suchmaschinen Universität Augsburg Sommersemester 2016 Prof. Dr. Werner Kießling Institut für Informatik Lehrstuhl für Datenbanken und Informationssysteme Prof. Kießling 2016 Kap. 1-1

2 Vorlesungsbetrieb Zwei Vorlesungen pro Woche im Hörsaal 2045 (N) Dienstag Donnerstag 10:00 11:30 Uhr 10:00 11:30 Uhr Folien der Vorlesung sind spätestens am jeweiligen Vorlesungstag im Internet verfügbar Zugang mit RZ-Kennung Regelmäßig nach Aktuellem auf der Homepage schauen! Prof. Kießling 2016 Kap. 1-2

3 Kontakt Prof. Dr. W. Kießling: Sprechstunde: Donnerstag 11:45-12:15 Uhr (2051 N) Dr. Florian Wenzel und Lena Rudenko (2001 / 2002 N): {wenzel, lena.rudenko}@informatik.uni-augsburg.de Prof. Kießling 2016 Kap. 1-3

4 Übungen Übungsblätter werden jeweils freitags auf der Homepage veröffentlicht Es wird davon ausgegangen, dass die Blätter vor dem Übungstermin angesehen / bearbeitet werden Während der Übung: Erarbeitung der wichtigsten Aufgaben in Kleingruppen Präsentation und Diskussion der erarbeiteten Ergebnisse Keine Punktevergabe, keine Zulassungsbedingung zur Klausur Prof. Kießling 2016 Kap. 1-4

5 Übungsgruppen Gruppe Zeit Raum 1 Montag, 12:15 13:45 Uhr 2056 (N) 2 Mittwoch, 10:00 11:30 Uhr 2056 (N) 3 Mittwoch, 14:00 15:30 Uhr 2056 (N) 4 Freitag, 10:00 11:30 Uhr 2056 (N) Verteilung auf Übungsgruppen: Sonntag, um 18:00 Uhr Prof. Kießling 2016 Kap. 1-5

6 Klausur Termin: , 17:00 Uhr (Mensa) Dauer: 90 Minuten Nur Papierunterlagen sind zugelassen (open book) Anmeldung bei STUDIS zwingend erforderlich! Näheres unter: exams/ Prof. Kießling 2016 Kap. 1-6

7 Gliederung 1 Einführung 2 Volltext-Suchmaschinen 3 Präferenz-Theorie 4 Preference SQL-System 5 Implementierung von Präferenz-Querysprachen 6 Top-k-Algorithmen 7 XML-Suchmaschinen 8 Softwareaspekte von SQL-Suchanwendungen Prof. Kießling 2016 Kap. 1-7

8 Allgemeine Literatur Dirk Lewandowski (Hrsg.): Handbuch Internet-Suchmaschinen 2: Neue Entwicklungen in der Web Suche Akademische Verlagsgesellschaft AKA GmbH, Heidelberg, 2012; ISBN: Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press; 2008; ISBN: Marc Levene: An Introduction to Search Engines and Web Navigation, 2 nd Edition, Wiley, 2010; ISBN: Ricardo Baeza-Yates & Berthier Ribeiro-Neto: Modern Information Retrieval, 2 nd Edition, New York, NY: ACM Press Books; 2010; ISBN: Prof. Kießling 2016 Kap. 1-8

9 1 Einführung 1.1 Unterschiedliche Suchverfahren 1.2 Überblick IR-Systeme 1.3 Überblick Web-Suche 1.4 Überblick Attribut-Suche 1.5 Überblick Multimedia-Suche 1.6 Überblick Soziale Netzwerke 1.7 Mobile Dienste 1.8 Metasuchmaschinen 1.9 Google Analytics 1.10 Zusammenfassung Quelle: I will use Google before asking dumb questions. Prof. Kießling 2016 Kap. 1-9

10 1.1 Unterschiedliche Suchverfahren Wichtigste Komponente für ein Such-System ist die Menge der Dokumente, Korpus genannt, und deren interne Struktur. Der Korpus kann unstrukturiert semi-strukturiert oder auch strukturiert sein. Korpus von Dokumenten Anfrage Such- System Ergebnis Prof. Kießling 2016 Kap. 1-10

11 Dokumente können sein: Artefakte (z.b. gescannte Bücher) Kataloge (z.b. Branchenbücher) Linksammlungen (Webkataloge) Videosammlungen (YouTube) Soziale Daten (z.b. Facebook) Dateien (z.b. Excel, PDF, Text, HTML, XML, ) Prof. Kießling 2016 Kap. 1-11

12 Beispiel: Suche nach Buch im Antiquariat 1.) Stöbern Struktur (Sachgebiet, Thema, Autor, ) Navigation (Teilbereiche, Signaturen,...) 2.) Dialog Zweck, Absicht, Ziel Fragen - Antworten Benutzer-Modellierung Hintergrundwissen Gezielte Suche Frage Relevanz? Antiquar Empfehlungen Prof. Kießling 2016 Kap. 1-12

13 Soziale Suche Mit Hilfe von sozialen Vernetzungen (Freundes-, Kollegenkreis, ) kann ein Suchvorgang gleichzeitig von mehreren Teilnehmern ausgeführt werden. Für den Erfolg dieser Vorgehensweise ist wichtig: Hoher Vernetzungsgrad, verteilter Korpus Gemeinsamer Code, klare Spezifikation Terminierung, Qualität und Quantität der Ergebnisse Anfrage Ergebnis Freundeskreis als Such-System Prof. Kießling 2016 Kap. 1-13

14 Beispiel: Wohnungssuche 1.) Suchanfrage über persönliche oder webbasierte soziale Netzwerke streuen und auf hohen Verbreitungsgrad hoffen. 2.) Gemeinsamer Code (Wohnungen und ihre Eigenschaften) 3.) Klare Spezifikation (Größe, Preis, Typ) 4.) Bewertung der Ergebnisse erfolgt auch nach weiteren (meist nicht vollständig kommunizierten) weichen Faktoren. 5) Meistens wird man unter den ersten k Rückmeldungen fündig (Top-k-Suche). Prof. Kießling 2016 Kap. 1-14

15 Beispiel: Wohnungssuche in Facebook-Gruppe Gemeinsamer Code Spezifikationen weiche Faktoren Prof. Kießling 2016 Kap. 1-15

16 Eigenschaften von sozialen Netzen: Mitglieder von sozialen Netzen können sich ihrerseits auch wieder auf andere soziale Netze abstützen. Mitglieder von sozialen Netzen können aber auch automatische Suchsysteme, Spezialisten, Bibliotheken, zu Rate ziehen. Die Kommunikation (Aussage, Frage Antwort) erfolgt asynchron. Prof. Kießling 2016 Kap. 1-16

17 1.2 Überblick IR-Systeme Suche nach Information in Bibliothek Korpus von Dokumenten Anfrage IR- System Information Retrieval Relevanz? Gewichtete Dokumente 1. Doc1 2. Doc2 3. Doc3 Prof. Kießling 2016 Kap. 1-17

18 Beispiel: Anfrage nach Veröffentlichung in Bibliothek OPAC der UB Augsburg: Prof. Kießling 2016 Kap. 1-18

19 Eigenschaften von OPAC: Korpus (Katalog) Suchmöglichkeiten: Autor, Schlagwort, Attributsuche abgeschlossen, geringe Änderungsrate Logische Verknüpfungen Boolesche Algebra Trunkierungszeichen Wildcards:?, * Freie Suche keine Volltextsuche dank Digitalisierung des Korpus Filter / Navigation: Suche eingrenzen Annotationen, sem. Kategorien BibTip Andere Benutzer fanden Empfehlungen durch Analyse auch interessant des Benutzerverhaltens Prof. Kießling 2016 Kap. 1-19

20 Exemplarische Trefferliste: Autor = Kießling, Navigationshilfen Prof. Kießling 2016 Kap. 1-20

21 Exemplarischer Treffer: Attribute digitalisierter Text(ausschnitt) Prof. Kießling 2016 Kap. 1-21

22 OPAC-Beispiele (Kardinalität der Ergebnismenge aus SS2010, SS2016): Freie Suche Preference und Algebra Leere Ergebnismenge (0, 0) Freie Suche Kießling Überflutung (283, 400) Attributsuche: Autor Kießling Relevanz (171, 206) Attributsuche: Autor Kie?ling Korrektheit (-, 29) A.-Suche: Autor Werner Kießling Relevanz (25, 31) Kießling, Kiessling automat. Graphemerweiterung Prof. Kießling 2016 Kap. 1-22

23 Digitalisierung von Buchbeständen: Volltextsuche Beispiele: Google Book Search Search Inside! von Amazon Rechtliche Probleme bei noch geschützten Werken: Urheberrechte Nutzungsrechte, Verwertungsrechte Prof. Kießling 2016 Kap. 1-23

24 Suche nach Information in Wikipedia Korpus von Dokumenten Autoren: Anfrage IR- System Relevanz? Gewichtete Dokumente 1. Doc1 2. Doc2 3. Doc3 Prof. Kießling 2016 Kap. 1-24

25 Beispiel: Anfrage nach Artikel (Konzept) in Wikipedia Wikipedia Korpus (Online-Enzyklopädie) Suchmöglichkeiten: Artikel (Von A bis Z) Konzeptsuche geschlossener Korpus bezogen auf offener und kleiner Autorenkreis im sozialem Netzwerk, Kollaboration [Bearbeiten], Piktogramm Lupe Volltextsuche, Syntax Verlinkung Semantisches Netzwerk Links auf diese Seite Verweisstruktur (Backlinks) Prof. Kießling 2016 Kap. 1-25

26 1.3 Web-Suche Websuche-Technologie stammt ursprünglich von IR-Systemen. 1993: der erste Such-Roboter The Wanderer im WWW The Wanderer erstellte von 1993 bis 1995 einen Index des zu dieser Zeit noch übersichtliche Web. Im Juni 1993 gab es nur 130 Webseiten. Der Index diente der Vermessung des Webs und nicht der Suche. 1994/95: erste Suchmaschinen von kommerziellen Firmen (Lycos, Infoseek, Alta Vista, ) 1998: Entstehung heutiger marktführender Suchmaschinen (Google, Bing) Geschichte der Suche im WWW Prof. Kießling 2016 Kap. 1-26

27 1.3.1 Architektur Websuche Web Spider Korpus von Dokumenten Anfrage Such- System Relevanz? Gewichtete Dokumente Prof. Kießling 2016 Kap. 1-27

28 Im Unterschied zu einem IR-System, bei dem der Korpus eher geschlossen und statisch ist, wächst das Web kontinuierlich, und auch bereits erfasste Inhalte ändern sich. Der Korpus des Webs ist offen und dynamisch, deswegen werden zusätzliche Komponenten benötigt. Ein Spider (auch "Crawler" oder "Robot" genannt) bewegt sich durch das Verfolgen von Links selbständig durch den Datenbestand des Internets und ermittelt die Inhalte der Webseiten. Prof. Kießling 2016 Kap. 1-28

29 Verfeinerung Spider Spider: Web TODO: Liste von URLs Auswahl Laden Extraktion Füge URLs von Links hinzu Seite indizieren Prof. Kießling 2016 Kap. 1-29

30 Wichtigstes Merkmal neben der Anzahl der erfassten Seiten ist die Update-Rate, wodurch neuer oder geänderter Inhalt erfasst wird. Bei Google wird dies als Google Dance bezeichnet: Bis 2003 wurden die Suchindizes einmal monatlich neu berechnet. Inzwischen läuft der Update-Prozess kontinuierlich. Trotzdem gibt es Seiten, die nicht erfasst werden bzw. nicht erfasst sein wollen (Deep Web / Dark Web). Prof. Kießling 2016 Kap. 1-30

31 Exkurs: Deep Web Die Bezeichnung Deep Web bezieht sich auf alle Internet-Inhalte, die aus verschiedenen Gründen von Suchmaschinen nicht indiziert sind oder nicht indiziert werden können, z.b. dynamische Webseiten, geblockte Seiten (erwarten CAPTCHA-Antwort), nicht verlinkte Seiten,... Der Begriff Deep Web wurde von dem Informatiker Mike Bergman im Jahr 2000 eingeführt. In seiner Veröffentlichung The Deep Web: Surfacing Hidden Value von 2001 weist er darauf hin, dass die Inhalte von Deep Web 400 bis 550 Mal größer sind, als im allgemein zugänglichem Web. Prof. Kießling 2016 Kap. 1-31

32 Arten des Deep Web Nach Sherman & Price (2001) unterscheidet man fünf Typen des Deep Web (Wikipedia): Opaque Web: Webseiten, die generell indiziert werden könnten, es aber aus technischen Gründen oder Gründen der Leistungsfähigkeit nicht sind. Private Web: Webseiten, die indiziert werden könnten, es auf Grund von Zugangsbeschränkungen aber nicht werden. Proprietary Web: Webseiten, die erst nach Anerkennung einer Nutzungsbedingung oder nach einer Identifikation indiziert werden können. Prof. Kießling 2016 Kap. 1-32

33 Arten des Deep Web Invisible Web: Webseiten, die indiziert werden könnten, es jedoch aus kaufmännischen oder strategischen Gründen nicht werden. Truly Invisible Web: Webseiten, die aus technischen Gründen (noch) nicht indiziert werden können, z.b. nicht-standardformate (Flash) oder Formate, die aufgrund ihrer Komplexität nicht erfasst werden können (Grafikformate). Prof. Kießling 2016 Kap. 1-33

34 Exkurs: Dark Web Deep Web und Dark Web werden fälschlicherweise oft gleichgesetzt. Eine Gemeinsamkeit ist, dass man auf Inhalte nicht mit kommerziellen Suchmaschinen zugreifen kann. Das Dark Web kann man dabei als Teil von des Deep Web betrachten. Die Seiten des Dark Web werden absichtlich vor dem Zugriff durch Suchmaschinen geschützt, nutzen maskierte IP-Adressen und sind nur mit speziellen Web-Browsern zugänglich. Beiden Begriffe sind der breiten Öffentlichkeit aus den Nachrichten bekannt, als das FBI ein Online Schwarzmarkt Silk Road (2013) und danach auch seinen Nachfolgen Silk Road 2.0 (2014) geschlossen hat. Prof. Kießling 2016 Kap. 1-34

35 Dark Web Zugang Das Tor Projekt stellt mit Hilfe des Tor Browsers eine Möglichkeit zur anonymen Nutzung des Webs zur Verfügung. Auch eine Version für Android ist verfügbar. Anfragen werden dabei innerhalb des Tor Netzwerkes über mehrere Server (mindestens 3) weitergeleitet, um die Identität des Nutzers zu verschleiern. Daten werden dabei verschlüsselt übertragen. Neben gewöhnlichen Webseiten kann mit Tor auch auf sogenannte Hidden Services zugegriffen werden. Diese sind über eine sogenannte onion address erreichbar (Übersicht über legale Services). Für eine detaillierte Beschreibung des Tor Netzwerkes wird auf die Veröffentlichung Tor: The Second-Generation Onion Router von Dingledine, Mathewson und Syverson verwiesen. Prof. Kießling 2016 Kap. 1-35

36 Nutzen des Dark Web In Ländern mit repressiven Regimen kann das Dark Web für einen politischen Kampf genutzt werden. Facebook hat eine Version der Seite im Dark Web zugänglich gemacht, damit auch aus Ländern, in denen Facebook verboten ist, darauf zugegriffen werden kann. Sie ist nur mit Browsern erreichbar, die Tor unterstützen: Im Zuge der Dark Web Debatte wird oft über die dezentrale digitale Währung Bitcoin diskutiert, da sie auch für die anonyme Bezahlung im Dark Web Einsatz findet. Weitere Informationen sind in der Veröffentlichung Bitcoin: A Peer-to-Peer Electronic Cash System von Nakamoto zu finden. Prof. Kießling 2016 Kap. 1-36

37 Vom Deep Web zurück zum Visible Web In den meisten Fällen ist man natürlich an einer Anmeldung interessiert: Google (Bekanntmachung für Spider per Beschreibung der eigenen Webstruktur z.b. durch Sitemaps Über das Robots Exclusion Protocol kann ausgeschlossen werden, dass Seiten vom Crawler besucht werden. Allerdings können Crawler eine definierte robots.txt Datei, die beschreibt welche Seiten indiziert werden dürfen und welche nicht, ignorieren. Es handelt sich also um eine freiwillige Einhaltung des Protokolls. Prof. Kießling 2016 Kap. 1-37

38 Um der großen Datenmenge Herr zu werden, extrahiert ein Merkmalsextraktor relevante Merkmale und Texte aus den gefundenen Webseiten. Durch die Merkmalsextraktion wird die Datenmenge bereits deutlich verkleinert (Korpus). Um die grammatikalische Komplexität (Flexion) zu reduzieren, werden Wörter durch Text-Operationen auf ihren Wortstamm zurückgeführt (Stemming). Einer der bekannteste Algorithmen ist der Porter-Stemmer. Zudem werden Füllwörter (Artikel, ) entfernt (Stopword removal), da sie oft nur grammatikalische Informationen tragen. Siehe dazu Kapitel 2 in Introduction to Information Retrieval. Prof. Kießling 2016 Kap. 1-38

39 Um über die Suchbegriffe wieder auf die Originale zurück schließen zu können, verwaltet der Indexierer die extrahierten Merkmale und Texte der Dokumente und erlaubt den schnellen Zugriff auf die Originale über diese Merkmale und Texte. Dieser Suchindex wird als Inverted File implementiert. Er hat die gleiche Funktion wie ein Schlagwortregister, das Schlagwörter denjenigen Buchseiten zuordnet, in denen das Schlagwort vorkommt. Beispiel: D i : D j : Unter einem blauen Himmel trafen Montags machen viele blau. Unter freiem Himmel ID Term Dokument : Position n blau i : 3, j : 4 n+1 Himmel i : 4, j : 7 Prof. Kießling 2016 Kap. 1-39

40 Verfeinerung Websuche Reformulierung Such- System: Ergebnismenge Bewertete Dokumente Anfrage- Operationen Suche Bewertung Anfrage Text-Operationen Logische Sicht Indexierung Index Spider Inverted File Datenbank- Manager Dokument DB Prof. Kießling 2016 Kap. 1-40

41 1.3.2 Navigationsanfragen im Web Beispiel: Navigation per Links Ziel: Ich will mich über Vorlesungen des Lehrstuhls für Datenbanksysteme informieren. Einstieg per URL Ergebnis: Durch die Linkstruktur in HTML werden die Lehrstühle thematisch so strukturiert, dass die Informationsbedürfnisse der Leser (hoffentlich vollständig) erfüllt werden. Der Leser erschließt nach den eigenen Bedürfnissen die Struktur der Webseite per Navigation. Hypertext, HTTP, (X)HTML, serverseitiges Skripting (Java, Servlet, Python, PHP, ), clientseitiges Skripting (JavaScript, Applet, AJAX) Prof. Kießling 2016 Kap. 1-41

42 Beispiel: Semantikunterstützte Navigation in a priori definierten Kategorien per Hierarchischer Suche Ziel: Ich will mich um eine Urlaubsreise im Sommer kümmern. Einstieg per Directory: DMOZ (open directory project): Vordefinierte Hierarchien zur Navigation, z.b. Regional Europe Germany States Bavaria Localities Begrenzte Auswahl an Ergebnissen da von Menschen erstellt & verwaltet Kommerzielle Portale (wie z.b. Yahoo) greifen nicht mehr auf diese Directories zurück, da die Aktualisierung zu aufwändig ist. Prof. Kießling 2016 Kap. 1-42

43 Prof. Kießling 2016 Kap. 1-43

44 Ergebnis: Exploratives Suchen in Kategorien keine einheitlichen Kategorien und Relationen für die Semantik einer Applikation Anzahl der in einer Kategorie gesammelten Konzepte ist angegeben Hierarchische Suche wird immer mehr durch Volltextsuche verdrängt. Hierarchische Suche, die einen Bezug zu geographischen Inhalten hat, wird durch Oberflächenelemente wie interaktive Maps versteckt. Prof. Kießling 2016 Kap. 1-44

45 Hierarchische Suche mit Hilfe von Karten: Suche nach Wanderungen im Allgäu Zoom zu Wanderungen in Immenstadt Prof. Kießling 2016 Kap. 1-45

46 1.3.3 Suchanfragen im Web Korpus (WWW): Offen Dynamisch, indizierter Inhalt ändert sich! Unentdeckte Kontinente (Deep Web) Suchmöglichkeiten: Stichwörter für Volltextsuche Erweiterte Suche: (z.b. Google) Logische Verknüpfungen Wildcard-Suche Zahlenbereiche Ortsspezifische Suche per Domain-Einschränkung Leere Ergebnismenge, Überflutung, Relevanz Prof. Kießling 2016 Kap. 1-46

47 Zipfsches Gesetz Welche Suchbegriffe muss man wählen, um mit ihnen relevante Quellen zu finden? Ein Hinweis gibt das Zipfsche Gesetz: Der Rang i eines Wortes ist indirekt proportional zu seiner rel. Häufigkeit: Freq(Wort i ) = i - ϴ x Freq(Wort 1 ), wobei 1,5 < ϴ < 2 für die meisten Sprachen gilt (Potenzverteilung). Beispiel: Freq(Wort Für ϴ = 1 besitzt das 2. häufigste Wort eine i ) Häufigkeit von 1/2 des häufigsten Wortes. I II III Rang i Zone I: Sehr häufige Wörter sind meist funktionale Wörter (der, die, und, ). Zone II: Mittelhäufige Wörter erschließen einen Text am besten. Zone III: Seltene Wörter sind häufig Tippfehler oder zu spezifische Wörter (Ranb, Freq., Hornussen, ). Prof. Kießling 2016 Kap. 1-47

48 Folgerungen aus dem Zipfschen Gesetz: Positiv: Füllwörter machen einen großen Anteil von Texten aus. Die Eliminierung von Füllwörtern hat keinen Einfluss auf das Retrieval, erspart jedoch Speicher. Negativ: Für die meisten Wörter ist eine signifikante statistische Analyse (z.b. Korrelationsanalyse) schwer zu erzielen, da die Wörter in einem Korpus zu selten auftreten. Beispiel: Sprachabhängige Worthäufigkeiten, englische Worthäufigkeiten Prof. Kießling 2016 Kap. 1-48

49 Beispiel: Verknüpfte Stichwortsuche Welche Zulassungsbedingungen müssen eingehalten werden, um an der Klausur in Datenbanksysteme I teilnehmen zu dürfen? Wunschseite: Suche mit Google (Achtung! Google Suche ist personalisiert.) Ergebnisse aus SS16: Von den 2940 Treffern finden sich auf Position 1 bis 4 Dokumente des Lehrstuhls. Ein Ortsbezug wird automatisch hergestellt. Das gewünschte Dokument ist erst auf Position 3. Fehlende Relevanz Prof. Kießling 2016 Kap. 1-49

50 2. Änderung: ganz genauen Domänenbezug hinzunehmen Suche mit Google Ergebnisse aus SS16: Es werden durch die Domain-Einschränkung 7 Treffer angeboten. Der 2. Treffer bietet das Klausurdatum und die Zulassungsbedingungen korrekt an. Prof. Kießling 2016 Kap. 1-50

51 1. Änderung: Domänenbezug erzwingen durch Domain-Einschränkung auf Suche mit Google Ergebnis: Die beiden zuvor gefunden Dokumente mit Bezug zum Lehrstuhl werden nicht mehr gefunden, da sie aus Subdomains der Uni Augsburg stammen. SS16: keine Treffer Prof. Kießling 2016 Kap. 1-51

52 3. Änderung: Kompositum Zulassungsbedingung semantisch auf Zulassung reduzieren, kein Domänenbezug Suche mit Google Ergebnisse aus SS16: Es werden insgesamt 8720 Dokumente gefunden. Auf Platz 1+2 befinden sich Seiten zu DB1 des Lehrstuhls im WS12/13 und WS 09/10. Der Ortsbezug wird wiederum automatisch hergestellt. Überflutung, jedoch gutes Ranking Prof. Kießling 2016 Kap. 1-52

53 Stand der Dinge: Iteratives Vorgehen (Suche im Heuhaufen geeignetere (!) Stichwörter, Filterfunktionen der Suchmaschine wie z.b. Domain) Solange keine Zufriedenheit mit dem Suchergebnis besteht, 1. Abfrage(re)formulierung, 2. [Selektion], 3. [Navigation]. Prof. Kießling 2016 Kap. 1-53

54 Bei der Stichwortsuche ist ein häufiges Phänomen eine leere Ergebnismenge (empty result set) bzw. als Alternative eine Überflutung (flooding effect) durch meist irrelevante Dokumente. Beide Phänomene erschweren, dass Benutzer relevante Treffer entdecken können. Um die Relevanz der Treffer zu erhöhen, bieten sich Modelle an, die semantische Zusatzinformationen bei der Suche bzw. Navigation ins Spiel bringen: Stichwortsuche mit Unterstützung von in Beziehung stehenden semantischen Kategorien (Semantische Netzwerke, Ontologien, Taxonomien) Attributsuche (Schemata) Präferenzen (Benutzermodelle) Prof. Kießling 2016 Kap. 1-54

55 Beispiel: Stichwortsuche nach mehrdeutigem Wort Saturn in verschiedenen Suchräumen Korpus Treffer (SS07) (SS16) 1. Web, Suche mit Google a. Gesamtverzeichnis, Suche mit Google 2b. Verzeichnis Wissenschaft, Suche mit Google : Semantische Suche abgeschaltet : Semantische Suche abgeschaltet Ergebnis: Die Suche in Kategorien erhöhte die Relevanz der Treffer, da irreführende Synonyme ausgeschlossen sind. Das Erstellen von Kategorien sowie die Zuordnung von Dokumenten zu Kategorien erfordert jedoch redaktionellen Zusatzaufwand bzw. gemeinschaftliches Indexieren (social tagging, folksonomy). Prof. Kießling 2016 Kap. 1-55

56 Stichwortsuche mit semantisch richtigen, aber nicht im Korpus verwendeten Stichwörtern Beispiele (Ergebnisse aus SS16): Suche Zahnarzt ( ) / Dentist ( ) in Augsburg? Suche Zahnarzt OR Dentist ( ) in Augsburg? Synonymsuche z.b. ~Dentist in Augsburg bei Google ( )? Ergebnis: Die Suche erfolgt nur anhand von Wörtern nicht Konzepten. Stichworterweiterung aus Synonymwörterbücher, VerODERung mit Synonymen oder themenrelevante Vorschläge Prof. Kießling 2016 Kap. 1-56

57 Beispiele: Stichwortsuche mit Unterstützung durch semantisches / linguistisches Wissen Beispiele: Suche nach Alfons Huhn als Bild bei Flickr Bis 2013 alternative Vorschläge nach leerer Ergebnismenge wie chicken, 2016 leere Ergebnismenge Suche nach Information Retrieval bei Ask.com Bis 2013 Möglichkeit von semantischen Anfrageerweiterungen bzw. Anfrageeinengungen (wissensbasiert), 2016 statistikbasierte Termerweiterungen Ergebnis: Semantisches / linguistisches Wissen wird durch statistikbasiertes Wissen ersetzt. Prof. Kießling 2016 Kap. 1-57

58 Beispiel: Volltextsuche und Plagiarismus Welchen Autoren lässt sich der Text "Let us exemplify the unsatisfying state of the art" zuschreiben? Suche mit Google Ergebnis: Textstellen, insbesondere Zitate, lassen sich hervorragend mit Volltextsuche überprüfen. Ergebnisse 1-1 von ungefähr 1 für "Let us exemplify the unsatisfying state of the art". (0,27 Sekunden, SS2007) SS2016: 5 URLs Prof. Kießling 2016 Kap. 1-58

59 1.4 Überblick Attribut-Suche Voraussetzung für eine Attribut-Suche sind strukturierte Daten. Diese werden im Normalfall durch Schemata beschrieben. Standardmäßig kommt eine Datenbank im Backend zum Einsatz: Im Unterschied zur Stichwortsuche ist bei einer Attributsuche ein exaktes Daten-Retrieval möglich. Web-Applikationen verstecken das Datenmodell, die dazu gehörenden Schemata und die Ablauflogik. Eingabefelder erlauben die Selektion und Projektion der gewünschten Daten. Beispiel: Reiseauskunft bei der DB Prof. Kießling 2016 Kap. 1-59

60 Bei der Attributsuche mit exakten Treffern (exact match) treten die bekannten Phänomene auf: 1. Leere Ergebnismenge (empty result set) 2. Überflutung (flooding effect) 3. Eine Bewertung (ranking) ist nicht möglich. Viele Datenbanksysteme kombinieren die Attribut- mit der Volltextsuche wie z.b. Oracle Text von Oracle. Prof. Kießling 2016 Kap. 1-60

61 Bemerkung (Warnung): Webseiten, die dynamisch durch Attributsuche generiert werden, können nicht indiziert werden, da der Spider sonst alle möglichen Eingabe-Kombinationen ausprobieren müsste ( Deep Web). Die Ergebnisse von Fachdatenbanken mit einem Web-Frontend liegen aus dem gleichen Grund im Deep Web trotz einer guten Ergebnisqualität. Die Stichwortsuche kann in diesen Fällen also nur dazu benutzt werden, geeignete Fachportale zu finden. I will use Google before asking dumb questions. Prof. Kießling 2016 Kap. 1-61

62 Beispiel: Elektronischer Handel (E-Commerce) B2C (Business-to-Consumer) Anfrage Ecommerce- System DB Relevanz? Kauf! Gewichtete Waren 1. Ware1 Kauf! 2. Ware2 Kauf! 3. Ware3 Kauf! Prof. Kießling 2016 Kap. 1-62

63 Beispiel 1: Mieten einer Wohnung Online-Immobilienmakler Korpus (Immobilienbestand) Suchmöglichkeiten: abgeschlossen, rel. geringe Änderungsrate Reiter, Überschriften Kategorien, Navigation Suchfenster Attributsuche, hierarchische Suche Hintergrundwissen Geographisches Informationssystem (GIS) Beispiel: Wohnen, Augsburg, Mietwohnungen (SS07) Salomon-Idler, Umkreis Automat. Erweiterung um Univiertel, ab SS08: Radius (SS16) #Zimmer, Fläche, Preis Leeres Ergebnis bei zu geringem Preis Parametrische Suche (Synonym Facettensuche) Prof. Kießling 2016 Kap. 1-63

64 Seit SS Vorschläge für Autovervollständigung der Benutzereingabe auf mehreren geographischen Konzeptebenen: - Orte, Kreise, Bezirke und Gemeinden, Straßen Parallele, konzeptspezifische Suche mit Vorschlag von 5 Varianten je Konzept Prof. Kießling 2016 Kap. 1-64

65 Seit SS2013 Definition von oberer (Preis) oder unterer (Zimmer, Fläche) Grenze für numerische Parameter. Umkreis kann in Minuten oder in km angegeben werden. Dynamische Anzeige der Trefferanzahl in Abhängigkeit von jedem Parameter. Frühere attributbasierte Suche ist ersetzt durch Parametrische Suche mit 4 Attributen, wobei WO und WAS für den Anwender als Prefilter wirken. Prof. Kießling 2016 Kap. 1-65

66 Suche anpassen: Anzeige aller vorhandenen Parameter Prof. Kießling 2016 Kap. 1-66

67 Beobachtung: In Abhängigkeit vom Datenbestand und der Anfrage können bei der Attribut-Suche zwei Phänomene auftauchen: 1. Leere Ergebnismenge (empty result set) 2. Viel zu große Ergebnismenge (flooding effect) Mit Hilfe der Parametrischen Suche wird der Einfluss von Attributen auf die Größe der Ergebnismenge visualisiert und damit dem Benutzer ein Feedback auf seine Aktionen gegeben. Prof. Kießling 2016 Kap. 1-67

68 Parametrische Suche Beispiel 2: Auswahl von Elektronikware Preisvergleich (z.b. Fernseher) bei Idealo Ergebnis: Nach einem hierarchischen Suchvorgang gelangt man zu einer Startseite für eine parametrische Suche. Bei einer parametrischen Suche wird durch die Benutzerauswahl eines Attributwertes die Ergebnismenge eingeschränkt. Die Ergebnismenge kann dann durch Auswahl weiterer Attributwerte iterativ eingeschränkt werden, dabei kann auch eine leere Ergebnismenge auftreten. Durch Rücknahme von Einschränkungen kann sich die Ergebnismenge wieder vergrößern. Die Kardinalität der Ergebnismenge der momentanen Selektion ist (meistens) angegeben. Die Vorgehensweise entspricht einer iterativen Navigation bezüglich der Attribute des Suchraums. Prof. Kießling 2016 Kap. 1-68

69 1.5 Übersicht Multimedia-Suche Suche in Multimediabeständen bestehend aus Bildern, Audios, Videos. Multimediasuche findet meist in textuell erschlossenen Beständen ab. Die Erschließung findet in sozialen Netzwerken durch Annotierungen (Tagging) mit Hilfe eines offenen Vokabulars statt. Für die professionelle Annotierung existieren z.b. spezifische XML- Sprachen wie MPEG-7 (siehe Schema). Beispiele: Videos mit den Annotierungen Clinton 2016 YouTube Yahoo Prof. Kießling 2016 Kap. 1-69

70 Praktisches Beispiel: Google Bildersuche Suche Bild aus tz aus der Wochenendausgabe vom 11./ : Prof. Kießling 2016 Kap. 1-70

71 Aus dem Zeitungsartikel, in dem das Bild eingebettet ist (Erschließung über Umgebungstext), kann der Leser folgende Stichwörter entnehmen: 1. Versuch: saturn, ring, earth, cassini (SS07: , seit SS13: Anzahl wird nicht mehr angezeigt.) 2. Versuch: saturn, eclipse, , cassini (SS07: 215, seit SS13: Anzahl wird nicht mehr angezeigt.) Aus der Ergebnismenge von Google-Bildsuche kann bislang nur durch (menschliche) Analyse das gesuchte Bild und seine Quelle gefunden werden. Quelle: Prof. Kießling 2016 Kap. 1-71

72 Die Suche nach ähnlichen Bildern in einem Bildarchiv bzw. die Bild- Annotierung und Suche ausgehend von einem Vergleichsbild ist im Allgemeinen ein kaum zu lösendes Problem. Für stark eingeschränkte Anwendungsdomänen wie z.b. Gesichtserkennung werden Lösungen angeboten. Beispiele: Polar Rose, 2010 gekauft von Apple, bzw. Gesichtserkennung bei Facebook abgeschlossenes Lehrstuhlprojekt: Heron Bildsuchekriterien: z.b. Farbhistogramm (blau/weiß) Textur (Hermelinfell) Prof. Kießling 2016 Kap. 1-72

73 Ähnlichkeitssuche für Bilder im Web (Reverse Image Search): Google Bildersuche TinEye Yandex Unterschiedliche Güte der Suchergebnisse je nach Suchverfahren. Suche allein auf Bildähnlichkeit basierend liefert ungenügende Ergebnisse. Trefferraten werden durch Metainformationen verbessert. Prof. Kießling 2016 Kap. 1-73