Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer -

Ähnliche Dokumente
Datenbank-Recherche. SS Veranstaltung 8. Mai Philipp Mayr - Philipp Schaer -

Information-Retrieval: Vektorraum-Modell

1. Vorlesung,

1 Boolesches Retrieval (2)

Datenbank- Recherche. SS Veranstaltung 18. Juni Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Datenbank-Recherche. SS Veranstaltung 9. April Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.

Mathematik für Informatiker I

Vom Suchen und Finden - Google und andere Ansätze

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen:

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Vorlesung Information Retrieval Wintersemester 04/05

Grundlagen der Informationverarbeitung

Erfolgreich suchen im Internet

Informationsverarbeitung auf Bitebene

Vorläufige Ergebnisse einer Umfrage am Beispiel von Studierenden der Universität Regensburg

Black Box erklärt Logische Verknüpfungen

Boolesche Algebra. Hans Joachim Oberle. Vorlesung an der TUHH im Wintersemester 2006/07 Montags, 9:45-11:15 Uhr, 14täglich TUHH, DE 22, Audimax 2

Modulhandbuch für den Studiengang Informationswissenschaft (Ergänzungsfach)

Web-Recherche WS 2015/ Veranstaltung 19. November 2015

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Information Retrieval

Universität Stuttgart Vorstellung der Studiengänge Informatik und Softwaretechnik

Einführung in die Informatik I (autip)

Online-Recherche: Web-Recherche WS 2015/ Veranstaltung 5. November 2015

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Bemerkung: Termine und Orte für die einzelnen Lehrveranstaltungen sind dem Stundenplan zu entnehmen.

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015

Online-Recherche: Web-Recherche WS 2015/ Veranstaltung 3. Dezember 2015

Web-Recherche WS 2015/ Veranstaltung 15. Oktober 2015

Linked Data und Semantic Webbasierte Funktionalität in Europeana

Brückenkurs Mathematik

Die Wahl der Suchbegriffe

Mathematik studieren an der Universität Regensburg

Klassische Aussagenlogik

Technische Informatik - Eine Einführung

Rechnerstrukturen. Michael Engel und Peter Marwedel WS 2013/14. TU Dortmund, Fakultät für Informatik

Aufgabe 5.3 Duale Simplexverfahren

Programm. Literaturrecherche in der Hochschulbibliothek

Bibliothek Seite 1. Recherchehinweise für Informationsdatenbanken

9. Weitere Datenbanksprachen

Signalverarbeitung 1

XML und seine Anwendungsmöglichkeiten bei der Archivierung im Gesundheitswesen

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2014

Ausbildung im Spannungsfeld zwischen Bibliothekswesen und Wissensmanagement

Exposé zur Studienarbeit. 04. August 2010

Sudoku. Warum 6? Warum 6?

Binäre Suchbäume (binary search trees, kurz: bst)

VON DER DIPLOM- BIBLIOTHEKARIN ZUM MA LIS

Information Retrieval,

Digitalelektronik - Inhalt

Einführung in die Suche nach Büchern und Aufsätzen. für Studenten der Psychologie und Pädagogik

Prof. Dr. Michael H. Breitner Institut für Wirtschaftsinformatik Wirtschaftswissenschaftliche Fakultät/Leibniz Universität Hannover

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Grundlagen der Computertechnik

Vorlesung Dokumentation und Datenbanken Klausur

Übung RA, Kapitel 1.2

Online-Recherche: Web-Recherche WS 2015/ Veranstaltung 10. Dezember 2015

Literaturrecherche an der ETH

Operations Research I

Otto-Friedrich-Universität Bamberg Fakultät Wirtschaftsinformatik und Angewandte Informatik Bachelorstudiengang Angewandte Informatik

Landesbildungsserver Sachsen-Anhalt

B.SC. INFORMATIK TIM JUNGNICKEL

Kleiner Ausflug in Logik und Verkehrssteuerung

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Kapitel 2. Boolesche Algebra. Prof. Dr. Dirk W. Hoffmann. Hochschule Karlsruhe w University of Applied Sciences w Fakultät für Informatik

Logik (Teschl/Teschl 1.1 und 1.3)

Grundlagen der diskreten Mathematik

Der Aufruf von DM_in_Euro 1.40 sollte die Ausgabe 1.40 DM = Euro ergeben.

Reduced-Rank Least Squares Modelle

( ) ( ) für x = 9 gilt:

Normalformen boolescher Funktionen

4. Induktives Definieren - Themenübersicht

II. Grundlagen der Programmierung

Information Retrieval

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join

Deep Web Suchen wir was man finden könnte?

Kapitel 1.0. Aussagenlogik: Einführung. Mathematische Logik (WS 2011/12) Kapitel 1.0: Aussagenlogik: Einführung 1/ 1

Appendix C. Anhang gemäß Promotionsordnung

4. Nicht-Probabilistische Retrievalmodelle

BA-Nebenfach Musikpädagogik

Willkommen an der ETH Zürich

1 Bedingungen und der Typ bool. Informatik I: Einführung in die Programmierung 5. Bedingungen, bedingte Ausführung und Schleifen. Vergleichsoperatoren

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

2. 1. Suche vorbereiten

A.1 Schaltfunktionen und Schaltnetze

Brückenkurs Mathematik

Kurze Geschichte der linearen Algebra

Ohne Mathematik undenkbar!

Vorkurs Mathematik für Informatiker Aussagenlogik -- Thomas Huckle Stefan Zimmer Matous Sedlacek,

Technische Grundlagen der Informatik

Einführung zum Seminar

Vorlesung Information Retrieval Wintersemester 04/05

Informationskompetenz. Veranstaltung am Peter Daub

Transkript:

Datenbank-Recherche SS 2015 2. Veranstaltung 16. April 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften

2 Vorstellung Philipp Mayr Studium der Bibliotheks- und Informationswiss., Soziologie und Informatik an der Humboldt-Universität zu Berlin, M.A. Entwickler/Consultant bei HiSolutions AG Wissenschaftlicher Mitarbeiter am Informationszentrum Sozialwissenschaften in Bonn, Abt. FuE Promotion in Informationswiss. an der HU Berlin, Prof. Umstätter und Prof. Krause Vertretungsprofessur für Wissensrepräsentation an der Hochschule Darmstadt, Information Science Engineering Postdoc/Teamleitung und stellvertr. Abteilungsleiter GESIS Köln, Abt. Wissenstechnologien für d. Sozialwissenschaften Team Portale und Mehrwertdienste

3 Wiederholung 1. Veranstaltung Einführung in die Thematik der Vorlesung Verständnis der Recherche-Problematik Praktische Kenntnisse in der Recherche-Fähigkeit Allgemeine Informationskompetenz Erste praktische Übung (Hausaufgaben) Käsekuchen und Plagiatsverdacht

4 Themen der heutigen Veranstaltung Boolesche Anfragen und das Boolesche Retrievalmodell Beispielsysteme Beispielanfragen Term-Dokument-Matrizen Vor- und Nachteile des Booleschen Modells Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln, England; 8. Dezember 1864 in Ballintemple, in der Grafschaft Cork, Irland) war ein englischer Mathematiker (Autodidakt), Logiker und Philosoph.

5 Boolesche Retrievalmodell und Anfragen Das Boolesche Retrievalmodell kann alle Anfragen auflösen, die sich als ein Boolescher Ausdruck formulieren lassen. Es erlaubt den Einsatz der Operatoren UND, ODER sowie NICHT um einzelne Anfrageterme zu verknüpfen. Jedes Dokument ist in diesem Modell eine Menge von Termen (bag of words), die keiner besonderen Ordnung folgen. Es ist sehr präzise: Ein Dokument passt zur Anfrage oder nicht! Im professionellen Einsatz seit mehr als 40 Jahren und immer noch sehr beliebt. Man weiß, was man bekommt Nachvollziehbarkeit des Ergebnisses. Viele Suchsysteme basieren auf dem Booleschen Modell...

6

7

8

9 Unstrukturierte Daten im Jahr 1680 Welches Stück von Shakespeare enthält die Wörter Brutus UND Caesar aber NICHT Calpurnia? Ein naiver Versuch: Wir durchsuchen alle Texte, die Shakespeare geschrieben hat nach den Wörtern Brutus und Caesar, danach werden alle Zeilen mit dem Wort Calpurnia gelöscht. Warum ist das (aus technischer Sicht) keine gute Idee? Langsam (für große Textkorpora) NICHT Calpurnia ist nicht trivial Andere Operationen (z.b., finde das Wort Romans nahe countrymen) nicht möglich Kein geranktes Ergebnis (das oder die passendste Dokumente finden, kommt in einer späteren Vorlesung)

Antony and Cleopatra Term-Dokument-Matrix Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0 1 wenn Dokument das Wort enthält, ansonsten 0

11 Einschub: Boolesche Algebra Die boolesche Algebra hat nur die zwei Elemente 0 und 1. Es sind die folgenden Verknüpfungen definiert: Konjunktion ( ) bzw. und, Disjunktion ( ) bzw. oder und Negation ( ) bzw. nicht. Klammerungen für Gruppierungen sind erlaubt. Konjunktion Disjunktion Negation 0 1 0 0 0 1 0 1 0 1 0 0 1 1 1 1 0 1 1 0

Boolesche Operatoren I 12

Boolesche Operatoren II 13

Boolesche Operatoren III 14

15 Der Lösungsweg: Rechnen mit Term-Vektoren Für jeden Term (Brutus, etc.) gibt es einen 0/1-Vektor (Zeile in der Term-Dokument-Matrix): 1: der Term kommt in dem Stück vor, 0: der Term kommt nicht in dem Stück vor. Um die Frage zu beantworten: Nehme die drei Vektoren für Brutus (110100), Caesar (110111) und Calpurnia (010000 101111, invertiert) Verknüpfe alle Vektoren mittels UND ( ). 110100 UND 110111 UND 101111 = 100100.

16 Was sagt uns dieser Vektor? 110100 UND 110111 UND 101111 = 100100. Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia (invertiert) 1 0 1 1 1 1 Ergebnis 1 0 0 1 0 0

17 Die Antwort auf die Anfrage Antony and Cleopatra, Akt III, Szene ii Textstelle: Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus, When Antony found Julius Caesar dead, He cried almost to roaring; and he wept When at Philippi he found Brutus slain. Hamlet, Akt III, Szene ii Textstelle Lord Polonius: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me.

18 Vor- und Nachteile des Booleschen Modells I Kerneigenschaft: Präzise Anfragen sind möglich Dokumente passen zur Anfrage oder nicht! Daher gut für Experten geeignet, die das zugrundeliegende Modell verstehen und anwenden können, die verwendete Dokumentenbasis (den Korpus) kennen und die wissen, was sie wollen! Gut für (Computer-)Systeme, die einfach tausende von Ergebnissen verarbeiten können.

19 Vor- und Nachteile des Booleschen Modells II Nicht für die Mehrheit der Nutzer geeignet! Viele Nutzer sind nicht in der Lage mit Booleschen Anfragen zu arbeiten viele syntaktische Fehler, verstehen das Modell nicht, können ihr Informationsbedürfnis nicht in Anfragesprache übersetzen... Das fehlende Ranking der Ergebnisse ist für normale Anwender nicht praxistauglich, da sie nicht Hunderte von Ergebnissen auswerten möchten. Dies gilt insbesondere im Bereich der Web-Suche.

20 Feast or Famine Boolesche Anfragen liefern oft zu wenige (=0) oder zu viele Ergebnisse (1000+). Anfrage 1: standard user dlink 650 200.000 Treffer Feast Anfrage 2: standard user dlink 650 no card found 0 Treffer Famine Beim Booleschen Retrievalmodell benötigt es eine Menge Kenntnis und Übung eine Anfrage zu formulieren, die eine überschaubare Anzahl an Ergebnissen hervorbringt!

21 Von Feast or Famine zum Ranked Retrieval Große Ergebnismengen sind mit Ranked Retrieval kein Problem mehr. Ranked Retrieval erlaubt es z.b. nur die Top 10 Ergebnisse zu betrachten und so den Nutzer zu entlasten. Voraussetzung ist ein Ranking-Algorithmus, der relevantere Ergebnisse vor weniger relevantere Ergebnisse sortiert.

22 Erweitertes Boolesches Modell In der Praxis wird ein Ranking durch einfache Sortierungen umgesetzt: Chronologische Sortierung (neuste Ergebnisse zuerst), Alphabetische Sortierung (z.b. der Autorennamen). Es sind aber auch Gewichtungen möglich z.b. Häufigkeit der Anfrageterme im Dokument: Häufiges Auftreten von Anfragetermen im Dokument ist ein Zeichen für Relevanz. Allerdings handelt es sich hierbei um Sortierungen, kein wirkliches Ranking (dass eine Bewertung der Relevanz voraussetzt).

23 Zusammenfassung Boolesches Retrieval Einfache boolesche/binäre Entscheidungen (vorhanden / nicht vorhanden). Vorteile: Simple Anfragen sind leicht zu verstehen Relativ leicht zu implementieren (Term-Dokument-Matrix) Nachteile: Schwierig, genaue Anfragen zu spezifizieren Zu viel / zu wenig (Feast or Famine) Sortierung, aber nicht Ranking Meistgenutzte IR-Modell bis zum Durchbruch des Web.

24 Fragen?

25 Kontakt Dr. Philipp Mayr Tel: + 49 (0) 221 / 47694-533 philipp.mayr@gesis.org Dr. Philipp Schaer Tel: + 49 (0) 221 / 47694-521 philipp.schaer@gesis.org Dr. Dagmar Kern Tel: + 49 (0) 221 / 47694-536 dagmar.kern@gesis.org Wilko van Hoek Tel: + 49 (0) 221 / 47694-526 wilko.vanhoek@gesis.org http://www.schaer.de/db-recherche-2015