Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Ähnliche Dokumente
Textmining Klassifikation von Texten Teil 1: Naive Bayes

4. Nicht-Probabilistische Retrievalmodelle

Kapitel ML:IV (Fortsetzung)

Satz 16 (Multiplikationssatz)

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Signalverarbeitung 2. Volker Stahl - 1 -

Wahrscheinlichkeitstheorie

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

Naive Bayes. Naive Bayes

Auf dem Weg zu Website-Fingerprinting in der Praxis

Sprachstatistik: Das Zipf sche Gesetz

Dokumenten-Clustering. Norbert Fuhr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Wahrscheinlichkeitstheorie und Naive Bayes

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

Exposé zur Studienarbeit. 04. August 2010

Ma 13 - Stochastik Schroedel Neue Wege (CON)

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

2. Rechnen mit Wahrscheinlichkeiten

Wahrscheinlichkeitsrechnung

Kombinatorik. 1. Beispiel: Wie viele fünfstellige Zahlen lassen sich aus den fünf Ziffern in M = {1;2;3;4;5} erstellen?

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Bayes kommt Markowitz zu Hilfe

Kapitel IR:III (Fortsetzung)

Einführung in die Computerlinguistik Statistische Grundlagen

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Schulinternes Curriculum Mathematik SII

8. Konfidenzintervalle und Hypothesentests

2 Evaluierung von Retrievalsystemen

Mathematische und statistische Methoden II

Wirtschaftsstatistik I [E1]

Chapter 1 : þÿ w i e A n s p r u c h b e t a t h o m e B o n u s c h a p t e r

Bayes sches Lernen: Übersicht

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Chapter 1 : þÿ b e t a m i n u s z e r f a l l f o r m e l c h a p t e r

Chapter 1 : þÿ b e t a t h o m e G u t s c h e i n c o d e z u n e u e n K u n d e n c h a p t e r

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Bedingte Wahrscheinlichkeiten & Unabhängigkeit

Wahrscheinlichkeitsrechnung für die Mittelstufe

Datenbanken und Informationssysteme

Zusammenhangsanalyse in Kontingenztabellen

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Chapter 1 : þÿ b e t a t h o m e m o b i l e W e b s i t e c h a p t e r

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Die Umsetzung der Lehrplaninhalte in Fokus Mathematik Einführungsphase auf der Basis des Kerncurriculums Mathematik in Nordrhein-Westfalen

Chapter 1 : þÿ b e t a t h o m e G r a t i s - W e t t e n o h n e E i n z a h l u n g c h a p t e r

Übungsrunde 4, Gruppe 2 LVA , Übungsrunde 4, Gruppe 2, Markus Nemetz, TU Wien, 10/2006

Nichtlineare Gleichungssysteme

Binäre Suchbäume (binary search trees, kurz: bst)

1 Gemischte Lineare Modelle

Chapter 1 : þÿ b e t a t h o m e E i n s a t z l i m i t s c h a p t e r

Vorläufiger schulinterner Lehrplan zum Kernlehrplan für die gymnasiale Oberstufe. Mathematik

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Chapter 1 : þÿ b e t a t h o m e A n z e i g e S o n g c h a p t e r

Stochastik und Statistik für Ingenieure Vorlesung 4

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Chapter 1 : þÿ b e t a t h o m e C h a t S p o r t c h a p t e r

Chapter 1 : þÿ b e t a t h o m e T a b l e t t e c h a p t e r

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Chapter 1 : þÿ b e t a t h o m e P r o g n o s e n c h a p t e r

Diskrete Verteilungen

Trainingsaufgaben zur Klausurvorbereitung in Statistik I und II Thema: Satz von Bayes

Chapter 1 : þÿ b e t a t h o m e. e s m o b i l c h a p t e r

Chapter 1 : þÿ b e t a t h o m e a k t i e p r o g n o s e c h a p t e r

Chapter 1 : þÿ b e t a t h o m e B o n u s E i n z a h l u n g C o d e c h a p t e r

Chapter 1 : þÿ b e t a t h o m e C h a t S p o r t c h a p t e r

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Chapter 1 : þÿ b e t a t h o m e B o n u s b e d i n g u n g e n c h a p t e r

Chapter 1 : þÿ b e t a t h o m e, w i e z u s p i e l e n c h a p t e r

Chapter 1 : þÿ b e t a t h o m e l i v e s u p p o r t c h a p t e r

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Chapter 1 : þÿ b e t a t h o m e A p p B e w e r t u n g c h a p t e r

Online-Recherche: Web-Recherche WS 2015/ Veranstaltung 5. November 2015

Chapter 1 : þÿ b e t a t h o m e P r e m i u m k u n d e c h a p t e r

Chapter 1 : þÿ b e t a t h o m e. p a r t y D i e n s t l e i s t u n g e n Ö s t e r r e i c h g m b h c h a p t e

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

Chapter 1 : þÿ b e t a t h o m e T e n n i s a u f g e b e n c h a p t e r

Statistische Verfahren in der Computerlinguistik

Chapter 1 : þÿ b e t a t h o m e F i n a n z t i p p s c h a p t e r

Bivariate Zusammenhänge

Schulinternes Curriculum Mathematik Sekundarstufe II/Lk. Stand: November 2011

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Naive Bayes. 5. Dezember Naive Bayes 5. Dezember / 18

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Vorlesung Information Retrieval Wintersemester 04/05

Ü b u n g s b l a t t 15

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Chapter 1 : þÿ b e t a t h o m e b c h a p t e r

FACHCURRICULUM KL. 9. Raum und Form Figuren zentrisch strecken Üben und Festigen. Strahlensätze. Rechtwinklige Dreiecke.

Untersuchungen zum Thema Tracking Error

Ein RSA verwandtes, randomisiertes Public Key Kryptosystem

Chapter 1 : þÿ R e g i s t r i e r e n b e i b e t a t h o m e c h a p t e r

I. Deskriptive Statistik 1

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Chapter 1 : þÿ b e t a t h o m e a p k c h a p t e r

Quantitative Methoden Wissensbasierter Systeme

Bayessche Netzwerke und ihre Anwendungen

Wahrscheinlichkeit. Kapitel Wahrscheinlichkeitsbegriff

Transkript:

Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar tf.idf-termgewichtung berücksichtigt Termhäufigkeit im Dokument und Dokumentenhäufigkeit in Dokumentensammlung Bestimmung einer Rangfolge gemäß Kosinusähnlichkeit zwischen Anfrage- und Dokumentvektor 27

3.3 Probabilistisches IR Wahrscheinlichkeitsrechnung (probability theory) bietet theoretisches Fundament, um Wahrscheinlichkeiten von Ereignissen zu beschreiben und damit damit umzugehen Probabilistisches IR nutzt Wahrscheinlichkeitsrechnung, um Wahrscheinlichkeit des Ereignisses Dokument d ist zur Anfrage q relevant zu bestimmen 28

Mathematische Grundlagen: Wahrscheinlichkeiten Wahrscheinlichkeiten der Ereignisse A und B A ist das Ereignis, dass Objekt Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]= 5 9 P[B ]= 4 9 A B ist Ereignis, dass Objekt grüner Kreis ist P[A B ]=P[A, B ]= 3 9 29

Mathematische Grundlagen: Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit P[B A] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist hier: P[B A ]= P[A B ] P[A ] P[B A ]= 3 5 P[A B ]= 3 4 30

Mathematische Grundlagen: Wahrscheinlichkeiten Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A]P[B] Ereignisse A und B in unserem Beispiel sind nicht unabhängig, da 3 9 = 5 9 4 9 31

Mathematische Grundlagen: Wahrscheinlichkeiten Thomas Bayes (1701 1761) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ]P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt Umkehr der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten ist 32

Mathematische Grundlagen: Wahrscheinlichkeiten Beispiel: Untersuchung von Wildtieren A ist das Ereignis, dass Wildtier ein Fuchs ist B ist das Ereignis, dass Wildtier Tollwut hat Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= 0.25 0.05 0.1 =0.125 33

Mathematische Grundlagen: Wahrscheinlichkeiten Satz von Bayes angewandt auf drei Ereignisse A, B und C P[A B,C ]= P[B A, C ]P[A C ] P[B C ] 34

Probabilistic Ranking Principle (PRP) Probabilistic Ranking Principle (PRP) schlägt vor, Dokumente in absteigender Reihenfolge von P[R =1 d, q ] zu ordnen, als ihrer Wahrscheinlichkeit zur Anfrage relevant zu sein PRP führt zu optimaler Precision unter der Annahme, dass Wahrscheinlichkeiten genau bekannt und unabhängig sind (beide Annahmen sind jedoch in der Realität fragwürdig) 35

Binary Independence Model Binary Independence Model (BIM) betrachtet Dokumente und Anfragen als Mengen von Termen, d.h. ein Term kommtim Dokument vor oder nicht BIM nimmt an, dass Terme unabhängig voneinander in den Dokumenten vorkommen (fragwürdig in der Realität) Rangfolge der Dokumente gemäß PRP nach ihrer Wahrscheinlichkeit P[R = 1 d, q], für die gilt P[R =1 d, q ]+P[R =0 d, q ]=1 36

Binary Independence Model Gleiche Rangfolge der Dokumente erhält man, wenn man statt Wahrscheinlichkeiten deren Quoten (odds) beachtet O[R d, q ]= P[R =1 d, q ] P[R =0 d, q ] Anwendung des Satz von Bayes ergibt O[R d, q ]= P[R =1 q ] P[R =0 q ] { Konstante (hängt nur von q ab) P[d R =1,q] P[d R =0,q] Ã P[d R =1,q] P[d R =0,q] 37

Binary Independence Model Unter Annahme, dass Terme unabhängig vorkommen P[d R =1,q] P[d R =0,q] = Ÿ vœv P[v R =1,q] P[v R =0,q] mit Vokabular V aller bekannter Terme Unter Annahme, dass nur Anfrageterme eine Rolle spielen P[d R =1,q] P[d R =0,q] Ÿ vœq P[v R =1,q] P[v R =0,q] 38

Binary Independence Model Aufteilung in vorhandene und fehlende Anfrageterme P[d R =1,q] P[d R =0,q] Ÿ vœq vœd P[v R =1,q] P[v R =0,q] Ÿ vœq v œd P[v R =1,q] P[v R =0,q] Definiere p v und u v als Wahrscheinlichkeit, dass der Term v in einem relevanten bzw. nicht-relevanten Dokument vorkommt P[d R =1,q] P[d R =0,q] Ÿ vœq vœd p v Ÿ u v vœq v œd 1 p v 1 u v 39

Binary Independence Model Durch einfaches Umformen erhält man P[d R =1,q] P[d R =0,q] Ÿ vœq vœd à Ÿ vœq vœd p v (1 u v ) u v (1 p v ) Ÿ p v (1 u v ) u v (1 p v ) vœq 1 p v 1 u v { Konstante (hängt nur von q ab) 40

Wahrscheinlichkeiten und Gleitkommazahlen Numerische Ungenauigkeiten beim Rechnen mit kleinen Zahlen und Verwendung von Gleitkommazahlen (double) Logarithmische Transformation eines Ausdrucks kann numerische Ungenauigkeiten vermindern (Produkte werden zu Summen) 41

Wahrscheinlichkeiten und Gleitkommazahlen 42

Binary Independence Model Logarithmische Transformation angewandt auf Binary Independence Model Q R cÿ p v (1 u v ) log a u v (1 p v ) vœq vœd d b = ÿ vœq vœd log p v (1 u v ) u v (1 p v ) =RSV d Dokumente werden in absteigender Reihenfolge ihres Retrieval-Status-Werts RSV d zurückgegeben Wie kann man die Wahrscheinlichkeiten p v und u v schätzen? 43

Schätzen der Wahrscheinlichkeiten Unter Annahme, dass Anteil relevanter Dokumente an der Dokumentensammlung sehr klein ist, schätzt man u v = df (v) D als Wahrscheinlichkeit, dass der Term v in einem nicht-relevanten Dokument vorkommt 44

Schätzen der Wahrscheinlichkeiten Menge der zur Anfrage relevanten Dokumente unbekannt, daher schätzt man p v =(1 p v )=0.5 als Wahrscheinlichkeit, dass der Term v in einem relevanten Dokument vorkommt 45

Binary Independence Model Retrieval-Status-Wert RSV d entspricht damit tf.idf-variante RSV d = ÿ vœq vœd = ÿ vœq vœd ÿ vœq vœd log p v (1 u v ) u v (1 p v ) = ÿ vœq vœd 2 log 1 1 log D df (v) df (v) D df (v) D = ÿ vœq vœd log (1 u v) u v log D df (v) df (v) unter Annahme, dass die meisten Terme selten sind 46

Binary Independence Model BIM liefert tendenziell gute Ergebnisse, wenn Dokumente relativ homogene Länge haben, überzeugt jedoch nicht bei heterogener Dokumentenlänge (z.b. auf dem Web) Feedback des Benutzers über Relevanz von Dokumenten (relevance feedback) kann direkt bei Schätzung von p v und u v berücksichtigt werden Theoretisch fundierter Ansatz basierend auf fragwürdigen Annahmen (z.b. Unabhängigkeit von Termen) 47

Okapi BM25 Okapi BM25 ist ein probabilistisches IR-Modell, welches auf dem BIM aufbaut, jedoch Termhäufigkeiten berücksichtigt Für die Verteilung von Termhäufigkeiten in relevanten und nicht-relevanten Dokumenten (analog zu p v und u v ) wird angenommen, dass sie Poisson-verteilt sind P[tf (v, d) =k ]= k k! e 48

Okapi BM25 RSV d = ÿ vœq (k 1 + 1) tf (v, d) k 1 ((1 b)+b ( d /avdl)) + tf (v, d) log D df (v)+0.5 df (v)+0.5 Parameter k 1 kontrolliert Einfluss der Termhäufigkeiten für k 1 = 0 erhält man ein binäres Modell ähnlich dem BIM in der Praxis liefert k 1 = 1.2 gute Ergebnisse Parameter b kontrolliert Normalisierung der Termhäufigkeiten anhand Dokumentlänge d und durchschnittlicher Dokumentenlänge avdl für b = 0.0 spielt Dokumentenlänge keine Rolle in der Praxis liefert b = 0.75 gute Ergebnisse 49

Okapi BM25 Okapi BM25F als Erweiterung berücksichtigt und gewichtet Felder (z.b. Titel, Abstract, Body) des Dokuments Okapi BM25 liefert sehr gute Ergebnisse auf diversen Dokumentensammlungen und gilt als Stand der Technik (z.b. auch eines der IR-Modelle von Apache Lucene) Theoretisch fundierter Ansatz basierend auf fragwürdigen Annahmen (z.b. Unabhängigkeit von Termen) 50

Zusammenfassung Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Binary Independence Model betrachtet binäre Termvorkommen und nimmt deren Unabhängigkeit an Okapi BM25 betrachtet Termhäufigkeiten und nimmt Unabhängigkeit von Termvorkommen an 51

Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 (Kapitel 11) [2] W. B. Croft, D. Metzler, T. Strohman: Search Engines Information Retrieval in Practice, Addison Wesley, 2010 (Kapitel 7) 52