6. Probabilistische Retrievalmodelle. Norbert Fuhr
|
|
- Harald Hermann
- vor 6 Jahren
- Abrufe
Transkript
1 6. Probabilistische Retrievalmodelle Norbert Fuhr
2 Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD : dm D D D : Anfragebeschreibung Dokumentbeschreibung R: Relevanzskala ϱ: Retrievalfunktion
3 Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q k Q: qk T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q k, d m ) = q T k d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q k, d m ) = t i q T k d T m c ik
4 Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1. Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 2. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y).
5 Herleitung des BIR-Modells Abschätzung von O(R q k, d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q k ist Repräsentation des Dokuments d m als Vektor mit binären Komponenten x = (x 1,..., x n ) wobei x i = { 1, falls ti d T m 0, sonst Anwenden des Bayes schen Theorems: O(R q k, x) = P(R q k, x) P( R q k, x) = P(R q k) P( R q k ) P( x R, q k) P( x R, q k ) P( x q k) P( x q k ) P(R q k ): Wahrscheinlichkeit, dass ein arbiträres Dokument relevant ist zu q k P( x m R, q k ): Wahrscheinlichkeit, dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x m R, q k ): Wahrscheinlichkeit, dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt
6 Annahme der Linked dependence : P( x R, q k ) P( x R, q k ) = n i=1 P(x i R, q k ) P(x i R, q k ) O(R q k, x) = O(R q k ) n i=1 P(x i R, q k ) P(x i R, q k ) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R q k, x) = O(R q k ) x i =1 P(x i =1 R, q k ) P(x i =1 R, q k ) x i =0 p ik = P(x i =1 R, q k ): Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt. q ik = P(x i =1 R, q k ): Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt P(x i =0 R, q k ) P(x i =0 R, q k ).
7 Annahme, dass p ik = q ik für alle t i / q T k O(R q k, d T m ) = O(R q k ) = O(R q k ) t i ɛd T m q T k = O(R q k ) t i ɛd T m q T k t i ɛd T m q T k 1 p ik 1 q ik t i ɛd T m q T k p ik q ik p ik q ik t i ɛq T k \d T m t i ɛd T m q T k t i ɛq T k \d T m 1 p ik 1 q ik 1 p ik 1 q ik 1 q ik 1 p ik p ik (1 q ik ) q ik (1 p ik ) t i ɛq T k 1 p ik 1 q ik Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q k für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking
8 Übergang zum Logarithmus (ordnungserhaltend): c ik = log p ik(1 q ik ) q ik (1 p ik ) Retrievalfunktion: ϱ BIR (q k, d m ) = c ik t i ɛd T m q T k
9 Anwendung des BIR-Modells Parameterabschätzung für q ik q ik = P(x i =1 R, q k ): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i q ik = n i N
10 Parameterabschätzung für p ik p ik = P(x i =1 R, q k ): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p ik s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c ik = log p 1 p + log 1 q ik q ik = c p + log N n i n i ϱ IDF (q k, d m ) = t i q T k d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0
11 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q k r i : # relevante Dokumente mit dem Term t i p ik = P(t i R, q k ) r i r verbesserte Abschätzungen (mehr in späterem Abschnitt): p ik r i r + 1
12 Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0
13 Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion möglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz
14 Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren
15 Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz!
16 Rechtfertigung über Effektivitätsmaße für je zwei Ereignisse a, b, liefert das Bayes sche Theorem die folgenden monotonen Transformationen von P(a b): (siehe Herleitung des BIR-Modells) O(a b) = P(b a)p(a) P(b ā)p(ā) log O(a b) = log P(b a) + log O(a) P(b ā) logit P(a b) = log P(b a) + logit P(a) P(b ā) mit logit P(x) = log O(x)
17 ρ = P(gef. Dokument rel. Dokument) φ = P(gef. Dokument nichtrel. Dokument) π = P(rel. Dokument gef. Dokument) γ = P(rel. Dokument) ρ(d i ) = P(Dokument ist d i rel. Dokument) φ(d i ) = P(Dokument ist d i nichtrel. Dokument) π(d i ) = P(rel. Dokument Dokument ist d i ) (Wahrscheinlichkeit der Relevanz) S Menge der gefundenen Dokumente
18 ρ = d i S ρ(d i ) φ = d i S φ(d i ) logit π(d i ) = log ρ(d i) φ(d i ) + logit γ ρ(d i ) = x i φ(d i ) mit x i = exp(logit π(d i ) logit γ)
19 1. Abbruch vorgegeben durch φ (Fallout) φ = d i S φ(d i ) ρ = d i S ρ(d i ) = d i S φ(d i ) exp(logit π(d i ) logit γ) maximiere ρ (Recall) durch Hinzunahme der Dokumente mit den höchsten Werten für π(d i ) ˆ= ordne nach Wahrscheinlichkeit der Relevanz 2. Abbruch durch # Dokumente gefunden maximiere erwarteten Recall, minimiere erwarteten Fallout 3. Abbruch vorgegeben durch ρ (Recall) minimiere Fallout
20 logit π = log(ρ/φ) + logit γ 4. erwartete Precision wird für gegebenen Recall / Fallout / # gefundener Dokumente maximiert
21 PRP für mehrwertige Relevanzskalen n Relevanzwerte R 1 < R 2 <... < R n entsprechende Kosten für das Retrieval eines Dokuments: C 1, C 2,..., C n. ordne Dokumente nach ihren erwarteten Kosten EC(q, d m ) = n C l P(R l q, d m ). l=1 Vergleich mit dem binären Fall: nicht-binäre Skala entspricht eher dem Benutzerempfinden n 1 Schätzungen P(R l q, d m ) werden benötigt Kostenfaktoren C l müssen bekannt sein widerspricht bisher experimentellen Ergebnissen
22 Kombination von probabilistischen und Fuzzy-Retrieval Fuzzy-Retrieval: benutzt Grad der Relevanz statt binärer Skala System versucht Grad der Relevanz für ein Anfrage-Dokument-Paar zu berechnen Kombination: kontinuierliche Relevanzskala: r ɛ[0, 1] ersetze Wahrscheinlichkeitsverteilung P(R l q, d m ) durch Dichtefunktion p(r q, d m ) ersetze Kostenfaktoren C l durch Kostenfunktion c(r).
23 Konzeptuelles Modell Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR
24 Repräsentationen und Beschreibungen im BIR-Modell Anfragerepräsentationen q k = (q T k, qj k ): Menge von Anfragetermen q T k + Menge von Rlevanzurteilen q J k = {(d m, r(d m, q k ))} Anfragebeschreibungen q D k = {(t i, c ik )}: Menge der Anfrageterme mit zugehörigen Gewichten Dokumentenrepräsentation d m = d T m Menge der Terme Dokumentenbeschreibung d D m = Dokumentenrepräsentation d T m
25 Entwicklungsrichtungen für probabilistische IR-Modelle: 1. Optimierung der Retrievalqualität für feste Repräsentationen (z.b. durch andere Abhängigkeitsannahmen als im BIR-Modell) 2. Modelle für detaillierte Repräsentationen (z.b. Dokumente als Multimengen von Termen, Phrasen zusätzlich zu Worten)
26 Parameterlernen im IR terms terms terms documents d documents documents learning q learning application appli cation learning application queries queries queries query related learning document related learning description related learning Lernansätze im IR
27 Ereignisraum Ereignisraum: Q D einzelnes Element: Frage-Dokument-Paar (q k, d m ) alle Elemente sind gleichwahrscheinlich Relevanzurteile (q k, d m )ɛr Relevanzurteile für verschiedene Dokumente bzgl. der gleichen Anfrage sind unabhängig voneinander Wahrscheinlichkeit der Relevanz P(R q k, d m ): Wahrscheinlichkeit, dass ein Element (q k, d m ) relevant ist betrachte Kollektionen als Ausschnitt von möglicherweise unendlichen Mengen schlechte Repräsentation von gefundenen Objekten: eine einzelne Repräsentation kann für mehrere verschiedene Objekte stehen
28 D Q q k q k d m d m Ereignisraum der Relevanzmodelle
4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
MehrRahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.
Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich
MehrEvaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion
Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Norbert Gövert 1 Universität Dortmund Zusammenfassung Eines der zentralen robleme auf dem Gebiet des Information Retrieval in
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrÜbungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrNaive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18
Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive
Mehr2 Volltext-Suchmaschinen
2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrWelche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
MehrÜbungsaufgaben mit Lösungsvorschlägen
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrSpektrale Bloom-Filter für Peer-to-Peer Information Retrieval
Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Martin Eisenhardt, Wolfgang Müller, Andreas Henrich LS AI 1, Universität Bayreuth martin.eisenhardt@uni-bayreuth.de Abstract: Spektrale Bloomfilter
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrDarstellung der Methodik in TREC und TREC-basierte Evaluierung
Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz
MehrINEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele
INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur
MehrMit KI gegen SPAM. Proseminar Künstliche Intelligenz
Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der
MehrBinäre Suchbäume (binary search trees, kurz: bst)
Binäre Suchbäume (binary search trees, kurz: bst) Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binärbaum T mit n := M Knoten Jeder Knoten v von T ist mit einer Zahl m v M markiert.
MehrBlack Jack - Kartenzählen
Black Jack - Kartenzählen Michael Gabler 24.01.2012 Literatur: N. Richard Werthamer: Risk and Reward - The Science of Casino Blackjack, Springer Black Jack - Kartenzählen 1 Wie zähle ich Karten? Historisches
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrÄhnlichkeitssuche auf XML-Daten
Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen
MehrMathematische Melodieanalyse - Ein Streifzug
RMA - MuWi UHH WS 05/06 Mathematische Melodieanalyse - Ein Streifzug Universität Hamburg Mathematische Melodieanalyse - Einleitung Mathematische Melodieanalyse befasst sich mit der algorithmischen Analyse
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrPraktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Melikka Khosh-Niat Matthias Jordan 23. Mai 3. Juni 2011 Lösungen: Upload bis 3. Juni 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrText REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme
Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell
MehrInformation Retrieval
Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrInformationstheorethisches Theorem nach Shannon
Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrEinführung in die Computerlinguistik Statistische Grundlagen
Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume
MehrFormale Methoden II. Gerhard Jäger. SS 2008 Universität Bielefeld. Teil 8, 11. Juni 2008. Formale Methoden II p.1/30
Formale Methoden II SS 2008 Universität Bielefeld Teil 8, 11. Juni 2008 Gerhard Jäger Formale Methoden II p.1/30 Beispiele Anmerkung: wenn der Wahrheitswert einer Formel in einem Modell nicht von der Belegungsfunktion
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation
MehrDatenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer:
Binäre Suchbäume (binary search trees, kurz: bst) Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binärbaum T mit n := M Knoten Jeder Knoten v von T ist mit einer Zahl m v M markiert.
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrWeb Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion
Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische
MehrVorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14
Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14
MehrFortgeschrittene Statistik Logistische Regression
Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E
MehrÜbung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz
02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written
MehrPersonalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
MehrKapitel 4: Binäre Regression
Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,
Mehr5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung
5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum
MehrCodierungstheorie Rudolf Scharlau, SoSe 2006 9
Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets
MehrAbschnitt: Algorithmendesign und Laufzeitanalyse
Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher
MehrBinäre abhängige Variablen
Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen
MehrTheoretische Grundlagen der Informatik WS 09/10
Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3
MehrBeispiel. Bsp.: Betrachte Schlussweise in: (3) folgt aus (1) und (2), siehe z.b. Resolutionsregel. was ist mit folgender Schlußweise:
Theoretische Informatik: Logik, M. Lange, FB16, Uni Kassel: 5.4 Prädikatenlogik mit Gleichheit Resolution 192 Beispiel Bsp.: Betrachte Schlussweise in: 1 Wenn es regnet, dann wird die Straße nass. R N
MehrEntwurf und Implementierung einer XML-Volltext-Suchmaschine
Technische Universität Kaiserslautern Fachbereich Informatik AG Datenbanken und Informationssysteme Prof. Dr.-Ing. Dr. h.c. Theo Härder Entwurf und Implementierung einer XML-Volltext-Suchmaschine Diplomarbeit
MehrEinführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
MehrAnfrage Erweiterung 03.11.2011 Jan Schrader
Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen
MehrSeminar Text- und Datamining Datamining-Grundlagen
Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation
MehrWebsite-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager
Website-Suche mit OpenText Web Site Management Frank Steffen - Senior Product Manager Inhalt Überblick Konzepte der Suchmaschinenanbindung Verity K2 Anbindung Der neue OT Search Engine Connector Federated
MehrApproximationsalgorithmen: Klassiker I. Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling
Approximationsalgorithmen: Klassiker I Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling VO Approximationsalgorithmen WiSe 2011/12 Markus Chimani
MehrIndustrie- und Handelskammer Stuttgart
Industrie- und Handelskammer Stuttgart SUCHMASCHINEN-OPTIMIERUNG die vorderen Plätze bei Google, Yahoo & Co 1. Über Beyond Media 2. Erste Schritte 3. freundliche 4. Arbeitsweise 5. Bewertungsmethoden 6.
MehrData- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern
Data- und Text Mining 2014 FH Kaiserslautern Text Mining - Grundlagen Indexierung Data-Structure inverted file Algorithmen Statistische Indexierung Zipf sche Gesetz Termhäufigkeiten Vektor-basierte Suche
MehrKategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II
Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell
MehrProperty Testing in Graphen mit beschränktem Maximalgrad
Property Testing in Graphen mit beschränktem Maximalgrad Björn Schümann Seminar Graphentheorie und Kombinatorik WS 2007-08 Inhaltsverzeichnis 1 Einleitung 2 2 Allgemeine Aussagen zum Property Testing 3
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur
MehrAlles nur Google? Das Innenleben der Suchmaschinen
Alles nur Google? Das Innenleben der Suchmaschinen Prof. Dr. Klaus Meyer-Wegener Friedrich-Alexander-Universität Technische Fakultät Institut für Informatik 1. Das World-wide Web (WWW) oft auch "Internet"
MehrTEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini
TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen
MehrWeb Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web
Web Information Retrieval Web Information Retrieval Ingo Frommholz / Norbert Fuhr 30. Januar 2012 Informationssuche im Web Browsing und Suche Beispiel einer Web-Suchmaschine: Google Hypertext und Web IR
MehrVorlesung Maschinelles Lernen
Gliederung Vorlesung Maschinelles Lernen SVM Textkategorisierung 1 Web Mining Information Retrieval Katharina Morik, Claus Weihs 24.5.2011 2 Textklassifikation 3 Verwendung des Modells zur Textklassifikation
MehrBei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.
XI. Binomialverteilung ================================================================== 11.1 Definitionen -----------------------------------------------------------------------------------------------------------------
MehrInformation Retrieval in XML- Dokumenten
Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und
MehrNichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
MehrEndliche Automaten zur Erkennung von Stoppwörtern
Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter
MehrWintersemester 2008/2009
Fakultät für Informatik LS VI Information Engineering Prof. Dr. G. Kern-Isberner Patrick Krümpelmann, Jan-Hendrik Lochner, Max Vorderstemann Probeklausur zur Vorlesung Darstellung, Verarbeitung und Erwerb
MehrKlausur für Studiengänge INF und IST
Familienname: Matrikelnummer: Studiengang: (bitte ankreuzen) INF IST MED Vorname: Email-Adresse: Immatrikulationsjahr: Klausur für Studiengänge INF und IST sowie Leistungsschein für Studiengang Medieninformatik
MehrVorlesung. Informationsökonomik und die Theorie der Firma
Vorlesung Informationsökonomik und die Theorie der Firma Ulrich Schwalbe Universität Hohenheim 5. Vorlesung 28.11.2007 Ulrich Schwalbe (Universität Hohenheim) Informationsökonomik 5. Vorlesung 28.11.2007
MehrDie Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist
Frage Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist k a F (x) =1 k>0,x k x Finden Sie den Erwartungswert und den Median der Dichte für a>1. (Bei
Mehr9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83
9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x
MehrBachelorabschlussseminar Dipl.-Kfm. Daniel Cracau
1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank
MehrDas Briefträgerproblem
Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................
Mehr16. All Pairs Shortest Path (ASPS)
. All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e
MehrSitzung 9: XML Retrieval. Folien übersetzt nach Hinrich Schütze and Chris>na Lioma h@p://nlp.stanford.edu/ir- book/newslides.html
Sitzung 9: XML Retrieval Folien übersetzt nach Hinrich Schütze and Chris>na Lioma h@p://nlp.stanford.edu/ir- book/newslides.html 1 Overview Einführung Basis XML Konzepte Herausforderungen XML IR Vektorraummodell
MehrInternet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung
Einführung nternet-suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Web-Suche nternet-suche 4 / 1 Produktsuche in nternet-shops ntranet-suche 5 / 1 6 / 1 Suche in Online-Publikationen Suche
Mehr4. Dynamische Optimierung
4. Dynamische Optimierung Allgemeine Form dynamischer Optimierungsprobleme 4. Dynamische Optimierung Die dynamische Optimierung (DO) betrachtet Entscheidungsprobleme als eine Folge voneinander abhängiger
MehrKapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval
Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und
MehrTheorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie
Theorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie Johannes Leitner Inhalt I Modellierung von Unschärfe Unscharfe Mengen Unscharfe
MehrInternet-Suchmaschinen 1. Einführung
Internet-Suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Einführung Internet-Suche Internet-Suche Beispiele Web-Suche 4 / 1 Internet-Suche Beispiele Produktsuche in Internet-Shops 5 / 1 Internet-Suche
MehrKapitel 3: Etwas Informationstheorie
Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens
Mehrim folgenden eine ausführliche Keyword-Analyse von cosmobutler.com.
www.seosuisse.ch info@seosuisse.ch Zilmattweg 1 6403 Küssnacht Aug 15, 2014 Ihre persönliche Keyword-Analyse für cosmobutler.com Sehr geehrter Herr Beninca im folgenden eine ausführliche Keyword-Analyse
MehrInformation Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg
Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell
MehrGrundlagen des Multimediaretrievals
Grundlagen des Multimediaretrievals Vorlesung im Wintersemester 2005/2006 Prof. Dr. Michael Clausen Priv Doz. Dr. Frank Kurth Dr. Meinard Müller Institut für Informatik III Römerstraße 164 Rheinische Friedrich-Wilhelms-Universität
MehrComputerlinguistik im Service Management eine neue Suche für TOPdesk
Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk
MehrDer Nutzen von Webkommentaren für das keyword-basierte Multimedia-Retrieval
Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Der Nutzen von Webkommentaren für das keyword-basierte Multimedia-Retrieval Masterarbeit Steffen Becker Matrikelnummer 51448 Geboren
MehrSoziale Netze erkennen und nutzen
Soziale Netze erkennen und nutzen Web-basierte soziale Netzwerke (Services) Katharina Böhnke 2005-01-19 Seminar Innovative IR-Verfahren Online Communities Friendster & Co. Soziale Netzwerke Web-basierte
MehrRegelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall
Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen
MehrKill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.
Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr
MehrFormelsammlung Mathematik
Formelsammlug Mathematik 1 Fiazmathematik 1.1 Reterechug Sei der Zissatz p%, der Zisfaktor q = 1 + p 100. Seie R die regelmäßig zu zahlede Rate, die Laufzeit. Edwert: Barwert: achschüssig R = R q 1 q 1
MehrBestimmung einer ersten
Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,
MehrKünstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Künstliche Intelligenz Unsicherheit Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Rückblick Agent in der Wumpuswelt konnte Entscheidungen
MehrEinführung in die Tensorrechnung
1. Definition eines Tensors Tensoren sind Grössen, mit deren Hilfe man Skalare, Vektoren und weitere Grössen analoger Struktur in ein einheitliches Schema zur Beschreibung mathematischer und physikalischer
MehrExtrema von Funktionen in zwei Variablen
Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,
MehrMaximizing the Spread of Influence through a Social Network
1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2
MehrDatenbank- Recherche. SS 2015 8. Veranstaltung 18. Juni 2015. Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.
Datenbank- Recherche SS 2015 8. Veranstaltung 18. Juni 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz- InsFtut für SozialwissenschaJen 2 Themen der heu2gen
Mehr6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
Mehr