Information-Retrieval: Evaluation
|
|
- Robert Lorenz
- vor 6 Jahren
- Abrufe
Transkript
1 Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009
2 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell (IIR 6) Evaluation (IIR 8) Web-Retrieval (IIR 19-21)
3 Basis-Komponenten eines IR-Systems Vorverarbeitung von Dokumenten Invertierter Index Rechtschreibprüfung/unscharfes Matchen Hilfsindizes: Ranking Positional K-Gram/Permuterm Parameter/Bereiche
4 Ein vollständiges IR-System Abbildung:
5 Systembewertung Evaluationsmaße Precision & Recall Evaluation und Ranking Ergebnislisten Literatur
6 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte)
7 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung
8 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche
9 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen
10 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.)
11 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features
12 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features Auswirkung auf Suchdauer
13 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features Auswirkung auf Suchdauer Wesentlich: Nutzerzufriedenheit
14 Nutzerzufriedenheit Bedürfnisse der Nutzer sind stark domänenspezifisch: Web: Suche Maß: Rate der wdh. Nutzung der Suchmaschine Web: Werbung Maß: Clicks von Nutzern ecommerce: Käufer/Verkäufer Maß: Dauer bis Kauf/Anteil der Suchenden, die kaufen Enterprise: Suchdauer Produktivität (Profit) Keine allgemeine Methodik für Studien Gemeinsamkeit: Frage nach der Relevanz
15 Relevanz von Suchergebnissen Um Relevanz zu messen braucht es mindestens: Referenzkorpus Menge von Anfragen, die versch. Informationsbedarf formulieren Relevanzurteile zu (möglichst) allen Anfrage/Dokument-Paaren gold standard Faktoren: Größe des Korpus Zusammensetzung des Korpus Menge der Anfragen > 50
16 Relevanz von Suchergebnissen Anfragen müssen auf Korpus abgestimmt sein Anfragen müssen Nutzerverhalten realistisch abbilden Zufällige Auswahl nicht sinnvoll ( Experten) Urteile relativ zu Informationsbedarf, nicht zu Anfrage Alle Worte enthalten Gesuch erfüllt Für Evaluation sind klare Angaben nötig Probleme: Relevanz ist ein subjektiver, skalierbarer Wert Manuelle Bewertung aufwändig (zuverlässig?)
17 Beispiel für ein Referenzkorpus: TREC Text Retrieval Conference, seit 1992 ausgerichtet vom NIST (National Institute of Standards and Testing) siehe Enthält verschiedene Testsettings: Sammlungen von Dokumenten (u.a. Reuters) Retrieval-Tasks, z.t. als Anfragen formuliert Relevanzurteile durch Experten
18 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved)
19 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant)
20 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant) P: Wie viele der gefundenen Dokumente sind relevant?
21 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant) P: Wie viele der gefundenen Dokumente sind relevant? R: Wie viele der relevanten Dokumente wurden gefunden?
22 Precision & Recall Precision & Recall Relevant Nonrelevant Retrieved true positives (TP) false positives (FP) Not retrieved false negatives (FN) true negatives (TN) P = TP/(TP + FP) R = TP/(TP + FN)
23 Precision & Recall Precision & Recall P/R sind voneinander abhängig: Recall steigt mit Anzahl der Dokumente (Alle Doks = Recall von 100%) Hoher Recall geht meist auf Kosten der Precision In versch. Kontexten sind P & R versch. wichtig: Expertensysteme, Dateisuche: Hoher Recall Web: Hohe Precision wichtiger P/R müssen gemeinsam betrachtet werden
24 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall:
25 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α
26 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α β < 1 betont Precision, β > 1 betont Recall
27 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α β < 1 betont Precision, β > 1 betont Recall Meist als balanced F-Measure mit β = 1 oder α = 1 2 F 1 = ( 1 P + 1 R ) = 2PR P + R Sog. harmonic mean von P & R
28 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120
29 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3
30 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4
31 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4 F 1 = = 2/
32 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4 F 1 = = 2/ P, R und F liegen immer zwischen 0/1, deshalb meist Angabe in %
33 Precision & Recall P/R vs. Genauigkeit IR-Systeme klassifizieren Dokumente als +/- relevant Genauigkeit = Anteil richtig klassifizierter Elemente: (TP + TN)/(TP + FP + FN + TN) Sinnvoll bei maschinellem Lernen, problematisch bei IR Oft > 99,9% der Dokumente irrelevant Wenn ein System alles als irrelevant klassifiziert: Genauigkeit von bis zu 99,9% Keine Treffer P & R konzentrieren sich auf true positives
34 Evaluation und Ranking Evaluation und Ranking P, R und F sind Maße für unsortierte Mengen Um diese auch in Kombination mit Ranglisten zu nutzen: Berechnung von P/R für Teilmengen: Beste 1, 2,... n Dokumente P/R-Werte für versch. Recall-Stufen Punkte auf einer Precision-Recall-Kurve
35 Evaluation und Ranking Eine Precision-Recall-Kurve Zeigt Precision auf versch. Recall-Levels: Bei nicht relevanten fällt P ab, R bleibt gleich Bei relevanten Dok steigt P mit R an Interpolation (rot): Maximale P für größtmögliche Teilmenge
36 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision
37 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: 0.425
38 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: Vorteil: Einzelner Wert
39 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: Vorteil: Einzelner Wert Jeweils nur für eine Anfrage!
40 Evaluation und Ranking Averaged 11-point precision/recall graph P/R-Kurve für mehrere Anfragen Für jedes Recall-Level: Interpolierte Precision für alle Anfragen Arithmetisches Mittel der Werte Maß für Performance auf allen Recall-levels Standardmaß in TREC
41 Evaluation und Ranking Weitere Maße Mean Average Precision (MAP) AP: Mittelwert über die Precision der besten k Dokumente nach jeder Rückgabe eines relevanten Dokuments MAP = Mittelwert über AP aller Anfragen Keine Recall-Levels ( 11pt), keine Interpolation Gleiche Gewichtung für jeden Informationsbedarf Precision at k P an einem festen Recall-Level R-Precision Gegeben: Menge relevanter Dokumente (Rel) Für die Rel besten Dokumente: tatsächlich relevante Dokumente / Rel Misst P nur für einen Punkt dennoch hohe Korrelation mit MAP
42 Evaluation und Ranking Varianz bei Evaluation Werte variieren teils erheblich bei verschiedenem Informationsbedarf, auch innerhalb von Testsettings Performance variiert oftmals stärker zwischen verschiedenen Anfragen innerhalb eines Systems als zwischen gleichen Anfragen in verschiedenen Systemen Informationsbedarfe sind verschieden komplex
43 Informative Ergebnislisten Ziel: Nutzerfreundlichkeit durch abschließende Bewertung durch den Nutzer In der Regel Titel, URL und kurze Zusammenfassung Titel & URL aus Metadaten Zusammenfassung muss erstellt werden: Statisch - unabhängig von Anfragen Dynamisch - Anfrage einbeziehen
44 Statische Zusammenfassung Fester Ausschnitt des Dokuments Z.B. erste X Sätze/X Wörter o.ä. Auswertung von Parametern/Bereichen Kann beim Indexieren durchgeführt werden Mittels NLP-Methoden Key-words zur Bewertung von Sätzen, beste Sätze kombinieren Grammatiken (Teilsätze, Pronomina, etc.) Sätze neu generieren (NLG) NLP noch Gegenstand der Forschung
45 Dynamische Zusammenfassung Erstellung ad hoc Rückgabe von Ausschnitten, die Terme der Anfrage enthalten (KWIC) Bewertung der Ausschnitte: Terme der Anfrage als Phrase enthalten Terme der Anfrage nahe beieinander Rückgabe der besten Ausschnitte
46 Dynamische Zusammenfassung Optimierungsproblem: Möglichst kurz Möglichst informativ Möglichst lesbar Feste Fensterbreite vs. rudimentäre NLP-Techniken DZ verkomplizieren das Gesamtsystem Müssen ad hoc erstellt werden Zugriff auf Texte sehr aufwändig: Rekonstruktion mit Positional Index vs. Caching von (Teil-)Dokumenten Da sie aber die Usability erheblich verbessern...
47 Wie geht es weiter? fällt aus!
48 Wie geht es weiter? fällt aus! Danach: Web-Retrieval (IIR 19-21)
49 Luhn, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM Journal of Research and Development, 1(4): Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Zum Nachlesen: [Manning et al., 2008], Kapitel 8 (siehe
Evaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrInformation-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrPraktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
Mehr5. Probabilistische Retrievalmodelle
5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrProf. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17
Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
Mehr, Data Mining, 2 VO Sommersemester 2008
Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrInformation Retrieval Übung
Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive
MehrVolltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrMaßgeschneiderte Suchmaschinen
Maßgeschneiderte Suchmaschinen Usability Stammtisch Frankfurt am Main 17.11.2009 Walter Ebert Web Development www.walterebert.de Braucht meine Website eine Suchmachine? Wahrscheinlich, wenn: Eine gute
MehrInternet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrAlternativen zu Google. Prof. Dr. Dirk Lewandowski
Alternativen zu Google Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Situation / warum Alternativen zu Google? Lohnt sich die Recherche in anderen Universalsuchmaschinen? Alternative
MehrUser Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?
User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
Mehr5. Evaluierung von IR- Systemen
Rückblick Inver&erter Index als wich8ge Indexstruktur im IR External Memory Sort als Schlüssel zur effizienten Indexierung Anfragebearbeitung auf dokument- sor8erten Indexlisten (TAAT + DAAT) und wert-
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrWeb Marshals Fighting Curly Link Farms
Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)}
MehrEvaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von
Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden
MehrInternet-Suchmaschinen Evaluierung
Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrExposé zur Studienarbeit. 04. August 2010
Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses
MehrBewertung von Ergebnisdokumenten Auswertung von Bewertungen
3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend
MehrDarstellung der Methodik in TREC und TREC-basierte Evaluierung
Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz
MehrData Mining und Maschinelles Lernen
Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und
MehrBLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.
Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrDeutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de
Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Joachim Griesbaum 1 / Marc Rittberger 2 / Bernard Bekavac 1 1 Universität Konstanz Fach D 87 D-78457 Konstanz 2 Heinrich-Heine-Universität
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrDigitale Bibliotheken. Informationssuche, Zugriff und Verbreitung
Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
Mehrlimlhaidftswgirzälhimds
limlhaidftswgirzälhimds 1 Einführung 1 1.1 Die Bedeutung der Suchmaschinen 2 1.2 Ein Buch über Google? 6 1.3 Ziel dieses Buchs 7 1.4 Über Suchmaschinen sprechen 8 1.5 Aufbau des Buchs 8 1.6 Aufbau der
MehrAuf dem Weg zu Website-Fingerprinting in der Praxis
Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrInformation Retrieval
Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen
MehrWebinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten
Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher
MehrInhaltsverzeichnis 1 Einführung 2 Formen der Suche im Web 3 Wie Suchmaschinen funktionieren
Inhaltsverzeichnis 1 Einführung...................................................... 1 1.1 Die Bedeutung der Suchmaschinen............................... 2 1.2 Ein Buch über Google?........................................
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv
MehrErfolgreich suchen im Internet
Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität
MehrSchubert Foo, Douglas Hendry: for Desktop Searching
Schubert Foo, Douglas Hendry: Evaluation of Visual Aid Suite for Desktop Searching Sergey Tarassenko Einführung Weltweite Verbreitung von Elektronischen Information Schnelle Entwicklung von Suchmaschinen.
MehrPraktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Melikka Khosh-Niat Matthias Jordan 23. Mai 3. Juni 2011 Lösungen: Upload bis 3. Juni 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
MehrDie Analyse Ihre Website unter der SEO-Lupe
Die Analyse Ihre Website unter der SEO-Lupe Nachdem Sie sich intensiv mit Ihrer Zielgruppe und Ihren Wettbewerbern beschäftigt haben, ist vor der operativen Umsetzung ein weiterer Schritt zur Vorbereitung
MehrMehrsprachige Kategorisierung
know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval
MehrIndexstrukturen in XML
Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrRecommender Systeme mit Collaborative Filtering
Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem
Mehr3. Evaluierung. Norbert Fuhr
3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?
Mehr1000 Räder & 3 Hebel. Mag. Herwig Seitz
Google AdWords / eday 2011 1000 Räder & 3 Hebel www.cpc-consulting.net Mag. Herwig Seitz CPC-Consulting Google AdWords Kampagnen-Management Internet-Marketing-Consulting Seminare & Workshops zu: Google
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
Mehr5. Information Retrieval
5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information
MehrEin neuer Ansatz für Clusterlabeling: Was war die Suchanfrage? Bachelorarbeit
Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Ein neuer Ansatz für Clusterlabeling: Was war die Suchanfrage? Bachelorarbeit Maximilian Michel Matrikelnummer 80196 Geboren am 19.
MehrOnline-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015
Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen
MehrRanking Functions im Web: PageRank & HITS
im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrErfolg in Suchmaschinen Spickzettel
Erfolg in Suchmaschinen Spickzettel Die wichtigsten Begriffe bei Suchmaschinen Einleitung Eigentlich ist es ganz einfach Das Marketing in Suchmaschinen wimmelt von Abkürzungen. SEM, SEO, SERP, CPC lassen
MehrMit Google Adwords mehr Direktbuchungen generieren
Welcome to Mit Google Adwords mehr Direktbuchungen generieren Jürgen Cecatko Business Development Manager Austria 1 Copyright 2017, ReachLocal, Inc. Starke Partnerschaften in der Hotellerie Der Kaufentscheidungsprozess
MehrDie Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE
Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE Detlef Görlitz www.physik.uni hamburg.de Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über
MehrEinführung in die Computerlinguistik Suche mit regulären Ausdrücken
Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Dozentin: Wiebke Petersen 9. Foliensatz Wiebke Petersen Einführung CL 1 Suche mit regulären Ausdrücken Suche nach allen Wortformen des
MehrText REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme
Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2012 Termin:
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2012 Termin: 17. 7. 2012 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrAPA Online Manager. IT-Subsidiary of a News Agency as a Profit Center
APA Online Manager IT-Subsidiary of a News Agency as a Profit Center Manfred Mitterholzer Rudolf Horvath Das Unternehmen APA Gruppe 240 Mitarbeiter 34,6 Mio Umsatz APA - IT 100 % Tochter der Austria Presse
MehrTechnische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH
Technische Aspekte einer Videosuchmaschine Björn Wilmsmann, CEO - MetaSieve GmbH 1 Über MetaSieve http://www.metasieve.com Softwareentwicklung Internet Software Spezialisiert auf Suchmaschinentechnologie
MehrVolkswagen Data Lab Connected Car Fahrererkennung mit MATLAB
Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB K-SI/LD1 Julia Fumbarev München, 27.06.2017 Mega-Trend: Fahrzeugvernetzung Herausforderungen für die OEMs: 4Synchronisierung unterschiedlicher
MehrSie lieben Ihre Webseite?
Unternehmermanufaktur Workshop beim Netzwerktreffen 2015 Sie lieben Ihre Webseite? Referent: Werner Gärtner Hamburg, 04.11.2015 1 Title-Optimierung Title-Tag Optimierung Das Title-Element, auch Title-Tag
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrEinführung in die Computerlinguistik Suche mit regulären Ausdrücken
Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Dozentin: Wiebke Petersen 9. Foliensatz Wiebke Petersen Einführung CL 1 Suche mit regulären Ausdrücken Suche nach allen Wortformen des
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrDecision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrImproving the Accuracy of GPS
Improving the Accuracy of GPS Stephan Kopf, Thomas King, Wolfgang Effelsberg Lehrstuhl für Praktische Informatik IV Universität Mannheim Gliederung Motivation ierungsfehler von GPS Steigerung der Genauigkeit
MehrInformation Retrieval und Information Extraction
Information Retrieval und Information Extraction ao.prof. Harald Trost Kontakt und Information Harald Trost Adresse: Institut für Medizinische Kybernetik und Artificial Intelligence, Freyung 6, Stiege
Mehr