Information-Retrieval: Evaluation

Größe: px
Ab Seite anzeigen:

Download "Information-Retrieval: Evaluation"

Transkript

1 Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009

2 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell (IIR 6) Evaluation (IIR 8) Web-Retrieval (IIR 19-21)

3 Basis-Komponenten eines IR-Systems Vorverarbeitung von Dokumenten Invertierter Index Rechtschreibprüfung/unscharfes Matchen Hilfsindizes: Ranking Positional K-Gram/Permuterm Parameter/Bereiche

4 Ein vollständiges IR-System Abbildung:

5 Systembewertung Evaluationsmaße Precision & Recall Evaluation und Ranking Ergebnislisten Literatur

6 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte)

7 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung

8 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche

9 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen

10 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.)

11 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features

12 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features Auswirkung auf Suchdauer

13 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features Auswirkung auf Suchdauer Wesentlich: Nutzerzufriedenheit

14 Nutzerzufriedenheit Bedürfnisse der Nutzer sind stark domänenspezifisch: Web: Suche Maß: Rate der wdh. Nutzung der Suchmaschine Web: Werbung Maß: Clicks von Nutzern ecommerce: Käufer/Verkäufer Maß: Dauer bis Kauf/Anteil der Suchenden, die kaufen Enterprise: Suchdauer Produktivität (Profit) Keine allgemeine Methodik für Studien Gemeinsamkeit: Frage nach der Relevanz

15 Relevanz von Suchergebnissen Um Relevanz zu messen braucht es mindestens: Referenzkorpus Menge von Anfragen, die versch. Informationsbedarf formulieren Relevanzurteile zu (möglichst) allen Anfrage/Dokument-Paaren gold standard Faktoren: Größe des Korpus Zusammensetzung des Korpus Menge der Anfragen > 50

16 Relevanz von Suchergebnissen Anfragen müssen auf Korpus abgestimmt sein Anfragen müssen Nutzerverhalten realistisch abbilden Zufällige Auswahl nicht sinnvoll ( Experten) Urteile relativ zu Informationsbedarf, nicht zu Anfrage Alle Worte enthalten Gesuch erfüllt Für Evaluation sind klare Angaben nötig Probleme: Relevanz ist ein subjektiver, skalierbarer Wert Manuelle Bewertung aufwändig (zuverlässig?)

17 Beispiel für ein Referenzkorpus: TREC Text Retrieval Conference, seit 1992 ausgerichtet vom NIST (National Institute of Standards and Testing) siehe Enthält verschiedene Testsettings: Sammlungen von Dokumenten (u.a. Reuters) Retrieval-Tasks, z.t. als Anfragen formuliert Relevanzurteile durch Experten

18 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved)

19 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant)

20 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant) P: Wie viele der gefundenen Dokumente sind relevant?

21 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant) P: Wie viele der gefundenen Dokumente sind relevant? R: Wie viele der relevanten Dokumente wurden gefunden?

22 Precision & Recall Precision & Recall Relevant Nonrelevant Retrieved true positives (TP) false positives (FP) Not retrieved false negatives (FN) true negatives (TN) P = TP/(TP + FP) R = TP/(TP + FN)

23 Precision & Recall Precision & Recall P/R sind voneinander abhängig: Recall steigt mit Anzahl der Dokumente (Alle Doks = Recall von 100%) Hoher Recall geht meist auf Kosten der Precision In versch. Kontexten sind P & R versch. wichtig: Expertensysteme, Dateisuche: Hoher Recall Web: Hohe Precision wichtiger P/R müssen gemeinsam betrachtet werden

24 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall:

25 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α

26 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α β < 1 betont Precision, β > 1 betont Recall

27 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α β < 1 betont Precision, β > 1 betont Recall Meist als balanced F-Measure mit β = 1 oder α = 1 2 F 1 = ( 1 P + 1 R ) = 2PR P + R Sog. harmonic mean von P & R

28 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120

29 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3

30 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4

31 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4 F 1 = = 2/

32 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4 F 1 = = 2/ P, R und F liegen immer zwischen 0/1, deshalb meist Angabe in %

33 Precision & Recall P/R vs. Genauigkeit IR-Systeme klassifizieren Dokumente als +/- relevant Genauigkeit = Anteil richtig klassifizierter Elemente: (TP + TN)/(TP + FP + FN + TN) Sinnvoll bei maschinellem Lernen, problematisch bei IR Oft > 99,9% der Dokumente irrelevant Wenn ein System alles als irrelevant klassifiziert: Genauigkeit von bis zu 99,9% Keine Treffer P & R konzentrieren sich auf true positives

34 Evaluation und Ranking Evaluation und Ranking P, R und F sind Maße für unsortierte Mengen Um diese auch in Kombination mit Ranglisten zu nutzen: Berechnung von P/R für Teilmengen: Beste 1, 2,... n Dokumente P/R-Werte für versch. Recall-Stufen Punkte auf einer Precision-Recall-Kurve

35 Evaluation und Ranking Eine Precision-Recall-Kurve Zeigt Precision auf versch. Recall-Levels: Bei nicht relevanten fällt P ab, R bleibt gleich Bei relevanten Dok steigt P mit R an Interpolation (rot): Maximale P für größtmögliche Teilmenge

36 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision

37 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: 0.425

38 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: Vorteil: Einzelner Wert

39 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: Vorteil: Einzelner Wert Jeweils nur für eine Anfrage!

40 Evaluation und Ranking Averaged 11-point precision/recall graph P/R-Kurve für mehrere Anfragen Für jedes Recall-Level: Interpolierte Precision für alle Anfragen Arithmetisches Mittel der Werte Maß für Performance auf allen Recall-levels Standardmaß in TREC

41 Evaluation und Ranking Weitere Maße Mean Average Precision (MAP) AP: Mittelwert über die Precision der besten k Dokumente nach jeder Rückgabe eines relevanten Dokuments MAP = Mittelwert über AP aller Anfragen Keine Recall-Levels ( 11pt), keine Interpolation Gleiche Gewichtung für jeden Informationsbedarf Precision at k P an einem festen Recall-Level R-Precision Gegeben: Menge relevanter Dokumente (Rel) Für die Rel besten Dokumente: tatsächlich relevante Dokumente / Rel Misst P nur für einen Punkt dennoch hohe Korrelation mit MAP

42 Evaluation und Ranking Varianz bei Evaluation Werte variieren teils erheblich bei verschiedenem Informationsbedarf, auch innerhalb von Testsettings Performance variiert oftmals stärker zwischen verschiedenen Anfragen innerhalb eines Systems als zwischen gleichen Anfragen in verschiedenen Systemen Informationsbedarfe sind verschieden komplex

43 Informative Ergebnislisten Ziel: Nutzerfreundlichkeit durch abschließende Bewertung durch den Nutzer In der Regel Titel, URL und kurze Zusammenfassung Titel & URL aus Metadaten Zusammenfassung muss erstellt werden: Statisch - unabhängig von Anfragen Dynamisch - Anfrage einbeziehen

44 Statische Zusammenfassung Fester Ausschnitt des Dokuments Z.B. erste X Sätze/X Wörter o.ä. Auswertung von Parametern/Bereichen Kann beim Indexieren durchgeführt werden Mittels NLP-Methoden Key-words zur Bewertung von Sätzen, beste Sätze kombinieren Grammatiken (Teilsätze, Pronomina, etc.) Sätze neu generieren (NLG) NLP noch Gegenstand der Forschung

45 Dynamische Zusammenfassung Erstellung ad hoc Rückgabe von Ausschnitten, die Terme der Anfrage enthalten (KWIC) Bewertung der Ausschnitte: Terme der Anfrage als Phrase enthalten Terme der Anfrage nahe beieinander Rückgabe der besten Ausschnitte

46 Dynamische Zusammenfassung Optimierungsproblem: Möglichst kurz Möglichst informativ Möglichst lesbar Feste Fensterbreite vs. rudimentäre NLP-Techniken DZ verkomplizieren das Gesamtsystem Müssen ad hoc erstellt werden Zugriff auf Texte sehr aufwändig: Rekonstruktion mit Positional Index vs. Caching von (Teil-)Dokumenten Da sie aber die Usability erheblich verbessern...

47 Wie geht es weiter? fällt aus!

48 Wie geht es weiter? fällt aus! Danach: Web-Retrieval (IIR 19-21)

49 Luhn, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM Journal of Research and Development, 1(4): Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Zum Nachlesen: [Manning et al., 2008], Kapitel 8 (siehe

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Information Retrieval Übung

Information Retrieval Übung Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion

Mehr

Maßgeschneiderte Suchmaschinen

Maßgeschneiderte Suchmaschinen Maßgeschneiderte Suchmaschinen Usability Stammtisch Frankfurt am Main 17.11.2009 Walter Ebert Web Development www.walterebert.de Braucht meine Website eine Suchmachine? Wahrscheinlich, wenn: Eine gute

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion

Mehr

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Alternativen zu Google. Prof. Dr. Dirk Lewandowski Alternativen zu Google Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Situation / warum Alternativen zu Google? Lohnt sich die Recherche in anderen Universalsuchmaschinen? Alternative

Mehr

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

5. Evaluierung von IR- Systemen

5. Evaluierung von IR- Systemen Rückblick Inver&erter Index als wich8ge Indexstruktur im IR External Memory Sort als Schlüssel zur effizienten Indexierung Anfragebearbeitung auf dokument- sor8erten Indexlisten (TAAT + DAAT) und wert-

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Web Marshals Fighting Curly Link Farms

Web Marshals Fighting Curly Link Farms Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)}

Mehr

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Exposé zur Studienarbeit. 04. August 2010

Exposé zur Studienarbeit. 04. August 2010 Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses

Mehr

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend

Mehr

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

Darstellung der Methodik in TREC und TREC-basierte Evaluierung Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Joachim Griesbaum 1 / Marc Rittberger 2 / Bernard Bekavac 1 1 Universität Konstanz Fach D 87 D-78457 Konstanz 2 Heinrich-Heine-Universität

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

limlhaidftswgirzälhimds

limlhaidftswgirzälhimds limlhaidftswgirzälhimds 1 Einführung 1 1.1 Die Bedeutung der Suchmaschinen 2 1.2 Ein Buch über Google? 6 1.3 Ziel dieses Buchs 7 1.4 Über Suchmaschinen sprechen 8 1.5 Aufbau des Buchs 8 1.6 Aufbau der

Mehr

Auf dem Weg zu Website-Fingerprinting in der Praxis

Auf dem Weg zu Website-Fingerprinting in der Praxis Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Information Retrieval

Information Retrieval Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Inhaltsverzeichnis 1 Einführung 2 Formen der Suche im Web 3 Wie Suchmaschinen funktionieren

Inhaltsverzeichnis 1 Einführung 2 Formen der Suche im Web 3 Wie Suchmaschinen funktionieren Inhaltsverzeichnis 1 Einführung...................................................... 1 1.1 Die Bedeutung der Suchmaschinen............................... 2 1.2 Ein Buch über Google?........................................

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

Schubert Foo, Douglas Hendry: for Desktop Searching

Schubert Foo, Douglas Hendry: for Desktop Searching Schubert Foo, Douglas Hendry: Evaluation of Visual Aid Suite for Desktop Searching Sergey Tarassenko Einführung Weltweite Verbreitung von Elektronischen Information Schnelle Entwicklung von Suchmaschinen.

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Melikka Khosh-Niat Matthias Jordan 23. Mai 3. Juni 2011 Lösungen: Upload bis 3. Juni 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Die Analyse Ihre Website unter der SEO-Lupe

Die Analyse Ihre Website unter der SEO-Lupe Die Analyse Ihre Website unter der SEO-Lupe Nachdem Sie sich intensiv mit Ihrer Zielgruppe und Ihren Wettbewerbern beschäftigt haben, ist vor der operativen Umsetzung ein weiterer Schritt zur Vorbereitung

Mehr

Mehrsprachige Kategorisierung

Mehrsprachige Kategorisierung know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval

Mehr

Indexstrukturen in XML

Indexstrukturen in XML Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

1000 Räder & 3 Hebel. Mag. Herwig Seitz

1000 Räder & 3 Hebel.  Mag. Herwig Seitz Google AdWords / eday 2011 1000 Räder & 3 Hebel www.cpc-consulting.net Mag. Herwig Seitz CPC-Consulting Google AdWords Kampagnen-Management Internet-Marketing-Consulting Seminare & Workshops zu: Google

Mehr

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

5. Information Retrieval

5. Information Retrieval 5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information

Mehr

Ein neuer Ansatz für Clusterlabeling: Was war die Suchanfrage? Bachelorarbeit

Ein neuer Ansatz für Clusterlabeling: Was war die Suchanfrage? Bachelorarbeit Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Ein neuer Ansatz für Clusterlabeling: Was war die Suchanfrage? Bachelorarbeit Maximilian Michel Matrikelnummer 80196 Geboren am 19.

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Erfolg in Suchmaschinen Spickzettel

Erfolg in Suchmaschinen Spickzettel Erfolg in Suchmaschinen Spickzettel Die wichtigsten Begriffe bei Suchmaschinen Einleitung Eigentlich ist es ganz einfach Das Marketing in Suchmaschinen wimmelt von Abkürzungen. SEM, SEO, SERP, CPC lassen

Mehr

Mit Google Adwords mehr Direktbuchungen generieren

Mit Google Adwords mehr Direktbuchungen generieren Welcome to Mit Google Adwords mehr Direktbuchungen generieren Jürgen Cecatko Business Development Manager Austria 1 Copyright 2017, ReachLocal, Inc. Starke Partnerschaften in der Hotellerie Der Kaufentscheidungsprozess

Mehr

Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE

Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE Detlef Görlitz www.physik.uni hamburg.de Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über

Mehr

Einführung in die Computerlinguistik Suche mit regulären Ausdrücken

Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Dozentin: Wiebke Petersen 9. Foliensatz Wiebke Petersen Einführung CL 1 Suche mit regulären Ausdrücken Suche nach allen Wortformen des

Mehr

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2012 Termin:

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2012 Termin: Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2012 Termin: 17. 7. 2012 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

APA Online Manager. IT-Subsidiary of a News Agency as a Profit Center

APA Online Manager. IT-Subsidiary of a News Agency as a Profit Center APA Online Manager IT-Subsidiary of a News Agency as a Profit Center Manfred Mitterholzer Rudolf Horvath Das Unternehmen APA Gruppe 240 Mitarbeiter 34,6 Mio Umsatz APA - IT 100 % Tochter der Austria Presse

Mehr

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH Technische Aspekte einer Videosuchmaschine Björn Wilmsmann, CEO - MetaSieve GmbH 1 Über MetaSieve http://www.metasieve.com Softwareentwicklung Internet Software Spezialisiert auf Suchmaschinentechnologie

Mehr

Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB

Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB K-SI/LD1 Julia Fumbarev München, 27.06.2017 Mega-Trend: Fahrzeugvernetzung Herausforderungen für die OEMs: 4Synchronisierung unterschiedlicher

Mehr

Sie lieben Ihre Webseite?

Sie lieben Ihre Webseite? Unternehmermanufaktur Workshop beim Netzwerktreffen 2015 Sie lieben Ihre Webseite? Referent: Werner Gärtner Hamburg, 04.11.2015 1 Title-Optimierung Title-Tag Optimierung Das Title-Element, auch Title-Tag

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Einführung in die Computerlinguistik Suche mit regulären Ausdrücken

Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Dozentin: Wiebke Petersen 9. Foliensatz Wiebke Petersen Einführung CL 1 Suche mit regulären Ausdrücken Suche nach allen Wortformen des

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Improving the Accuracy of GPS

Improving the Accuracy of GPS Improving the Accuracy of GPS Stephan Kopf, Thomas King, Wolfgang Effelsberg Lehrstuhl für Praktische Informatik IV Universität Mannheim Gliederung Motivation ierungsfehler von GPS Steigerung der Genauigkeit

Mehr

Information Retrieval und Information Extraction

Information Retrieval und Information Extraction Information Retrieval und Information Extraction ao.prof. Harald Trost Kontakt und Information Harald Trost Adresse: Institut für Medizinische Kybernetik und Artificial Intelligence, Freyung 6, Stiege

Mehr