5. Evaluierung von IR- Systemen

Größe: px
Ab Seite anzeigen:

Download "5. Evaluierung von IR- Systemen"

Transkript

1

2 Rückblick Inver&erter Index als wich8ge Indexstruktur im IR External Memory Sort als Schlüssel zur effizienten Indexierung Anfragebearbeitung auf dokument- sor8erten Indexlisten (TAAT + DAAT) und wert- sor8erten Indexlisten (NRA) Kompression von Indexlisten wich8g für kurze Antwortzeiten Dynamische Indexierung mit logarithmischem Verschmelzen Verteile IR- Systeme auf Clustern mehrerer Rechner zur schnelleren Indexierung und Anfragebearbeitung 2

3 Mo8va8on The test of all knowledge is experiment. Experiment is the sole judge of scienti:ic truth [Richard P. Feynman] Wie kann man feststellen ob ein IR- System Ergebnisse liefert, welche den Benutzer zufrieden stellen? die besser sind als die Ergebnisse eines anderen IR- Systems? Wie kann man die Leistungsfähigkeit eines IR- Systems beurteilen und mit der anderer IR- Systeme vergleichen? 3

4 Inhalt (1) Effek8vität eines IR- Systems Werden die rich*gen Dinge getan? (z.b. Wie gut sind die gelieferten Ergebnisse?) (2) Effizienz eines IR- Systems Werden die Dinge rich*g getan? (z.b. Wie schnell werden Ergebnisse zurückgeliefert?) 4

5 5.1 Effek&vität eines IR- Systems Im Idealfall würde man die Benutzerzufriedenheit messen Wer sind die Benutzer, die wir zufrieden stellen möchten? Endbenutzer (z.b. bei Suche auf World Wide Web) Unternehmen (z.b. im E- Commerce) Was bedeutet es, dass der Benutzer zufrieden ist? schnelleres Erledigen einer Aufgabe (z.b. Urlaub buchen) höherer Umsatz (z.b. im E- Commerce) höhere Produk8vität der Mitarbeiter (z.b. in der Wissenscha[) Benutzerzufriedenheit ist schwierig direkt zu messen, daher misst man stellvertretend meist die Relevanz der Ergebnisse 5

6 Messen der Relevanz von Ergebnissen Um die Relevanz von Ergebnissen zu messen, benö8gt man Gütemaße um zu quan8fizieren, wie gut ein zurückgeliefertes Ergebnis ist Dokumentensammlung auf der das verwendete IR- System evaluiert werden soll Informa&onsbedürfnisse und zugehörige Anfragen als repräsenta8ve Tes_älle Relevanzbewertungen darüber ob/wie relevant Dokumente zu Informa8onsbedürfnis sind 6

7 Benchmark- Ini8a8ven Benchmark- Ini&a&ven spielen bei der Evaluierung im Informa8on Retrieval tradi8onell eine große Rolle TREC (Text Retrieval Evalua8on Conference) durchgeführt von NIST (Na8onal Ins8tute of Standard and Technology) seit 1992 mit wechselnden Tracks (z.b. En8ty, Efficiency und Blog Search) CLEF (Cross Language Evalua8on Forum) seit 2000 mit Schwerpunkt auf mul8lingualem Informa8on Retrieval INEX (Ini8a8ve for the Evalua8on of XML Retrieval) seit 2002 mit Schwerpunkt auf semi- strukturierten Daten (XML) 7

8 Benchmark- Ini8a8ven Track (z.b. Web) besteht aus ein oder mehreren Tasks Task (z.b. Ad- hoc) besteht i.d.r. aus Dokumentensammlung, Informa&onsbedürfnissen (sog. Topics) evtl. mit Anfragen sowie passenden Relevanzbewertungen (relevance assessments oder qrels) Die Teilnehmer stehen bei der Bearbeitung der Tasks im WeVbewerb zueinander Daten und Ergebnisse der Tracks sind über den WeVbewerb hinaus verfügbar, um eine Wiederholbarkeit der Experimente und Vergleichbarkeit ihrer Ergebnisse zu gewährleisten 8

9 Precision & Recall Precision (Präzision) #tp #tp + #fp = # Relevanter Dokumente im Ergebnis # Dokumente im Ergebnis Recall (Ausbeute) #tp #tp + #fn = # Relevanter Dokumente im Ergebnis # Relevanter Dokumente Relevante Ergebnisse (true posi*ves) tp Irrelevante Ergebnisse (false posi*ves) fp Relevante Nicht- Ergebnisse (false nega*ves) fn Irrelevante Nicht- Ergebnisse (true nega*ves) tn 9

10 Precision & Recall Ergebnis Relevanzbewertungen d 12 d 23 d 11 : 1 d 18 : 1 d 12 : 0 d 23 : 0 d 44 d 23 : 1 d 44 : 0 d 11 d 67 d 45 : 1 d 67 : 1 d 50 : 0 d 68 : 0 Precision = 3 5 = 0.60 Recall = 3 5 =

11 Precision & Recall Precision misst Fähigkeit nur relevante Dokumente zu finden Recall misst Fähigkeit alle relevanten Dokumente zu finden Zielkonflikt (trade- off) zwischen Precision und Recall perfekter Recall / niedrige Precision liefere alle Dokument zurück höherer Recall geht i. Allg. mit niedrigerer Precision einher Kri&kpunkte an Precision und Recall Zwei voneinander abhängige Maße schwierig zu interpre8eren Rangfolge der Dokumente im Ergebnis spielt keine Rolle Binärer Relevanzbegriff Dokument ist relevant oder irrelevant 11

12 F- Maß Kombina8on von Precision P und Recall R im F- Maß F = 1 α 1 P +(1 α) 1 R als gewichtetes harmonisches MiVel der beiden Für α = 0.5 erhält man das harmonische Milel von P und R F 1 = 2PR P + R welches auch als F 1 - Maß bezeichnet wird 12

13 und Precision und Recall ignorieren Rangfolge der Ergebnisse ermilelt Precision nur auf Top- k Dokumenten Recall@k ermilelt Recall nur auf Top- k Dokumenten Precision@k ist eines der gängigsten Gütemaße, wobei typische Werte für k in {1, 5, 10} liegen Bei Betrachtung mehrerer Informa&onsbedürfnisse oder Anfragen wird der DurchschniV (arithme8sches Milel) der Precision@k- Werte betrachtet 13

14 und Ergebnis Relevanzbewertungen d 12 d 23 d 11 : 1 d 18 : 1 d 12 : 0 d 23 : 0 d 44 d 23 : 1 d 44 : 0 d 11 d 67 d 45 : 1 d 67 : 1 d 50 : 0 d 68 : 0 Precision@3 = Recall@3 = 1 5 =

15 Precision- Recall- Diagramm Precision- Recall- Diagramm visualisiert und der Top- k für verschiedene Werte von k Interpolierte Präzision (interpolated precision) P(k) =max k k P(k ) non-interpolated interpolated Precision Recall 15

16 Mean Average Precision Average Precision (AP) für Anfrage qj ist die durchschnivliche Precision beim Zurückliefern eines relevanten Dokuments AP(q j )= 1 m j m j k=1 Precision(R jk ) Mean Average Precision ist die millere Average Precision für eine Menge von Informa8onsbedürfnissen Q MAP(Q) = 1 Q q j Q 1 m j m j k=1 Precision(R jk ) 16

17 Mean Average Precision Ergebnis Relevanzbewertungen d 12 d 23 d 44 d 11 d 11 : 1 d 18 : 1 d 23 : 1 d 45 : 1 d 12 : 0 d 23 : 0 d 44 : 0 d 50 : 0 d 67 d 67 : 1 d 68 : 0 AP = =

18 ndcg Precision, Recall und MAP für binäre Relevanzbewertungen, d.h. Dokument relevant/irrelevant zu Informa8onsbedürfnis Normalized Discounted Cumula&ve Gain (ndcg) als Gütemaß für abgestude Relevanzbewertungen auf Grundlage der Top- k NDCG(Q, k) = 1 Q Q j=1 Z k k m=1 2 R(j,m) 1 log(1 + m) R(j,m) ist die Relevanzbewertung (z.b. irrelevant (0), teilweise relevant (1) oder relevant (2)) für m- tes Dokument im Ergebnis Konstante Zk normalisiert Werte auf Intervall [0, 1] anhand eines angenommenen bestmöglichen Ergebnis 18

19 ndcg Ergebnis Relevanzbewertungen d 12 d 23 d 44 d 11 d 67 d 11 : 2 d 18 : 2 d 23 : 1 d 45 : 1 d 67 : 1 d 12 : 0 d 23 : 0 d 44 : 0 d 50 : 0 d 68 : 0 Z 3 = log(1 + 1) log(1 + 2) log(1 + 3) = ( ) 1 = 0.06 NDCG(Q, 3) = Z 3 log(1 + 1) log(1 + 2) log(1 + 3) = 0.06 ( ) =

20 Dokumentensammlung Verwendung allgemein verfügbarer Dokumentensammlungen sinnvoll, um die Wiederholbarkeit von Experimenten und die Vergleichbarkeit ihrer Ergebnisse zu gewährleisten Dokumentensammlungen aus Benchmark- Ini8a8ven z.b. Tipster/TREC fünf CDs mit Nachrichten und öffentl. Mileilungen TREC GOV2 25 Millionen Webseiten aus.gov Top- Level Domäne ClueWeb09 1 Milliarde Webseiten diverser Top- Level Domänen Weitere allgemein verfügbare Dokumentensammlungen z.b. Wikipedia (sowie verwandte Projekte wie Wikinews) The New York Times Annotated Corpus Medline (Kurzfassungen medizinischer Fachar8kel) 20

21 Informa8onsbedürfnisse und Anfragen Informa&onsbedürfnisse und Anfragen als Tes_älle müssen zur verwendeten Dokumentensammlung passen von Experten oder potenziellen Benutzern definiert für eingesetzte Systeme abgeleitet aus tatsächlichen Anfragen Beispiel: Topic 426 from TREC 1999 <top> <num> Number: 426 <title> law enforcement dogs <desc> Description: Provide information on the use of dogs worldwide for law enforcement purposes. <narr> Narrative: Relevant items include specific information on the use of dogs during an operation. Training of dogs and their handlers are also relevant. </top> 21

22 Bewerten der Relevanz von Dokumenten Gütemaße basieren auf Bewertungen darüber ob/wie relevant ein Dokument zu einem Informa8onsbedürfnis ist Für welche Dokumente soll man zu einem bes8mmten Informa8onsbedürfnis die Relevanz bewerten lassen? Wie (z.b. binär) soll die Relevanz bewertet werden? Wer soll die Relevanz bewerten und wie viele unabhängige Bewertungen benö8gt man für jedes Dokument? 22

23 Cranfield- Experimente und Pooling In den Cranfield- Experimenten während den 1960ern wurden für jedes Informa&onsbedürfnis alle Dokumente bewertet nur für sehr kleine Dokumentensammlungen prak8kabel einzige Möglichkeit wirklichen Recall zu berechnen Pooling, als heute gängige Vorgehensweise, mischt für jedes Informa8onsbedürfnis die Top- k Ergebnisse verschiedener IR- Systeme oder Standard IR- Modelle und lässt dann die Relevanz darin enthaltener Dokumente bewerten auch für sehr große Dokumentensammlungen prak&kabel zuverlässige Evaluierung eines neuen IR- Systems nur dann möglich, wenn die Relevanz aller Top- k Ergebnisse bewertet wurde 23

24 Art der Relevanzbewertungen Binäre Relevanzbewertungen noch weit verbreitet 1 : Dokument ist relevant 0 : Dokument ist irrelevant Abgestude Relevanzbewertungen zunehmend verbreitet z.b. 2 : Dokument ist relevant 1 : Dokument ist teilweise relevant 0 : Dokument ist irrelevant Zudem macht es Sinn, den Bewertenden eine Möglichkeit zu geben, keine Relevanzbewertung abzugeben (z.b. wenn sie das Informa8onsbedürfnis oder Dokument nicht verstehen) 24

25 Bewertende Relevanzbewertungen können vorgenommen werden von wenigen hochqualifizierten extra geschulten Bewertenden (gängiger Ansatz in der Industrie und bei Benchmark- Ini8a8ven) wenigen Studenten oder anderen Wissenschadlern (gängiger Ansatz in der akademischen Forschung) einer großen Zahl von Bewertenden mit unklarer Qualifika&on (zunehmend populärer Ansatz) Zielkonflikt zwischen Qualifika&on und Verfügbarkeit von Bewertenden kann z.t. durch redundante Relevanzbewertungen abgeschwächt werden 25

26 Crowdsourcing Crowdsourcing = Crowd (Menschenmenge) + Outsourcing lagert kleine Aufgaben an große Zahl von Teilnehmern aus Für das erfolgreiche Bearbeiten einer Aufgabe erhält der Teilnehmer i.d.r. eine kleine Vergütung (z.b. 0,05 ) Crowdsourcing wurde erfolgreich angewandt z.b. zum Bes8mmen der korrekten Orien&erung von Fotos Verschlagworten (tagging) von Fotos Übersetzen und korrigieren kleiner Texte Bewerten der Relevanz von Anfrageergebnissen Bekannteste Plasorm ist Amazon Mechanical Turk 26

27 Crowdsourcing 27

28 Crowdsourcing 27

29 Kappa Sta8s8k Kappa Sta8s8k misst Übereins&mmung von Bewertenden κ = P(A) P(E) 1 P(E) P(A) als beobachtete Wahrscheinlichkeit, dass die beiden Bewertenden übereins8mmen P(E) als Wahrscheinlichkeit, dass die beiden Bewertenden bei zufälliger Bewertung übereins8mmen P(E) =P( R ) 2 + P( NR ) 2 28

30 Kappa Sta8s8k Beispiel: Bewertender 1 Bewertender 2 R NR Σ R NR Σ P(A) = ( ) / 400 = P(R) = ( ) / 800 = P(NR) = ( ) / 800 = P(E) = P(R) 2 + P(NR) 2 = κ =

31 Kappa Sta8s8k Interpreta&on der Kappa Sta8s8k κ > 0.8 deutliche Übereins8mmung 0.8 κ > 0.67 angemessene Übereins8mmung 0.67 κ ungeeignet geringe Übereins8mmung Kappa Sta8s8k kann verallgemeinert werden für Umgang mit mehr als zwei Bewertenden pro Relevanzbewertung abgestu[e Relevanzbewertungen 30

32 Evaluierung bei Suchmaschinen Suchmaschinen wenden ebenfalls die beschriebene Vorgehensweise an, um Ergebnisgüte zu evaluieren Informa8onsbedürfnisse und Anfragen als Tes_älle und als gängige Gütemaße und somit Fokus auf die ersten Ergebnisseite Relevanzbewertungen durch eigens angelernte Bewertende Darüber hinaus kommen weitere Verfahren/Maße zum Einsatz Klick- Rate (clickthrough) auf erstes Ergebnis anstal Bewertungen Benutzerstudien unter Laborbedingungen (z.b. Beobachtung des Benutzerverhaltens milels Eye- Tracking) A/B Tes&ng 31

33 A/B Tes8ng Suchmaschinen bearbeiten täglich große Zahl von Anfragen, haben viele Benutzer und beobachten deren Verhalten A/B Tes&ng evaluiert gezielt eine Veränderung (z.b. andere Parameterwahl im verwendeten IR- Modell), indem es Großteil der Anfragen (z.b. 99%) mit altem System bearbeitet kleinen Prozentsatz (z.b. 1%) mit geändertem System bearbeitet Veränderung im Verhalten der Benutzer analysiert (z.b. die Klick- Rate für das erste zurückgelieferte Ergebnis) Vorteile des A/B Tes&ngs sind u.a. authen8sches Benutzerverhalten keine Bewertungssitua&on universell anwendbar (z.b. visuelle Gestaltung der Ergebnisseite) 32

34 5.2 Effizienz eines IR- Systems Leistungsfähigkeit eines IR- Systems hat mehrere Aspekte z.b. Indexierungszeit, d.h. wie lange braucht das System, um eine Dokumentensammlung bes8mmter Größe zu indexieren Durchsatz, d.h. wie viele Anfragen kann das System pro gegebener Zeiteinheit bearbeiten Antwortzeit, d.h. wie lange benö8gt das System im Milel, um dem Benutzer das Ergebnis zu einer Anfrage zurückzuliefern Indexgröße, d.h. wie viel Speicherplatz nimmt der vom System verwendete Index in Anspruch 33

35 Konkrete und abstrakte Effizienz- Maße Zum Messen der verschiedenen Aspekte können entweder konkrete oder abstrakte Effizienz- Maße zum Einsatz kommen Indexierungszeit (konkret: Stunden) Durchsatz (konkret: Anfragen/Sekunde) Antwortzeit (konkret: Millisekunden abstrakt: # gelesener Indexeinträge) Indexgröße (konkret: Gigabytes abstrakt: # Indexeinträge) 34

36 Workload, Cache- Effekte und Compiler- Effekte Insbesondere beim Messen von Antwortzeiten muss man darauf achten, Verzerrungen zu vermeiden z.b. aufgrund von Workload (d.h. zu bearbeitende Anfragen) sollte möglichst repräsenta8v sein, um ein realis8sches Bild zu erhalten Cache- Effekte durch Caches seitens des Betriebssystems oder der verwendeten Hardware (z.b. Festplale) Compiler- Effekte durch sukzessive Op8mierungen des Compilers (z.b. bei den Just- In- Time Compilern von Java und.net) 35

37 Zusammenfassung Effek&vität (z.b. Wie gut sind die Ergebnisse?) Gütemaße (Precision & Recall, MAP und ndcg) Benchmark- Ini&a&ven (TREC, CLEF und INEX) Relevanzbewertungen (z.b. milels Crowdsourcing) Evaluierung bei Suchmaschinen (z.b. A/B Tes8ng) Effizienz (z.b. Wie schnell werden Anfragen beantwortet?) Maße des Zeit- und Speicherbedarfs (z.b. Antwortzeit) Konkrete und abstrakte Effizienz- Maße Workload, Cache- Effekte und Compiler- Effekte 36

38 [1] Amazon Mechanical Turk [2] Cross Language Evalua8on Forum Quellen & Literatur [3] Ini8a8ve for the Evalua8on of XML Retrieval [4] NIST Text REtrieval Conference [5] O. Alonso, D. E. Rose and B. Stewart: Crowdsourcing for Relevance Evalua*on ACM SIGIR Forum 42(2), [6] S. Bülcher, C. L. A. Clake and G. V. Cormack: Informa*on Retrieval, MIT Press, (Kapitel ) [7] W. B. Cro[, D. Metzler and T. Strohman: Search Engines Addison- Wesley, (Kapitel 8) [8] C. D. Manning, P. Raghavan and H. Schütze: IntroducAon to InformaAon Retrieval, Cambridge University Press, (Kapitel 8) [9] J. Zobel and A. Moffat: Guidelines for presenta*on and comparison of indexing techniques ACM SIGMOD Record 25(3),

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

4. Implementierung von IR-Systemen

4. Implementierung von IR-Systemen 4. Implementierung von IR-Systemen Motivation Wie implementiert man ein IR-System, welches die gemäß eines IR-Modells (z.b. Vektorraummodell oder Okapi BM25) zu einer Anfrage passenden Dokumente möglichst

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

Darstellung der Methodik in TREC und TREC-basierte Evaluierung Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

Rückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen

Rückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen Rückblick Vielfalt und Vagheit natürlicher Sprache Tokenisierung und Normalisierung Stamm- und Grundformreduk7on Komposita und Wortgruppen Synonyme und Polyseme Rechtschreibekorrektur und Edi7erdistanz

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Joachim Griesbaum 1 / Marc Rittberger 2 / Bernard Bekavac 1 1 Universität Konstanz Fach D 87 D-78457 Konstanz 2 Heinrich-Heine-Universität

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Auf dem Weg zu Website-Fingerprinting in der Praxis

Auf dem Weg zu Website-Fingerprinting in der Praxis Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität

Mehr

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

5. Information Retrieval

5. Information Retrieval 5. Information Retrieval Inhalt 5.1 Information Retrieval 5.2 Vorverarbeitung der Dokumente 5.3 Boolesches Retrieval 5.4 Vektorraum-Modell 5.5 Evaluation 5.6 Implementierung 5.7 Websuche 2 5.1 Information

Mehr

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH Technische Aspekte einer Videosuchmaschine Björn Wilmsmann, CEO - MetaSieve GmbH 1 Über MetaSieve http://www.metasieve.com Softwareentwicklung Internet Software Spezialisiert auf Suchmaschinentechnologie

Mehr

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0

Mehr

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell

Mehr

Mehrsprachige Kategorisierung

Mehrsprachige Kategorisierung know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Alternativen zu Google. Prof. Dr. Dirk Lewandowski Alternativen zu Google Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Situation / warum Alternativen zu Google? Lohnt sich die Recherche in anderen Universalsuchmaschinen? Alternative

Mehr

Entwicklung eines E-Learning Topic-Map Rahmenwerks

Entwicklung eines E-Learning Topic-Map Rahmenwerks Institut für Betriebssysteme und Rechnerverbund der TU Braunschweig Verteilte Systeme, Prof. Dr. Fischer Entwicklung eines Topic-Map Rahmenwerks Betreuer: Martin Gutbrod Bearbeitet von: Yichen Yu Gliederung

Mehr

Exposé zur Studienarbeit. 04. August 2010

Exposé zur Studienarbeit. 04. August 2010 Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses

Mehr

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06.

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06. Suchen, um zu finden Sta,s,k BRD (Quelle: Comscore, 2013) Steffen- Peter Ballstaedt 24.6.2015 etwa 6 Milliarden Suchanfragen pro Monat etwa 2.500 Anfragen pro Sekunde 96% der Suchanfragen über Google Beziehungsgeflecht

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Information Retrieval. Überblick

Information Retrieval. Überblick Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach

Mehr

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen

Bewertung von Ergebnisdokumenten Auswertung von Bewertungen 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen staab@uni-koblenz.de 1 Vereinfachter IR-Prozess staab@uni-koblenz.de 2 Motivation erstes Ergebnis oft nicht zufriedenstellend

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Mister Wong Eine Community schafft eine Ergänzung zu klassischen Suchmaschinen

Mister Wong Eine Community schafft eine Ergänzung zu klassischen Suchmaschinen Mister Wong Eine Community schafft eine Ergänzung zu klassischen Suchmaschinen 1) Social Bookmarking: Ansatz&Konzept 2) Einsatzmöglichkeiten 3) Mister Wong als Ergänzung zu klassischen Suchmaschinen 4)

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl {peter,guta,schamper}@i6.informatik.rwth-aachen.de Vorbesprechung 3. Aufgabe 19. Mai 2017 Human Language

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

TYPO3-Suchmaschinenoptimierung für Redakteure

TYPO3-Suchmaschinenoptimierung für Redakteure TYPO3-Suchmaschinenoptimierung für Redakteure TYPO3 Version 7.6 LTS Allgemeines Dieses Dokument beschreibt redaktionelle Maßnahmen zur Verbesserung des Suchmaschinen- Rankings. Diese Maßnahmen sind Teil

Mehr

Der»Journalist Desktop«

Der»Journalist Desktop« Der»Journalist Desktop«Digitalisierung im Journalismus 2013 NorCom Informa0on Technology AG 2 HERAUSFORDERUNGEN Die Digitalisierung im Journalismus Was sich geändert hat: Journalisten bedienen mehr Medien

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Erfolg in Suchmaschinen Spickzettel

Erfolg in Suchmaschinen Spickzettel Erfolg in Suchmaschinen Spickzettel Die wichtigsten Begriffe bei Suchmaschinen Einleitung Eigentlich ist es ganz einfach Das Marketing in Suchmaschinen wimmelt von Abkürzungen. SEM, SEO, SERP, CPC lassen

Mehr

Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY. Vorlesung 4: Suche

Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY. Vorlesung 4: Suche Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY Vorlesung 4: Suche Menü Weshalb debuggen? Wo ist der Bug? Idee: Komplexität Linear Suche Index Suche Lucene Index

Mehr

Defini&on SEO, Keyword & WDF*IDF Beiträge planen

Defini&on SEO, Keyword & WDF*IDF Beiträge planen Lei@aden zur Erstellung von Suchmaschinenop&mierten Beiträgen auf seniorbook.de Inhalt Defini&on SEO, Keyword & WDF*IDF Beiträge planen Keyword Recherche / Iden2fizieren Keyword Bewertung Ar2kelop2mierung

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014 Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen

Mehr

kelut.at Werbeagentur Web- und App-Entwicklung

kelut.at Werbeagentur Web- und App-Entwicklung kelut.at Werbeagentur Web- und App-Entwicklung Unsere Mission MB Art & Tourism Agency ist Ihre Full-Service-Online Agentur für Webdesign, App-Entwicklung, Online-Marketing und Suchmaschinenoptimierung.

Mehr

Testen und Debuggen von Webanwendungen

Testen und Debuggen von Webanwendungen Testen und Debuggen von Webanwendungen Leif Singer leif.singer@inf.uni-hannover.de Seminar Aktuelle Software-Engineering-Praktiken für das World Wide Web 16.06.2010 Übersicht Grundlagen Usability-Tests

Mehr

GfK Crowdsourcing. Echtzeit-Datenerhebung über mobile Geräte. GfK 12. April 2016 GfK Crowdsourcing

GfK Crowdsourcing. Echtzeit-Datenerhebung über mobile Geräte. GfK 12. April 2016 GfK Crowdsourcing GfK Crowdsourcing Echtzeit-Datenerhebung über mobile Geräte 1 Was ist GfK Crowdsourcing Testen und Bewerten durch eine Online-Community GfK Crowdsourcing bezeichnet das Testen und Bewerten von Produkten

Mehr

neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR

neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR Suchportale der nächsten Generation Dr. Thomas Schwotzer Leiter Forschung, neofonie Suche eine Folien Geschichte 1993: Beginn der HTML-Ära 1993

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Anfrageoptimierung Kostenabschätzung

Anfrageoptimierung Kostenabschätzung Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Kostenabschätzung Dr. Thomas Gottron Wintersemester 2012/13 Regel vs. Kostenbasierte Optimierung Bisher: Regeln, wie Optimierung

Mehr

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Themen der

Mehr

Suchmaschinen und das Web 2.0

Suchmaschinen und das Web 2.0 Suchmaschinen und das Web 2.0 Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Rechercheverhalten der Suchmaschinennutzer Qualität der Web-Suchmaschinen Web 2.0 Dienste für die Suche Fazit

Mehr

Site-Analyzer - Website-Benchmarking-Analyse

Site-Analyzer - Website-Benchmarking-Analyse Site-Analyzer - Website-Benchmarking-Analyse Vergleich von Automobilclubs (September 2009) eresult GmbH Results for Your E-Business (www.eresult.de) Gleich vorab: Die Ergebnisse 1 ADAC.de Note: 2,13 (ADAC

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

Allgemeine Speed-Up Formel. Gesetz von Gustafson-Barsis

Allgemeine Speed-Up Formel. Gesetz von Gustafson-Barsis 5 Leistungsanalyse Parallelrechner Allgemeine Speed-Up Formel Amdahlsche Gesetz Gesetz von Gustafson-Barsis Karp-Flatt Maß 1 5.1 Allgemeine Speed-Up Formel Allgemeine Speed-Up Formel Speedup = Sequentielle

Mehr

Erfolg durch Wissen. Petershauser Straße 6, Hohenkammer

Erfolg durch Wissen.  Petershauser Straße 6, Hohenkammer Erfolg durch Wissen www.analyticalsemantics.com Petershauser Straße 6, 85411 Hohenkammer Paradigma: Warum es funktioniert Sieh den Satz als Instrument an und seinen Sinn als seine Verwendung. Ludwig Wittgenstein

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS Hauptseminar Web Information Retrieval Quelle Thematische Verteilungen 07.05.2003 Daniel Harbig Chakrabati, Soumen; Joshi, Mukul; Punera, Kunal; Pennock, David (2002): The Structure of Broad Topics on

Mehr

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? 5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn

Mehr

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger

Mehr

Web-Applications mit SOAP und RSS. Vortrag 8, Jonas Mitschang, 15.6.2005

Web-Applications mit SOAP und RSS. Vortrag 8, Jonas Mitschang, 15.6.2005 Web-Applications mit SOAP und RSS Vortrag 8, Jonas Mitschang, 15.6.2005 Inhalt Motivation Web Applications / Web Services SOAP - Simple Object Access Protocol RSS - Really Simple Syndication Bewertung

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Organisatorisches Vorlesung Montags 15.45 17.15 Uhr HS I vorwiegend theoretischer Teil Computerübung Montags 17.30 19.00 Uhr Pool 2 HG Umsetzung der Theorie am Computer

Mehr

Use Cases vs. Funktionale Spezifikation

Use Cases vs. Funktionale Spezifikation Use Cases vs. Funktionale Spezifikation Ein experimenteller Vergleich zweier Methoden zur Anforderungsspezifikation Fraunhofer IESE: Anne Groß (Anne.Gross@iese.fraunhofer.de) & Jörg Dörr (Joerg.Doerr@iese.fraunhofer.de)

Mehr

Vorlesung Sicherheit

Vorlesung Sicherheit Vorlesung Sicherheit Dennis Hofheinz ITI, KIT 12.05.2014 1 / 26 Überblick 1 Hashfunktionen Erinnerung Angriffe auf Hashfunktionen Zusammenfassung Hashfunktionen 2 Asymmetrische Verschlüsselung Idee Beispiel:

Mehr

Hintergrund: Web Search & Ranking in Websuchmaschinen

Hintergrund: Web Search & Ranking in Websuchmaschinen Hintergrund: Web Search & Ranking in Websuchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew LibRank-Abschlussworkshop Hamburg,

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Soziales und Selbstgesteuertes Lernen

Soziales und Selbstgesteuertes Lernen Soziales und Selbstgesteuertes Lernen Wolfgang Nejdl Forschungszentrum L3S Hannover 02/02/12 1 Web Science Informatik- und interdisziplinäre Forschung zu allen Aspekten des Web - Web of People - Web-Suche

Mehr

EU E-Government Benchmark

EU E-Government Benchmark EU E-Government Benchmark Dr. Sven L. Roth Effizienter Staat 2013 15. Mai 2013 Drei Geschwindigkeiten bei der Nutzung neuer Technologien? 2 Unternehmen spüren die Veränderungen direkt am Umsatz und lernen

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

Wie können wir (Suchmaschinen-)Nutzer besser verstehen? Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg

Wie können wir (Suchmaschinen-)Nutzer besser verstehen? Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg Wie können wir (Suchmaschinen-)Nutzer besser verstehen? Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg Suchmaschinen E-Commerce Site-intern und andere Datenbestände Nutzer verstehen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

How dynamic are IP Addresses?

How dynamic are IP Addresses? Paper How dynamic are IP Addresses? Y. Xie, F. Yu, K. Achan, E. Gillum, M. Goldszmidt, T. Wobber Network Architectures: Internet Routing WS 2007/08 Benjamin Vahl SE Internet Routing WS2007/08 1 Einführung

Mehr

LARSIM-Anwendertreffen 2014

LARSIM-Anwendertreffen 2014 LARSIM-Anwendertreffen 214 Alternative statistische Maßzahlen zur Modellbewertung Definition und erste Ergebnisse Ingo Haag HYDRON Ingenieurgesellschaft für Umwelt und Wasserwirtschaft mbh Norbert Demuth

Mehr

Programmierung 1 (Wintersemester 2015/16) Wiederholungstutorium Lösungsblatt 15 (Linearer Speicher, Listen, Bäume)

Programmierung 1 (Wintersemester 2015/16) Wiederholungstutorium Lösungsblatt 15 (Linearer Speicher, Listen, Bäume) Fachrichtung 6.2 Informatik Universität des Saarlandes Tutorenteam der Vorlesung Programmierung 1 Programmierung 1 (Wintersemester 2015/16) Wiederholungstutorium Lösungsblatt 15 (Linearer Speicher, Listen,

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Amazon Mechanical Turk: Gold Mine or Coal Mine?

Amazon Mechanical Turk: Gold Mine or Coal Mine? Amazon Mechanical Turk: Gold Mine or Coal Mine? Basierend auf dem gleichnamigen Paper von Karën Fort, Gilles Add und Kevin Bretonnel Cohen Stefan Grünewald Seminar: Natural Language Processing and the

Mehr

Visual Analytics: Personalisierung im E- Commerce

Visual Analytics: Personalisierung im E- Commerce Visual Analytics: Personalisierung im E- Commerce Eduard Weigandt unsplash.com 2 Agenda 1. Motivation 2. Zielsetzung 3. Vorgehen 4. Chancen und Risiken otto.de 3 Warum? 1. persönlich: Bedürfnisse besser

Mehr