HS Information Retrieval
|
|
- Katrin Lioba Waldfogel
- vor 7 Jahren
- Abrufe
Transkript
1 HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche
2 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation
3 Überblick Ziele: Einfacher, effizienter Vergleich der Rankings verschiedener IR-Modelle* Anwendbarkeit auf verschiedene Textsammlungen komfortabel zu bedienen (grafische Benutzeroberfläche) Eingesetzte Technologien, Frameworks und Tools: Java (+SWT, +JFace), Eclipse (+WindowBuilder) *hier: Boolesches, Vektor- und Probabilistisches Modell
4 Inhalt 1. Überblick 2. Recap: Modelle Boolesches Modell Vektormodell Probabilistisches Modell 3. Implementierung 4. Demo
5 Boolesches Modell Dokumente: Bitvektoren (Term vorhanden?) Anfrageformat: DNF (A & B) (B & C & D) -A Ähnlichkeitsmaß : kommen alle Terme einer Konjunktion in einem Dokument vor/nicht vor (Negation) 1.0, sonst 0.0 Kein Ranking positiver Treffer möglich
6 Vektormodell Dokumente: Vektoren mit Termfrequenzen (oder z. B. tf/idf-gewichten) Ähnlichkeitsmaß: typischerweise Cosinus Ranking:
7 Probabilistisches Modell Dokumente: Vektoren mit Termfrequenzen Ähnlichkeitsmaß: Okapi (BM25) Ranking: N 0.0
8 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung Architektur Klassen, Datenstrukturen GUI 4. Demo
9 Architektur Korpus *.txt tokenisieren Terme zählen Document[] Boolesch Vektorraum Probabilistisch Stemmer Modelle Boolesch Ähnlichkeit ermitteln 9 : 0 Rankings... Query tokenisieren Terme zählen Document Vektorraum Probabilistisch
10 Klassen, Datenstrukturen Document { term freq }, { term weight } AbstractModel Document[ ] getdocuments( query, stemming ): [ doc score ] BooleanModel, VectorModel, ProbabilisticModel DisjunctiveNormalForm { { term boolean } }
11 BooleanModel FOR EACH document: doc_match = false FOR EACH conjunction IN dnf( query ): match = true FOR EACH term IN conjunction: IF term AND freq( document, term ) == 0 OR!term AND freq( document,term ) > 0: match = false BREAK IF match: doc_match = true BREAK
12 VectorModel FOR EACH document: terms = terms( documents ) + terms( query ) num, denom_1, denom_2 = 0.0 FOR term IN terms: num+=doc_weight(term)*query_weight(term); denom_1+=doc_weight(term)*doc_weight(term) denom_2+=query_weight(term)*query_weight(term) doc_score=num/( sqrt( denom_1 ) * sqrt( denom_2 ) )
13 ProbabilisticModel (BM25, Okapi ) FOR EACH document: doc_score = 0.0 FOR term IN terms( document ): idf = log((len(docs) - freq(docs,term)+0.5) / ( freq(docs,term)+0.5)) num = idf * freq( doc, term ) * ( k + 1 ) denom = freq(doc,term)+k * (1 b + b * (len(doc) / ( len( docs ) / #docs ) ) ) doc_score += num / denom
14 GUI Korpusverzeichnis Query Optionen Modell-Rankings (<Dokument>: <Ähnlichkeit>)
15 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo
16 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation
17 Ergebnisse Das boolesche Modell arbeitet wie erwartet, auch die Negationen werden korrekt ausgewertet:
18 Ergebnisse Vektormodell vs. Okapi25: die Toprankings sind in fast allen Fällen sehr ähnlich
19 Ergebnisse Einfluss des Stemmers
20 Skalierbarkeit interne Repräsentation der Vektoren als HashMap effizient, da keine 0-Werte gespeichert werden ABER: Modelle vollständig RAM-basiert, d. h. für größere Daten steigt der Bedarf an Arbeitsspeicher mindestens linear mit der Größe der Dokumente mögliche Lösung: Indexierung der Dokumente in einer Datenbank + Zugriff
21 Quellen Karin Haenelt (2009): Information Retrieval Modelle: Boolesches Modell. Karin Haenelt (2010): Information Retrieval Modelle: Probabilistische Modelle. Karin Haenelt (2012): Information Retrieval Modelle: Vektor-Modell. Christopher Manning, Prabhakar Raghavan, Hinrich Schütze (2007): Introduction to Information Retrieval. Cambridge University Press. Martin Porter (2000): Porter stemmer in Java.
22 Legende d,d: Dokument N: Anzahl aller Dokumente q,q: Query w: Wort/Term f(w,d): Häufigkeit des Terms w in Dokument D n(w): Anzahl der Dokumente mit Term w m,i: Indizes b,k: freie Parameter aus Okapi BM25
Thema: Prototypische Implementierung des Vektormodells
Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrInformation Retrieval Modelle: Boolesches Modell. Karin Haenelt
Information Retrieval Modelle: Boolesches Modell Karin Haenelt 19.10.2009 1 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Boolesches Modell Darstellung der Systemkomponenten am
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrSuchmaschinentechnologie
Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2
MehrKlassische Information Retrieval Modelle Einführung
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle
MehrInformation Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrImplementierung: Dokumentclustering
Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrBücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrMaterialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrLucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006
Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
MehrProf. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17
Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
MehrEinführung in die Computerlinguistik Information Retrieval: tf.idf
Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
Mehr1 Information Retrieval Grundlagen
1. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Lösungsvorschlägen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 01. November 2007 1 Information Retrieval
MehrInformation-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrThe Lemur Toolkit for Language Modeling and Information Retreival
The Lemur Toolkit for Language Modeling and Information Retreival Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 2006/2007 Dozentin: PD Dr. Karin Haenelt Referenten: Hanna Yaroshka Ralf
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrModell und Implementierung einer temporalen Anfragesprache
Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrImplementation eines Rankingverfahrens in Perl - Dokumentation und Evaluation -
Implementation eines Rankingverfahrens in Perl - Dokumentation und Evaluation - Hausarbeit zum Blockkurs Information Retrieval Wintersemester 2004/2005 Seminarleitung: Prof. Dr. Klaus U. Schulz Verfasserinnen:
MehrInformation-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrInformation Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrInformation Retrieval Einführung
Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrImplementierung des Vektor Modells
Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität
MehrLatent Semantic Indexing: Einführung und Experiment
Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrAlgorithmische Anwendungen WS 05/06 Document Ranking
Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrInhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis
Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit
MehrImplementation und Evaluation des Vektormodells anhand von TREC-Daten
Implementation und Evaluation des Vektormodells anhand von TREC-Daten Seminarprojekt Information Retrieval WS 2015/2016 Bastian Beyer, Alexander Birkenkamp Institut für Computerlinguistik Universität Heidelberg
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
Mehr4. Implementierung von IR-Systemen
4. Implementierung von IR-Systemen Motivation Wie implementiert man ein IR-System, welches die gemäß eines IR-Modells (z.b. Vektorraummodell oder Okapi BM25) zu einer Anfrage passenden Dokumente möglichst
MehrDuplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos
Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrInternet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
MehrLatent Semantic Analysis. Christian Ebert & Fritz Hamm. Lineare Algebra IV: Diagonalisierungen. Latent Semantic. Analysis/Indexing. 12.
12. Januar 2012 Eigenwerte & Diagonalisierungen I Sei V ein K-Vektorraum und A ein Endomorphismus/eine n n Matrix über K {R, C} Erinnerung 1 Gilt A x = λ x, x 0 V, λ K, heißt λ Eigenwert und x Eigenvektor
MehrHauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte
Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrText-Mining: Clustering
Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010 Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur Cluster-Hypothese Documents
MehrPraktischer Teil des Seminars. Gruppe C Sebastian Raßmann Christian Michele
Praktischer Teil des Seminars Gruppe C Sebastian Raßmann Christian Michele Aufgabenstellung 6 Aufgaben: DTF vs. DTF max. 5 DL vs. CORI 5 DTF: BM 25 vs. TF.IDF CORI: nur BM25 nur DTF: c=1 vs. c=0.5 nur
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte
MehrPraktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
MehrWelche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
MehrÜbersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax
Indizierung Lucene Übersicht Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax Grundideen und Ziel des Indexing Effizientes
MehrText-Mining: Klassifikation I - Naive Bayes vs. Rocchio
Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrClusteranalyse von Nachrichtenartikeln
Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln
MehrBIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany
BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell
MehrExposé zur Studienarbeit. 04. August 2010
Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses
MehrInhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
MehrIT I: Heute. Klasse Object. equals, hashcode, tostring. HashSet IT I - VO 6 1
IT I: Heute Klasse Object equals, hashcode, tostring HashSet 14.11.2017 IT I - VO 6 1 Wissensüberprüfung Wie ruft man statische Methode auf? Gegeben Klasse Fix mit statischer Methode static boolean foxi(string
MehrMultimedia Retrieval im WS 2011/2012
Multimedia Retrieval im WS 2011/2012 2. Prinzipien des Information Retrieval Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung Institut für Bildinformatik im Department ETI Fakultät
MehrDigitale Bibliotheken. Informationssuche, Zugriff und Verbreitung
Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrAuf dem Weg zu Website-Fingerprinting in der Praxis
Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität
MehrSuche mit Lucene. Dr. Christian Herta. Mai, 2009
Mai, 2009 Lernziele - Inhalt Prozess der Suche Klassen der Suche Query-Objekte und Query-Syntax Scoring mit Lucene Outline Übersicht: Wichtige Klassen für die Suche IndexSearcher: Zentrale Klasse für den
MehrInformation Retrieval
Folie 1 Einführung und Überblick von Folie 2 Überblick Grundlegende Begriffe Information Indextermerstellung modelle (IR) Überblick formale Definition des IR-Prozesses Gewichtung Boolsches Retrival Modell
Mehr5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?
5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn
MehrClustering mit dem K-Means-Algorithmus (Ein Experiment)
Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013 Index 1 2 3 4 5 Andreas Runk Clustering mit dem K-Means- 2/40 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute
MehrStemming. Referenten: Johannes Lang Rossen Kowatschew
Universität Heidelberg Institut für Computerlinguistik HS Information Retrieval WS 01/02 Leitung: Dr. Karin Haenelt 04.02. 2002 Stemming. Referenten: Johannes Lang Rossen Kowatschew Gliederung Einführung:
MehrQuestion Answering mit Support Vector Machines
Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrKopieren und Vergleichen
Kopieren und Vergleichen Softwareentwicklung II (IB) Prof. Dr. Oliver Braun Letzte Änderung: 24.05.2018 13:24 Kopieren und Vergleichen 1/26 Kopie eines Objektes (1/4) Erster Ansatz zum Duplizieren eines
MehrPrototypische Komponenten eines Information Retrieval Systems: Vektormodell
Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003
MehrKlassifikation von Textabschnitten
Klassifikation von Textabschnitten Am Beispiel von Stellenanzeigen (JASC - Job Ads Section Classifier) Gliederung 1. Einführung: Zu welchem Zweck machen wir das? 2. Klassifikation ein kurzer Überblick
MehrKopieren und Vergleichen
Softwareentwicklung II (IB) Kopieren und Vergleichen Fakultät für Informatik und Mathematik Hochschule München Letzte Änderung: 24.05.2018 13:24 Inhaltsverzeichnis Kopie eines Objektes................................
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche
MehrInformation-Retrieval: Web-Retrieval
Information-Retrieval: Web-Retrieval Claes Neuefeind Fabian Steeg 21. Januar 2010 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrProbabilistische Datalog und PIRE
Probabilistische Datalog und PIRE Betreut von: Dipl. Informatiker Henrik Nottelmann WS 05/06 Probabilistische Datalog Datalog ist eine logik-basierte Programmiersprache, die auf funktionsfreie Hornklauselprädikatslogik
MehrIndexstrukturen in XML
Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken
MehrINFORMATION RETRIEVAL
INFORMATION RETRIEVAL Probabilistisches Modell Vortrag von David Wittum zum Hauptseminar Information Retrieval von Dr. Karin Haenelt Gehalten am 25.01.2010 ÜBERBLICK 1. Kurze Wiederholung: Berechnungsaufgaben
Mehr3/4/2009. Schalter: Ein vs. Aus Lochkarten: Loch vs. Kein Loch Boolean/Wahrheitswerte: true vs. false
Ablauf Informatik I (D-MAVT) Übungsstunde 2, 4.3.2009 simonmayer@student.ethz.ch ETH Zürich Besprechung/Vertiefung der Vorlesung [26.2.2009] Vorbesprechung Übung 2 Variablen + Scopes Zahlensysteme Bits&Bytes
MehrRelevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind
Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind 3. VuFind Anwendertreffen 2014 Frankfurt Stefan Winkler Anfragen im Support Warum kommt bei meiner Suche ein Dokument an dieser Stelle?
Mehr