Implementierung eines Vektormodells
|
|
- Adolf Amsel
- vor 5 Jahren
- Abrufe
Transkript
1 Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg / 30
2 Einleitung Idee 1: Vergleich der VSM-Varianten Vergleich Ähnlichkeitsmaße Vergleich Termgewichtungen Idee 2: Ähnlichkeit von Wikipedia-Artikeln berechnen sehr ähnl. Artikel zu einem zus.fügen, Redundanzen beseitigen Idee 3: zu einem Bibelvers ähnliche Verse ausgeben mehr dazu später Vorteil gegenüber Idee 2: betrachte Verse als Dokumente sehr kurze Dokumente daher: Idee 2 nicht weiter verfolgt 2 / 30
3 Überblick Modell Vergleich VSM-Varianten Fragestellungen Daten WikiSE Wikipedia Search Engine Ergebnisse Evaluation BibleVerSE Bible Verse Search Engine Motivation Daten BibleVerSE Demo Evaluation Fazit & Ausblick 3 / 30
4 Modell Vektormodell basiert auf Wortfrequenzen und Ähnlichk.maßen Unser Vektormodell Drei Termgewichtungen: keine (einfache Frequenzen) normalisierte Frequenzen tf-idf Zwei Ähnlichkeitsmaße: Cosinus-Ähnlichkeit euklidische Distanz Alle Möglichkeiten implementiert über Konsole wählbar Modell eingebaut in zwei Programme 4 / 30
5 Vergleich der VSM-Varianten 5 / 30
6 Fragestellungen 1 Zusammenhang zwischen berechneter Ähnlichkeit und subjektiver Relevanz der Ergebnisse für eine Query? 2 Unterschiede durch verschiedene Termgewichtungen? 3 Unterschiede durch verschiedene Ähnlichkeitsmaße? 6 / 30
7 Daten Korpus: Teilkorpus aus Wikicorpus 1.0, eine Sammlung von Wikipedia-Artikeln (Reese et. al. 2010) Berechnung der Ähnlichkeitsmaße durch dafür entwickeltes Programm (WikiSE) Manuelles Ranking der Ergebnisse nach Relevanz auf einer Skala von 1 (nicht relevant) bis 5 (sehr relevant) 7 / 30
8 WikiSE Wikipedia Search Engine Implementiert in Python Eingabe: Suchanfrage Benutzerdialog: welche Termgewichtung? welches Ähnlichkeitsmaß? Ermittlung der 10 ähnlichsten Wikipedia-Artikel (Vector Space Model) Ausgabe:.html-Datei mit Verlinkungen auf die 10 Artikel 8 / 30
9 Ergebnisse - Erwartete Ergebnisse Abbildung 1 : Erwartete Verteilung Je höher die Kosinusähnlichkeit, desto höher die Relevanz. Je niedriger die euklidische Distanz, desto höher die Relevanz. 9 / 30
10 Tatsächliche Ergebnisse - Beispiel 1 - Kosinusähnlichkeit Abbildung 2 : SF, NTF Abbildung 3 : tf-idf Beispiel 1a: Kosinusähnlichkeit für Query british writer mit einfachen Frequenzen (SF), normalisierten Termfrequenzen (NTF) und tf-idf. 10 / 30
11 Tatsächliche Ergebnisse - Beispiel 1 -Euklidische Distanz Abbildung 4 : SF Abbildung 5 : NTF Abbildung 6 : tf-idf Beispiel 1b: Euklidische Distanz für Query british writer mit SF, NTF und tf-idf 11 / 30
12 british writer Kosinus vs. ED Kosinusähnlichkeit für british writer für SF, NTF, tf-idf : Kurve wie erwartet SF und NTF: gleiche Kurve SF/NTF vs. tf-idf : nur geringer Unterschied ED für british writer SF: Kurve wie erwartet für NTF, tf-idf : Kurve nicht wie erwartet NTF, tf-idf : sehr ähnlich 12 / 30
13 Tatsächliche Ergebnisse - Beispiel 2 - Kosinusähnlichkeit Abbildung 7 : SF Abbildung 8 : NTF Abbildung 9 : tf-idf Beispiel 2a: Kosinusähnlichkeit für Query fictional character mit SF, NTF und tf-idf 13 / 30
14 Tatsächliche Ergebnisse - Beispiel 2 - Euklidische Distanz Abbildung 10 : SF Abbildung 11 : NTF Abbildung 12 : tf-idf Beispiel 2b: Euklidische Distanz für Query fictional character mit SF, NTF und tf-idf 14 / 30
15 fictional character Kosinus vs. ED Kosinusähnlichkeit für fictional character für SF, NTF, tf-idf : Kurven nicht wie erwartet SF, NTF: fast gleich ED für fictional character für SF, NTF, tf-idf : Kurven nicht ganz wie erwartet für NTF, tf-idf : Kurven sehr ähnlich 15 / 30
16 Evaluation In unserem Programm ist die erwartete Korrelation von berechneter Ähnlichkeit (beide Ahnlichkeitsmaße) und tatsächlicher Relevanz der darauf basierenden Suchergebnisse nicht festzustellen Die Termgewichtungen haben keinen wesentlichen Einfluss auf die Ergebnisse, d.h. eine Änderung der zugrundeliegenden Termgewichtung führt nicht zu einer Verbesserung der Korrelation von Ähnlichkeitswerten und tatsächlicher Relevanz 16 / 30
17 Konkrete Anwendung: BibleVerSE Bible Verse Search Engine 17 / 30
18 Motivation Suche zu einem Bibelvers ähnliche Verse Bsp. Herrnhuter Losungen: passender Bibelvers aus dem Neuen Testament zu einem Vers aus dem alten Testament 18 / 30
19 Daten Testweise 5 Paulus-Briefe aus dem NT Römer, Galater, Epheser, Philipper, Kolosser Grund: durch gleichen Autor + ähnliche Adressaten wahrscheinlich ähnliche Wörter + ähnliche Themen Korpus: SCHLACHTER BIBEL 1951.txt-Datei 19 / 30
20 Korpusauszug 20 / 30
21 BibleVerSE Funktioniert im Prinzip wie WikiSE, aber einige kleinere Anpassungen Eingabe: Bibelvers Benutzerdialog: welches Ähnlichkeitsmaß? welche Termgewichtung? Ermittlung der 15 ähnlichsten Bibelverse Ausgabe:.html-Datei mit den 15 Versen 21 / 30
22 BibleVerSE Demo 22 / 30
23 BibleVerSE 23 / 30
24 BibleVerSE Ergebnisdatei 24 / 30
25 Evaluation Abbildung 13 : Kosinusähnlichkeit Abbildung 14 : Euklidische Distanz Beispiel 3: Kosinusähnlichkeit und ED für Query Gnade sei mit euch und Friede von Gott, dem Vater und unsrem Herrn Jesus Christus NTF Entsprechen die tatsächlichen Ergebnisse den erwarteten Ergebnissen mehr als bei WikiSE? mehr Daten notwendig, um das zu entscheiden 25 / 30
26 Fazit Zwar keine quantitative Analyse, aber es macht in manchen Fällen durchaus einen Unterschied, welche Termgewichtung und welches Ähnlichkeitsmaß gewählt werden. Die erwartete Korrelation von berechneter Ähnlichkeit und subjektiver Relevanz der Suchergebnisse ist für kurze Queries nicht festzustellen Vermutungen VSM für BibleVerSE (und WikiSE-Erweiterung) vermutl. besser geeignet als für WikiSE, da ganze Dokumente verglichen werden Bei längeren Queries entsprechen die Ergebnisse vermutl. mehr den Erwartungen (zu wenige Daten zur Überprüfung) 26 / 30
27 Ausblick WikiSE und BibleVerSE Erweiterung des Korpus evtl. parallele Verarbeitung, wenn Korpora größer WikiSE Vergleich von ganzen Wikipedia-Artikeln Anwendung: Zusammenfügen von Wikipedia-Artikeln, die einander sehr ähnlich sind BibleVerSE einige Verbesserungen (z.b. Kodierungsprobleme lösen) Lemmatisierung (z. B. fröhliches fröhlich) 27 / 30
28 Diskussion Fragen? 28 / 30
29 Vielen Dank für die Aufmerksamkeit
30 Quellen I Reese et. al. (2010) Wikicorpus: A Word-Sense Disambiguated Multilingual Wikipedia Corpus Proceedings of 7th Language Resources and Evaluation Conference (LREC 10),La Valleta, Malta nlp/papers/reese10.pdf 30 / 30
Thema: Prototypische Implementierung des Vektormodells
Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia
MehrModell und Implementierung einer temporalen Anfragesprache
Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrEinführung in die Computerlinguistik Information Retrieval: tf.idf
Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky
MehrImplementierung des Vektor Modells
Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrLatent Semantic Indexing: Einführung und Experiment
Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer
MehrPrototypische Komponenten eines Information Retrieval Systems: Vektormodell
Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003
MehrInformation Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrInformation Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
MehrImplementierung: Dokumentclustering
Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester
MehrDokumentclustering am Beispiel von Liedtexten
Universität Heidelberg Seminar für Computerlinguistik Hauptseminar Information Retrieval WS09 Dr. Karin Haenelt Inhalt 1 2 3 4 5 Outline 1 2 3 4 5 Lieder thematisch gruppieren anhand der Liedtexte Ausgabe
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrImplementation und Evaluation des Vektormodells anhand von TREC-Daten
Implementation und Evaluation des Vektormodells anhand von TREC-Daten Seminarprojekt Information Retrieval WS 2015/2016 Bastian Beyer, Alexander Birkenkamp Institut für Computerlinguistik Universität Heidelberg
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
MehrLanguage Identification XXL
Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva
MehrRecommender Systeme mit Collaborative Filtering
Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrKollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik
Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse
MehrText Mining for Second Screen
Text Mining for Second Screen Anwendungen 2 Ivan Demin ivan.demin@haw-hamburg.de 5. Juni 2014 Agenda 1 Motivation 2 Learning to link with wikipedia 3 Generating Queries from User-Selected Text 4 Feeding
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrPCA based feature fusion
PCA based feature fusion Seminar Inhaltsbasierte Bildsuche WS 04/05 Übersicht Motivation: PCA an einem Beispiel PCA in der Bildsuche Tests Zusammenfassung / Ausblick Diskussion / Demo 2 Motivation: PCA
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrExposé zur Studienarbeit. 04. August 2010
Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrHintergrund: Web Search & Ranking in Websuchmaschinen
Hintergrund: Web Search & Ranking in Websuchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew LibRank-Abschlussworkshop Hamburg,
MehrEntity Search. Michel Manthey Arne Binder 2013
Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die
MehrHyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval
Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrAlgorithmische Anwendungen WS 05/06 Document Ranking
Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrEruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia
Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia Verteidigung Bachelorarbeit Tristan Licht Gutachter Betreuer : Junior-Prof. Dr. Matthias
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrVerteiltes Information Retrieval
Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren
MehrHauptseminar Information Retrieval. S. Friedrich und M. Häsner
Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5. Aktuell: Benutzer sucht Informationen und erhält
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrAutomatische Textzusammenfassung
Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Information Retrieval Automatische Textzusammenfassung Referat von Elena Loupanova 23.01.2006 Definition Textzusammenfassung The
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrMöglichkeiten der automatischen Sprachverarbeitung mit Django
Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung
MehrEinleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.
Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche
Mehrtf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009
tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten
MehrInhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis
Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrINFORMATION RETRIEVAL
INFORMATION RETRIEVAL Probabilistisches Modell Vortrag von David Wittum zum Hauptseminar Information Retrieval von Dr. Karin Haenelt Gehalten am 25.01.2010 ÜBERBLICK 1. Kurze Wiederholung: Berechnungsaufgaben
MehrWeil ich euch in meinem Herzen habe Predigt zu Phil 1,3-11 (22. So n Trin, )
Weil ich euch in meinem Herzen habe Predigt zu Phil 1,3-11 (22. So n Trin, 23.10.16) Gnade sei mit euch und Friede von Gott, unserm Vater, und dem Herrn Jesus Christus. Amen. Liebe Gemeinde, wenn Menschen,
MehrQuestion Answering mit Support Vector Machines
Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support
MehrLeiter- und Arbeitsunterlagen
ü Leiter- und Arbeitsunterlagen YOUBehave = handeln nach Gottes Plan -Jakobus 3, 17-24 Was sagt diese Bibelstelle aus? Jakobus geht es NICHT darum, dass wir möglichst viel für Gott und die Gemeinde tun
MehrLucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006
Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrCaliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux
Caliph & Emir Retrieval und Annotation von digitalen Photos mit MPEG-7 Mathias Lux mlux@know-center.at - gefördert durch das Kompetenzzentrenprogramm Overview Einleitung Geschichtliches Annotation mit
MehrDependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/
Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur
MehrDer Heilige Geist. Charaktermerkmale des Heiligen Geistes
Der Heilige Geist Charaktermerkmale des Heiligen Geistes Offenbarung 1, 4 + 5 4 Johannes den sieben Gemeinden, die in Asien sind: Gnade euch und Friede von dem, der ist und der war und der kommt, und von
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrEnterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme
Enterprise Search Präsentation zur Seminararbeit im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Michael Hübschmann 14. Januar 2014 Betreuung: Dr. Hella Seebach Überblick 1. Motivation
MehrDie treffende Auswahl anbieten: Im Internet (Referat 3a)
www.zeix.com Die treffende Auswahl anbieten: Im Internet (Referat 3a) Fachtagung: Suchfunktionen im Web Zürich, 26. Oktober 2006 Jürg Stuker, namics Gregor Urech, Zeix Bern, Frankfurt, Hamburg, München,
MehrKONKORDANTES NEUES TESTAMENT DIE PAULUSBRIEFE. Konkordanter Verlag Pforzheim
KONKORDANTES NEUES TESTAMENT DIE PAULUSBRIEFE Konkordanter Verlag Pforzheim Die vorliegende Ausgabe ist ein vergrößerter Auszug der Paulusbriefe aus: Konkordantes Neues Testament 6.Auflage 1995 Copyright
MehrBibelstellen zur Trauung Neues Testament
Das Evangelium nach Matthäus Matthäus Der Mensch lebt nicht vom Brot allein, sondern von jedem Wort, das durch den Mund Gottes geht. Matthäus 5,8 Selig sind, die reinen Herzens sind, denn sie werden Gott
MehrDas einzig Wahre. Philipper 1, 9-11
Das einzig Wahre Philipper 1, 9-11 Der Philipperbrief 51 n. Chr.: Gründung der Gemeinde in Philippi durch Paulus 60 n. Chr.: Paulus Brief an Philipper aus Rom Philipper 1, 1-11 1) Paulus und Timotheus,
MehrBücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrMaterialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrVerschlagwortung digitaler Texte
Verschlagwortung digitaler Texte Verschlagwortung Zuordnung von Schlagwörtern zu einem Dokument (Text) zur Erschließung der darin enthaltenen Sachverhalte Manuelle Verschlagwortung Schlagwörter meist aus
MehrSoftwareprojekte WS 2009/10. Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10
Softwareprojekte WS 2009/10 Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10 Projekt 2 Computing predominant senses for German Computing predominant sense for German Most Frequent
MehrContent-Based Audio Management
Content-Based Audio Management Music Information Retrieval Jake Atwell, Philip Jakob Agenda Einleitung/Motivation Muscle Fish Verfahren Vergleich Fazit 2 Agenda Einleitung/Motivation Muscle Fish Verfahren
MehrLearning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo
Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden
MehrPredigt zu 1Petr 1,8 12
Predigt zu 1Petr 1,8 12 J. Cornelis de Vos, Münster, Universitätskirche, Johannistag, 24.6.2018 Gnade sei mit euch und Friede von Gott dem Vater, dem Sohn und dem Heiligen Geist. Liebe Gemeinde, Der Predigttext
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrComputergestützte Freizeitplanung basierend auf Points of Interest
Computergestützte Freizeitplanung basierend auf Points of Interest Peter Bücker & Ugur Macit {peter.buecker,ugur.macit}@uni-duesseldorf.de Institut für Sprache und Information Abteilung für Informationswissenschaft
MehrInformationsextraktion mit endlichen Automaten
Informationsextraktion mit endlichen Automaten HS: Information Retrieval Dozentin: Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Referentinnen: Galina Sigwarth,
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrGriesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop
Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER 2013 Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Hildesheim, 25. 26. April 2013 J. Griesbaum, B. Heuwing, J. Ruppenhofer, K. Werner
MehrThe Sacred Scriptures
The Sacred Scriptures» The New Covenant & New Testament The Book of Psalms & The Book of Daniel «~ all verses and explanations in German and English with»appendix«in English ~ ~ 29th Special Edition ~
MehrTrausprüche. Vorschläge
Trausprüche Vorschläge 1. Gott sprach: Es ist nicht gut, wenn der Mensch allein ist. 1. Mose 2,18 2. So spricht der Herr: Ich will dich segnen und du sollst ein Segen sein. 1. Mose 12,2 3. So spricht der
Mehr- Römer 1:1-7 - Zuschrift und Gruß: Paulus, der Apostel der Heiden. Paulus, Knecht Jesu Christi, berufener Apostel, für das Evangelium Gottes,
- Römer 1:1-7 - Zuschrift und Gruß: Paulus, der Apostel der Heiden Paulus, Knecht Jesu Christi, berufener Apostel, ausgesondert für das Evangelium Gottes, das er zuvor verheißen hat in heiligen Schriften
MehrWELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING. Andreas Weiß / Maik Fiedler
WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING Andreas Weiß / Maik Fiedler PROJEKTPARTNER Projekt im Leibniz-Wettbewerb (2014-2017) Georg-Eckert-Institut Welt der Kinder Seite
MehrEvangelium (auch) für Gläubige
Evangelium (auch) für Gläubige Christliche Gemeinde Achenbach 6. Oktober 2013 Das Evangelium für Ungläubige Heike Das Evangelium für Ungläubige Heike 1. Korinther 15:1-4 1 Ich tue euch aber, Brüder, das
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrGemeinschaft mit CHRISTUS
Gemeinschaft mit CHRISTUS 1 Gemeinschaft koinos = gemeinschaftlich (Apg. 2,44; Tit. 1,4) koinōnia = Teilhabe von, Gemeinschaft mit (Apg. 2,42; 1.Kor. 10,16 ) koinonikos = andere zu Teilhabern machend,
MehrMVC-Architektur am Beispiel von OLAT
MVC-Architektur am Beispiel von OLAT Marvin Frommhold 12. Januar 2009 Gliederung Begriffe Entwurfsmuster Umsetzung in OLAT Aufbau des Brasato-Frameworks Quellen Begriffe I MVC bezeichnet ein Architekturmuster
MehrDER EPHESERBRIEF. Vollkommen gesegnet! (Epheser 1,1-14)
DER EPHESERBRIEF Vollkommen gesegnet! (Epheser 1,1-14) Wo liegt Ephesus? Bildquelle: The Bible Project Der Tempel der Artemis in Ephesus. Er zählte als eines der sieben Weltwunder. Jahre später schreibt
MehrClusteranalyse von Nachrichtenartikeln
Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln
MehrEs geht ums Ganze Predigt zu Röm 10,9-18 (17. So n Trin, )
Es geht ums Ganze Predigt zu Röm 10,9-18 (17. So n Trin, 18.9.16) Gnade sei mit euch und Friede von Gott, unserm Vater, und dem Herrn Jesus Christus. Amen. Liebe Gemeinde, wenn s um Glauben geht, dann
MehrClustering mit dem K-Means-Algorithmus (Ein Experiment)
Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013 Index 1 2 3 4 5 Andreas Runk Clustering mit dem K-Means- 2/40 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute
Mehr