Sprachübergreifendes Information Retrieval (CLIR)
|
|
- Lorenz Hochberg
- vor 5 Jahren
- Abrufe
Transkript
1 WikiTranslate Ruprecht-Karls-Universität Heidelberg WS 2009/2010 HS: Information Retrieval Leitung: Dr. Karin Haenelt 18. Januar 2010
2 Auf den folgenden Folien wird der Ansatz von D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong mit dem Titel WikiTranlate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia vorgestellt, der 2008 bei CLEF veröffentlicht wurde. (Artikel zu finden unter: D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong: WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, CLEF 2008.)
3 Gliederung 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur
4 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur
5 online, multilinguale Enzyklopädie, zu der jeder seinen Beitrag leisten kann Werk seiner Benutzer, Widerspiegelung deren Interessen, auch kleinere Themengebiete gut abgedeckt Charakteristiken von Wikipedia machen es zu einer semantisch-lexikalischen Ressource Versuche bereits durchgeführt: Wikipedia zur automatischen WSD (word sense disambiguation) und für Übersetzung (mit sprachübergreifenden Links)
6 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur
7 Vor- und Nachteile Motivation Query-Übersetzung (populärster Ansatz bei CLIR-Systemen)
8 Vor- und Nachteile Vorteile von Wikipedia für die Query-Übersetzung Bessere Abdeckung von named entities und domain specific terms Informationen sind auf dem neuesten Stand (kontinuierliche Beiträge von Nutzern) Wikipedia-Artikel bieten mehr Kontext als z.b. Online-Wörterbücher (WSD) Weitergeleitete Seiten: Links, die auf alternative Konzepte (Titel von Artikeln) verweisen (coalition cabinet coalition government) (Synonyme, Abkürzungen, Schreibvarianten (Query-Expansion))
9 Vor- und Nachteile Nachteile von Wikipedia für die Query-Übersetzung bei gängigen Wörtern ist die Abdeckung geringer, als bei Wörterbüchern einige Terme haben eine Menge Bedeutungen (erschwert die WSD)
10 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur
11 Aufgabenstellung und Ansatz Ziel Such- und Zielsprache Anfrage soll die Transformation einer Anfrage q s (source language) in eine Anfrage q t (target language) sein Suchsprache: Niederländisch; Zielsprache: Niederländisch, Englisch, Spanisch, Französisch erfolgt in Form einer TREC-Query, wie z.b.: <title> Atlantis-Mir Koppeling <title> <desc> Vind documenten over de eerste space shuttle aankoppeling tussen de Amerikaanse shuttle Atlantis en het Mir ruimte station. <desc> soll zur korrespondierenden Übersetzung führen: <title> Atlantis-Mir Docking <title> <desc> Find documents reporting the first space shuttle docking between the US shuttle Atlantis and the Mir space station. <desc>
12 Aufgabenstellung und Ansatz Vorgehensweise Hauptaufgabe Teilaufgaben Abbildung der Anfrage q s auf Titel von Wikipedia-Artikel Übersetzung der Titel durch Verfolgung der Links auf anderssprachige Titel besteht dabei darin, die Anfrage auf Wikipedia-Artikel abzubilden gliedern sich in out of vocabulary words (OOV) named entity recognition und Übersetzung word sense disambiguation (WSD)
13 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur
14 Vorverarbeitung Verwendete Suchmaschine: Lucene Indexierung von Wikipedia (Beschränkung auf Artikel-Namensraum): Aus jedem Artikel: Extraktion von Titel, Text, Links auf andere Sprachen Gesonderte Repräsentation des ersten Abschnitts (Möglichkeit, Suche zu beschränken und Texte vergleichbarer Länge zu erhalten) Redirect-Seiten: Titel der Zielseite (weitergeleitete Seiten, z.b. bei der Eingabe von Informationswiedergewinnung wird man auf die Zielseite Information Retrieval weitergeleitet) Aus Bildern bestehende Wikipediaartikel, Hilfsseiten, Vorlagen, Portalseiten, Seiten über den Gebrauch von Wikipedia werden ausgenommen
15 Vorverarbeitung Zum Zwecke des Vergleichs, werden alle Sprachen denselben Vorverarbeitungsschritten unterzogen Stemming für alle Sprachen dieselbe Methode, obwohl für unterschiedliche Sprachen unterschiedliche Verfahren jeweils besser geeignet sind: Stemming (Niederländisch, Spanisch), 4-Gramme (Englisch, Französisch) Komposita Zerlegung für Anfrage, Durchführung bei Analyse der Anfrage Dekomposition steigert die Performance Abgleich, ob Wort im Lexikon enthalten ist, erfolgt über eine Suche über die Titel der Wikipediaartikel (Komposita mit eigenem Artikel erhalten höhere Priorität als Komposita, die nur als Teile vorkommen) Kompositbestandteile mit eigenem Artikel erhalten den Vorzug über Kompositbestandteile, die nur in Artikeltexten zu finden sind
16 Vorverarbeitung Entfernung von nichtrelevanten Wörtern Query: atlantis mir koppeling eerste space shuttle aankoppeling tussen amerikaanse shuttle atlantis mir ruimte station Stemming (title:atlantis text:atlantis) (title:mir text:mir) (title:koppel text:koppel) (title:eerst text:eerst) (title:spac text:spac) (title:shuttl text:shuttl) (title:aankoppel text:aankoppel) (title:tuss text:tuss) (title:amerikan text:amerikan) (title:shuttl text:shuttl) (title:atlantis text:atlantis) (title:mir text.mir) (title:ruimt text:ruimt) (title:station text:station)
17 Ablauf (an einem Beispiel) 1. Schritt: Die Anfrage wird auf Wikipedia-Titel abgebildet Extraktion der Titel der Artikel, die zu einer Anfrage die höchsten Relevanzwerte (nach Vektormodell) erhalten haben 1a: Suche mit gesamter Query <title> Atlantis-Mir Koppeling <title> <desc> Vind documenten over de eerste space shuttle aankoppeling tussen de Amerikaanse shuttle Atlantis en het Mir ruimte station. <desc> Experimentelle Bestimmung der Anzahl der auszuwählenden höchstplatzierten Dokumente Problem: einige Anfrage-Ausdrücke kommen in den höchstplatzierten Dokumenten nicht vor und verschwinden dann aus der weiteren Liste für die endgültige Anfrage
18 Ablauf (an einem Beispiel) 1b: Suche nach einzelnen Termen der Query: Vermeidung des Problems von 1a Methoden zur Zuordnung von Titeln und Anfrage-Ausdrücken 1 LINKS Titel der höchstplatzierten Dokumente aus 1a und Links in den zugehörigen Dokumenten werden verwendet 2 CONTENTS Suche mit der gesamten Anfrage, höhere Gewichtung des eigentlichen Anfrage-Ausdrucks, Suche über Titel und ersten Absatz des Wikipedia-Artikel Folgende Konzepte (Titel von Artikeln) wurden durch Schritt 1a und 1b erkannt: America, Atlantis (disambiguation), Coupling, Mir, Mir (disambiguation), Russian Federal Space Agency, Shuttle, Space Shuttle Atlantis, Space Shuttle program, Station.
19 Ablauf (an einem Beispiel) 2. Schritt: 2a (optional): Anfrage-Expansion durch Verwendung von Redirect-Seiten Es werden auch die Titel verwendet, die per redirect auf jeweilige Seiten verweisen Beispiel: space shuttle atlantis atlantis (space shuttle), ov-104, shuttle atlantis, atlantis (space shuttle), atlantis (shuttle), ss atlantis, space shuttle atlantis, atlantis space shuttle 2b (optional): Gewichtung der Query höhere Gewichtung der Terme, die in 1a gefunden wurden Beispiel: space shuttle atlantis und mir (ruimtestation)
20 Ablauf (an einem Beispiel) 2c: Erzeugen der Endquery Verwendung der Links auf anderssprachige Artikel station ˆ1.0 stationˆ1.0 russian federal space agency ˆ1.0 russianˆ1.0 federalˆ1.0 spaceˆ1.0 agencyˆ1.0 mir ˆ1.0 mirˆ1.0 coupling ˆ1.0 couplingˆ1.0 america 0ˆ1.0 americaˆ1.0 shuttle ˆ1.0 shuttleˆ1.0 space shuttle program ˆ1.0 spaceˆ1.0 shuttleˆ1.0 programˆ1.0 space shuttle atlantis 0ˆ3.0 spaceˆ3.0 shuttleˆ3.0 atlantisˆ3.0 atlantis ˆ1.0 atlantisˆ1.0 ruimte ˆ1.0 ruimteˆ1.0 aankoppeling ˆ1.0 aankoppelingˆ1.0 mir ˆ3.0 mirˆ3.0
21 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur
22 Ergebnisse Summary of runs (aus den Experimentdaten von CLEF 2004, 2005, 2006) Task ID Average (% Monolingual system) T NO WSD 72,71 % T LINKS 71,88 % T CONTENT 74,89 % T CONTENT W 72,70 % T + D NO WSD 68,98 % T + D LINKS 71,44 % T + D CONTENT 73,18 % T + D CONTENT W 74,98 %
23 Ergebnisse Language Results run 2008 MAP English(monolingial) French (66,86%) Spanish (64,02%) Dutch (59,82%)
24 Ergebnisse Tiefergehende Analyse eines Runs mit 50 Topics
25 Ergebnisse Nähere Betrachtung der Query-Vergleiche vom monolingualen zum cross-lingualen Ergebnis: Verbesserung der Performance: Topic 477 <top> <num> /477-AH </num> <title> Web Advertising</title> <desc> Find books about the distribution and impact of marketing campaigns on the World Wide Web / Internet. </desc> Beim Übersetzungsvorgang ist das Wort investment hinzu gekommen; Die Wörter internet und advertising haben bei der Übersetzung eine höhere Gewichtung bekommen.
26 Ergebnisse Verschlechterung der Performance: Topic 457 einige Übersetzungen der Queries sind falsch <top> <num> /457-AH </num> <title> La chasse au grand gibier en Afrique</title> <desc> Descriptions non fictives d expéditions de chasse au grand gibier en Afrique. </desc> wird übersetzt zu: <top> <num> /457-AH </num> <title> Big Game Hunting in Africa</title> <desc> Real-life descriptons of big game hunting expeditions in Africa. </desc>
27 Fazit und Weiterentwicklung Ansatz vielversprechend und verbesserungswürdig (im Hinblick auf Performance) Übersetzung von Eigennamen und Phrasen sehr gut Einsatz im Interactive CLIR möglich (Wikipedia-Konzepte (Titel von Artikeln) für Menschen gut verständlich) Weiterentwicklung bessere Nutzung der Wikipedia-Struktur (Kategorie-Seiten, Begriffserklärungsseiten (Disambiguierung), Interne Links) Filter für weniger relevante Konzepte Experimete für bessere Vorverarbeitung Optimierung der Query-Gewichtung andere Methoden zur Query-Expansion mit Wikipedia ausprobieren für gängige Wörter und Adjektive (mit Wikipedia schlecht zu übersetzen!) Resourcen wie EuroWordNet oder bilinguale Wörterbücher nutzten
28 Literatur Carstensen, Kai-Uwe (Hg.) (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung. München: Elsevier, Spektrum Akad. Verl.. Stock, Wolfgang G. (2007): Information Retrieval. Informationen suchen und finden. München / Wien: Oldenbourg. Cross language evaluation forum: D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong: WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, CLEF [letzter Zugriff: ]
29 Vielen Dank für die Aufmerksamkeit!
Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
Implementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
Thema: Prototypische Implementierung des Vektormodells
Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia
Vorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht
Evaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
Named Entity Recognition auf Basis von Wortlisten
Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -
Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)
Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?
Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz
04_Evaluation Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz CLEF Cross Language Evaluation Forum Hervorgegangen aus dem Cross-Language Information Retrieval Task der Text
Mehrsprachige Kategorisierung
know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval
Sprachübergreifendes Information Retrieval (CLIR)
Sprachübergreifendes Information Retrieval (CLIR) Jannik Strötgen, Fabian Lorenzen jannikstroetgen@gmx.de, fabian@lorenzen.me.uk 30.01.2006 HS Information Retrieval WS 2005/06 K. Haenelt 30.01.06 1 Inhalt
Anwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
Studienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele
INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur
Entity Search. Michel Manthey Arne Binder 2013
Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die
Hauptseminar Information Retrieval. S. Friedrich und M. Häsner
Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5. Aktuell: Benutzer sucht Informationen und erhält
Information Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
Bücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
Materialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt
Anfertigen von wissenschaftlichen Arbeiten 1 Übersicht 1. Die Einleitung 2. Die Einführung 3. Der Inhalt 4. Experimente 5. Stand der Technik (Related Work) 6. Zusammenfassung Kurzfassung (Abstract) Anhang
Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006
Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.
INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
Praktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
Lexikalisch-semantische Disambiguierung mit WordNet
Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische
Modell und Implementierung einer temporalen Anfragesprache
Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache
Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis
Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit
Semiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
Question Answering mit Support Vector Machines
Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support
Softwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl {peter,guta,rosendahl}@i6.informatik.rwth-aachen.de Vorbesprechung 4. Aufgabe 2. Juni 2017 Human Language
Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte
Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,
Ziele und Herausforderungen
Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber
Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse
Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop
Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER 2013 Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Hildesheim, 25. 26. April 2013 J. Griesbaum, B. Heuwing, J. Ruppenhofer, K. Werner
Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis:
5. Evaluation Motivation Wie evaluiert man die Effektivität eines IR-Systems? Zur Erinnerung: Werden die richtigen Dinge getan? Ideal: Ermittle die Zufriedenheit der Benutzer schwierig zu messen (z.b.
Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt
Google Knowledge Graph Kursfolien Teil 2 Karin Haenelt 1.8.2015 Themen Systemübersicht Datengraph Aufbau Modellierung Auswertungen des Datengraphen Aufschlussreiche Beziehungen Retrievalbeispiele 2 Google
Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
9. Dezember 2015 TEXT MINING. Sebastian Wack
9. Dezember 2015 1 TEXT MINING Sebastian Wack 2 GLIEDERUNG Was ist Text Mining? Primitive Algorithmen Vorbereitungen Vektormodell Latent Semantic Indexing Clustering Nichtnegative Matrix Faktorisierung
INFORMATIONSEXTRAKTION IN SUCHMASCHINEN
INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer
Automatische Textzusammenfasung
Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze
Informationssysteme für Ingenieure
Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??
DPMAnutzerforum 2018
Neues aus der Hauptabteilung 2 - Information München, Hubert Rothe Deutsches Patent- und Markenamt www.dpma.de Übersicht DPMAdirektPro elektronischer Versand Projekt Neue Recherche Nutzung asiatischer
Information Retrieval Einführung
Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information
Die Klassifikation von geographischen Anfragen in einem Query-Log
Thomas Mandl Informationswissenschaft Universität Hildesheim mandl@uni-hildesheim.de Fachgruppentreffen Fokussierte Suche Bamberg 8.5.2008 Die Klassifikation von geographischen Anfragen in einem Query-Log
Deutsch Synonyme Worterbuch
Deutsch Synonyme Worterbuch 1 / 6 2 / 6 3 / 6 Deutsch Synonyme Worterbuch Synonyme in Deutschlands bestem Synonym-Wörterbuch finden 680492 Synonyme online Ähnliche Bedeutungen & sinnverwandte Wörter Wie
Make your world simpler
Automatische Vervollständigung von Wikipedia-Listen Make your world simpler Universität Freiburg Lehrstuhl für Algorithmen und Datenstrukturen Universität Freiburg Simon Skilevic, Robin Schirrmeister 26.4.2012
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
Informationssuche ohne Sprachbarrieren
Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. Ludwig Wittgenstein Tractatus logico-philosophicus Informationssuche ohne Sprachbarrieren Christa Womser-Hacker Universität Hildesheim, Informationswissenschaft
WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
Darstellung der Methodik in TREC und TREC-basierte Evaluierung
Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz
8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features
Humboldt-Universität zu Berlin 8. Mai 2008 1 2 logistic regression 3 Benutzer 4 Fazit 5 Quellen Was ist? is a suite of Java libraries for the linguistic analysis of human. Was ist? is a suite of Java libraries
7th PhD Day. Term Translation with Domain Adaptation and Lexical knowledge. Mihael Arcan UNLP, Insight@NUI Galway
7th PhD Day Term Translation with Domain Adaptation and Lexical knowledge Mihael Arcan UNLP, Insight@NUI Galway Date: 25. 11. 2014 Introduction Motivation Issues with Term Translation with Statistical
Dokumentclustering am Beispiel von Liedtexten
Universität Heidelberg Seminar für Computerlinguistik Hauptseminar Information Retrieval WS09 Dr. Karin Haenelt Inhalt 1 2 3 4 5 Outline 1 2 3 4 5 Lieder thematisch gruppieren anhand der Liedtexte Ausgabe
Literaturrecherche Mentoring für Lehrer
Literaturrecherche Mentoring für Lehrer VU Empirische Methoden Ao.Univ.-Prof. Mag. DI Dr. Christian Schlögl Anna Winkelbauer 0212038 geplante Recherchestrategie Suchbegriff: Mentoring für Lehrer Datenbank:
Sprache systematisch verbessern. Eugen Okon
Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch
Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme
Enterprise Search Präsentation zur Seminararbeit im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Michael Hübschmann 14. Januar 2014 Betreuung: Dr. Hella Seebach Überblick 1. Motivation
HS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt
Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence
Maschinelle Übersetzung
Maschinelle Übersetzung Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com MÜ Ansätze Zwei Dimensionen: Verarbeitungstiefe Art der verwendeten Technik Seite 2 Verarbeitunstiefe Seite
KlassifikationsBrowser
2015.05 2016.06 2017.06 2016-05-26 by Kathleen Neumann Funktionsweise des KlassifikationsBrowser Table of contents 1 Klassifikationsbrowser...2 1.1 Konfiguration...2 1.2 Beispiel für Browsen nach Einrichtung...
Semiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
Information Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
Informationsextraktion. Christoph Wiewiorski Patrick Hommers
Informationsextraktion Christoph Wiewiorski Patrick Hommers 1 Informationsextraktion(IE) - Einführung Ziel: Domänenspezifische Informationen aus freiem Text gezielt aufspüren und strukturieren Gleichzeitig
GeoCLEF 2006: Cross-linguales geographisches Information Retrieval
GeoCLEF 2006: Cross-linguales geographisches Information Retrieval Kerstin Bischoff, Thomas Mandl, Christa Womser-Hacker Informationswissenschaft, Universität Hildesheim Marienburger Platz 22 D-31141 Hildesheim,
Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1,
Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1, 22.9.2015 Inhalt der Schulung Repetition (mit Übung) Suchstrategien und Suchregeln ETH-Bibliothek, Wissensportal Datenbanken, Fachinformationen
Modul 1: Wege in die digitale Welt
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 1: Wege in die digitale Welt Martin Volk volk@cl.uzh.ch Themen in diesem Modul 1. Was verstehen wir unter Digital Humanities?
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
Federated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
Semantische Suche in Zeitungsartikeln
6. Oktober 2011 1 2 3 4 5 6 Motivation Ziel Teilaufgaben Im Internet finden sich viele Nachrichtenseiten Für die Suche auf diesen Seiten wird meißt Volltextsuche verwendet Suche nach Vorkommen der Suchbegriffe
Semantik und Pragmatik
Semantik und Pragmatik SS 2005 Universität Bielefeld Teil 4, 6. Mai 2005 Gerhard Jäger Semantik und Pragmatik p.1/35 Prädikatenlogik: atomare Formeln Syntax JO, BERTIE, ETHEL, THE-CAKE... sind Individuenkonstanten
Inverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
Effizienzsteigerung durch Kooperation?
Effizienzsteigerung durch Kooperation? die vascoda- Suchmaschinenföderation Ben Burkard (hbz) 98. Deutscher Bibliothekartag 02.-06.06.2009 Gliederung I. vascoda II. Warum Suchmaschinentechnologie? III.Zentrale
Britannica Academic Edition
Britannica Academic Edition Umfangreichste englischsprachige Allgemein- Enzyklopädie Aktuelle und verständliche Informationen von hoher Qualität über 100.000 neue und aktualisierte Artikeln Suchanforderungen
Information Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur
Workshop UKP Lab DIPF Knowledge Discovery 02. August 2012 Dr. Judith Eckle-Kohler Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur In Teilen
Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
Terminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
Multilinguales Information Retrieval
Multilinguales Information Retrieval Ruprecht-Karls Karls-Universität Heidelberg Lehrstuhl für Computerlinguistik Referat zum HS Information Retrieval WS 2002/2003 Leitung: Dr. Karin Haenelt Referentinnen:
BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche
know-how innovation BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche 05.09.2018, Adriano Meyer Broyn solution Zielsetzungen Zusammenspiel von Titeln und Inhaltserschliessung besser verstehen.
Lemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
Lemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu. Hauptseminar: Informationsextraktion aus biographische Kontexten
Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu Hauptseminar: Informationsextraktion aus biographische Kontexten Dozenten: Prof. Dr. Franz Guenthner Michaela Geierhos Centrum für Informations-
Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014
Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen
Praktischer Teil des Seminars. Gruppe C Sebastian Raßmann Christian Michele
Praktischer Teil des Seminars Gruppe C Sebastian Raßmann Christian Michele Aufgabenstellung 6 Aufgaben: DTF vs. DTF max. 5 DL vs. CORI 5 DTF: BM 25 vs. TF.IDF CORI: nur BM25 nur DTF: c=1 vs. c=0.5 nur
Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:
RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch
Informationsextraktionssystem ANNIE
Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 10/11 Inhalt 1 Einführung: Informationsextraktion Begriffsklärung eines Informationsextraktionssystems 2 Einführung in Getting Started
xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
Gemeinsame Wissensverwaltung per Wiki
Gemeinsame Wissensverwaltung per Wiki Vom (Semantic-)MediaWiki-Einsatz bei Lebensmittelretten Dresden und im StuRa der HtwDresden bis zu Wiki-Erweiterungen Referenten: P. Pietsch und N. Schwirz Gemeinsame
LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite
LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel AGMB-Tagung Basel, 08.09.2015 MEDPILOT und GREENPILOT schließen einen Bund fürs Leben: LIVIVO Interdisziplinäre Literatursuche: Datenquellen
Prof. Dr. Udo Hahn. Seminar im Modul B-GSW-12 SoSe 2018
Seminar im Modul B-GSW-12 SoSe 2018 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
Seminar Informationsvisualisierung
Seminar Informationsvisualisierung Thema: Seminar Dozent: Dr. Dirk Zeckzer zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung Umfang: 2 Prüfungsfach: Modul Fortgeschrittene Computergrafik
BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version:
BIW Wahlpflichtmodul Einführung in trec_eval Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2017-06-19 2 Was erwartet Sie heute? Kurze Wiederholung von Precision, Recall,
Volltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
Information Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones
Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung
Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus