Sprachübergreifendes Information Retrieval (CLIR)

Größe: px
Ab Seite anzeigen:

Download "Sprachübergreifendes Information Retrieval (CLIR)"

Transkript

1 WikiTranslate Ruprecht-Karls-Universität Heidelberg WS 2009/2010 HS: Information Retrieval Leitung: Dr. Karin Haenelt 18. Januar 2010

2 Auf den folgenden Folien wird der Ansatz von D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong mit dem Titel WikiTranlate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia vorgestellt, der 2008 bei CLEF veröffentlicht wurde. (Artikel zu finden unter: D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong: WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, CLEF 2008.)

3 Gliederung 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

4 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

5 online, multilinguale Enzyklopädie, zu der jeder seinen Beitrag leisten kann Werk seiner Benutzer, Widerspiegelung deren Interessen, auch kleinere Themengebiete gut abgedeckt Charakteristiken von Wikipedia machen es zu einer semantisch-lexikalischen Ressource Versuche bereits durchgeführt: Wikipedia zur automatischen WSD (word sense disambiguation) und für Übersetzung (mit sprachübergreifenden Links)

6 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

7 Vor- und Nachteile Motivation Query-Übersetzung (populärster Ansatz bei CLIR-Systemen)

8 Vor- und Nachteile Vorteile von Wikipedia für die Query-Übersetzung Bessere Abdeckung von named entities und domain specific terms Informationen sind auf dem neuesten Stand (kontinuierliche Beiträge von Nutzern) Wikipedia-Artikel bieten mehr Kontext als z.b. Online-Wörterbücher (WSD) Weitergeleitete Seiten: Links, die auf alternative Konzepte (Titel von Artikeln) verweisen (coalition cabinet coalition government) (Synonyme, Abkürzungen, Schreibvarianten (Query-Expansion))

9 Vor- und Nachteile Nachteile von Wikipedia für die Query-Übersetzung bei gängigen Wörtern ist die Abdeckung geringer, als bei Wörterbüchern einige Terme haben eine Menge Bedeutungen (erschwert die WSD)

10 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

11 Aufgabenstellung und Ansatz Ziel Such- und Zielsprache Anfrage soll die Transformation einer Anfrage q s (source language) in eine Anfrage q t (target language) sein Suchsprache: Niederländisch; Zielsprache: Niederländisch, Englisch, Spanisch, Französisch erfolgt in Form einer TREC-Query, wie z.b.: <title> Atlantis-Mir Koppeling <title> <desc> Vind documenten over de eerste space shuttle aankoppeling tussen de Amerikaanse shuttle Atlantis en het Mir ruimte station. <desc> soll zur korrespondierenden Übersetzung führen: <title> Atlantis-Mir Docking <title> <desc> Find documents reporting the first space shuttle docking between the US shuttle Atlantis and the Mir space station. <desc>

12 Aufgabenstellung und Ansatz Vorgehensweise Hauptaufgabe Teilaufgaben Abbildung der Anfrage q s auf Titel von Wikipedia-Artikel Übersetzung der Titel durch Verfolgung der Links auf anderssprachige Titel besteht dabei darin, die Anfrage auf Wikipedia-Artikel abzubilden gliedern sich in out of vocabulary words (OOV) named entity recognition und Übersetzung word sense disambiguation (WSD)

13 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

14 Vorverarbeitung Verwendete Suchmaschine: Lucene Indexierung von Wikipedia (Beschränkung auf Artikel-Namensraum): Aus jedem Artikel: Extraktion von Titel, Text, Links auf andere Sprachen Gesonderte Repräsentation des ersten Abschnitts (Möglichkeit, Suche zu beschränken und Texte vergleichbarer Länge zu erhalten) Redirect-Seiten: Titel der Zielseite (weitergeleitete Seiten, z.b. bei der Eingabe von Informationswiedergewinnung wird man auf die Zielseite Information Retrieval weitergeleitet) Aus Bildern bestehende Wikipediaartikel, Hilfsseiten, Vorlagen, Portalseiten, Seiten über den Gebrauch von Wikipedia werden ausgenommen

15 Vorverarbeitung Zum Zwecke des Vergleichs, werden alle Sprachen denselben Vorverarbeitungsschritten unterzogen Stemming für alle Sprachen dieselbe Methode, obwohl für unterschiedliche Sprachen unterschiedliche Verfahren jeweils besser geeignet sind: Stemming (Niederländisch, Spanisch), 4-Gramme (Englisch, Französisch) Komposita Zerlegung für Anfrage, Durchführung bei Analyse der Anfrage Dekomposition steigert die Performance Abgleich, ob Wort im Lexikon enthalten ist, erfolgt über eine Suche über die Titel der Wikipediaartikel (Komposita mit eigenem Artikel erhalten höhere Priorität als Komposita, die nur als Teile vorkommen) Kompositbestandteile mit eigenem Artikel erhalten den Vorzug über Kompositbestandteile, die nur in Artikeltexten zu finden sind

16 Vorverarbeitung Entfernung von nichtrelevanten Wörtern Query: atlantis mir koppeling eerste space shuttle aankoppeling tussen amerikaanse shuttle atlantis mir ruimte station Stemming (title:atlantis text:atlantis) (title:mir text:mir) (title:koppel text:koppel) (title:eerst text:eerst) (title:spac text:spac) (title:shuttl text:shuttl) (title:aankoppel text:aankoppel) (title:tuss text:tuss) (title:amerikan text:amerikan) (title:shuttl text:shuttl) (title:atlantis text:atlantis) (title:mir text.mir) (title:ruimt text:ruimt) (title:station text:station)

17 Ablauf (an einem Beispiel) 1. Schritt: Die Anfrage wird auf Wikipedia-Titel abgebildet Extraktion der Titel der Artikel, die zu einer Anfrage die höchsten Relevanzwerte (nach Vektormodell) erhalten haben 1a: Suche mit gesamter Query <title> Atlantis-Mir Koppeling <title> <desc> Vind documenten over de eerste space shuttle aankoppeling tussen de Amerikaanse shuttle Atlantis en het Mir ruimte station. <desc> Experimentelle Bestimmung der Anzahl der auszuwählenden höchstplatzierten Dokumente Problem: einige Anfrage-Ausdrücke kommen in den höchstplatzierten Dokumenten nicht vor und verschwinden dann aus der weiteren Liste für die endgültige Anfrage

18 Ablauf (an einem Beispiel) 1b: Suche nach einzelnen Termen der Query: Vermeidung des Problems von 1a Methoden zur Zuordnung von Titeln und Anfrage-Ausdrücken 1 LINKS Titel der höchstplatzierten Dokumente aus 1a und Links in den zugehörigen Dokumenten werden verwendet 2 CONTENTS Suche mit der gesamten Anfrage, höhere Gewichtung des eigentlichen Anfrage-Ausdrucks, Suche über Titel und ersten Absatz des Wikipedia-Artikel Folgende Konzepte (Titel von Artikeln) wurden durch Schritt 1a und 1b erkannt: America, Atlantis (disambiguation), Coupling, Mir, Mir (disambiguation), Russian Federal Space Agency, Shuttle, Space Shuttle Atlantis, Space Shuttle program, Station.

19 Ablauf (an einem Beispiel) 2. Schritt: 2a (optional): Anfrage-Expansion durch Verwendung von Redirect-Seiten Es werden auch die Titel verwendet, die per redirect auf jeweilige Seiten verweisen Beispiel: space shuttle atlantis atlantis (space shuttle), ov-104, shuttle atlantis, atlantis (space shuttle), atlantis (shuttle), ss atlantis, space shuttle atlantis, atlantis space shuttle 2b (optional): Gewichtung der Query höhere Gewichtung der Terme, die in 1a gefunden wurden Beispiel: space shuttle atlantis und mir (ruimtestation)

20 Ablauf (an einem Beispiel) 2c: Erzeugen der Endquery Verwendung der Links auf anderssprachige Artikel station ˆ1.0 stationˆ1.0 russian federal space agency ˆ1.0 russianˆ1.0 federalˆ1.0 spaceˆ1.0 agencyˆ1.0 mir ˆ1.0 mirˆ1.0 coupling ˆ1.0 couplingˆ1.0 america 0ˆ1.0 americaˆ1.0 shuttle ˆ1.0 shuttleˆ1.0 space shuttle program ˆ1.0 spaceˆ1.0 shuttleˆ1.0 programˆ1.0 space shuttle atlantis 0ˆ3.0 spaceˆ3.0 shuttleˆ3.0 atlantisˆ3.0 atlantis ˆ1.0 atlantisˆ1.0 ruimte ˆ1.0 ruimteˆ1.0 aankoppeling ˆ1.0 aankoppelingˆ1.0 mir ˆ3.0 mirˆ3.0

21 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

22 Ergebnisse Summary of runs (aus den Experimentdaten von CLEF 2004, 2005, 2006) Task ID Average (% Monolingual system) T NO WSD 72,71 % T LINKS 71,88 % T CONTENT 74,89 % T CONTENT W 72,70 % T + D NO WSD 68,98 % T + D LINKS 71,44 % T + D CONTENT 73,18 % T + D CONTENT W 74,98 %

23 Ergebnisse Language Results run 2008 MAP English(monolingial) French (66,86%) Spanish (64,02%) Dutch (59,82%)

24 Ergebnisse Tiefergehende Analyse eines Runs mit 50 Topics

25 Ergebnisse Nähere Betrachtung der Query-Vergleiche vom monolingualen zum cross-lingualen Ergebnis: Verbesserung der Performance: Topic 477 <top> <num> /477-AH </num> <title> Web Advertising</title> <desc> Find books about the distribution and impact of marketing campaigns on the World Wide Web / Internet. </desc> Beim Übersetzungsvorgang ist das Wort investment hinzu gekommen; Die Wörter internet und advertising haben bei der Übersetzung eine höhere Gewichtung bekommen.

26 Ergebnisse Verschlechterung der Performance: Topic 457 einige Übersetzungen der Queries sind falsch <top> <num> /457-AH </num> <title> La chasse au grand gibier en Afrique</title> <desc> Descriptions non fictives d expéditions de chasse au grand gibier en Afrique. </desc> wird übersetzt zu: <top> <num> /457-AH </num> <title> Big Game Hunting in Africa</title> <desc> Real-life descriptons of big game hunting expeditions in Africa. </desc>

27 Fazit und Weiterentwicklung Ansatz vielversprechend und verbesserungswürdig (im Hinblick auf Performance) Übersetzung von Eigennamen und Phrasen sehr gut Einsatz im Interactive CLIR möglich (Wikipedia-Konzepte (Titel von Artikeln) für Menschen gut verständlich) Weiterentwicklung bessere Nutzung der Wikipedia-Struktur (Kategorie-Seiten, Begriffserklärungsseiten (Disambiguierung), Interne Links) Filter für weniger relevante Konzepte Experimete für bessere Vorverarbeitung Optimierung der Query-Gewichtung andere Methoden zur Query-Expansion mit Wikipedia ausprobieren für gängige Wörter und Adjektive (mit Wikipedia schlecht zu übersetzen!) Resourcen wie EuroWordNet oder bilinguale Wörterbücher nutzten

28 Literatur Carstensen, Kai-Uwe (Hg.) (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung. München: Elsevier, Spektrum Akad. Verl.. Stock, Wolfgang G. (2007): Information Retrieval. Informationen suchen und finden. München / Wien: Oldenbourg. Cross language evaluation forum: D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong: WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, CLEF [letzter Zugriff: ]

29 Vielen Dank für die Aufmerksamkeit!

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Thema: Prototypische Implementierung des Vektormodells

Thema: Prototypische Implementierung des Vektormodells Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW) Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?

Mehr

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz 04_Evaluation Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz CLEF Cross Language Evaluation Forum Hervorgegangen aus dem Cross-Language Information Retrieval Task der Text

Mehr

Mehrsprachige Kategorisierung

Mehrsprachige Kategorisierung know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval

Mehr

Sprachübergreifendes Information Retrieval (CLIR)

Sprachübergreifendes Information Retrieval (CLIR) Sprachübergreifendes Information Retrieval (CLIR) Jannik Strötgen, Fabian Lorenzen jannikstroetgen@gmx.de, fabian@lorenzen.me.uk 30.01.2006 HS Information Retrieval WS 2005/06 K. Haenelt 30.01.06 1 Inhalt

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Entity Search. Michel Manthey Arne Binder 2013

Entity Search. Michel Manthey Arne Binder 2013 Entity Search Michel Manthey Arne Binder 2013 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen Idee Bisher: Suche nach Dokumenten, die

Mehr

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner Hauptseminar Information Retrieval S. Friedrich und M. Häsner 11. Januar 2010 1. Einleitung 2. QA-Modell 3. Modifikationen 4. Eigene Implementierung 5. Aktuell: Benutzer sucht Informationen und erhält

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt

Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt Anfertigen von wissenschaftlichen Arbeiten 1 Übersicht 1. Die Einleitung 2. Die Einführung 3. Der Inhalt 4. Experimente 5. Stand der Technik (Related Work) 6. Zusammenfassung Kurzfassung (Abstract) Anhang

Mehr

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006 Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

Modell und Implementierung einer temporalen Anfragesprache

Modell und Implementierung einer temporalen Anfragesprache Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Question Answering mit Support Vector Machines

Question Answering mit Support Vector Machines Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl {peter,guta,rosendahl}@i6.informatik.rwth-aachen.de Vorbesprechung 4. Aufgabe 2. Juni 2017 Human Language

Mehr

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER 2013 Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Hildesheim, 25. 26. April 2013 J. Griesbaum, B. Heuwing, J. Ruppenhofer, K. Werner

Mehr

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis:

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis: 5. Evaluation Motivation Wie evaluiert man die Effektivität eines IR-Systems? Zur Erinnerung: Werden die richtigen Dinge getan? Ideal: Ermittle die Zufriedenheit der Benutzer schwierig zu messen (z.b.

Mehr

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt Google Knowledge Graph Kursfolien Teil 2 Karin Haenelt 1.8.2015 Themen Systemübersicht Datengraph Aufbau Modellierung Auswertungen des Datengraphen Aufschlussreiche Beziehungen Retrievalbeispiele 2 Google

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

9. Dezember 2015 TEXT MINING. Sebastian Wack

9. Dezember 2015 TEXT MINING. Sebastian Wack 9. Dezember 2015 1 TEXT MINING Sebastian Wack 2 GLIEDERUNG Was ist Text Mining? Primitive Algorithmen Vorbereitungen Vektormodell Latent Semantic Indexing Clustering Nichtnegative Matrix Faktorisierung

Mehr

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer

Mehr

Automatische Textzusammenfasung

Automatische Textzusammenfasung Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

DPMAnutzerforum 2018

DPMAnutzerforum 2018 Neues aus der Hauptabteilung 2 - Information München, Hubert Rothe Deutsches Patent- und Markenamt www.dpma.de Übersicht DPMAdirektPro elektronischer Versand Projekt Neue Recherche Nutzung asiatischer

Mehr

Information Retrieval Einführung

Information Retrieval Einführung Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information

Mehr

Die Klassifikation von geographischen Anfragen in einem Query-Log

Die Klassifikation von geographischen Anfragen in einem Query-Log Thomas Mandl Informationswissenschaft Universität Hildesheim mandl@uni-hildesheim.de Fachgruppentreffen Fokussierte Suche Bamberg 8.5.2008 Die Klassifikation von geographischen Anfragen in einem Query-Log

Mehr

Deutsch Synonyme Worterbuch

Deutsch Synonyme Worterbuch Deutsch Synonyme Worterbuch 1 / 6 2 / 6 3 / 6 Deutsch Synonyme Worterbuch Synonyme in Deutschlands bestem Synonym-Wörterbuch finden 680492 Synonyme online Ähnliche Bedeutungen & sinnverwandte Wörter Wie

Mehr

Make your world simpler

Make your world simpler Automatische Vervollständigung von Wikipedia-Listen Make your world simpler Universität Freiburg Lehrstuhl für Algorithmen und Datenstrukturen Universität Freiburg Simon Skilevic, Robin Schirrmeister 26.4.2012

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Informationssuche ohne Sprachbarrieren

Informationssuche ohne Sprachbarrieren Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. Ludwig Wittgenstein Tractatus logico-philosophicus Informationssuche ohne Sprachbarrieren Christa Womser-Hacker Universität Hildesheim, Informationswissenschaft

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

Darstellung der Methodik in TREC und TREC-basierte Evaluierung Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz

Mehr

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features Humboldt-Universität zu Berlin 8. Mai 2008 1 2 logistic regression 3 Benutzer 4 Fazit 5 Quellen Was ist? is a suite of Java libraries for the linguistic analysis of human. Was ist? is a suite of Java libraries

Mehr

7th PhD Day. Term Translation with Domain Adaptation and Lexical knowledge. Mihael Arcan UNLP, Insight@NUI Galway

7th PhD Day. Term Translation with Domain Adaptation and Lexical knowledge. Mihael Arcan UNLP, Insight@NUI Galway 7th PhD Day Term Translation with Domain Adaptation and Lexical knowledge Mihael Arcan UNLP, Insight@NUI Galway Date: 25. 11. 2014 Introduction Motivation Issues with Term Translation with Statistical

Mehr

Dokumentclustering am Beispiel von Liedtexten

Dokumentclustering am Beispiel von Liedtexten Universität Heidelberg Seminar für Computerlinguistik Hauptseminar Information Retrieval WS09 Dr. Karin Haenelt Inhalt 1 2 3 4 5 Outline 1 2 3 4 5 Lieder thematisch gruppieren anhand der Liedtexte Ausgabe

Mehr

Literaturrecherche Mentoring für Lehrer

Literaturrecherche Mentoring für Lehrer Literaturrecherche Mentoring für Lehrer VU Empirische Methoden Ao.Univ.-Prof. Mag. DI Dr. Christian Schlögl Anna Winkelbauer 0212038 geplante Recherchestrategie Suchbegriff: Mentoring für Lehrer Datenbank:

Mehr

Sprache systematisch verbessern. Eugen Okon

Sprache systematisch verbessern. Eugen Okon Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch

Mehr

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme

Enterprise Search. Präsentation zur Seminararbeit. im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Enterprise Search Präsentation zur Seminararbeit im Seminar Moderne Entwurfsmethoden für Innovative Softwaresysteme Michael Hübschmann 14. Januar 2014 Betreuung: Dr. Hella Seebach Überblick 1. Motivation

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com MÜ Ansätze Zwei Dimensionen: Verarbeitungstiefe Art der verwendeten Technik Seite 2 Verarbeitunstiefe Seite

Mehr

KlassifikationsBrowser

KlassifikationsBrowser 2015.05 2016.06 2017.06 2016-05-26 by Kathleen Neumann Funktionsweise des KlassifikationsBrowser Table of contents 1 Klassifikationsbrowser...2 1.1 Konfiguration...2 1.2 Beispiel für Browsen nach Einrichtung...

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Information Retrieval. Domenico Strigari Dominik Wißkirchen Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Informationsextraktion. Christoph Wiewiorski Patrick Hommers Informationsextraktion Christoph Wiewiorski Patrick Hommers 1 Informationsextraktion(IE) - Einführung Ziel: Domänenspezifische Informationen aus freiem Text gezielt aufspüren und strukturieren Gleichzeitig

Mehr

GeoCLEF 2006: Cross-linguales geographisches Information Retrieval

GeoCLEF 2006: Cross-linguales geographisches Information Retrieval GeoCLEF 2006: Cross-linguales geographisches Information Retrieval Kerstin Bischoff, Thomas Mandl, Christa Womser-Hacker Informationswissenschaft, Universität Hildesheim Marienburger Platz 22 D-31141 Hildesheim,

Mehr

Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1,

Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1, Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1, 22.9.2015 Inhalt der Schulung Repetition (mit Übung) Suchstrategien und Suchregeln ETH-Bibliothek, Wissensportal Datenbanken, Fachinformationen

Mehr

Modul 1: Wege in die digitale Welt

Modul 1: Wege in die digitale Welt Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 1: Wege in die digitale Welt Martin Volk volk@cl.uzh.ch Themen in diesem Modul 1. Was verstehen wir unter Digital Humanities?

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Semantische Suche in Zeitungsartikeln

Semantische Suche in Zeitungsartikeln 6. Oktober 2011 1 2 3 4 5 6 Motivation Ziel Teilaufgaben Im Internet finden sich viele Nachrichtenseiten Für die Suche auf diesen Seiten wird meißt Volltextsuche verwendet Suche nach Vorkommen der Suchbegriffe

Mehr

Semantik und Pragmatik

Semantik und Pragmatik Semantik und Pragmatik SS 2005 Universität Bielefeld Teil 4, 6. Mai 2005 Gerhard Jäger Semantik und Pragmatik p.1/35 Prädikatenlogik: atomare Formeln Syntax JO, BERTIE, ETHEL, THE-CAKE... sind Individuenkonstanten

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Effizienzsteigerung durch Kooperation?

Effizienzsteigerung durch Kooperation? Effizienzsteigerung durch Kooperation? die vascoda- Suchmaschinenföderation Ben Burkard (hbz) 98. Deutscher Bibliothekartag 02.-06.06.2009 Gliederung I. vascoda II. Warum Suchmaschinentechnologie? III.Zentrale

Mehr

Britannica Academic Edition

Britannica Academic Edition Britannica Academic Edition Umfangreichste englischsprachige Allgemein- Enzyklopädie Aktuelle und verständliche Informationen von hoher Qualität über 100.000 neue und aktualisierte Artikeln Suchanforderungen

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur

Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur Workshop UKP Lab DIPF Knowledge Discovery 02. August 2012 Dr. Judith Eckle-Kohler Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur In Teilen

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Multilinguales Information Retrieval

Multilinguales Information Retrieval Multilinguales Information Retrieval Ruprecht-Karls Karls-Universität Heidelberg Lehrstuhl für Computerlinguistik Referat zum HS Information Retrieval WS 2002/2003 Leitung: Dr. Karin Haenelt Referentinnen:

Mehr

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche know-how innovation BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche 05.09.2018, Adriano Meyer Broyn solution Zielsetzungen Zusammenspiel von Titeln und Inhaltserschliessung besser verstehen.

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu. Hauptseminar: Informationsextraktion aus biographische Kontexten

Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu. Hauptseminar: Informationsextraktion aus biographische Kontexten Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu Hauptseminar: Informationsextraktion aus biographische Kontexten Dozenten: Prof. Dr. Franz Guenthner Michaela Geierhos Centrum für Informations-

Mehr

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014 Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen

Mehr

Praktischer Teil des Seminars. Gruppe C Sebastian Raßmann Christian Michele

Praktischer Teil des Seminars. Gruppe C Sebastian Raßmann Christian Michele Praktischer Teil des Seminars Gruppe C Sebastian Raßmann Christian Michele Aufgabenstellung 6 Aufgaben: DTF vs. DTF max. 5 DL vs. CORI 5 DTF: BM 25 vs. TF.IDF CORI: nur BM25 nur DTF: c=1 vs. c=0.5 nur

Mehr

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus: RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch

Mehr

Informationsextraktionssystem ANNIE

Informationsextraktionssystem ANNIE Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 10/11 Inhalt 1 Einführung: Informationsextraktion Begriffsklärung eines Informationsextraktionssystems 2 Einführung in Getting Started

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Gemeinsame Wissensverwaltung per Wiki

Gemeinsame Wissensverwaltung per Wiki Gemeinsame Wissensverwaltung per Wiki Vom (Semantic-)MediaWiki-Einsatz bei Lebensmittelretten Dresden und im StuRa der HtwDresden bis zu Wiki-Erweiterungen Referenten: P. Pietsch und N. Schwirz Gemeinsame

Mehr

LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite

LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel AGMB-Tagung Basel, 08.09.2015 MEDPILOT und GREENPILOT schließen einen Bund fürs Leben: LIVIVO Interdisziplinäre Literatursuche: Datenquellen

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul B-GSW-12 SoSe 2018

Prof. Dr. Udo Hahn. Seminar im Modul B-GSW-12 SoSe 2018 Seminar im Modul B-GSW-12 SoSe 2018 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Seminar Informationsvisualisierung

Seminar Informationsvisualisierung Seminar Informationsvisualisierung Thema: Seminar Dozent: Dr. Dirk Zeckzer zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung Umfang: 2 Prüfungsfach: Modul Fortgeschrittene Computergrafik

Mehr

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version:

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version: BIW Wahlpflichtmodul Einführung in trec_eval Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2017-06-19 2 Was erwartet Sie heute? Kurze Wiederholung von Precision, Recall,

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr