Information Retrieval. Peter Kolb

Größe: px
Ab Seite anzeigen:

Download "Information Retrieval. Peter Kolb"

Transkript

1 Information Retrieval Peter Kolb

2 Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation Relevance feedback, Anfrageerweiterung Fortgeschrittene Retrievalmodelle

3 Semesterplan 2 Textkategorisierung Clustering Informationsextraktion Question Answering

4 Organisatorisches Semesterplan Literaturhinweise benoteter Schein Übungsaufgaben Klausur

5 Anwendungsgebiete der CL Spracherkennung, Dialogsysteme Lexikographie, E-Learning CAT, MÜ Information Retrieval

6 Was ist Information Retrieval? inhaltliche Suche in elektronischen Datenbeständen unstrukturierte Daten relevante Dokumente finden IR-System = Suchmaschine

7 (un)strukturierte Daten unstrukturierte Daten strukturierte Daten Text Bilder, Sprache (Audio), Videos relationale Datenbank XML Semantic Web: unstrukturiert strukturiert

8 IR-Prozess Informationsbedürfnis Anfrage Suche im Index Sortierung nach Relevanz Anzeige der gefundenen Dokumente Verfeinerung der Suche

9 Informationsbedürfnis bekanntes Dokument wiederfinden Dokumente zu bekanntem Thema finden Was gibt es? explorative Suche

10 Informationsbedürfnis Finde Webseiten mit Informationen über CL Studiengänge an Unis im deutschsprachigen Raum. Relevante Seiten müssen den Namen der Uni, die Bezeichnung des Studiengangs und die Art des möglichen Abschlusses enthalten.

11 Anfrage Computerlinguistik Universität Studiengang Studienmöglichkeit Abschluss Diplom Magister Bachelor Master

12 erweiterte Anfrage (Computerlinguistik OR linguistische Informatik ) AND Universität AND (Studiengang OR Studienmöglichkeit) AND (Abschluss OR Diplom OR Magister OR Bachelor OR Master) AND site:.de,.at,.ch

13 Komponenten IR-System

14 Ergebnisanzeige Liste

15 Ergebnisanzeige graphische Cluster

16 Ergebnisanzeige interaktiver Baum

17 Manuelle Indexierung Stichwortverzeichnis Konkordanz Verschlagwortung Kategoriensystem

18 Manuelle Indexierung

19 elektronische Datenbestände seit den 1960er Jahren

20 elektronische Datenbestände Internet (WWW) außerdem: (online) Datenbanken PC Intranet CD-ROM

21 Text im Internet herkömmlicher Text News private und kommerzielle Präsenz Blogs Foren Wikis...

22 Datenbanken Gesetze, Gerichtsurteile Patente, Marken Warenkataloge, Bücher Forschungsliteratur Jobs Filmkritiken (

23 beispielhafte IR-Systeme Internet-Suchmaschine OPAC Desktop-Suchmaschine Encarta-CD-ROM

24 IR-Anwendungen inhaltliche Erfassung von Text Dokumente finden ähnliche Dokumente finden Dokumente klassifizieren, (ein)sortieren, weiterleiten, filtern crosslinguales IR Informationen sammeln/vervollständigen Fragen beantworten

25 NLP im IR Volltextsuche: NLP wenig erfolgreich IR NLP, CL viele Möglichkeiten für NLP: Entities disambiguieren & clustern, Semantic Web Multidocument summarization Meinungsanalyse Fragen beantworten

26 Volltextsuche keine Auswahl von Schlagwörtern alle Wörter im Text indexieren Indexterme invertierter Index

27 Volltextsuche invertierter Index Suche Terme Dokumente Liste aller Indexterme Indexterm Vorkommen Dokument Position Häufigkeit

28 Liste aller Indexterme deutsche Wikipedia: XML-Datei 2,5 Gigabyte ca Artikel 210 Millionen laufende Wortformen 4,5 Millionen Types (Indexterme)

29 Liste aller Indexterme sollte in den Hauptspeicher passen Datenstrukturen Hash Trie Wörter in 17 Megabyte Suchzeit abhängig von Wortlänge, nicht von Anzahl der Wörter im Lexikon

30 Liste aller Indexterme Datenstruktur Trie

31 invertierter Index Indexterm Vorkommen Vorkommen: Dokument Position Häufigkeit im Dokument unkomprimierter Index so groß wie Originaltexte Index auf Massenspeicher

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Information Retrieval. Überblick

Information Retrieval. Überblick Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

! Die Idee Kombination von Informatik und einem anderen Fach

! Die Idee Kombination von Informatik und einem anderen Fach Computerlinguistik Integriertes Anwendungsfach im B.Sc.Studiengang Department Informatik / Universität Hamburg! Wie funktioniert das integrierte Anwendungsfach Computerlinguistik (organisatorisch)?! Beziehungen

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer -

Datenbank-Recherche. SS Veranstaltung 16. April Philipp Mayr - Philipp Schaer - Datenbank-Recherche SS 2015 2. Veranstaltung 16. April 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer -

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer - Datenbank-Recherche SS 2014 2. Veranstaltung 10. April 2014 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Vorstellung

Mehr

Modell und Implementierung einer temporalen Anfragesprache

Modell und Implementierung einer temporalen Anfragesprache Modell und Implementierung einer temporalen Anfragesprache Seminar Information Retrieval WS 2010/11 Agenda Motivation Hintergrund Modell der temporalen Anfragesprache Implementierung der temporalen Anfragesprache

Mehr

Information Retrieval

Information Retrieval Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3

Mehr

<is web> Information Systems & Semantic Web

<is web> Information Systems & Semantic Web Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile

Mehr

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Webarchiv Schweiz. Ausbildung, Teil 1: Sammeln. 8. und 14. März 2007 Silvia Hofmann / Jean-Philippe Accart

Webarchiv Schweiz. Ausbildung, Teil 1: Sammeln. 8. und 14. März 2007 Silvia Hofmann / Jean-Philippe Accart Webarchiv Schweiz Ausbildung, Teil 1: Sammeln 8. und 14. März 2007 Einige Fragen vorweg: 1. Was ist das Internet? 2. Was findet man im WWW? 3. Wie wird das WWW genutzt? 4. Wie findet man die gesucht Information?

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Suchmaschinentechnologie

Suchmaschinentechnologie Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2

Mehr

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten Semantische Suche und Visualisierung von biomedizinischen Relationsdaten Johannes Hellrich Jena University Language & Information Engineering Lab Friedrich-Schiller-Universität Jena Tagung der Computerlinguistik-Studierenden,

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Inhaltsverzeichnis. Kurzfassung. Abstract

Inhaltsverzeichnis. Kurzfassung. Abstract Inhaltsverzeichnis Kurzfassung Abstract Inhaltsverzeichnis iii v vii 1 Einleitung 1 1.1 Problemstellung und Einordnung der Arbeit 1 1.2 Lösungsansatz 7 L3 Verwandte Arbeiten S 1.3.1 Datenbank-Suchmaschmen

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Suchmaschinen im Internet

Suchmaschinen im Internet Michael Glöggler Suchmaschinen im Internet Funktionsweisen, Ranking Methoden, Top Positionen Mit 47 Abbildungen und 25 n Springer Inhaltsverzeichnis 1 Überblick Suchdienste im World Wide Web 1 1.1 Webkataloge

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot Lehrangebot Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr N. Fuhr, U. Duisburg-Essen Lehrangebot 1 Lehrangebot des FG Informationssysteme Datenbanken Internet-Suchmaschinen Information Retrieval

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Modul Modul Information Retrieval (IR 4) Was erwartet Sie? Etwas Neues. Wenig Unterhaltung aber Einblick in Zusammenhänge

Modul Modul Information Retrieval (IR 4) Was erwartet Sie? Etwas Neues. Wenig Unterhaltung aber Einblick in Zusammenhänge Winfried Gödert Klaus Lepsky Modul Modul Information Retrieval (IR 4) Was erwartet Sie? Etwas Neues Wenig Unterhaltung aber Einblick in Zusammenhänge Viele Anregungen zum Nachdenken und selbstständigen

Mehr

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7.  Mathias Lux Caliph & Emir Retrieval und Annotation von digitalen Photos mit MPEG-7 Mathias Lux mlux@know-center.at - gefördert durch das Kompetenzzentrenprogramm Overview Einleitung Geschichtliches Annotation mit

Mehr

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006 Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

Klausur. Universität Augsburg, Institut für Informatik Sommersemester 2007 Prof. Dr. Werner Kießling 21. Juli (Suchmaschinen) Hinweise:

Klausur. Universität Augsburg, Institut für Informatik Sommersemester 2007 Prof. Dr. Werner Kießling 21. Juli (Suchmaschinen) Hinweise: Universität Augsburg, Institut für Informatik Sommersemester 2007 Prof. Dr. Werner Kießling 21. Juli 2007 Dr. A. Huhn Datenbanksysteme II (Suchmaschinen) Klausur Hinweise: Die Bearbeitungszeit beträgt

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Multimedia-Datenbanken im SS 2010 Einführung in MMDB Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe

Mehr

ADS: Algorithmen und Datenstrukturen 1

ADS: Algorithmen und Datenstrukturen 1 ADS: Algorithmen und Datenstrukturen 1 Teil 13 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Information Retrieval

Information Retrieval Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche

Mehr

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche know-how innovation BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche 05.09.2018, Adriano Meyer Broyn solution Zielsetzungen Zusammenspiel von Titeln und Inhaltserschliessung besser verstehen.

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Monitor Digitale Bildung Studierende. Willkommen. 1. Ich habe zur Kenntnis genommen, dass die Befragung anonym und freiwillig ist.

Monitor Digitale Bildung Studierende. Willkommen. 1. Ich habe zur Kenntnis genommen, dass die Befragung anonym und freiwillig ist. Willkommen Liebe Studentinnen und Studenten, das MMB-Institut für Medien- und Kompetenzforschung führt im Auftrag der gemeinnützigen Bertelsmann Stiftung eine wissenschaftliche Studie zum Stand und zur

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Informationserschließung und Automatisches Indexieren

Informationserschließung und Automatisches Indexieren X.media.press Informationserschließung und Automatisches Indexieren Ein Lehr- und Arbeitsbuch Bearbeitet von Winfried Gödert, Klaus Lepsky, Matthias Nagelschmidt 1. Auflage 2011. Buch. xiv, 434 S. Hardcover

Mehr

Anwendungen der KI / SoSe 2018

Anwendungen der KI / SoSe 2018 Anwendungen der KI / SoSe 2018 Organisatorisches Prof. Dr. Adrian Ulges Angewandte Informatik / Medieninformatik / Wirtschaftsinformatik / ITS Fachbereich DSCM Hochschule RheinMain KursWebsite: www.ulges.de

Mehr

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und

Mehr

Modulbeschreibung Wirtschaftsingenieurwesen Fakultät Betriebswirtschaft und Wirtschaftsingenieurwesen. Inhaltsverzeichnis. Badstr Offenburg

Modulbeschreibung Wirtschaftsingenieurwesen Fakultät Betriebswirtschaft und Wirtschaftsingenieurwesen. Inhaltsverzeichnis. Badstr Offenburg Badstr. 24 77652 Offenburg Fakultät Betriebswirtschaft und Wirtschaftsingenieurwesen Seite 1 von 5 Inhaltsverzeichnis WI-34 Information und Kommunikation 2 (IK2) 2 7210 Web-Technologien 5 7220 Data-Warehousing

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Information Retrieval

Information Retrieval 1 Information Retrieval Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisatorisches Vorlesung, Übungen und Projektarbeit Vorlesung Montag, 11:45-13:15 (3. Stunde) im Raum 7110 Übung / Projektarbeit

Mehr

Modulhandbuch für das BA Kombinationsfach Angewandte Informatik Multimedia

Modulhandbuch für das BA Kombinationsfach Angewandte Informatik Multimedia Modulhandbuch für das BA Kombinationsfach Angewandte Informatik Multimedia Kenntnisse im Programmieren für das World Wide Web mit der Programmiersprache JAVA werden vermittelt, ebenso das Erstellen von

Mehr

Suchen im WWW. Einführung

Suchen im WWW. Einführung Suchen im WWW Einführung 1 Das World Wide Web 1990 von Tim Berners-Lee in CERN entwickelt, um im Internet verfügbare Forschungsdokumente zu organisieren. Verbindet zur Verlinkung von Dokumenten die Idee

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Einführung in Datenbanksysteme +++ Datenbanken für Bioinformatiker

Einführung in Datenbanksysteme +++ Datenbanken für Bioinformatiker Einführung in Datenbanksysteme +++ Datenbanken für Bioinformatiker Annika Hinze hinze@inf.fu-berlin.de Freie Universität Berlin SS 2002 Kursinformationen: Termine Zielgruppe: - InformatikerInnen (gesamter

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie Nebenfach/Anwendungsfach Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Einführung in Apache Solr

Einführung in Apache Solr Einführung in Apache Solr Markus Klose & Daniel Wrigley O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo Inhalt Vorwort IX Einleitung XI 1 Schnelleinstieg in Solr 1 Was ist Solr? 1 Was ist Lucene?

Mehr

Datenbanken & Informationssysteme (WS 2016/2017)

Datenbanken & Informationssysteme (WS 2016/2017) Datenbanken & Informationssysteme (WS 2016/2017) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)

Mehr

Mobiles Tagging für f r die Bibliothek

Mobiles Tagging für f r die Bibliothek Social Software in Theorie und Praxis: 7. Hildesheimer Evaluierungs- und Retrieval (HIER) Workshop 20. Februar2008 Mobiles Tagging für f r die Bibliothek Ben Heuwing Studiengang Internationales Informationsmanagement

Mehr

Ausblick über den Tellerrand

Ausblick über den Tellerrand Institute for Web Science & Technologies WeST Grundlagen der Datenbanken über den Tellerrand Dr. Thomas Gottron Wintersemester 2012/13 Column Stores Thomas Gottron GLDB 2012/13 2 Row Stores Wir haben betrachtet:

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Akademisches Lehrmaterial online

Akademisches Lehrmaterial online Akademisches Lehrmaterial online Christian Weber cweber@akleon.de Entstanden im Rahmen des DFN-Projekts META-AKAD gefördert mit Mitteln des BMBF Mitwirkende an der TU Kaiserslautern Universitätsbibliothek

Mehr

Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE

Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über GOOGLE Detlef Görlitz www.physik.uni hamburg.de Die Suche nach wissenschaftlicher Information in der Physik - nicht nur über

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Wissenslandkarten. Erik Pischel. 20. Juni 2001

Wissenslandkarten. Erik Pischel. 20. Juni 2001 Wissenslandkarten Erik Pischel 20. Juni 2001 Gliederung 1. Definitionen 2. Dokumentenlandkarten mit DocMINER 3. Wissenslandkarten mit BibTechMon 4. Zusammenfassung.06.2001 Institut für Informatik, HU-Berlin

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

Kapitel IR:II (Fortsetzung)

Kapitel IR:II (Fortsetzung) Kapitel IR:II (Fortsetzung) II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-20 Basics STEIN 2005-2010 Die klassischen Dokumentmodelle abstrahieren ein Dokument auf eine

Mehr

NoSQL-Datenbanken. Kapitel 0: Organisatorisches. Dr. Anika Groß Sommersemester Universität Leipzig

NoSQL-Datenbanken. Kapitel 0: Organisatorisches. Dr. Anika Groß Sommersemester Universität Leipzig NoSQL-Datenbanken Kapitel 0: Organisatorisches Dr. Anika Groß Sommersemester 2017 Universität Leipzig http://dbs.uni-leipzig.de 0-1 Organisatorisches Vorlesungstermin Donnerstag, 9:15-10:45 Uhr, HS 19

Mehr

Gerard Salton Michael J.McGill Information Retrieval - Grundlegendes für Informationswissenschaftler

Gerard Salton Michael J.McGill Information Retrieval - Grundlegendes für Informationswissenschaftler Gerard Salton Michael J.McGill Information Retrieval - Grundlegendes für Informationswissenschaftler McGraw-Hill Book Company GmbH Hamburg New York St. Louis San Francisco Auckland Bogota Guatemala Lissabon

Mehr

Das Leben der Anderen

Das Leben der Anderen Das Leben der Anderen Twitter-Analyse mit Oracle12c, JSON und APEX Carsten Czarski Business Unit Database Oracle Deutschland B.V. & Co KG About: Carsten Czarski 1973 München Verheiratet zwei Kinder ORACLE

Mehr

Einführung in die Praktische Informatik WS 09/10

Einführung in die Praktische Informatik WS 09/10 Einführung in die Praktische Informatik WS 09/10 Prof. Dr. Christian Sengstock Institut für Informatik Neuenheimer Feld 348 69120 Heidelberg http://dbs.ifi.uni-heidelberg.de sengstock@informatik.uni-heidelberg.de

Mehr

Corporate Blogs im Wissensmanagement

Corporate Blogs im Wissensmanagement Corporate Blogs im Wissensmanagement Isabella Peters Heinrich-Heine-Universität Düsseldorf Abteilung für Informationswissenschaft Web 2.0 im Wissensmanagement Isabella Peters Heinrich-Heine-Universität

Mehr

Data-Warehouse-Praktikum

Data-Warehouse-Praktikum Data-Warehouse-Praktikum WS 18/19 Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm V. Christen, M. Franke, Z. Sehili {christen, franke, sehili}@informatik.uni-leipzig.de

Mehr

FOR JURISTEN 2. Auflage

FOR JURISTEN 2. Auflage Norman Muller Martin Schallbruch PC-RATGEBER Textverarbeitung Datenbanken Internet FOR JURISTEN 2. Auflage de Gruyter Inhaltsverzeichnis 1 DER WEG ZUM RICHTIGEN PC 1 1.1 Juristische Arbeit im Wandel 1

Mehr

1 Information Retrieval Grundlagen

1 Information Retrieval Grundlagen 1. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Lösungsvorschlägen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 01. November 2007 1 Information Retrieval

Mehr