Information Retrieval

Größe: px
Ab Seite anzeigen:

Download "Information Retrieval"

Transkript

1 Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag

2 Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden Einführende Beispiele... 3 Literatursuche Recherche in einer Literaturdatenbank... 7 Faktendatenbanken und -retrieval H ypertext-lnformationssysteme Expertensysteme Management-lnformationssysteme Data Mining Kategorisierung mit einem Data-Mining-System... Assoziative Regeln und der Warenkorb Wissensgewi n n u ng und Information Retrieva I Grundlagen Informationsübertragung Datenübertragung Komplexere Übertragungsbeispiele Dialoge, Information Retrieval Daten, Wissen, Information Struktur eines Information-Retrieval-Systems Information Retrieval: Definition und Abgrenzung Klassische Information-Retrieval-Verfahren Boolesches Retrieval Logik des booleschen Retrieval Boolesches Retrieval für Textdokumente Implementierung mit invertierten Listen Erweiterungen Zeichenketten, Wörter und Konzepte Reduktion von Wörtern auf ihre Grundformen Lexikografische Grundformenreduktion nach Kuhlen Lexikonbasierte Morphologie-Analyse Auflösen von Mehrdeutigkeiten Klassifikationen

3 E Inhaltsverzeichnis Internationale Dezimalklassifikation Erweiterte Klassifikationssysteme Thesauren Semantische Netze Das Vektorraummodell Das Modell Vektorraummodell und boolesches Retrieval Gewichtungsmethoden Globale Gewichtungseinflüsse Lokale Gewichtungseinflüsse Relevance Feedback Ähnlichkeitsfunktionen Das Retrieval-System SMAR Bewertung und Vergleich von I Einflussfaktoren Relevanz Precision und Recall Mittelwertbildungen Testkollektionen Die TREC-Experimente I I Wissensgewinnung mit Data-Mining-Methoden Lernen Lernen als lnformationsverarbeitung Automatisches Lernen aus Beispielen Faktendatenbanken Kategorisieren Attribute und Kategorien Trainings- und Testmenge Lernparadigmen Der ID3-Algorithmus Formale Beschreibung des ID3-Algorithmus Kategorisieren mit dem ID3-Algorithmus Rahmenbedingungen für Lernalgorithmen Konsistenz Größe von Ents sbäumen Wertebereiche der Attribute Bewertung von Kategorisierungsergebnissen Inkonsistente Trainingsdaten Unvollständige Beispiele Größe und Repräsentativität der Trainingsmenge lnkrementelles Lernen

4 Inhaltsverzeichnis Overfitting Suchstrategien Einfache Regelsysteme Entscheidungslisten Ripple-down-Regelmengen Top-down- und Bottom-up-Methoden Der AQ-Algorithmus Generalisierungsoperationen Regelsysteme mit zusammengesetzten Attributen Multivariate Entscheidungsbäume Attributauswahl Sequenzielle Elimination und Auswahl Verteilungsbasiertes Eliminationsverfahren Das CART-Verfahren Koeffizientenbestimmung Evaluierung... 6 Cluster und unscharfe Mengen Cluster Unscharfe Mengen Assoziative Regeln Warenkorbmodell DBLearn/DBMiner Ein komplexeres Beispiel Problemstellung Lösungsansätze Verfahren Durchführung und Bewertung I II Erweiterte Retrieval-Ansätze Das Vektorraumrnodell als Fuzzy-Set-Ansatz Verallgemeinerte boolesche Verfahren Das MMM-Modell Das Paice-Modell Das P-Norm-Modell Der probabilistische Retrieval-Ansatz Wahrscheinlichkeiten in endlichen Mengen Beispiel: Würfel Abschätzung des Retrieval-Status-Werts Die Robertson-Sparck-Jones-Formel

5 Ix- Inhaltsverzeichnis 11 Logikbasierte Modelle des Information Retrieval lmaging Bayessche lnferenznetze Abduktive Anfrageoptimierung Erfolgreiche TREC-Systeme Die TREC-3-Ergebnisse von SMART Die TREC-CErgebnisse von SMART Ein Spreading-Activation-Modell INQUERY in TREC Das Okapi-System Spezialaufgaben (TREC Tracks) Korpusbasierte Verfahren Der assoziative Ansatz im IR Kookurrenzverfahren Ein Mach i ne- Learni ng-a Term-Term-Matrizen Anwendung im IR Häufigkeit der Terme Expansion von Termen oder Anfragen Größe der Dokumentensammlung Eine Untersuchung zur Bestimmung von Suchtermen Komplexere Kookurrenzverfahren Anwendung im mehrsprachigen Retrieval Deckriptoren bestimmen Latent Semantic lndexing Gewichtungsmethoden Lernen Social oder Collaborative Filtering IV Information Retrieval und das Web Explizit strukturierte Dokumente Standard Generalized Markup Language (SGML) SGML-Elemente Elementattribute SGML-Entities HTML XML Schema XPath, X Suche nach und in XML-Dokumenten Anwendungen von XML bei der Suche lndexierungsmethoden

6 Inhaltsverzeichnis Xi I Modelle für die Suche in XML-Dokumenten Ein Vektorraummodell für strukturierte Anfragen an Sammlungen von XML-Dokumenten Suche bei unterschiedlichen DTDs Metadaten Dublin-Core-Metadaten Hierarchisch strukturierte Metadaten PlCs RDF und das Semantische Web Resource Description Framework Pläne für ein Semantisches Web Suche im World Wide Web Das Web als Dokumentensammlung Medienarten Sprache Länge un ularität Dynamik und Alter von Web-Seiten Anbieter und ihre Ziele Zielgruppen Inhalte Spamming Suchmechanismen der Web-Protokolle Hierarchische Verzeichnisse oder Web Directories Klassifikation des Open Directory Project Web-Suchmaschinen Web-Roboter, Crawler oder Spider Ranking-Strategien Ranking nach externen Daten Metasuchdienste Spezialisierte und verteilte Sammlungen Der Z39.50-Standard Beispiele verteilter Sammlungen Peer-to-Peer-Netze Digitale Bibliotheken Inhalte einer digitalen Bibliothek Dienste Archivierung Literaturverzeichnis Index

Information Retrieval. Überblick

Information Retrieval. Überblick Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

XML und Datenmodellierung

XML und Datenmodellierung Rainer Eckstein Silke Eckstein XML und Datenmodellierung XML-Schema und RDF zur Modellierung von Daten und Metadaten einsetzen dpunkt.verlag VII Inhaltsverzeichnis Vorwort v 1 Einleitung 1 1.1 Aufbau 2

Mehr

INFORMATION RETRIEVAL

INFORMATION RETRIEVAL INFORMATION RETRIEVAL Probabilistisches Modell Vortrag von David Wittum zum Hauptseminar Information Retrieval von Dr. Karin Haenelt Gehalten am 25.01.2010 ÜBERBLICK 1. Kurze Wiederholung: Berechnungsaufgaben

Mehr

Inhaltsverzeichnis. Kurzfassung. Abstract

Inhaltsverzeichnis. Kurzfassung. Abstract Inhaltsverzeichnis Kurzfassung Abstract Inhaltsverzeichnis iii v vii 1 Einleitung 1 1.1 Problemstellung und Einordnung der Arbeit 1 1.2 Lösungsansatz 7 L3 Verwandte Arbeiten S 1.3.1 Datenbank-Suchmaschmen

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

XML und Datenmodellierung

XML und Datenmodellierung xml.bibliothek XML und Datenmodellierung XML-Schema und RDF zur Modellierung von Daten und Metadaten einsetzen von Rainer Eckstein, Silke Eckstein 1. Auflage XML und Datenmodellierung Eckstein / Eckstein

Mehr

VZG. Das Simple Knowledge Organisation System (SKOS) als Kodierungs und Austauschformat der DDC für Anwendungen im Semantischen Web 1.3.

VZG. Das Simple Knowledge Organisation System (SKOS) als Kodierungs und Austauschformat der DDC für Anwendungen im Semantischen Web 1.3. Das Simple Knowledge Organisation System (SKOS) als Kodierungs und Austauschformat der DDC für Anwendungen im Semantischen Web Verbundzentrale des GBV () Jakob Voß 1 Gliederung SKOS & Semantic Web Datenanalyse

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht Semantic Markup für die Dokumentenklassifizierung Seminarvortrag von Mirko Pracht Ziel des Vortrags Aufbau digitaler Bibliotheken Verbesserung Informationssuche Semantic Markup Gliederung 1. Grundlagen

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus Document Engineering Langzeitarchivierungsaspekte im enlebenszyklus Motivation Disziplin der Computer Wissenschaft, welche Systeme für e aller Formen und Medien erforscht. enlebenszyklus en Management

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden

Mehr

Kompendium semantische Netze

Kompendium semantische Netze Klaus Reichenberger Kompendium semantische Netze Konzepte, Technologie, Modellierung Inhaltsverzeichnis 1 Warum dieses Buch? 1 1.1 Was erwartet Sie in diesem Buch? I 2 Grundlagen semantischer Netze 3 2.1

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Open Archives. Gudrun Fischer Universität Duisburg-Essen

Open Archives. Gudrun Fischer Universität Duisburg-Essen Open Archives Gudrun Fischer Universität Duisburg-Essen Inhalt Harvesting-Protokoll Archive Services OAI für die Informatik Implementierung 2004-09-30 Gudrun Fischer: Open Archives 2 Open Archives Protocol

Mehr

Recherche wissenschaftlicher Publikationen

Recherche wissenschaftlicher Publikationen Reihe: Wirtschaftsinformatik Band 58 Herausgegeben von Prof. Dr. Dietrich Seibt, Köln, Prof. Dr. Hans-Georg Kemper, Stuttgart, Prof. Dr. Georg Herzwurm, Stuttgart, Prof. Dr. Dirk Stelzer, Ilmenau, und

Mehr

Zusammenfassung XML. Metasprache um Dokumenttypen zu definieren

Zusammenfassung XML. Metasprache um Dokumenttypen zu definieren 1. XML Grundbegriffe XML = extensible Markup Language Metasprache um Dokumenttypen zu definieren XML Baum

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Entscheidungs- und Spieltheorie

Entscheidungs- und Spieltheorie H. Bühlmann H. Loeffel E. Nievergelt Entscheidungs- und Spieltheorie Ein Lehrbuch für Wirtschaftswissenschaftler Mit 121 Figuren Springer-Verlag Berlin Heidelberg NewYork 1975 Inhaltsverzeichnis 1. Teil;

Mehr

Swoogle. Patrice Matthias Brend amour

Swoogle. Patrice Matthias Brend amour Swoogle Finding and Ranking Knowledge on the Semantic Web Patrice Matthias Brend amour Fachbereich Informatik und Informationswissenschaft Universität Konstanz Kurs: Web Services and Semantic Web Datum:

Mehr

Semantic Web: Das Web der nächsten Generation

Semantic Web: Das Web der nächsten Generation Semantic Web: Das Web der nächsten Generation Slim Abdennadher LMU München 8.2.2002 c S. Abdennadher 1 Einleitung Rechner erfunden als Werkzeug zur Durchführung von Berechnungen Dann entdeckt als Werkzeug

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

GRDDL, Microformats, RDF/A

GRDDL, Microformats, RDF/A GRDDL, Microformats, RDF/A Daniel Schmitzer Daniel Schmitzer 1 Gliederung Einleitung GRDDL Funktionsweise Anwendungsbeispiel Anwendungen und Tools Microformats Was sind Microformate Beispiel RDF/A Was

Mehr

Information Retrieval

Information Retrieval Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Semantic Technologies

Semantic Technologies Semantic Technologies Proseminar Künstliche Intelligenz Universität Ulm Mario Volke 15. Juli 2008 1 / 32 Inhaltsverzeichnis 1 Einführung 2 3 Schlusswort 2 / 32 Einführung Motivation DEMO Who was president

Mehr

Linked Open Data in Musikbibliotheken. am Beispiel des RISM-OPAC. AIBM-Tagung bis in Nürnberg

Linked Open Data in Musikbibliotheken. am Beispiel des RISM-OPAC. AIBM-Tagung bis in Nürnberg Linked Open Data in Musikbibliotheken am Beispiel des RISM-OPAC AIBM-Tagung 23.9. bis 26.9.2014 in Nürnberg Magda Gerritsen, Bayerische Staatsbibliothek Agenda 1. Was ist Linked Open Data (LOD)? 2. LOD

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Semantic-Web-Sprachen XML, RDF (und RDFS), OWL

Semantic-Web-Sprachen XML, RDF (und RDFS), OWL Semantic-Web-Sprachen XML, RDF (und RDFS), OWL PTI 991 Wissensmanagementsystemen Dozent: Prof. Sybilla Schwarz 1 Agenda Problem Semantisches Web Semantische Sprache XML RDF RDFS OWL Zusammenfassung 2 Problem

Mehr

Metadaten im Kontext intelligenter Information

Metadaten im Kontext intelligenter Information Metadaten im Kontext intelligenter Information DocMuc 2018 München, 2018-06-21 Dr. Stefan Bradenbrink, PANTOPIX GmbH & Co. KG Ziele des Vortrags Was sind Metadaten? Wofür werden Metadaten eingesetzt? Wie

Mehr

The Lemur Toolkit for Language Modeling and Information Retreival

The Lemur Toolkit for Language Modeling and Information Retreival The Lemur Toolkit for Language Modeling and Information Retreival Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 2006/2007 Dozentin: PD Dr. Karin Haenelt Referenten: Hanna Yaroshka Ralf

Mehr

Information Retrieval - Semantic Technologies

Information Retrieval - Semantic Technologies Information Retrieval - Semantic Technologies Albert Weichselbraun 16. Mai 2011 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen 2

Mehr

Künstliche Intelligenz

Künstliche Intelligenz George F. Luger 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Künstliche Intelligenz Strategien zur Lösung komplexer

Mehr

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07 Semantic Web Ekaterina Timofeeva & Johannes Knopp 29.01.2007 Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07 Semantic Web - Übersicht Was ist Semantic Web? Idee Wie funktioniert

Mehr

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr. Jürgen Lesti Analyse des Anbieterwechsels mit Hidden-Markov-Modellen Empirische Untersuchung im Retail Banking Verlag Dr. Kovac Hamburg 2015 XIII Inhaltsverzeichnis Geleitwort Vorwort Danksagung Abbildungsverzeichnis

Mehr

HUMBOLDT-UNIVERSITÄT ZU BERLIN Rechenzentrum /Universitätsbibliothek. Elektronisches Publizieren - Das Modell Dissertationen Online - Susanne Dobratz

HUMBOLDT-UNIVERSITÄT ZU BERLIN Rechenzentrum /Universitätsbibliothek. Elektronisches Publizieren - Das Modell Dissertationen Online - Susanne Dobratz Rechenzentrum /Universitätsbibliothek Elektronisches Publizieren - Das Modell Dissertationen Online - Susanne Dobratz Dissertationen Online Metadaten: Mathematik in Duisburg Retrieval / Recht: Physik in

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Volltextserver der Verbünde

Volltextserver der Verbünde Volltextserver der Verbünde Integrierter Zugriff auf lizenzierte Zeitschriftenartikel und freie elektronische Dokumente unter Einsatz von Suchmaschinentechnologie Kooperativer Bibliotheksverbund Berlin-Brandenburg

Mehr

Einführung in die extensible Markup Language

Einführung in die extensible Markup Language Einführung in die extensible Markup Language Oliver Zlotowski FB IV Informatik Universität Trier, D-54296 Trier zlotowski@informatik.uni-trier.de 7. Juni 2002 Typeset by FoilTEX Ausgangssituation Anforderungen

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &

Mehr

Information Retrieval

Information Retrieval Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3

Mehr

Suchen im WWW. Einführung

Suchen im WWW. Einführung Suchen im WWW Einführung 1 Das World Wide Web 1990 von Tim Berners-Lee in CERN entwickelt, um im Internet verfügbare Forschungsdokumente zu organisieren. Verbindet zur Verlinkung von Dokumenten die Idee

Mehr

Wissensmanagement und Innovation

Wissensmanagement und Innovation Wissensmanagement und Innovation Referenzmodellierung zur Prozessoptimierung im Business-to-Business-Marketing von Dr. Paul Nikodemus Inhaltsverzeichnis Vorwort I Einführung l 1 Problemstellung 1 2 Zielbeschreibung

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen Einführung in die Informatik für Hörer aller Fakultäten Prof. Jürgen Wolff von Gudenberg (JWG) Prof. Frank Puppe (FP) Prof. Dietmar Seipel (DS) Vorlesung (Mo & Mi 13:30-15:00 im Zuse-Hörsaal): FP: Form

Mehr

METHODEN DES DATENBANKDESIGNS

METHODEN DES DATENBANKDESIGNS METHODEN DES DATENBANKDESIGNS Man unterscheidet vier Strategien zum Design eines Schemas: Top-Down Bottom-Up Inside-Out und Mixed. Jede Strategie ist durch einen bestimmten Satz von Primitiven charakterisiert

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Effizienzsteigerung durch Kooperation?

Effizienzsteigerung durch Kooperation? Effizienzsteigerung durch Kooperation? die vascoda- Suchmaschinenföderation Ben Burkard (hbz) 98. Deutscher Bibliothekartag 02.-06.06.2009 Gliederung I. vascoda II. Warum Suchmaschinentechnologie? III.Zentrale

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis HANSER

Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis HANSER Dirk Ammelburger XML Grundlagen der Sprache und Anwendungen in der Praxis HANSER r 1 Einleitung 2 1.1 Über dieses Buch 3 1.2 Für wen ist das Buch gedacht? 4 1.3 Wie ist das Buch aufgebaut? 5 1.4 Konventionen

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus: RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Google. Reginald Ferber Hochschule Darmstadt Fachbereich Media, Studienbereich Informationswissenschaft reginald.ferber@h-da.de

Google. Reginald Ferber Hochschule Darmstadt Fachbereich Media, Studienbereich Informationswissenschaft reginald.ferber@h-da.de R. Ferber fb md h_da Informationsrechtstag 2009 h_da 2000-07-10 Folie 1 Google Reginald Ferber Hochschule Darmstadt Fachbereich Media, Studienbereich Informationswissenschaft reginald.ferber@h-da.de R.

Mehr

Ganzheitliche Analyse und Bewertung. von Strategie-Optionen. Controlling-gestützter Einsatz des Analytic Network Process im Strategischen Management

Ganzheitliche Analyse und Bewertung. von Strategie-Optionen. Controlling-gestützter Einsatz des Analytic Network Process im Strategischen Management Ganzheitliche Analyse und Bewertung von Strategie-Optionen Controlling-gestützter Einsatz des Analytic Network Process im Strategischen Management Inauguraldissertation zur Erlangung des akademischen Grades

Mehr

Suchmaschinentechnologie

Suchmaschinentechnologie Modul: Studiengang: Bibliotheksinformatik Abschluss: Master of Science Modulverantwortliche/r: Sascha Szott & Frank Seeliger Semester: 2 Präsenzstunden: 50.0 Art der Lehrveranstaltung: Pflicht Dauer: 2

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 12. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Übersicht Rückblick, Zusammenhänge Mysterien 2 Inhalte im abstrakten Überblick Künstliche

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

https://cuvillier.de/de/shop/publications/6839

https://cuvillier.de/de/shop/publications/6839 Ralf H. Kaspar (Autor) Ganzheitliche Analyse und Bewertung von Strategie-Optionen Controlling-gestützter Einsatz des Analytic Network Process im Strategischen Management https://cuvillier.de/de/shop/publications/6839

Mehr

1 XML Hype oder Hoffnung? Einleitung Wie ist dieses Buch aufgebaut?... 3

1 XML Hype oder Hoffnung? Einleitung Wie ist dieses Buch aufgebaut?... 3 1 XML Hype oder Hoffnung?...1 1.1 Einleitung... 1 1.2 Wie ist dieses Buch aufgebaut?... 3 2 Inhalte und Publishing...5 2.1 Einleitung... 5 2.2 Daten, Informationen, Assets, Content... 10 2.2.1 Daten und

Mehr

Information Retrieval

Information Retrieval 1 Information Retrieval Klaus Berberich (klaus.berberich@htwsaar.de) 0. Organisatorisches Vorlesung, Übungen und Projektarbeit Vorlesung Montag, 11:45-13:15 (3. Stunde) im Raum 7110 Übung / Projektarbeit

Mehr

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Kapitel 19 Textstatistik HHU Düsseldorf, WS 2008/09 Information Retrieval 287 Die These von Luhn: Termhäufigkeit als Signifikanzfaktor Luhn, H.P. (1957): A statistical approach to mechanized encoding and

Mehr

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,

Mehr

Semantische Verfahren und medienübergreifende Empfehlungen im TV-/Medien-Bereich: Neue Aufgaben und konkrete Lösungen.

Semantische Verfahren und medienübergreifende Empfehlungen im TV-/Medien-Bereich: Neue Aufgaben und konkrete Lösungen. Semantische Verfahren und medienübergreifende Empfehlungen im TV-/Medien-Bereich: Neue Aufgaben und konkrete Lösungen Sacha Weinberg Inhalt Kurze Vorstellung Condat Smart Media Engine Basis-Suchmaschine

Mehr

Inhalt. 1 Einleitung Warum dieses Buch? Der rote Faden Danksagung URL zum Buch 4. TEIL I Einführung 5

Inhalt. 1 Einleitung Warum dieses Buch? Der rote Faden Danksagung URL zum Buch 4. TEIL I Einführung 5 Inhalt 1 Einleitung 1 1.1 Warum dieses Buch? 1 1.2 Der rote Faden 2 1.3 Danksagung 3 1.4 URL zum Buch 4 TEIL I Einführung 5 2 XML-Grundlagen 7 2.1 Einleitung 7 2.2 WasistXML? 7 2.3 Dokumenttypen und Namensräume

Mehr

Jessica Naundorf. Kritische Analyse von. Employer Awards im Kontext. des Employer Branding

Jessica Naundorf. Kritische Analyse von. Employer Awards im Kontext. des Employer Branding Jessica Naundorf Kritische Analyse von Employer Awards im Kontext des Employer Branding Rainer Hampp Verlag München, Mering 2016 -I- Inhaltsverzeichnis Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis

Mehr

DOXNET Tag 24. November Datenströme und ihre Zukunft

DOXNET Tag 24. November Datenströme und ihre Zukunft 1 DOXNET Tag 24. November 2016 Datenströme und ihre Zukunft Agenda Einstieg/Gegenüberstellung AFP: Advanced Function Printing/Presentation PDF: Portable Document Format HTML5: Hypertext Markup Language

Mehr

Inhaltsverzeichnis.

Inhaltsverzeichnis. Inhaltsverzeichnis GEGENSTAND DER UNTERSUCHUNG 3 1.1 Einleitung und Problemstellung 3 1.1.1 Ausgangslage 3 1.1.1.1 Das Phänomen der interkulturellen Mergers & Acquisitions 4 1.1.1.2 Gründe für M&A 6 1.1.1.2.1

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Was ist SGML. - welche Auszeichnungen (Mark up) sind erlaubt? - welche Auszeichnungen sind notwendig?

Was ist SGML. - welche Auszeichnungen (Mark up) sind erlaubt? - welche Auszeichnungen sind notwendig? Was ist SGML SGML = Standard Generalized Markup Language internationaler Standard für die Beschreibung von Textauszeichnungen ( marked up text ) SGML ist keine Auszeichnungssprache sondern ein Formalismus

Mehr

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009 Einführung in XML Arthur Brack FHDW Hannover Inhalt Was ist XML? Warum XML? Aufbau von XML-Dokumenten Ausblick XML-Schemasprachen XPath XSLT Zusammenfassung Literatur Einführung in XML 2 / 14 Was ist XML?

Mehr

Zugang zum Academic Invisible Web

Zugang zum Academic Invisible Web Zugang zum Academic Invisible Web Dr. Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft dirk.lewandowski@uni-duesseldorf.de www.durchdenken.de/lewandowski Gliederung

Mehr

<is web> Information Systems & Semantic Web

<is web> Information Systems & Semantic Web Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile

Mehr

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen

Mehr

Medienkompetenz, Grafik und DTP

Medienkompetenz, Grafik und DTP VO 340381 Informationsdesign; Medienkompetenz, Grafik und DTP Zentrum für Translationswissenschaft Letztes Mal sprachen wir über: Software, Betriebssysteme, Cloud Computing Aufbau Definition Metadata then,

Mehr

Grundlagen der Web-Entwicklung INF3172

Grundlagen der Web-Entwicklung INF3172 Grundlagen der Web-Entwicklung INF3172 Web-Services Thomas Walter 16.01.2014 Version 1.0 aktuelles 2 Webservice weitere grundlegende Architektur im Web: Webservice (Web-Dienst) Zusammenarbeit verschiedener

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr