(Bamberg)

Ähnliche Dokumente
Studierende, die diese Vorlesung hören, haben sich auch für folgende Lehrveranstaltungen interessiert:

Vorlesung Maschinelles Lernen

Der Einsatz von Folksonomies und Social Tagging in Bibliotheken

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Projektmanagement mit. MS Excel vs. saprima

InMoBS. Innerstädtische Mobilitätsunterstützung für Blinde und Sehbehinderte. Institut für Verkehr und Stadtbauwesen Prof. Dr.-Ing. Bernhard Friedrich

Informatik-Sommercamp Mastermind mit dem Android SDK

HS Information Retrieval

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum

Eignung von Tag Clouds zur Exploration und Navigation nutzergenerierter Inhalte

Vortrag zum Hauptseminar Hardware/Software Co-Design

Better Backlinking Semantische Kategorisierung von Websites

Anforderungen mobiler Routenplaner an Datenbanksysteme

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Inhaltsverzeichnis 1 Einführung 2 Formen der Suche im Web 3 Wie Suchmaschinen funktionieren

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Enterprise 2.0 Redefinition der Wissensorganisation oder alter Wein in neuen Schläuchen? 9. Publishers Forum, 23. April 2012, Berlin

MBEES Research Abstract Ein Framework zur automatisierten Ermittlung der Modellqualität bei eingebetteten Systemen

Analyse und Feedback in Echtzeit

Information Retrieval,

Die Orgadata AG ist ein stark expandierendes Software-Unternehmen aus Leer. Mit unserem System LogiKal

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Korrelationen in Extremsituationen

Zur Problematik der Selbstauskunft über psychische Befindlichkeit in der medizinischen Rehabilitation

Gamification as a Service - Die Integration von spieletypischen Elementen in die Pervasive Universität

Wie Google Webseiten bewertet. François Bry

Hauptseminar. Plagiarism Detection. Christian Pusch. Plagiarism Detection Christian

Kognition & Interaktion

Comparison of Software Products using Software Engineering Metrics

Semantic Web: Das Web der nächsten Generation

3. Studien- und Abschlussarbeiten

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

Inhaltsverzeichnis. Kurzfassung. Abstract

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Referent: Diener, Dujat et al Entscheiderfabrik Unternehmenserfolg durch optimalen IT-Einsatz! Speedpräsentation Anforderungsanalyse

Engineering Design via Surrogate Modelling Sampling Plans

Dynamisches Huffman-Verfahren

Institut für Mechatronik, Chemnitz

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Versuchsplanung und Versuchsdesign. Prof. Dr.-Ing. Sebastian Möller

Analytics, Big Data, Multi-Touch Attribution und Content Marketing E-Business 2014

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Algorithmen und Datenstrukturen

Informationstheorie als quantitative Methode in der Dialektometrie

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Cloud Computing für redaktionelle Prozesse und Publishing. CROSSMEDIAFORUM 2013, München

Laufzeitoptimierte VHDL Bibliothek zur Verifikation und Simulation kryptographischer Prozessoren

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Cross-Plattform App-Entwicklung: Evaluation und prototypische Implementierung eines Ansatzes mit Cross-Translator Tool-Chain

Zukunft Bau STRUKTUR / GLIEDERUNG KURZBERICHT

Schulung advertzoom. advertzoom Release 2.1 Stand Januar advertzoom GmbH

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Datenbanksysteme

Semantische Datenintegration: von der Theorie zur Anwendung

DAS CHAOSDORF.BILDUNGS.WERK PRÄSENTIERT:

Sicher unterwegs in Instagram

Grid-Produkte Marktüberblick, Anspruch Wirklichkeit

swissbib Ein Metakatalog für die Schweizer Bibliotheken

Partitionierung komplexer heterogener Systeme

Welche Bedeutung haben Entscheidungsregeln für die Reliabilität der Dateninterpretation im Evaluationsprozess?

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Einführung in die Informatik 1

von mobilen Diensten für Studierende

Magisterarbeit im Studiengang Internationales Informationsmanagement vorgelegt von Ben Heuwing, Universität Hildesheim

Organisatorische Möglichkeiten/Alternativen im Beobachtungswesen

Clustering (hierarchische Algorithmen)

Monte Carlo Methoden

Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009

Abbildungsverzeichnis...VII. Tabellenverzeichnis...X. Abkürzungsverzeichnis...XII. 1 Einleitung Problemstellung und Motivation...

Workshop Off-Label-Use Zugangsgerechtigkeit bei Krebsmedikamenten. 2. Forderung: Vereinheitlichung der Nutzenbewertung

Sind Sie up-to-date? Moderne Kommunikationsmittel

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Workshop - Governance, Risk & Compliance - Integration durch RSA Archer

Vorlesung Information Retrieval Wintersemester 04/05

Transkript:

Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg)

Übersicht Tags und Folksonomien Tag-Suggestions Definition Generierung Vergleich der Ergebnisse Konzeption des Evaluationsframeworks Messungen am Prototyp Zusammenfassung 2

Information Retrieval und Tagging Indexierung: Automatisch vs. Manuell Volltextsuchmaschine Klassifizierung Ontologien Tagging-Systeme (del.icio.us, flickr, youtube) Trend geht zu benutzergeneriertem Content (Web 2.0) 3

Tags, Folksonomien Tags sind von Benutzern vergebene Wörter zur Indexierung von Ressourcen. Eine Folksonomie ist eine Sammlung von Tags (T), Benutzern (U), Ressourcen (R) und Tupeln (Y=TxUxR). F = (T, U, R, Y) Auch Y = T x R möglich 4

Tags, Folksonomien Vorteile gegenüber hierarchischer Klassifizierung Freie Wahl von Tags, kein Hierarchiezwang Entdeckungscharacter Nutzen für Allgemeinheit durch viele egoistische Ziele Tags gut geeignet zur Beschreiben von Binärdaten (Bilder,Videos) Nachteile Mangelnde Präzision bei Suche, geringer Recall (syntaktische Variationen, populäre Tags, keine Hierarchie) Organisatorische Tags Spam 5

Power law 6

Tag-Suggestion Vorschlagen von Tags durch das System Erleichtert Tagging Ausbildung eines etablierten Vokabulars Höherer Recall Senkt Selektivität von Tags 7

Generieren von Tag-Suggestions Erzeuge Tags aus bestehenden Tags der Folksonomy Inhalt einer Ressource 4 Verfahren wurden untersucht: Tag-Vektoren Co-Occurrence Matrix Clustering Scoring-Verfahren Inhaltsanalyse mit TF-IDF 8

Generieren von Tag-Suggestions Tag-Vektoren Tag durch Vektor repräsentiert Ressourcen stellen Komponenten des Vektors dar Ähnlichkeit von Tags => Cosinus Co-Occurrence Matrix Clustering Gemeines Auftreten von Tags => Co-Occurrence Co-Occurrence-Grad zw. Tags bestimmen Semantische Ähnlichkeit von Tags durch Clustering finden K-Metis anstatt Spektralem Clustering nutzen Quelle: G. Begelman et al. Automated tag clustering: Improving search and exploration in the tag space, 2006. 9

Generieren von Tag-Suggestions Scoring-Verfahren Grundlegender Gedanke: Gute Tags genügen gewissen Kriterien z.b. Coverage, Score, P(t i t j ) Belohne Tags, wenn von vielen genutzt Bestrafe Tags, wenn sie große Schnittmenge an Ressourcen mit anderen Tags annotieren Inhaltsanalyse mit TF-IDF Extrahiere Keywords aus Inhalt der Ressource Berechne TF-IDF-Wert 10

Vergleich von Tag-Suggestions Wie gut oder schlecht ist ein Tag- Suggestion-Algorithmus? Ausgabe (vorgeschlagene Tags) bewerten Methoden: Tag-Frequenz Tag-Coverage Tag-Overlap 11

Vergleich von Tag-Suggestions Tag-Frequenz Anzahl der Vorkommen eines Tags Tag-Coverage Wie Tag-Frequenz, jedoch ohne Dopplungen Anzahl der verschiedenen Ressourcen mit Tag X Tag-Overlap Wie unterschiedlich sind mit Tag X,Y versehene Ressourcen Beschreiben Tags ähnliche Konzepte? 12

Konzeption des Tag-Evaluation- Frameworks Bisherige Evaluationen auf unterschiedlicher Datenbasis nach verschiedenen Kriterien Anforderungen: Architektur zur Entwicklung und Auswertung von Tag- Suggestion-Algorithmen Unterstützung von Broad Folksonomies Mehrere Quell-Folksonomien unterstützen Leichte Erweiterbarkeit Tag-Suggestion-Algorithmen Meßgrößen Simulatoren 13

Konzeption des Tag-Evaluation- Frameworks 14

Messungen Simulator startet Algorithmus 2000 mal und erwartet maximal 10 Tag-Suggestions Aus Performancegründen 80.000 statt 8.000.000 Tag-Assignments aus Quell- Folksonomy Vorgeschlagene Tags in neuer Folksonomy speichern 15

Messungen: Tag-Frequenz 16

Messungen: Tag-Frequenz 17

Messungen: Tag-Coverage 18

Messungen: Overlap 19

Zusammenfassung Tag-Suggestion-Algorithmen lassen sich quantitativ vergleichen Je nachdem welche Ziel verfolgt wird, haben die Tags unterschiedliche Güte (z.b. allgemeine Tags, präzise Tags) Framework erlaubt einheitliches Testen und Auswerten von Tag-Suggestion-Algorithmen Kombination von Tag-Suggestion- Algorithmen nutzen 20

Ausblick Verbesserung der Performance des Frameworks Testen neuer Meßgrößen Kombination verschiedener Folksonomien als Grundlage für Tag-Suggestion- Algorithmen 21

Vielen Dank für die Aufmerksamkeit. Fragen? 22