Verschlagwortung digitaler Texte

Ähnliche Dokumente
Information Retrieval und Question Answering

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Eigenschaften von Texten

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Kapitel IR:III (Fortsetzung)

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information

Boolesche- und Vektorraum- Modelle

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Information-Retrieval: Vektorraum-Modell

Erweiterbare Schemata

1 Boolesches Retrieval (2)

Collaborative Intelligence

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Information Retrieval, Vektorraummodell

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Text-Mining: Datenaufbereitung und -repräsentation

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

Implementierung eines Vektormodells

Eruierung von Methoden zur Exploration von Textwiederverwendung in großen Datenmengen am Beispiel der Wikipedia

Thema: Prototypische Implementierung des Vektormodells

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

ABACUS Infopoint. ABACUS Kundentagung,

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Information Retrieval,

Nachteile Boolesches Retrieval

Federated Search: Integration von FAST DataSearch und Lucene

Ontology Learning. Michael Büttner. 25. Juli 2006

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

2.4 Effiziente Datenstrukturen

Kurzeinführung in XML. Was ist XML? Well-formed u. gültiges XML Erste Anwendung in XML Externe DTD Attribute und Entities Datenausgabe mit XSL

Algorithmische Anwendungen WS 05/06 Document Ranking

Einführung in Apache Solr

Information Retrieval. Peter Kolb

ELOas Automation Service

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1

Klassisches Information Retrieval Jan Schrader

Eine Dokumenttypdefinition lässt sich im Kopfbereich des XML-Dokumentes (interne DTD) oder in einer separaten Datei formulieren (externe DTD).

1 Information Retrieval Grundlagen

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Exposé zur Studienarbeit. 04. August 2010

Entgeltabrechnung nach TVöD. Beschreibung - Abrechnung nach Tarifvertrag für den öffentlichen Dienst

Anwendung von Vektormodell und boolschem Modell in Kombination

Workshop: Belletristik und Semantik. Automatische Erschließung von Belletristik mit picturesafe dio:semantic

Elektronischer Datenaustausch EDI. ( Stand )

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Konzeption und Aufbau eines digitalen Archivs: Von der Skizze zum Prototypen

Internetsuche und Google Page-Rank - Wie wird was durch wen gefunden? Woche 2

Klassifikation von Textabschnitten

Musterlösung Übungsblatt 14

Linguistische Informatik

FC MEMEX. Demo Version 1.1 Vorschau auf die Version 2. M. Reinke FirstClass Tag, April 2007 FC MEMEX 2.0

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Implementierung des Vektor Modells

Installationsanleitung

Tekom-Frühjahrstagung in Potsdam, 14./ Eindrücke, Erkenntnisse, Ideen

Probabilistische IR-Modelle

Webshop-Schnittstelle, Projektdefinition

Eigenschaften von Texten

Tag-basierte Ähnlichkeitsbestimmung bei ARTigo

Document Type Definition (DTD)

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Computerunterstützte. IZUS / Universitätsbibliothek. Der Digitale Assistent BW für die Sacherschließung V2. Dr. Imma Hinrichs

Wegleitung GEP-Daten. Prüfdienst für GEP-Daten (GEP-Datachecker)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

ANHANG. Schöpfung im Religionsunterricht: Dilemma oder Chance? Stefan Altmeyer. Inhalt

Probabilistische Datalog und PIRE

Istzeit-Stammdaten und Tagesabschluss WAWI20 / WAWI_TAGAB zu WAWI Version 4.0.7

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Identifikation von Zeitwerten für LEP-Pflegeinterventionen. Reto Bürgin, Dieter Baumberger,

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

»Anforderungen an ein modernes Prozessdaten-Informationssystem in der rohstoffverarbeitenden Industrie«Martin Gamperl MGS Software GmbH, Graz

Ähnlichkeitssuche auf XML-Daten

DOKinform Splitbuchung für SAP-FI. Anwenderdokumentation

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Das Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

XML Extensible Markup Language

histhub.net Ein mehrsprachiger Metadatenhub für Linked Open Data zu historischen Entitäten aller Epochen und Regionen der Schweiz

Automatische Vergabe von RVK-Notationen mittels fallbasiertem Schließen. Magnus Pfeffer Universitätsbibliothek Mannheim

TnT - Statistischer Part-of- Speech Tagger

digicult Verbundkonferenz 2013

Transkript:

Verschlagwortung digitaler Texte

Verschlagwortung Zuordnung von Schlagwörtern zu einem Dokument (Text) zur Erschließung der darin enthaltenen Sachverhalte Manuelle Verschlagwortung Schlagwörter meist aus einem kontrollierten Vokabular Computergestützte Verschlagwortung Schlagwörter werden maschinell vorgeschlagen, manuell ausgewählt Automatische Verschlagwortung statistisch durch Ermittlung von Worthäufigkeiten

Volltextindexierung Erfassung sämtlicher Wörter eines Textes Stoppwörter werden nicht beachtet hohe Anzahl an Stichwörtern bei der Suche keine Kenntnis über das Ordnungssystem erforderlich Suche über Volltextindex => aufwendig

Termgewichtung einfaches Verfahren zur Termgewichtung: Verhältnis zwischen Häufigkeit eines Begriffs in einem Text und Anzahl der Dokumente, in denen der Begriff vorkommt Gewichtung eines Begriffs ist hoch, wenn es wenige Texte im Korpus gibt, in denen der Begriff enthalten ist und der Begriff im zu indexierenden Text häufig vorkommt

Termgewichtung Beispiel: Korpus mit 200 Texten "auf": Häufigkeit im Text = 9, kommt in allen (200) Texten des Korpus vor: 9/200 = 0.045 "Staatssekretär": Häufigkeit im Text = 9, kommt in 5 Texten vor 9/5 = 1.8

Korpus 200 Artikel der taz XML-Dateien (je Artikel eine Datei) Stuttgart-Tübingen Tagset (STTS) <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE corpus SYSTEM "d:\xml-soft\corpus.dtd"> [...] <clause complete="-"> <token lemma="d" wclass="art"> Die </token> <token lemma="institutionell" wclass="adja"> institutionelle </token> [...]

Verarbeitung 1. XML <token> PHP-Script Datenbank CSV 2. PHP-Script Berechnungen in DB 3. Datenbank Schlagwörter PHP-Script XML sonstige

erweiterte XML-Daten (Beispiel) (Gewichtung als Attribut) <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE corpus SYSTEM "d:\xml-soft\corpus.dtd"> [...] <clause complete="-"> <token lemma="d" wclass="art" q="0.8450"> Die </token> <token lemma="institutionell" wclass="adja" q="0.5000"> institutionelle </token> <token lemma="kompetenzschwäche" wclass="nn" q="3.0000"> Kompetenzschwäche </token> [...]

Beispieltext Tendenz zur Lästigkeit Die institutionelle Kompetenzschwäche Michael Naumanns und wie er sie nutzen kann. Was der Kulturbeauftragte darf und was nicht. Staatstragende Überlegungen von Elke Gurlit Niemand wird bestreiten, daß Gerhard Schröder mit der Etablierung des Bundeskulturbeauftragten ein Coup gelungen ist. Nicht nur die staatliche Kulturpolitik, sondern auch das Räsonieren über Kultur hat in den letzten Monaten einen enormen Bedeutungszuwachs erfahren. Die tägliche Naumann-Meldung gehört zum unverzichtbaren Repertoire des Feuilletons. Man gewinnt fast den Eindruck, Michael Naumann handele als Beauftragter unterbeschäftigter Kulturredaktionen. Zum besseren Verständnis der Stellung des Kulturbeauftragten lohnt ein Blick auf das Beauftragtenwesen, das sich in der Bundesrepublik flächendeckend ausgebreitet hat. Wir kennen beispielsweise die Datenschutzbeauftragten, die betrieblichen Immissionsschutzbeauftragten und die Gleichstellungsbeauftragten in der Verwaltung. Ungeachtet aller Unterschiede im Detail lassen sich gemeinsame Grundstrukturen ausmachen: Die Beauftragten vertreten Interessen, die im normalen Gang der Verwaltungs- oder Unternehmensgeschäfte zuwenig Beachtung finden. [...]

gewichtete Terme (freq = Häufigkeit im Text, Texte = Anzahl der Texte, in denen Lemma vorkommt, q = Quotient) Lemma freq Texte q Bundeskulturbeauftragter 5 1 5.0000 Kulturbeauftragte 14 3 4.6667 Kompetenzschwäche 3 1 3.0000 Naumann 11 5 2.2000 Kulturhoheit 2 1 2.0000 Bundesbeauftragte 2 1 2.0000 parlamentarisch 12 6 2.0000 Lästigkeit 2 1 2.0000 Staatssekretär 9 5 1.8000 Kulturpolitik 5 3 1.6667 Beauftragte 5 4 1.2500 [...]

gewichtete Terme (freq = Häufigkeit im Text, Texte = Anzahl der Texte, in denen Lemma vorkommt, q = Quotient) Lemma freq Texte q [...] groß 1 175 0.0057 erst 1 179 0.0056 man 1 183 0.0055 ander 1 194 0.0052 alle 1 191 0.0052 oder 1 191 0.0052 nach 1 197 0.0051 so 1 195 0.0051 wie 1 199 0.0050 daß 1 200 0.0050

Beispieltext (Lemmata mit q>1 in rot) Tendenz zur Lästigkeit Die institutionelle Kompetenzschwäche Michael Naumanns und wie er sie nutzen kann. Was der Kulturbeauftragte darf und was nicht. Staatstragende Überlegungen von Elke Gurlit Niemand wird bestreiten, daß Gerhard Schröder mit der Etablierung des Bundeskulturbeauftragten ein Coup gelungen ist. Nicht nur die staatliche Kulturpolitik, sondern auch das Räsonieren über Kultur hat in den letzten Monaten einen enormen Bedeutungszuwachs erfahren. Die tägliche Naumann-Meldung gehört zum unverzichtbaren Repertoire des Feuilletons. Man gewinnt fast den Eindruck, Michael Naumann handele als Beauftragter unterbeschäftigter Kulturredaktionen. Zum besseren Verständnis der Stellung des Kulturbeauftragten lohnt ein Blick auf das Beauftragtenwesen, das sich in der Bundesrepublik flächendeckend ausgebreitet hat. Wir kennen beispielsweise die Datenschutzbeauftragten, die betrieblichen Immissionsschutzbeauftragten und die Gleichstellungsbeauftragten in der Verwaltung. Ungeachtet aller Unterschiede im Detail lassen sich gemeinsame Grundstrukturen ausmachen: Die Beauftragten vertreten Interessen, die im normalen Gang der Verwaltungs- oder Unternehmensgeschäfte zuwenig Beachtung finden. [...]

Schlagwort oder nicht? 'Auswahl' der Schlagwörter anhand Gewichtung mögliche Kriterien: nach Rang (z.b. die ersten vier Ränge) fester Grenzwert (z.b. q>1) Vergleich z.b. q > relative Häufigkeit (fairer Vergleich? fraglich!) Beispiel "Staatssekretär": q = 1.8 > 0.075 (Häufigkeit im Korpus / Anzahl der Texte im Korpus)

Gewichtungsmethode tf-idf tf-idf (term frequency - inverse document frequency) term frequency ist das Verhältnis Häufigkeit eines Terms im Text zu Anzahl der Terme im Text inverse document frequency ist das Verhältnis Gesamtzahl der Texte im Korpus zu Anzahl der Texte, in denen der Term vorkommt

Berechnung tf-idf tfidf = tf * log(idf) Beispiel "Staatssekretär": der Text hat N = 1427 Wörter "Staatssekretär" kommt n = 9 mal vor Anzahl der Texte im Korpus T = 200 Anzahl der Texte, in denen "Staatssekretär" vorkommt d = 5 tfidf = 9 / 1427 * log( 200 / 5 ) = 0.0232

Gewichtung mit tf-idf Lemma tfidf Kulturbeauftragte 0.0412 parlamentarisch 0.0295 Naumann 0.0284 Staatssekretär 0.0233 Bundeskulturbeauftragter 0.0186 Kulturpolitik 0.0147 staatlich 0.0144 Beauftragte 0.0137 Kompetenzschwäche 0.0111 kulturell 0.0100 institutionell 0.0098 [...]