Topic Models als sinologisches Hilfsmittel: Möglichkeiten und Grenzen

Ähnliche Dokumente
Technischer Bericht. Integration der KobRA-Verfahren in WebLicht

Seminar. Textdatenanalyse. Carsten Jentsch & Jonas Rieger. Sommersemester fakultät statistik

SKOPOS Webinar 22. Mai 2018

Dokumenten- und Topicmodelle. Institut für Informatik

«Big Data» in der Kommunikationswissenschaft Chancen, Risiken & Nebenwirkungen

Institut für Künstliche Intelligenz

Agenda. Boris Plaumann. Alena Fojtík. Alena Fojtík Boris Plaumann. Smart. Big. Data. Analytics. Science. Analytics im Day-2-Day Business

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Dokumentclustering am Beispiel von Liedtexten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Information Retrieval and Semantic Technologies

Automatische Analyse und Exploration von Mediendaten. Prof. Dr. Ralph Ewerth Technische Informationsbibliothek (TIB)

Bachelor-Seminar Eingebettete Interaktive Systeme. Farming 4.0: Agriculture in the Context of Digitalization

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Digitale Zeitungsarchive als Quellen (digitaler) Geschichtsforschung

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

Image: (CC-0) Künstliche Intelligenz & Bildung Nicht nur für ExpertInnen

Publikationsprozesse für Forschungsdaten. Peer Brauer, Wilhelm Hasselbring Universität zu Kiel


Praktikum Entwicklung von Mediensystemen mit ios

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Mastering Social Media, Web, Satellite and Spatial Data with R. Dr. Martin Vogt Seminar

Forschungsmethoden VORLESUNG WS 2017/2018

Informatik für Mathematiker und Physiker Woche 2. David Sommer

Natural language processing

Forschungsmethoden VORLESUNG WS 2016/17

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Situated Reference in a Hybrid Human-Robot Interaction System

Aktuelle wirtschaftspolitische Lage im Iran Marktchancen und Markteintrittsmöglichkeiten Berlin, 24. Oktober 2016

Text Mining for Second Screen

Visualizing multiple Last.fm listening histories

Modulliste. für den Masterstudiengang. Data & Knowledge Engineering (alt) an der Otto von Guericke Universität Magdeburg Fakultät für Informatik

time marker cluster term term URL Link to AEC media

Forschungsmethoden VORLESUNG SS 2017

SAS Text Analytics findet Zusammenhänge in Texten Ergebnisse eines Selbstversuchs

Modulliste. für den Bachelorstudiengang. Wirtschaftsinformatik. an der Otto von Guericke Universität Magdeburg Fakultät für Informatik

Abschnitt 1. BPM als Lingua franca. Management, Fachbereiche und IT Ist BPM ein Weg zur (Auf-)Lösung der Sprachbarriere?

Gliederung. Informationsgrundlage Probleme EOL Schätzungsmöglichkeiten Beschriebene + geschätzte Artenzahl Ausblick

Predictive Modeling Markup Language. Thomas Morandell

Seminar: Maschinelles Lernen und Deep Learning

Anwendungen der KI / SoSe 2018

LDA-based Document Model for Adhoc-Retrieval

Visualizing Music Listening Histories

Präzisierung zur Absolvierung von Studienschwerpunkten

Aktuelle wirtschaftspolitische Lage im Iran Marktchancen und Markteintrittsmöglichkeiten Forum Energieeffizienz und Solares Bauen im Iran, Berlin,

Einführung in das Wissenschaftliche Arbeiten

Armin Aulinger, Volker Matthias, Johannes Bieser, Markus Quante GKSS Forschungszentrum Geesthacht

Trust your Eyes - Grundlagen der Visualisierung und wie man mit Visualisierungen faken kann Vortrag 23C3: Trust your Eyes - S.

Redundanz und Rationalität

Wer soll richten: Mensch oder Maschine? Ein konstruktiver Ansatz. Prof. Dr. K.A. Zweig TU Kaiserslautern Algorithm Accountability

Algorithms for graph visualization

Lehrveranstaltungen im Wintersemester 2012/2013

Master-Studiengang & Bewerbung/Zulassung. Judith Zimmermann Studienkoordinatorin, Departement Informatik, ETH Zürich

Bedeutung und Wesen starker Marken

Notationen zur Prozessmodellierung

Kontextverzeichnisse für die Entwicklung mobiler

Software-Qualität Ausgewählte Kapitel. Messung und Prognose von interner Software-Qualität"

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Konzept zur Darstellung einer interaktiven Lebensfinanzplanung im Retail-Banking

Geometry Of Algebraic Curves: Volume II With A Contribution By Joseph Daniel Harris (Grundlehren Der Mathematischen Wissenschaften) By Maurizio

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

2 Grad globale Erwärmung: Was bedeutet das für unser Klima?

Keiner gewinnt alleine..

Recherchieren & wissenschaftliches Arbeiten Übungen

Specmate Auf Knopfdruck von Anforderungen zu Tests

Wissenschaftlicher Realismus

Die Beziehung zwischen Mensch und Maschine wird neu definiert

Modulliste. für den Bachelorstudiengang. Wirtschaftsinformatik. an der Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung

Mathematische Verfahren zur Unterstützung der Rettungsdienstplanung

Gewalthandeln von Frauen in der Partnerschaft

THE RIGHT CHOICE. Dr. Béatrice Grabein Department Clinical Microbiology and Infection Prevention University Hospital Munich

Klassisches Information Retrieval Jan Schrader

Modulliste. für den Bachelorstudiengang. Wirtschaftsinformatik. an der Otto von Guericke Universität Magdeburg Fakultät für Informatik

Dr. Alexander Janda Generalsekretär Kuratorium Sicheres Österreich

«Die Zukunft der Führung ist analog!»

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Notwendige Infrastrukturen für Transparenz, Effizienz und Nachhaltigkeit in der medizinische Forschung

Data Mining auf Datenströmen Andreas M. Weiner

Item-based Collaborative Filtering

histhub Teilprojekt 1C: Thesaurus-Editor und Vornamen-Vokabular

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Künstliche Intelligenz

Proseminar Visualization of Text and Physics

DARIAH-DE. Digital Research Infrastructure for the Arts and Humani7es. de.dariah.eu

Social Franchising. Valerie Hackl. Social Entrepreneurship Aktivitäten multiplizieren. \ * " Südwestdeutscher Verlag für Hochschulschriften

Helpdesk 4.0 Combining Digital and Human Knowledge

Literaturrecherche Mentoring für Lehrer

Master PMP Universität Bern

Big Data Hope or Hype?

Microsoft Azure Deutschland ist jetzt verfügbar -

Von der Schneeflocke zur Lawine: Möglichkeiten der Nutzung freier Zitationsdaten in Bibliotheken Bibliothekartag Frankfurt am Main

Climate change and availability of water resources for Lima

Topics in Political Economics

Automatische Evaluation semantischer Kohärenz bei Topic Models

Anwendung von Vektormodell und boolschem Modell in Kombination

(Pro-)Seminar - Data Mining

Business Intelligence & Machine Learning

Transkript:

Topic Models als sinologisches Hilfsmittel: Möglichkeiten und Grenzen Gesa Stupperich Universität Heidelberg, Asia and Europe in a Global Context 25. Januar 2018

Einführung Hierüber möchte ich sprechen Dokumenten-Clustering mit Topic Models Projekt: Visualisierung von Topic Models von Verwaltungshandbüchern aus der Qing-Zeit (1661 1911) Hilfreiches Werkzeug zur Erschließung größerer Quellensammlungen? Vorläufiges Fazit zu Möglichkeiten und Grenzen

Dokumenten-Clustering mit Topic Models Topic Models: Verfahren David M. Blei (2012): Probabilistic topic models: Surveying a suite of algorithms that offer a solution to managing large document archives, Communications of the ACM, Vol. 55, No. 4, S. 78.

Dokumenten-Clustering mit Topic Models Topic Models: Input Sammlung von Texten (Korpus) Liste von Stoppwörtern das, zu, und, wie... that, to, and, how... 此 為 與 安 Anzahl der Topics: 20/50/100/150...

Dokumenten-Clustering mit Topic Models Topic Models: Output Output: Topic Assignments Wortverteilungen pro Topic: Wörter geordnet nach relativer Häufigkeit Topicanteile pro Dokument: Topics geordnet nach ihrem Anteil am Dokument

Dokumenten-Clustering mit Topic Models Topic Models: Interpretation Interpretation: Wovon handeln die Topics? Wovon handeln die Texte?

Dokumenten-Clustering mit Topic Models Topic Models: Anwendung Suchmaschine : Finde Dokumente, die von einem bestimmten Thema handeln. Welche Themen bekommen Aufmerksamkeit und verändert sich das mit der Zeit? Wie verändert sich der Diskurs über bestimmte Phänomene?

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Anstoß für das Projekt Topic Modeling deckt semantische Zusammenhänge auf (?) Keine weiteren Trainingsdaten nötig Möglicherweise hilfreich als Hilfsmittel bei der Erschließung großer Quellensammlungen in klassischem Chinesisch Eigenes einfaches Topic Modeling Tool zum Testen verschiedener Parametereinstellungen, Modellierungs- und Implementierungsentscheidungen und Visualisierungsoptionen

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Die Anthologien zur Staatskunst der Qing-Dynastie (Huangchao jingshi wenbian 皇朝經世文編 ) Serie von Verwaltungshandbüchern aus der Qing-Dynastie Erschienen zwischen 1827 und 1903 Thematische Struktur: Sektionen und Kapitel Texte zu technischen und theoretischen Verwaltungsfragen Offizieller und privater Schriftverkehr (Memoranden, Edikte, Briefe), Abhandlungen und Essays Image downloaded from: https://zhidao.baidu.com/question/458301589104584885.html

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Tool für die Generierung und Visualisierung von Topic Models Input Korpus und Liste von Stoppwörtern Anzahl der Topics

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Tool für die Generierung und Visualisierung von Topic Models Output Liste der generierten Topics und Liste der Dokumente Dokumentansicht: Topics und Text Topicansicht: Wörter, Wortsequenzen und Dokumente

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Tool für die Generierung und Visualisierung von Topic Models Output Liste der generierten Topics und Liste der Dokumente Dokumentansicht: Topics und Text Topicansicht: Wörter, Wortsequenzen und Dokumente

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Tool für die Generierung und Visualisierung von Topic Models Output Liste der generierten Topics und Liste der Dokumente Dokumentansicht: Topics und Text Topicansicht: Wörter, Wortsequenzen und Dokumente

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Natur der generierten Topics (T=50) 30% Klar abgrenzbare Fachterminologie spezifischer Verwaltungszweige (Salzsteuer, Steuergetreidetransport, Rechtsprechung, Getreidespeicher, usw.) 30% Fachterminologie Wasserbau und Militär 20% Diskurse abstrakter Natur (Theorien guter Regierung, Kontrolle innerhalb der Verwaltung, Effizienz der Lokalverwaltung usw.) 10% Wortarten mit spezifischer Funktion (Zahlen und Zähleinheitswörter, Memorandenfloskeln, oft zitierte Autoritäten usw.) 10% Hintergrundrauschen

Topic Model von Qing-zeitlichen Verwaltungshandbüchern Beispiele Salzsteuer (Topic 27): Produktion, Transport, Handel mit Salz, Regulierung und Besteuerung Provinzverwaltung (Topic 8): Kontrolle von Korruption innerhalb der Verwaltung durch Aufsicht, Sanktionen, gute Personalführung

Fazit Fazit Überblick über Fachterminologie der einzelnen Ressorts Auffindung von Texten zu abstrakteren Diskursen mit charakteristischem Vokabular Neue Perspektiven und Forschungsfragen Abhängig von der Verfügbarkeit und Zuverlässigkeit digitalisierter Quellen Bei spezifischem Forschungsinteresse/-fokus eventuell nicht hilfreich

Fazit Vielen Dank für Ihre Aufmerksamkeit! https://github.com/neinkeinkaffee/lda-lab

Quellen Quellen Van Atteveldt, Wouter, et al. LDA models topics... But what are topics?, Glasgow Big Data (2014). Miller, Ian M. Rebellion, crime and violence in Qing China, 1722 1911: a topic modeling approach. Poetics 41.6 (2013): 626-649. Blei, David M., Probabilistic Topic Models (Survey). Communications of the ACM 55 (2012): 77-84. Goldstone, Andrew: dfr-browser: Take a MALLET to disciplinary history, https://agoldst.github.io/dfr-browser/ (2013 2016). Mimno, David: jslda: In-browser topic modeling, https://mimno.infosci.cornell.edu/jslda/index.html (2012 2017). Chang, Jonathan, et al. Reading tea leaves: How humans interpret topic models. Advances in neural information processing systems (2009). Griffiths, Thomas L., and Mark Steyvers. Finding scientific topics. Proceedings of the National Academy of Sciences 101 (2004): 5228-5235.