Automatisierte Erstellung von Pressedossiers durch Textmining

Ähnliche Dokumente
Automatisierte Dossier- Erstellung mittels Text-Mining

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Complex Event Processing

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Text Mining für News-Sites Nina Hälker

ShopBot, ein Software-Agent für das Internet

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Social Monitoring. HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Generierung von sozialen Netzwerken. Steffen Brauer WiSe 2011/12 HAW Hamburg

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Technologie für RIS und Portalverbund der nächsten Generation E-Government Experts Meeting

Automatisierte Erstellung von Pressedossiers durch Textmining

Kurze Einführung in Web Data Mining

Innovation Management

Warum Suche (trotzdem) bedeutend ist

Ontologien und Ontologiesprachen

Corporate Semantic Search -

Usability Metrics. Related Work. Von Torsten Rauschan HAW Hamburg M-Inf2 Anwendungen 2 Betreuer: Prof. Dr.

Politische Inhalte in Social Media:

SEO Standards im ecommerce Ist Ihr Shop wirklich up-to-date? ecommerce conference 2013 / Hamburg Tobias Jungcurt / SoQuero GmbH

Detecting Near Duplicates for Web Crawling

Data Mining im Einzelhandel Methoden und Werkzeuge

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 392

Text-Mining: Einführung

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10

Eliminating waste in software projects: Effective knowledge management by using web based collaboration technology Diplom.de

semantische Informationssysteme

Das Internet im Wandel

Dokumenten-Technologien

Usability von Bedienkonzepten auf Tablets

Modellierung eines Epidemie- Frühwarnsystems mit. Nicolas With Master Seminar WS 2012/13

Proseminar - Data Mining

Opinion Mining in der Marktforschung

Extraktion von Metadaten als Basis für eine semantische Integration heterogener Informationssysteme

Proseminar - Data Mining

Forschungsproposal-Seminar

Nutzen und Vorteile des Prozessmanagements mit ECM

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher:

Big Data - Datenquellen und Anwendungen

Data/Information Quality Management

Teil 2: Schriftliche Ausarbeitung. Hinweise zur Gestaltung von Seminararbeiten und anderen wissenschaftlichen Aufsätzen

Soziales und Selbstgesteuertes Lernen

Strategien und Erfolgskontrolle im Electronic Business

Entfernung von Duplikaten in Data Warehouses

Innovative informationstechnische Ansätze für die Unterstützung moderner Arbeitsformen in Gegenwart und Zukunft.

I. Allgemeine Vorschriften. 1 Grundsatz der Gleichberechtigung

Kundenmanagement im Krankenhaus

Visual Analytics: Buzzword oder Innovation?

Software-Verifikation

Dokumentenbasierte Steuerung von Geschäftsprozessen

Arbeiten mit Datenbanken

Praktikum Einführung

Einführung zum Seminar

1 Boolesches Retrieval (2)

Einführung in Wissenschaftliches Arbeiten

Redundanz und Rationalität

Masterstudium Informatik CURRICULUM 2006 IN DER VERSION 2013 MICHAEL KRISPER, BASISGRUPPE INFORMATIK & SOFTWAREENTWICKLUNG

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Whitepaper Bio-Mode. Quelle:

The Economics of Higher Education in Germany

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Evaluation von Websites

Kirche im Web Möglichkeiten und Grenzen des Crowdsourcing. by Crowdsourcingblog.de

Vorlesung Winter 2014/15 Prof. A. Müller

Enterprise Social Network. Social Media im Unternehmen

Seminar im Sommersemester 2012 Prozessanalyse und Privatheit in Workflowmanagementsystemen

Mobile! Usability Testing for Innovative Interfaces!

Team Collaboration im Web 2.0

Willkommen. Benutzerhandbuch für die OECD Online-Bibliothek

Wie schreibt man eine Ausarbeitung?

Maschinelle Übersetzung

Leistungsbewertung. ENGLISCH Leistungsanforderungen Klasse 5/6 Beurteilungsbereiche. Klassenarbeiten (ca. 50%) Klassenarbeiten. Sonstige Mitarbeit

Proling von Software-Energieverbrauch

Microsoft Office SharePoint Server 2007 Überblick. Gernot Kühn Partner Technical Specialist Microsoft Deutschland Gmbh

Waldwissen.net (Forest-knowledge.net)

Intelligente Systeme WS 2015/16

Seminar Datenbanksysteme

Semantic Web. Anwendungsbereiche & Entwicklungen. Dr. Michael Granitzer

P- BPOKM. 1 Business Process Oriented Knowledge Management

Anwendungsfall 1. Unternehmen: Versicherungsunternehmen in Hong Kong

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Anne Groß GI Fachgruppentreffen RE, 24./ , Hamburg

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Vertiefte Themen in Mobilen und Verteilten Systemen

Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit

Herzlich willkommen! Online 22. März 2011

Kapitel 5: Statische Analyse

Pro-Nursing. Professional Nursing Education and Training. Fachtagung Neue Kompetenzen für neue Beschäftigungsmöglichkeiten

Gruppenentscheidungsprozesse im Requirements Engineering

TRIFT Transfer of Innovation into the Field of Foreign Trade

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

iflat: Vision of Computer Supported Cooperative Work in Home Environment

Transkript:

Automatisierte Erstellung von Pressedossiers durch Textmining Kontextualierung im journalistischen Umfeld Marcel Schöneberg marcel.schoeneberg@haw-hamburg.de Hochschule für Angewandte Wissenschaften Hamburg (HAW) Fakultät für Technik und Informatik Department Informatik Masterseminar Präsentation 16.12.2014 M. Schöneberg Automatisierte Dossiererstellung 1 / 28

1 Rückblick Grundprojekt 2 Masterarbeit Überblick Einführung Fragestellungen und Ziele Erste Ideen Related Work Konkrete Schritte Weitere mögliche Schritte Bewertung von Ergebnissen 3 Aktueller Fortschritt: Hauptprojekt 4 Chancen und Risiken 5 Fragen 6 Literatur M. Schöneberg Automatisierte Dossiererstellung Rückblick Grundprojekt 2 / 28

Zielsetzung [Sch14] Ursprüngliche Idee: Trenderkennung in Social Media Ziele von Projekt 1: Datenbasis schaffen Vorverarbeitungen durchführen und verstehen (Hierarchisches) Clustering als Experiment Daten kennenlernen These: Ausgewachsene Trends/Themen müssten einen Cluster bilden Untercluster zeigen ggf. kleinere Trends auf Ggf. als Basis für spätere Zeitreihenanalysen nutzen M. Schöneberg Automatisierte Dossiererstellung Rückblick Grundprojekt 3 / 28

Erfolge Vorhandene Datenbasis mit über 27000 Tweets zum Hashtag-Piraten Zeitraum: 11.2011-05.2014 Erfahrungen mit Vorverarbeitung (z.b. Normalisierung, Stemming, NLP) Clustering mit verschiedenen Clustermengen und unterschiedlichen Untermengen des Korpus Diverse Stolpersteine kennengelernt M. Schöneberg Automatisierte Dossiererstellung Rückblick Grundprojekt 4 / 28

Misserfolge - Begründung für den Fokuswechsel Weitgehend nutzlose Resultate Cluster zumeist eher Sammlung aus unzusammenhängenden Begriffen (ggf. Zufallstreffer ) Auch Nutzung eines auf Nomen basierenden Korpus nicht erfolgversprechend Texte grundlegend zu kurz schlechte Sprache (Abkürzungen usw.) Clustering zu undurchsichtig Trenderkennung ist ein schwammiges Ziel Durchaus möglich 1 aber u.a: komplexe Vorverarbeitung etc. notwendig Keine gute Ausgangsbasis 1 Siehe Fazit von [Sch14] M. Schöneberg Automatisierte Dossiererstellung Rückblick Grundprojekt 5 / 28

1 Rückblick Grundprojekt 2 Masterarbeit Überblick Einführung Fragestellungen und Ziele Erste Ideen Related Work Konkrete Schritte Weitere mögliche Schritte Bewertung von Ergebnissen 3 Aktueller Fortschritt: Hauptprojekt 4 Chancen und Risiken 5 Fragen 6 Literatur M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 6 / 28

Einführung in die Thematik I Ziel: Erstellung von Dossiers Kontextualisierung eines Artikels Fokus auf textbasierten Dossiers: Keine multimedialen Inhalte usw. Dossiers: Verschiedene (Experten-) Definitionen vorhanden [Hä14] Arbeitsthese: Zusammenstellung von ähnlichen Artikeln Inhaltliche / semantische Nähe Erster Schritt: Nicht für alles geeignet Abbildung 1 Ähnlichkeit als Basis Distanzfunktionen (Zunächst) möglichst verständlich halten M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 7 / 28

Einführung in die Thematik II Abbildung: Realisierbarer Workflow M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 8 / 28

Einführung in die Thematik III Artikelarchiv: nach Sortierung ca. 2700 Artikel (Englisch) von Journalisten Basierend auf dem Eurozine Netzwerk www.eurozine.com Größere Länge als Tweets Meta-Informationen vorhanden (Verlinkungen auf Inhaltsverzeichnisse, redaktionelle Focalpoints etc.) Sinnvoll nutzbar? semi-strukturiert in XML (Autor, Abstract, Überschriften usw.) M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 9 / 28

Einführung in die Thematik IV Beispiel Artikelarchiv hat ebenfalls Probleme: Nicht alle englischsprachig Enthält auch Zusammenfassungen etc. z.t. Gedichte (recht kurz, sprachlich besonders) Invalides XML M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 10 / 28

Fragestellungen und Ziele Automatisierbare Dossiererstellung möglich? Was sind Pressedossiers bzw. wie werden diese benutzt? Lassen sich fachliche Anforderungen in einen Algorithmus überführen? Sind journalistische Definitionen eines Dossiers mit Informatik umsetzbar? Wie kann man ein generiertes Ergebnisses bewerten? Versuch den Algorithmus übersichtlich zu halten M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 11 / 28

Erste Ideen I Viele Diskussionen und Ideen Simple Distanzfunktionen nutzen Facetten / abweichende Sichtweisen finden Vorhandene Clustering Techniken benutzen Vorschlagssysteme aufgrund von Lernalgorithmen / Crowd Metainformationen (Autoren, Herkunft) nutzen besserer Überblick Ggf. Distanzfunktionen verbessern M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 12 / 28

Erste Ideen II Zu einfach gedacht Geht nicht auf fachliche Anforderungen ein Clusteringverfahren oft sehr undurchsichtig (vgl. Projekt 1) Vorschlagssysteme brauchen (oft) eine Basis - Nicht vorhanden Coldstart problem Viele Systeme setzen auf Personalisierung oder die Crowd Ziel: automatisierte und neutrale Ergebnisse (z.b. [PL10], [KFD12], [LCLS10]) Ideen Den zweiten Schritt vor dem ersten tun Erlernen von Ähnlichkeit nicht im Fokus (Neuronale Netze usw.) Nicht ohne Weiteres anpassbar Nicht als erster Schritt M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 13 / 28

Related Work Forschungsprojekt der DPA Overview Project http://overview.ap.org/ XML Ähnlichkeiten [TCY09] Distanzfunktionen [HRJM13] Content-based Recommender Systems [LGS] Überblick über Recommender Systems in der Breite [BOHG13] Article Recommender Systems [BDD + 12] M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 14 / 28

Konkrete Schritte I Ziel ist höchst experimentell Schrittweise annähern und verbessern Verbesserung der Distanzfunktion zwischen Dokumenten Bag of Words-Ansatz Ausgangsbasis: der Leitartikel später ggf. gewichtete Wortmenge M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 15 / 28

Konkrete Schritte II Gewichtete Wertungen von wichtigeren Teilen Gute Werte noch zu ermitteln 1 Abstract 2 Title 3 Subheadings 4 Text Anreicherung mit themenspezifischen Kategorien Wortmengen pro Thema (z.b. Wirtschaft, Politik usw.) einbringen Gewichtung des Bag of words zugunsten der (hierarchischen) Kategorien Erweiterung durch Erkenntnisse einer Fachexpertin M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 16 / 28

Distanzfunktionen Vieles hat wurde im Rahmen des Seminars schon angesprochen [Sip14] Zunächst Nutzung einer einfachen euklidischen Distanz (auf Basis der Gewichtungen) Verschiedene Relevanzmaße für Termhäufigkeiten (Termvorkommen, TF-IDF) Diverse Kriterien von Distanz möglich (Relevanz, Themenbreite, Neuigkeit etc.) Diverse Funktionen und Möglichkeiten vorhanden M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 17 / 28

Weitere mögliche Schritte Autoren nutzen um Herkunft des Artikels zu bestimmen Ggf. Einbeziehung von Inhaltsverzeichnissen der (Themen-)Zeitschriften Linguistische Verbesserungen (z.b. Nutzung von Ontologien etc.) Erkennung von Facetten eines Themas (europäische Sicht auf Ursprungsartikel) M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 18 / 28

Bewertung von Ergebnissen Verifikation der Ergebnisse über Focalpoints-Zusammenfassungen Testkorpus als Verifikationsbasis: Focalpoint-Artikel (redaktionell eingeordnet) (fast) zufällige Artikel (nicht im Focalpoint) Berechnete Dossierartikel sollten möglichst den Focalpointartikeln entsprechen Nutzung von Eigenschaften wie: Recall (Trefferquote): Precision (Genauigkeit): {relevant documents} {retrieved documents} {relevant documents} {relevant documents} {retrieved documents} {retrieved documents} Wissen einer Domänenexpertin [PR-] M. Schöneberg Automatisierte Dossiererstellung Masterarbeit Überblick 19 / 28

1 Rückblick Grundprojekt 2 Masterarbeit Überblick Einführung Fragestellungen und Ziele Erste Ideen Related Work Konkrete Schritte Weitere mögliche Schritte Bewertung von Ergebnissen 3 Aktueller Fortschritt: Hauptprojekt 4 Chancen und Risiken 5 Fragen 6 Literatur M. Schöneberg Automatisierte Dossiererstellung Aktueller Fortschritt: Hauptprojekt 20 / 28

Aktueller Fortschritt: Hauptprojekt I Aufgesetzter Testkorpus (Focalpoint Artikel + beliebige Artikel als Vergleichsbasis) Rapidminer 2 Verständnis und Hürden KDD Preprocessing Erste Versuche lauffähig Domänenübergreifendes Projekt Grundlegendes gemeinsames Verständnis M. Schöneberg Automatisierte Dossiererstellung Aktueller Fortschritt: Hauptprojekt 21 / 28

Aktueller Fortschritt: Hauptprojekt II (a) Process (c) Resultwindow (b) Script 2 https://rapidminer.com/ M. Schöneberg Automatisierte Dossiererstellung Aktueller Fortschritt: Hauptprojekt 22 / 28

1 Rückblick Grundprojekt 2 Masterarbeit Überblick Einführung Fragestellungen und Ziele Erste Ideen Related Work Konkrete Schritte Weitere mögliche Schritte Bewertung von Ergebnissen 3 Aktueller Fortschritt: Hauptprojekt 4 Chancen und Risiken 5 Fragen 6 Literatur M. Schöneberg Automatisierte Dossiererstellung Chancen und Risiken 23 / 28

Chancen und Risiken I Chancen Viel Interesse - Editors don t scale HAW NextMedia 3 gefördert durch BMBF DPA Forschungsprojekt Risiken Zu abweichende Meinungen von Was ist ein Dossier Gefahr das Experten ihr Wissen nicht weitergeben können - Habe ich im Gefühl [McD83] Definitionen zu komplex oder zu unspezifisch um sie automatisiert umzusetzen Aufeinander aufbauender Prozess - wenn eins schief geht Problem 3 http://nextmedia-haw.de/ M. Schöneberg Automatisierte Dossiererstellung Chancen und Risiken 24 / 28

Fragen Vielen Dank für die Aufmerksamkeit! Fragen? M. Schöneberg Automatisierte Dossiererstellung Fragen 25 / 28

Literature I Bancu, Cristian ; Dagadita, Monica ; Dascalu, Mihai ; Dobre, Ciprian ; Trausan-Matu, Stefan ; Florea, Adina M.: ARSYS Article Recommender System. In: Proceedings of the 2012 14th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. Washington, DC, USA : IEEE Computer Society, 2012 (SYNASC 12). ISBN 978 0 7695 4934 7, 349 355 Bobadilla, J. ; Ortega, F. ; Hernando, A. ; GutiéRrez, A.: Recommender Systems Survey. In: Know.-Based Syst. 46 (2013), Juli, 109 132. http://dx.doi.org/10.1016/j.knosys.2013.03.012. DOI 10.1016/j.knosys.2013.03.012. ISSN 0950 7051 Hälker, Nina: Dienen textminingbasierte Dossiers dem Wachsen einer gemeinsamen europäischen Erzählung? 2014. Arbeitspapier Harispe, Sébastien ; Ranwez, Sylvie ; Janaqi, Stefan ; Montmain, Jacky: Semantic Measures for the Comparison of Units of Language, Concepts or Entities from Text and Knowledge Base Analysis. In: CoRR abs/1310.1285 (2013). http://arxiv.org/abs/1310.1285 M. Schöneberg Automatisierte Dossiererstellung Literatur 26 / 28

Literature II Kirshenbaum, Evan ; Forman, George ; Dugan, Michael: A Live Comparison of Methods for Personalized Article Recommendation at Forbes.Com. In: Proceedings of the 2012 European Conference on Machine Learning and Knowledge Discovery in Databases - Volume Part II. Berlin, Heidelberg : Springer-Verlag, 2012 (ECML PKDD 12). ISBN 978 3 642 33485 6, 51 66 Li, Lihong ; Chu, Wei ; Langford, John ; Schapire, Robert E.: A Contextual-bandit Approach to Personalized News Article Recommendation. In: Proceedings of the 19th International Conference on World Wide Web. New York, NY, USA : ACM, 2010 (WWW 10). ISBN 978 1 60558 799 8, 661 670 Lops, Pasquale ; Gemmis, Marco de ; Semeraro, Giovanni: In: Recommender Systems Handbook McDermott, John P.: Extracting Knowledge From Expert Systems. In: Bundy, Alan (Hrsg.): IJCAI, William Kaufmann, 1983, 100-107 Peng, Chi-Chieh ; Liu, Duen-Ren: Combining Reputation and Content-based Filtering for Blog Article Recommendation in Social Bookmarking Websites. In: Proceedings of the 12th International Conference on Electronic Commerce: Roadmap for the Future of Electronic Business. New York, NY, USA : ACM, 2010 (ICEC 10). ISBN 978 1 4503 1427 5, 8 14 Precision-Recall diagram. http://wikis.gm.fh-koeln.de/wiki_ir/uploads/informationretrieval/recall/ir_bild.jpg M. Schöneberg Automatisierte Dossiererstellung Literatur 27 / 28

Literature III Schöneberg, Marcel: Erkennung von Trends in sozialen Netzwerken. Version: 10 2014. http://users.informatik.haw-hamburg.de/~ubicomp/projekte/master2014-proj/schoeneberg.pdf. 2014. Projektbericht Sippel, Sigurd: Recommendations for cocktail recipes. (2014), 11. http://users.informatik.haw-hamburg.de/~ubicomp/projekte/master2014-sem/sippel/folien.pdf Tekli, Joe ; Chbeir, Richard ; Yetongnon, Kokou: Survey: An Overview on XML Similarity: Background, Current Trends and Future Directions. In: Comput. Sci. Rev. 3 (2009), August, Nr. 3, 151 173. http://dx.doi.org/10.1016/j.cosrev.2009.03.001. DOI 10.1016/j.cosrev.2009.03.001. ISSN 1574 0137 M. Schöneberg Automatisierte Dossiererstellung Literatur 28 / 28