BMBF gefördertes Verbundforschungsprojekt in den ehumanities. Zeitraum: 05/2012 04/2013 Multiple kollektive Identitäten in internationalen Debatten um Krieg und Frieden seit dem Ende des Kalten Krieges (eidentity) Sprachtechnologische Werkzeuge und Methoden für die Analyse mehrsprachiger Textmengen in den Sozialwissenschaften Anwendungsbeispiel: Interaktive Wortfrequenzanalyse Durchführende Forschungseinrichtungen und Ansprechpartner - Universität Stuttgart, Institut für Sozialwissenschaften (Koordination) - Universität Hildesheim, Institut für Informationswissenschaft und Sprachtechnologie, Sprachtechnologie / Computerlinguistik - Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung - Universität Potsdam, EB Kognitionswissenschaften, Angewandte Computerlinguistik Disziplinäre Verortung Sozialwissenschaften / Politikwissenschaft / Internationale Beziehungen / Europastudien / Soziologie / Praktische Philosophie / Computerlinguistik Wissenschaftlicher use case Wie mobilisieren internationale Akteure im politischen Diskurs in Krisensituationen verschiedene kollektive Identitäten? Spielen sie ethnische, religiöse, nationale, europäische, transatlantische u.a. Bindungen gegeneinander aus? Welche Effekte haben solche Dynamiken auf Debatten um bewaffnete Konflikte? Die sozialwissenschaftliche Analyse der Rolle multipler Identitäten im öffentlichen Diskurs ist ein noch junges Forschungsfeld, auf dem bisher rein qualitativ interpretative Methoden dominieren. Unser Projekt leistet Pionierarbeit in der semi automatischen Erforschung multipler kollektiver Identitäten, indem es das komplexe Geflecht von Identitätsdiskursen anhand internationaler Diskussionen über Kriege und humanitäre militärische 1
Interventionen seit dem Ende des Kalten Krieges analysiert. Die im Rahmen des Projekts entwickelten Analysewerkzeuge können darüber hinaus von der sozialwissenschaftlichen Community für eine breite Palette korpusanalytischer Anwendungen genutzt werden, einschließlich der Erfassung und semi automatischen Kodierung von large n Textsamples. Methode Um der Vielschichtigkeit der im Korpusmaterial zu untersuchenden Indikatoren ebenso Rechnung zu tragen wie dem erheblichen Korpusumfang und dem Nebeneinander von deutsch, englisch und französischsprachigen Texten, wird die Analyse sprachtechnologische Werkzeuge und Methoden nutzen, die in den Sozialwissenschaften bislang nur in Ausnahmefällen Anwendung fanden. Es erstellt dazu ein mehrsprachiges Korpus, das den Zeitraum von 1990 bis 2012 abdeckt. Dieses Korpus wird in einem arbeitsteiligen Verfahren zunächst bereinigt und danach mit einer Anzahl neu entwickelter automatischer sowie semi automatischer Analysewerkzeuge codiert. Zu diesen Werkzeugen zählen insbesondere - ein transparenter und lernfähiger Complex Concept Builder (CCB), mit dem komplexe fachwissenschaftliche Begriffe (wie der Identitätsbegriff inklusive der feinen Unterschiede und Nuancen zwischen verschiedenen kollektiven Identitäten) für die Anwendung an alltagssprachlichem Textmaterial operationalisiert werden können. Der CCB integriert zudem vorhandene Tools und aktuelle Methodenentwicklungen zur Analyse der Beziehungen und Bewertungen, die die Sprecher hinsichtlich verschiedener kollektiver Identitäten äußern. - eine interaktive, web basierte Explorationswerkbank zur Korpuserstellung, erschließung und kodierung ( annotation). Diese wird Sozialwissenschaftlern auch über das Projektende hinaus als flexibles Bindeglied zu vorhandenen Infrastrukturen (z.b. CLARIN) dienen. Die Werkbank lässt sich unterschiedlichsten individuellen Forschungsfragen und Textmaterialien anpassen und bildet insbesondere auch die technische Basis für den CCB. Schematische Illustration der Projektschritte: 2
Genutzte Ressourcen (existierende Daten/Verfahren) Daten Eigenständig erstelltes, nicht öffentlich zugängliches Korpus, gesampelt anhand von repräsentativen Keywords aus von öffentlichen Bibliotheken lizenzierten Volltextdatenbanken: ca. 1 Million Artikel aus Deutschland (FAZ, SZ), Österreich (Der Standard, Die Presse), Frankreich (Le Monde, Le Figaro), UK (The Guardian, The Times), Irland (The Irish Times, The Irish Independent), USA (New York Times, Washington Post). Erprobte Verfahren - Konvertierung und Metadatenanalyse der Textsamples - Integration der Daten in ein Repository mit Web Interface - Dublettenanalyse (ngram Analyse) - Indexierung der linguistischen Analysen (Postgres) - Maschinelle Teilannotation mithilfe von Webservices aus CLARIN D: - Tokenisierung und Satzerkennung - Part of Speech Tagging (TreeTagger, RFTagger, Bohnet Pipeline) - Lemmatisierung (TreeTagger, Bohnet Pipeline, LemmaKorrektur) - Dependenzparsing (Bohnet Pipeline) - Namenserkennung (Stanford Pado) Entstehende Ressourcen Daten Die externe Weiternutzung des Textkorpus ist nach derzeitigem Stand rechtlich nicht möglich. Verfahren - Aufbau einer integrierten Explorationsdatenbank, die anschließend für andere Anwendungen nutzbar ist und folgende Funktionen in einem Interface vereint: - Konvertierung unterschiedlicher Quellformate, die - Filterung von Dubletten und Semi Dubletten in den Archiven - Einbeziehung weiterer computerlinguistischer Konzepte und Werkzeuge (Wortart Tagging, Parsing, Erkennung von Named Entities ) - Konstruktion des Complex Concept Builder inkl. web basierter Oberfläche: - Keyword basierte oder random gesteuerte Exploration der Artikel Anwendungsbeispiel: Complex Concept Builder 3
- Semi automatische sowie lernfähige Annotation mit interaktivem, web basierten Codierungsinterface (inkl. Annotator Verwaltung) - Integration von maschinellen Lernverfahren zur automatischen Erkennung von kollektiven Identitäten. - Korpuslinguistische, semi automatische Kodiermethodik für die Erforschung komplexer sozialwissenschaftlicher Fragestellungen - Automatisches Themen Clustering (Weiterentwicklung des Tools Dualist) - Erprobung der automatischen Identifizierung komplexer linguistischer Strukturen: Sprecher, Redeformen, spezifische Sprechakte - Integration der entstehenden Tools in CLARIN D, insbesondere der Explorationsdatenbank und des CCB Anwendungsbeispiel: Dualist basierte automatische Wortfelderstellung Kooperationen Teile der methodologischen und theoretischen Vorarbeiten basieren auf Ergebnissen vorheriger Projekte an der FU Berlin, die u.a. durch die Europäische Kommission im Rahmen der Forschungsinitiative RECON (Reconstituting Democracy in Europe) gefördert wurden. Die im Verbundprojekt entwickelten Tools werden in die bestehenden ehumanities Strukturen integriert, insbesondere im Rahmen des BMBF geförderten Projekts CLARIN D. Das IMS Stuttgart ist selbst als Infrastrukturzentrum in CLARIN integriert. Kontaktinformationen Website des Projekts http://www.uni stuttgart.de/soz/ib/forschung/forschungsprojekte/eidentity.html Ansprechpartner Leiterin des Verbundprojekts und Verantwortliche der sozialwissenschaftlichen Fragestellungen: Prof. Dr. Cathleen Kantner Institut für Sozialwissenschaften Abteilung für Internationale Beziehungen und Europäische Integration Breitscheidstr. 2, 70174 Stuttgart Tel.: 0711 685 83425 cathleen.kantner@sowi.uni stuttgart.de Lexikalisch terminologische Fragestellungen, klassische Sentiment Analyse: Prof. Dr. Ulrich Heid Marienburger Platz 22, 31141 Hildesheim Tel. 05121 883 832 heid@uni hildesheim.de Multilinguale syntaktisch strukturelle Analyse, maschinelle Lernverfahren: Prof. Dr. Jonas Kuhn Pfaffenwaldring 5B 70569 Stuttgart Tel. 0711 685 81365 jonas@ims.uni stuttgart.de Illokutionäre Analyse, pragmatisch geprägte Sentiment Analyse: Prof. Dr. Manfred Stede Karl Liebknecht Str. 24 25, 14476 Golm Tel. 0331 977 2691 stede@uni potsdam.de 4
Referenzen Blessing, A.; Schütze, H. (2012). Crosslingual Distant Supervision for Extracting Relations of Different Complexity. In Proceedings of the 21st ACM International Conference on Information and Knowledge Management (CIKM 12). Cap, F. and Heid, U. (2011) 'Distinguishing Specialised Discourse: The Example of Juridical Texts on Industrial Property Rights and Trademark Legislation', International Relations Online Working Paper Series, 2011, 3, Stuttgart University, Stuttgart, http://www.unistuttgart.de/soz/ib/forschung/irworkingpapers/irowp_series_2011_3_cap_heid_specialized_discourse.pdf Eckart, K.; Eberle, K.; Heid, U. (2010). An infrastructure for more reliable corpus analysis'', in: Proceedings of the Workshop on WebServices and Processing Pipelines in HLT Tool Evaluation, LR production and validation, LREC 2010 (Malta), 2010. Heid, U.; Fritzinger, F.; Hinrichs, E.; Hinrichs, M.; Zastrow, T. (2010). Term and collocation extraction by means of complex linguistic web services'', in: Proceedings of LREC 2010, Linguistic Resources and Evaluation Conference, Malta, 2010. Kantner, C. (2006) 'Collective identity as shared ethical self understanding: The case of the emerging European identity', European Journal of Social Theory, 9(4): 501 523. Kantner, C. (2010) 'L identité européenne entre commercium et communio', in L. Kaufmann and D. Trom (eds), Qu'est ce qu'un collectif? Du commun à la politique, Paris: Éditions de l'école des Hautes Ètudes en Sciences Sociales (EHESS), pp. 221 247. Kantner, C. (2011) 'Debating Humanitarian Military Interventions in the European Public Sphere', RECON Online Working Paper 2011/30, Arena Oslo, Oslo, http://www.reconproject.eu/main.php/recon_wp_1130.pdf?fileitem=5456380 Kantner, C. (2011) 'European Identity as Commercium and Communio in Transnational Debate on Wars and Humanitarian Military Interventions', RECON Online Working Paper 2011/37, Arena Oslo, Oslo, http://www.reconproject.eu/main.php/recon_wp_1137.pdf?fileitem=5456488 Kantner, C., & Kutter, A. (2012). Corpus Based Content Analysis: A Method for Investigating News Coverage on War and Intervention. International Relations Online Working Paper Series, 2012, 1, Stuttgart University, Stuttgart, http://www.uni stuttgart.de/soz/ib/forschung/irworkingpapers/irowp_series_2012_1_kutter_kantner_corpus Based_Content_Analysis.pdf Kantner, C., Kutter, A., Hildebrandt, A. & Püttcher, M. (2011) 'How to get rid of the Noise in the Corpus: Cleaning Large Samples of Digital Newspaper Texts', International Relations Online Working Paper Series, 2011, 2, Stuttgart University, Stuttgart, http://www.unistuttgart.de/soz/ib/forschung/irworkingpapers/irowp_series_2011_2_kantner_kutter_analysis_newspaper_texts.pdf Kantner, C.; Kutter, A.; Renfordt, S. (2008). 'The Perception of the EU as an Emerging Security Actor in Media Debates on Humanitarian and Military Interventions (1990 2006)', RECON Online Working Paper 2008/19, Arena Oslo, http://www.reconproject.eu/main.php/recon_wp_0819.pdf?fileitem=16662569 Kolb, P., Kutter, A., Kantner, C. & Stede, M. (2009) 'Computer und korpuslinguistische Verfahren für die Analyse massenmedialer politischer Kommunikation: Humanitäre und militärische Interventionen im Spiegel der Presse', in W. Hoeppner (ed.), Technischer Bericht Nr. 2009 01. GSCL Symposium Sprachtechnologie und ehumanities, Duisburg: Universität Duisburg Essen, pp. 62 71. Taboada, M.; Brooke, J.; Tofiloski, M.; Voll, K. & Stede, M. (2011). Lexicon based methods for sentiment analysis. In: Computational Linguistics 37(2):267 307, 2011. 5