Worteinbettung als semantisches Feature in der argumentativen Analyse

Ähnliche Dokumente
Worteinbettung als semantisches Feature in der argumentativen Analyse. Bachelorarbeit

Wo sind meine Anforderungen?

Intelligente Unterstützung für argumentatives Schreiben

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

ML-Werkzeuge und ihre Anwendung

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Wie lassen sich International Framework Agreements effektiv umsetzen?

Voransicht. Pro und Kontra. Textgebundene Erörterung 1 von 22. zum Thema Facebook verfassen

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Einführung in die Computerlinguistik

NovaStor Programm zur Kundenzufriedenheit - (DE) Last Updated: 11JUN2014 By: Clay Levering

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils

2 Sprachliche Einheiten

UML 2.0 als Architekturbeschreibungssprache? Seminar: Architekturbeschreibungssprachen Manuel Wickert

Einzelne Schüler können die Klassengemeinschaft stören! Durch ein gutes Klima in der Klasse verbessern Wandertage sind gut für das Selbstvertrauen!

SS2010 BAI2-LBP Gruppe 1 Team 07 Entwurf zu Aufgabe 4. R. C. Ladiges, D. Fast 10. Juni 2010

Allgemeine Gliederung

Systemdenken und Gestaltungsmethodik Dokumentation

Opinion Mining Herausforderungen und Anwendung in der Politik

NLP Eigenschaften von Text

E-learning2.0: Lernen mit social software

Einführung in die Informatik I (autip)

Künstliche Intelligenz Sprachverarbeitung mit Prolog

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Semantic Web: Das Web der nächsten Generation

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Schulinterner Kernlehrplan EF PL Leonardo-da-Vinci-Gymnasium Köln-Nippes

Lexika & Zugriff. Marcel Boeing

Zielvereinbarung. Team JAMT.

Einführung in die portugiesische Sprachwissenschaft

Deutsch. Bachelor Lehrveranstaltungen

Objektorientierte Bildverarbeitung Methodische Grundlagen

Maschinelle Übersetzung

Feature Modelle. und ihre Anwendung. Feature Modelle und ihre Anwendungen. Fachgebiet Softwaretechnik, Heinz Nixdorf Institut, Universität Paderborn

Einführung in die Computerlinguistik. Semantik

Data Mining und maschinelles Lernen

Ausstellervortrag Roland Gareis Consulting Projektkommunikation Oktober 2012 Dr. Stefan Fiedler, zspm

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung

SONNTAG OFFEN 599. undsparen! LACK LACK HOCH GLANZ HOCH GLANZ. Los je

Gruppe: swp12-9 (Projektleiter: Benjamin Glatz) Datum: Lastenheft. Web Annotation mit Fragment Ids. Gruppe: swp12-9

Hauptseminar. Plagiarism Detection. Christian Pusch. Plagiarism Detection Christian

Schullehrplan Deutsch, 1. Semester E-Profil

$Id: ring.tex,v /05/03 15:13:26 hk Exp $

Verwendung von OO-Metriken zur Vorhersage

Textsorten. Folien zum Tutorium Internationalisierung Go West: Preparing for First Contacts with the Anglo- American Academic World

Implizite Modellierung zur Objekterkennung in der Fernerkundung

Sharing Digital Knowledge and Expertise

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones

Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski

Seite 1 ITyX Gruppe 2013

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Automatisches Lernen von Regeln zur quellseitigen Umordnung

UNIVERSITÄT DES SAARLANDES PfflLOSOPHISCHE FAKULTÄT HI EMPIRISCHE HUMANWISSENSCHAFTEN

Rundum vernetzt Selbstdarstellung in sozialen Netzwerken Impulse und Methoden zur Binnendifferenzierung bei der text - gebundenen Erörterung

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember /19

Vorlesung Maschinelles Lernen

Lazar (Lazy-Structure-Activity Relationships)

Websourcebrowser Leicht zurechtfinden in Quelltexten

KI-Kolloquium am Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

Google findet Teilen gut? Eine empirische Studie zum Einfluss von Facebook- Shares und Co. auf das organische Ranking von Suchmaschinen

Companion Technologie

Erkennung fremdsprachiger Ausdrücke im Text

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter

Betriebliche Gesundheitsförderung: Was leistet sie und wie wird es gemacht. Zeit AG Fachtagung Arbeitszeiterfassung

Das Kompositionalitätsprinzip

Social Media Analytics: Automatische Analyse von Hotelbewertungen

Fallbeispiel. Auswahl und Evaluierung eines Software- Lokalisierungstools. Tekom Herbsttagung 2004 Angelika Zerfaß

Praktikum: Mediensicherheit und Forensik

1. Vorlesung,

Programmierkurs II. C und Assembler

Bayessches Lernen Aufgaben

Denken Gehörlose anders?

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenmodellierung für Forschungsdatenmanagementpläne

3 Erst-Installation des MDT

Latein - Klasse 5 (2. Hj.) - Version 2 (Juni 2005) S. 1 von 5

Ein Open-Source-Projekt im Überblick

Internationale Politik und Internationale Beziehungen: Einführung

Logik und Missbrauch der Logik in der Alltagssprache

Deutsche Sprache Bürofachdiplom nkg Serie 1/2007 Lösungen

Späte Pioniere: Senioren leben und lernen mit dem Web 2.0 JULIA BEHLKE (M.A.) UNIVERSITÄT HILDESHEIM CL³ - CENTER FOR LIFELONG LEARNING

AVWS Diagnostik aus sprachtherapeutischer Sicht

LEBENSLAUF UND MOTIVATIONSSCHREIBEN RICHTIG FORMULIEREN

Training CIC: LGMobile Support Tool. TCC LG Electronics Deutschland GmbH

HARMONICOP HARMONIzing COllaborative Planning Kulturelle Unterschiede im Umgang mit der Öffentlichkeitsbeteiligung in Europa

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Einführung in die Computerlinguistik

Geschätzte Kosten von Maßnahmen der EU zur Terrorismusbekämpfung

Web Mining Übung. Aufgaben. Umfang

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Mobile Information und Kommunikation - Smartphones und Tablet-PC -

Anfrage Erweiterung Jan Schrader

5 Benutzungsoberfläche

Schlusswort Einen wissenschaftlichen Text kann man schließen

DIPLOMARBEIT. Martin-Luther-Universität Halle-Wittenberg. Detektion von Transkriptionsfaktorbindestellen mit Support-Vektor-Maschinen

Das Internet im Wandel

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Transkript:

Worteinbettung als semantisches Feature in der argumentativen Analyse Bachelorverteidigung Kevin Lang 22.03.2016

Übersicht Was ist die argumentative Analyse? Worteinbettung und Word2Vec Resultate Diskussion Zukunftsaussichten 2

Motivation Foren News Netzwerke wissenschaftliche Arbeiten Argumentative Kernaussagen 3

Motivationen Kernaussagen eines argumentativen Textes schnell finden Für und Wider für aktuelle Themen auflisten Aussagen überprüfen und vergleichen Schreibunterstützung für zukünftige Texte 4

Argumentation Claim: Behauptung, Standpunkt des Verfassers Premise: Unterstützende oder angreifende Aussagen 1:n-Beziehung zwischen Claim und Premise 5

Die vier Schritte der argumentativen Analyse Beispiel: 6

Die vier Schritte der argumentativen Analyse Segmentierung Beispiel: 6

Die vier Schritte der argumentativen Analyse Segmentierung einfache Klassifizierung Beispiel: 6

Die vier Schritte der argumentativen Analyse Segmentierung einfache Klassifizierung einfache Relationen Beispiel: 6

Die vier Schritte der argumentativen Analyse Segmentierung einfache Klassifizierung einfache Relationen spezifischere Relationen Beispiel: 6

Bisherige Methoden Strukturelle Features Lexikalische Features Syntaktische Features Semantische Features 7

Ein neues semantisches Feature Worteinbettung mit Word2Vec Wörter haben eine bestimmte Bedeutung, die durch Vektoren ausgedrückt werden Ziel: Ähnlichkeiten zwischen Wörtern/Wortgruppen sollen Auskunft über Argumentation geben Beispiel: vector('king') - vector('man') + vector('woman') vector('queen') 8

Funktionsweise von Word2Vec 9

Versuchsaufbau uppsala text8 wiki14 news 1.500 arg. Aufsätze, ca. 12MB Trainingsdaten und daraus entstandene Modelle: Wikipedia Korpus von 2006, ca. 100MB Wikipedia Korpus von 2014, ca. 6GB Fertiges Modell aus Google News, ~100GB Klassifikationsdaten zum Evaluieren: AAEC Besteht aus 90 annotierten Schulaufsätzen mit 1552 arg. Segmenten und 1473 Relationen AMC Korpus in 2-Satz-Struktur zum Thema Politik mit 2274 Relationen von News Webseiten gesammelt 10

Resultate der Experimente Experiment 1: Verbesserung der Segmentierung Ergebnis: Bag-of-Words konnte nicht geschlagen werden, Problem der Stoppwörter Experiment 2: Klassifizierung von Segmenten Ergebnis: Bag-of-Words konnte ebenfalls nicht geschlagen werden, keine sinnvolle Berechnung von Ähnlichkeiten möglich 11

Resultate der Experimente Experiment 3: Relationenfindung von Argumenten Klassifikation uppsala text8 wiki14 news AAEC 57,86% 57,65% 57,63% 58,77% AMC 59,77% 59,77% 68,71% 60,02% Verschiedene Verfahren wurden angewendet: z.b. Extrahierung von Nomen, Nominalphrasen Bag of Words Genauigkeit in AAEC von 58,76% und in AMC von 66,08% konnten knapp geschlagen werden Besten Ergebnisse stammen meist von der Extrahierung der Nomen Die Analyse ganzer Sätze im AMC Korpus brachte bessere Ergebnisse hervor als nur von Segmenten im AAEC Korpus 12

Diskussion uppsala text8 wiki14 news argumentativ, aber geringer Wortschatz und Themenumfang Die Trainingsdaten enzyklopädisch, großer Wortschatz/ Themenumfang, nicht aktuell enzyklopädisch, großer Wortschatz/ Themenumfang argumentativ? großer Wortschatz, wahrscheinlich nicht sehr Themenumfassend Es existiert kein Korpus, der gleichzeitig argumentativ ist, einen großen Wortschatz hat und möglichst viele Themen/Kontexte umfasst 13

Diskussion Die Klassifikationsdaten AAEC Gute Annotierung aber Segmente geben oft nicht genug Informationen her AMC Ganze Sätze, dadurch mehr Informationen, aber Annotierung nicht immer nachvollziehbar Viel mehr support- als attack-relationen Annotierung nicht immer eindeutig, Urteilübereinstimmung der annotierenden Personen liegt nur bei rund 86% 14

Diskussion Das Framework Word2Vec Word2Vec nimmt pro Wort nur einen Kontext auf Lösung: Doc2Vec Word2Vec oft nicht so vielversprechend wie vorgestellt 15 vector('king') - vector('man') + vector('woman') vector('queen')

Diskussion A1) vec('library') vec('book') A2) vec('library') vec('borrow','book') B1) vec('productivity') vec('employee') B2) vec('productivity') vec('hard', 'working', 'employee') B3) vec('productivity') vec('fool', 'around', 'employee') B4) vec('productivity') vec('lazy', 'employee') Relation uppsala text8 wiki14 news A1 0,2524 0,2548 0,4871 0,3245 A2 0,6919 0,2387 0,4871 0,3738 B1 0,1451 0,2264 0,4416 0,2474 B2 0,3316 0,2868 0,4623 0,2636 B3 0,1626 0,2218 0,3817 0,1666 B4 0,1472 0,2320 0,3772 0,3205 16

Diskussion Allgemeine Frage: Argumentationen überhaupt lernbar? Argumentation soll von etwas neuem überzeugen, wie dann vorher lernbar? Argumentationen ändern sich über die Zeit, "Gut" und "Schlecht" nicht immer klar definierbar 17

Zukunftsaussichten Durch Worteinbettung mit Word2Vec können Aufgrund von Daten und funktionsweise kaum sinnvolle semantische Vorhersagen zu Argumentationen getroffen werden. Suche nach besseren Trainingsdaten, die groß, argumentativ und themenübergreifenden sind und Klassifikationsdaten, die verschiedene Quellen umfassen (Essays, Kommentare, News etc.) Postprocessing der Modelle durch Lexika, um die Vektoren von Wortgruppen zu verbessern Doc2Vec als Erweiterung von Word2Vec wenn bessere Implementationen vorhanden 18

Vielen Dank für Ihre Aufmerksamkeit! 19

20

Thesen Worteinbettungen kann die Textsegmentierung verbessern Durch Worteinbettungen kann man argumentative Segmente erkennen Durch Worteinbettungen kann man Relationen zwischen argumentativen Segmenten erkennen Ein größerer Trainingskorpus erzielt bessere Ergebnisse Das Extrahieren bestimmter Satzbestandteile führt zu besseren Ergebnissen Es existiert ein Grenzwert in der Kosinusähnlichkeit, ab dem man eine Relation als argumentativ einstufen kann 21

Resultate von Experiment 1 Ziel: Verbesserung der Segmentierung uppsala text8 wiki14 news 56,61% 57,68% 55,38% - Bag of Words mit 69,06% konnte nicht geschlagen werden Keine ausschlagenden Ergebnisse Problem: meist Stoppwörter an Grenzen, die keine sinnvolle Semantik besitzen 22

Resultate von Experiment 2 Ziel: Erkennung argumentativer Segmente Features uppsala text8 wiki14 news Word2Vec 69,59% 69,97% 71,01% 69,09% Word2Vec+Pos 80,33% 80,68% 81,02% 81,13% Bag-of-Words Genauigkeit von 71,06% Genauigkeit durch Positionsmerkmale 78,55% Im AAEC Korpus befinden sich meisten Argumente am Ende des Satzes (82,62%), am Ende des Paragraphen (73,59%) und in der Mitte des Essays (74,81%) 23

Diskussion Das Framework Word2Vec uppsala text8 wiki14 news Ø 0.1410 0.0700 0.0819 0.1305 Die Durchschnittsähnlichkeit von allen Modellen zeigt, dass diese oft nicht bei 0 liegt 24

Software Datenextrahierung mit den Stanford CoreNLP Tools Die Python Gensim Implementierung von Word2Vec Maschinelles Lernverfahren mit Weka 25