The Proposi+on Bank: An Annotated Corpus of Seman+c Roles

Ähnliche Dokumente
Softwareprojekte. Anette Frank Seminar für Computerlinguistik Universität Heidelberg SS 2009

NLP Eigenschaften von Text

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI

Einführung in die Semantik, 9. Sitzung Prädikate, definite NPs

3. Phrasenstruktur und Merkmale 2

Das Kompositionalitätsprinzip

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter

Einführung in die Computerlinguistik. Semantik

Informationsextraktion

Im Original veränderbare Word-Dateien

Practical Grammar Engineering Using HPSG 2.Tag. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel

Exercise (Part I) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Einführung in die Sprachwissenschaft -Tutorium-

Falko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes

English grammar BLOCK F:

Semantik III. Argumentstruktur/Theta-Rollen Typen von Extensionen/Valenz Wahrheitswerte Proposition. Semantik 3 1

Extract of the Annotations used for Econ 5080 at the University of Utah, with study questions, akmk.pdf.

Tiefenkasus und Kasusrahmen bei Fillmore

EF Semantik: Musterlösung zu Aufgabenblatt 2

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

Algorithmen und Datenstrukturen

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

. Syntaktische und semantische Annotation frühneuhochdeutscher Hexenverhörprotokolle. Fabian Barteld

Einführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado

"What's in the news? - or: why Angela Merkel is not significant

Visualisierung von Geschäftsgrafiken. Dr. Wolfram Schroers

Teil II: Phrasen und Phrasenstruktur

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

Einführung in die Computerlinguistik

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Vertretungsstunde Englisch 5. Klasse: Grammatik

Modul : Syntax Aufgabenblatt 10 mögliche Musterlösung Aufgabe 1: Θ-Kriterium

Nachdem Sie die Datei (z.b. t330usbflashupdate.exe) heruntergeladen haben, führen Sie bitte einen Doppelklick mit der linken Maustaste darauf aus:

Programmierkurs Python II

Lange Abhängigkeiten in Brosziewski-Derivationen

Einführung Computerlinguistik. Konstituentensyntax II

Lektion 9: Konjugation von Verben im Präsens (conjugation of verbs in present tense)

Semantic MediaWiki: Extension Semantic Forms eine kleine Anleitung

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

What s New? Skype for Business. Dirk THORMANN

Der probabilistische Ansatz

Unterspezifikation in der Semantik Hole Semantics

Das Aktantenpotenzial beschreibt die Möglichkeit eines Verbs andere Wörter an

Kontextsensitive Sprachen

Annotation des Wittgenstein-Korpus mit Wortart-Information

Java Application 1 Java Application 2. JDBC DriverManager. JDBC-ODBC Br idge. ODBC Driver Manager. Dr iver C. Dr iver D.

Fabian Heck Perlmutter & Soames Beethovenstr. 15, Raum Sommmersemester 2007

Von Requirements zutests. gç~åüáãkpåüìäò]èì~äáíóé~êâkçé

Proseminar Lexikalische Semantik. Wintersemester 2009/10. Verbalternationen. Torsten Jachmann

Übungen Softwaretechnik I

Tipps und Hinweise zum Bezug der Beitragssatzdatei V5.0

Algorithmen und Formale Sprachen

CS1005 Objektorientierte Programmierung Bachelor of Science (Informatik)

Kontextfreie Sprachen

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

Der Beginn einer wunderbaren Freundschaft von Stefan Schnell

Semantik in Suchmaschinen Beispiele. Karin Haenelt

Spezielle Themen der KI. NLP Natural Language Processing Parsing

1. Stellen Sie die Konstituentenstruktur der folgenden Sätze als Baumdiagramme dar:

Bisher. minimale DNF. logischen Formeln Booleschen Funktionen Schaltungen

Wissen aus unstrukturierten natürlichsprachlichen

desk.modul : WaWi- Export

Syntax Phrasenstruktur und Satzglieder

Einführung Syntaktische Funktionen

Role and Reference Grammar Handout Tim Lohmar, Edda Grudda, Jennifer Pahlke. 1. Einführung: Motivationen, Ziele und Beweise:

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Syntax und Morphologie

Aufgabe 1: % Schreiben Sie eine DATR-Theorie, die die Flexionsendungen deutscher % Adjektive erfasst. Benutzen Sie die gegebenen Show-Deklarationen.

Background for Hybrid Processing

Installationshinweise Z501J / Z501K Adapter IrDa USB Installation hints Z501J / Z501K Adapter IrDa USB

Fragen zum Nachdenken: Wie könnte man das Fehlen eines Attribut-Wertes interpretieren?

The app the crashes, before the breakpoint is reached: Code to the event:

Syntax - Das Berechnen syntaktischer Strukturen beim menschlichen Sprachverstehen (Fortsetzung)

Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten

Statistics, Data Analysis, and Simulation SS 2015

... MathML XHTML RDF

Einführung in die Informatik I (autip)

Anwendungsbeschreibung an einem Beispiel

GK Sprachwissenschaft - Wolfgang Schulze Zusammenfassung der Sitzung vom Syntax - Eine Einführung in die Grundlagen (1)

Swetlana Stickhof. Universität Heidelberg

Partitionieren über Rechnergrenzen hinweg

Indexing und Performance Tuning

Syntax: Satzstruktur und Repräsentation. PD Dr. Ralf Vogel

2 Sprachliche Einheiten

Klausurvorbereitende Übungen 1: Kommentierte Lösungen

Einführung in die Computerlinguistik

Künstliche Intelligenz Sprachverarbeitung mit Prolog

1. Download der benötigten Software Version 2. Speichern Sie das easytouch Update auf einem leeren USB-Sick (FAT) (max 2 GB) P3 / Mini.

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

Java Vererbung. Inhalt

Prof. S. Krauter Kombinatorik. WS Blatt03.doc

Umbenennen eines NetWorker 7.x Servers (UNIX/ Linux)

OO Programmiersprache vs relationales Model. DBIS/Dr. Karsten Tolle

VNUML Projektpraktikum

Die Wortbildung des Deutschen. Wortbildungsmittel

Naive Bayes. Naive Bayes

PIWIN 1 Übung Blatt 5

Aufgabentypen die in der Klausur vorkommen

Inwiefern zeigen die Monophthong Vokalverschiebungen in Neuseeland Englisch Evidenzen von 'chain shifting'?

Transkript:

Martha Palmer University of Pennsylvania Paul Kingsbury University of Pennsylvania Daniel Gildea University of Rochester The Proposi+on Bank: An Annotated Corpus of Seman+c Roles Rositsa Nedyalkova 1

Propbank in Verbindung zu den vorigen Sitzungen Thematische Rollen semantische Rollen Framenet Vergleich Verbalternationen in Propbank vertreten 2

Einführung Was ist Propbank? PennTreebank Levin Klassen Ziel:durch Verbalterna+onen ein nützliches Niveau im Bereich der seman+schen Repräsenta+on zu erreichen. Poten+elle Anwendung: Extrahierung von Informa+on,Fragen beantworten,maschinenübersetzung. 3

Inhalt 1.Semantische Rollen und Syntaktische Alternation 2.Annotation Schemata:Aussuchen des Sets semantischer Rollen 3.Propbank - Entwicklungsprozess 4.Propbank und Framenet 5.Quantitative Analyse der semantischen Rollen Labels 6.Automatische Ermittlung der semantischen Rollen Labels 7.Fazit 4

Einführung (1) John broke the window. (2) The window broke. Propbank:: Die Propbank konzentriert sich auf die Argumentenstruktur der Verben und entwickelt ein komplett mit semantischen Rollen annotiertes Korpus,einschließlich Rollen,betrachtet als Argumente und Attribute. Die Propbank erlaubt uns die Häufigkeit der syntaktischen Variationen zu bestimmen und dadurch auch die Probleme zu lösen, die sie bei den natürlichen Sprachen bereiten. 5

Verbnet und Propbank: Verbnet Klassen : Die Basis sind die Levin Klassen Hinzufügen von Subklassen,die syntaktischen und semantischen Zusammenhang zwischen den Elementen einer Klassen bilden. Jede Verbnet Klasse wird beschrieben durch: *thematische Rolle *Argumentenabgrenzung 1.Seman<sche Rollen und syntak<sche Alterna<on *Frames:syntaktische Beschreibung + semantische Prädikate(motion,contact,cause) Class Hit 18.1 Roles and Restric<ons: Agent[+int_control] Pa<ent[+concrete] Instrument[+concrete] Members: bang, bash, hit, kick,... Frames: Name Example Syntax Seman+cs Basic Transi<ve Paula hit the ball Agent V Pa+ent cause(agent, E)manner(during(E), directedmo+on, Agent)! contact(during(e), Agent, Pa+ent) manner(end(e),forceful, Agent) contact(end(e), Agent, Pa+ent) 6

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen 2.Annota+on Schemata:Aussuchen des Sets seman+scher Rollen Seman+sche Rollen auf der Verb by Verb Basis Die individuellen seman+schen Argumente eines Verbs sind nummeriert,beginnend mit der Null: Arg0= prototypischer Agent Arg1 = prototypischer Pa+ent(Dulder) Zusätzliche auf das Verb bezogene Rollen Beispiel: die Verben accept und kick Frameset accept.01 take willingly Arg0: Acceptor Arg1: Thing accepted Arg2: Accepted from Arg3: A]ribute Ex:[Arg0 He] [ArgM MOD would][argm NEG n t] accept [Arg1 anything of value] [Arg2 from those he was wri+ng about]. (wsj_0186) Frameset kick.01 drive or impel with the foot Arg0: Kicker Arg1: Thing kicked Arg2: Instrument (defaults to foot) Ex2: [Arg0 John] tried to kick [Arg1 the football], but Mary pulled it away at the last moment. 7

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen Roleset Frameset = Roleset + assozierte Frames Frames file = Die Sammlung aller Frameset Einträge eines Verbs. Attributsets(ArgMs) 8

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen 2.1 Charakterisierung von Framesets-basiert auf Semantik und Syntax Wenn ein Verb zwei verschiede Bedeutungen hat,die nicht gleiche Anzahl von Argumenten benötigen,hat das Verb zwei Framesets. 9

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen Verben,deren Alternationen( kausativ-inchoativ,ausfallen des Objekts,transitiv-intransitiv)die Bedeutung nicht ändern,haben nur ein Frameset und die Alternationen beziehen sich auf das eine Frameset,wo manche Argumente nicht genau angegeben sind. 10

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen 2.2 sekundäre Behauptungen EXT(extent) PRD(secondary prediction) Mary called John an idiot. (PRD) Mary called John a taxicab. (no PRD) Das Verb call in der Bedeutung von attach a label to 11

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen 2.3Zusammengefasste Argumente kick und hammer 12

2.Annotatonsschemata:Bes<mmung des Sets seman<scher Rollen 2.4 Role Labels und syntaktische Bäume Die Knoten der syntaktischen Bäume der Penn Treebank werden durch semantischen Rollen annotiert. Man darf die Struktur der Bäume nicht ändern Bei manchen Ausdrücken entstehen Annotationsprobleme wie bei: Präpositionalphrasen: 1.Wenn ein Argument als Zie definiert ist dann: John poured the water into the bottle. Zielort von Wasser = Flasche(nicht in die Flasche ) Präpositionsphrase in die Flasche Also soll dieses Argument mit der NP assoziert werden 2.ArgMs,die Präpositionsphrase darstellen,sollen auf dem PP Niveau annotiert werden. Um Konflikte zu vermeiden,werden nummerierte Argumente auf beiden Levels annotiert. Weitere Beispiele dafür: Out of,according to 13

3.Propbank Entwicklungsprozess 3.1 Framing 14

3.2 Annotation I. Regelbasierter Argument Tagger II. Handannotation III. Kappa Statistik(Siegel und Castellan 1988) 3.Propbank Entwicklungsprozess P(A) = Wahrscheinlichkeit der Kongruenz(zwischen den verschiedenen Annotationen) P(E) = zufälliges Agreement Rollenidentifikation (role vs nonrole) Rollenklasifikation (Arg0 vs Arg 1 usw) 15

4.Framenet und PropBank 16

4.Framenet und PropBank 17

Darstellung eines Systems,das die semantischen Rollen automatisch bestimmt. (Merlo and Stevenson, 2001) 5.1. Charakterisierung der semantischen Rollen durch ihre syntaktische Realisierung Wie häufig kommt eine bestimmte semantische Rolle in spezifischen syntaktischen Position vor? -Zur Vereinfachung werden Partizip Präsens und Perfekt nicht berücksichtigt. -Regeln: 5.Quan<ta<ve Analyse Seman<c Role Labels *jede NP unter S in der Treebank = syntaktisches Subjekt.(Arg0) *jede NP unter VP = syntaktisches Objekt.(Arg1) In allen anderen Fällen werden die syntaktischen Kategorien übernommen,die an den Knoten der Treebank Bäume bestimmt sind. 18

5.Quan<ta<ve Analyse Seman<c Role Labels 19

5.Quan<ta<ve Analyse Seman<c Role Labels 5.2.Verbindung der Verb Klassen mit den spezifischen syntaktischen Konstruktionen 20

6.Automa<sche ErmiZlung der Seman<schen Rollen 6.1Das statistische System von Gildea und Jurafsky(2002) - trainert auf die Daten von Framenet zur automatischen Bestimmung der semantische Rollen. 6.1.1.Das System Die Wahrscheinlichkeiten einer Parse Konstituente,die zu einer semantischen Rolle gehört,werden durch die folgenden Merkmale beschrieben. Typ der Phrase: (NP,VP,S) Parse Baumpfad Position Voice Lemma(headword) Prädikat Argument : VB VP S ate He 21

6.Automa<sche ErmiZlung der Seman<schen Rollen Das System bestimmt die Argumentenrollen im Datenbank durch: argmax: die höchste WK-Belegung der Rolen ri zu allen Konstituenten i im Satz. Merkmalset für jedes i und Prädikat p I. Wir teilen die WK-Bewertung in 2 Teilen: P(ri Fi) und P(ri p) II.Diese WK-en werden kombiniert mit: Set von den Rollen im Satz Prädikat 22

Resultate 6.Automa<sche ErmiZlung der Seman<schen Rollen Das selbe System wurde auf eine vorläufige Version von Propbank angewendet. o Aus dem Propbank Datenset: 72,109 Prädikat Argument Strukturen(190,815 individuelle Argumente und Beispiele von 2,462 lexikalischen Prädikaten + die Annota+onen einer Sek+on von der Treebank. Das System wurde unter zwei Bedingungen getestet. 1.Es sind Konsituenten vorgegeben,die Argumente zu den Prädikaten sind,und das System soll nur die korrekte Role bes+mmen. 2.Das System soll die Argumente in den Sätzen finden und sie rich+g anno+eren. Die Resultate sind sehr ähnlich wie diese bei Framenet 23

6.Automa<sche ErmiZlung der Seman<schen Rollen 24

7.Fazit Syntaktische Strukturen + Semantische Rolen = Detailierte Semantische Repräsentation Penn Treebank Levin Propbank Die Annotation der Propbank bei dem Training von automatischen Taggers angewendet + Entwicklung der IE Systeme(Information Extraction) +Maschinenübersetzung Weitere Projekte: Propbank für die Chinesische (Xue und Palmer 2003) und Koreanische Sprache New York University -> Annotation der Nominalisierung Erweiterung der Propbank Kipper,Palmer,und Rambow) Neue Version mit mehr informativen thematischen Labels,basierend auf VerbNet Gemeinsame Arbeit mit Framenet Mapping zwischen den beider Annotationen 25