PHRASENERKENNUNG IM ENGLISCHEN

Ähnliche Dokumente
Englisch-Grundwortschatz

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Prepositions are words that give information to the reader. Vorwörter geben dem Leser Informationen.

<APPOINT> BiographIE - Informationsextraktion aus biographischen Kontexten. Hauptseminar im Wintersemester 2009/2010

Textmining Information Extraction (symbolisch)

Proseminar Linguistische Annotation

Moderne deutsche Wortbildung

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI

Sandy the Snail. 30 Finken Verlag

[GEBEN SIE DEN TITEL DES DOKUMENTS EIN]

Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW

TreeTagger. Deborah Watty

Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation

Syntax natürlicher Sprachen

Registration of residence at Citizens Office (Bürgerbüro)

Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu. Hauptseminar: Informationsextraktion aus biographische Kontexten

Gerlang 2 Winter 2013 Tentative schedule. Date Class Activity Preparation for next day

Contents / Inhalt. Lilijana Stepic, ERLERNEN WIR DIE ENGLISCHEN ZEITEN 205. Vorwort... und noch einige Tipps zum erfolgreichen Lernen

Gerlang 5B Summer 2013

Future plans. Exercise 1: Read the text below.

DELA Wörterbücher ===========================================================

Modern Foreign Languages

On a Sunday Morning summary

Gemeinde Gilching. Registration kindergarten for the school year 2018/2019

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Named Entity Recognition auf Basis von Wortlisten

Gemeinde Gilching. Registration kindergarten for the school year 2016/2017

25 teams will compete in the ECSG Ghent 2017 Senior Class Badminton.

Level 1 German, 2012

Named Entity Recognition (NER)

Teil 111. Chart-Parsing

Schule mit Erfolg. Englisch Simple present adverbs time Unit Blatt What time is it? 7.50 Uhr Uhr Uhr Uhr 20.

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

NLP Eigenschaften von Text

Level 1 German, 2014

JOBS OF TEENAGERS CODE 250

Informationsextraktion

Franke & Bornberg award AachenMünchener private annuity insurance schemes top grades

ABLAUF USI BÜRO INSKRIPTION im WS 18-19

Syntaktische Kategorien: Phrasenkategorien

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

The English Tenses Die englischen Zeitformen

Semantic Role Labeling im modernen Text-Analyse-Prozess

Künstliche Intelligenz Sprachverarbeitung mit Prolog

Kriminell gut Englisch 3 4: At the museum

Magic Figures. We note that in the example magic square the numbers 1 9 are used. All three rows (columns) have equal sum, called the magic number.

DIBELS TM. German Translations of Administration Directions

Call Centers and Low Wage Employment in International Comparison

Diskriminatives syntaktisches Reranking für SMT

Lokale Grammatik für resign und quit

Ein Stern in dunkler Nacht Die schoensten Weihnachtsgeschichten. Click here if your download doesn"t start automatically

Einführung in die Computerlinguistik. Morphologie III

Einführung Computerlinguistik. Konstituentensyntax II

Grade 12: Qualifikationsphase. My Abitur

Analyse biographischer Ereignisse: 3. Beruflicher Werdegang

German Section 29 - Online activitites

"What's in the news? - or: why Angela Merkel is not significant

Level 2 German, 2015

Ludwig-Maximilians Universität München Centrum für Informations -und Sprachverarbeitung

ABLAUF USI BÜRO INSKRIPTION

Deutsche Grammatik WS 14/15. Kerstin Schwabe

Informationsextraktionssystem ANNIE

Satzglieder und Gliedteile. Duden

die Band Freunde besuchen fernsehen Aufkleber sammeln

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Level 1 German, 2013

Electrical tests on Bosch unit injectors

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Tube Analyzer LogViewer 2.3

Seminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS

1. A number has 6 in the tenths place, 4 in the ones place, and 5 in the hundredths place. Write the number.

Sprachproduktion: grammatische Enkodierung nach Levelt 1989 bzw. Kempen & Hoenkamp 1987

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden.

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Meine Lernlandkarte. für UNIT 1. andere sprechen. Ich kann etwas. verneinen. Ich kann über mich, meine Schule und. Stundenpläne sprechen.

Projektseminar "Texttechnologische Informationsmodellierung"

FASTUS: Ein System zur Informationsextraktion mit Transduktoren

Einführung in die Sprachwissenschaft des Deutschen Syntax II. PD Dr. Alexandra Zepter

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

Dienstleistungsmanagement Übung 5

FEM Isoparametric Concept

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Fachbereich 5 Wirtschaftswissenschaften Univ.-Prof. Dr. Jan Franke-Viebach

entschuldigung well / good

Automatische Erkennung von Organisationsnamen in Englischsprachigen Wirtschaftsnachrichten. Dissertation von Friederike Mallchok

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

When you use any of these prepositions, you need to put the noun or pronoun following them into the accusative case. For example:

Automatisches Verstehen gesprochener Sprache

Transkript:

Centrum für Informations- und Sprachverarbeitung (CIS) Michaela Geierhos PHRASENERKENNUNG IM ENGLISCHEN mit kaskadierten lokalen Grammatiken, linguistischen Filtern und diversen statistischen Methoden 24. Januar 2007

Begriff der Phrase Was versteht man unter einer Phrase? Die Phrase (griechisch φράση, phrássi - der Satz, Ausdruck, die Wendung) bezeichnet in der Linguistik gemeinhin Satzteile, die nur geschlossen im Satz verschoben werden können. Während der Begriff Satzglied auf der syntaktischen Ebene angesiedelt ist, sagt der Begriff Phrase etwas über die kategoriale Füllung dieser Satzglieder. So werden im Allgemeinen Nominalphrase (NP), Verbalphrase (VP), Präpositionalphrase (PP), Adjektivphrase (AP) und Adverbialphrase (AdvP) voneinander unterschieden. Ohne den Begriff der Phrase wären viele computerlinguistische Modelle nicht vorstellbar. So sind sie grundlegender Baustein von Grammatiken, insbesondere von Phrasenstrukturgrammatiken. Michaela Geierhos, 24.01.2007 # 2

Beispiele für englische Phrasen Realisierungen englischer Phrasen absence of mind = Zerstreutheit auto liability insurance = Kfz-Haftpflichtversicherung axis of ordinates = y-achse free practice of religion = freie Religionsausübung against doctor s orders = entgegen ärztl. Anweisung of unknown paternity = Vater unbekannt Uncle Sam = Vater Staat to live the life of Riley = Leben wie Gott in Frankreich Quelle: http://www.phrasen.com/ Michaela Geierhos, 24.01.2007 # 3

Phrasenerkennung nach Petra Maier-Meyer Phrasenerkennung als vermeintliche Blackbox Michaela Geierhos, 24.01.2007 # 4

Phrasenerkennung nach Petra Maier-Meyer Mögliche Vorgehensweise bei der Phrasenerkennung (Teil I) Normalisierung des Eingabetextes (Korpus) Großschreibung wird auf Kleinschreibung abgebildet Part-of-Speech-Tagging (POS-Tagger = CISTAGGER) Mustererkennung und -extraktion => Liste von Phrasen-Kandidaten bestehend aus Vektoren der Form <Phrase, Grundform, POS-Sequenz> Anwendung linguistischer Filter Korrektur von möglichen Tagging-Fehlern Bereinigung von unsauberem Input Stoppphrasen (Stoppwörter auf Phrasenebene) Disambiguierung von Wortarten Will <=> will, Eigenname/Vorname/Nomen vs. Hilfsverb Michaela Geierhos, 24.01.2007 # 5

Phrasenerkennung nach Petra Maier-Meyer Part-of-Speech Tagging (Beispiel eines POS-Tagger Outputs) <tok><sur> </sur><lem cat="bos" mor=""></lem></tok> <tok><sur>36</sur><lem cat="adj" mor=":4">36</lem></tok> <tok><sur>strategies</sur><lem cat="n" mor=":m">strategy</lem></tok> <tok><sur>of</sur><lem cat="prep" mor="">of</lem></tok> <tok><sur>ancient</sur><lem cat="adj" mor=":b">ancient</lem></tok> <tok><sur>china</sur><lem cat="n" mor=":e">china</lem></tok> <tok><sur>:</sur><lem cat="pun" mor="">:</lem></tok> <tok><sur>.</sur><lem cat="eos" mor=""></lem></tok> Michaela Geierhos, 24.01.2007 # 6

Phrasenerkennung nach Petra Maier-Meyer Part-of-Speech Tagging (Struktur der Tagging-Information) <tok><sur> </sur><lem cat="bos" mor=""></lem></tok> TOKEN SURFACE FORM BEGIN OF SPEECH LEMMA FORM <tok><sur>china</sur><lem cat="n" mor=":e">china</lem></tok> LEXIKALISCHE KATEGORIE MORPHOLOGISCHES MERKMAL Michaela Geierhos, 24.01.2007 # 7

Phrasenerkennung nach Petra Maier-Meyer Mustererkennung und -extraktion innerhalb von Kontexten mögliche Kontexte sind Interpunktion Konjunktionen Artikel, weitere Determinatoren Verben etc. mögliche kontextuelle Phrasenmuster sind cnj n n pun det n prep n pun det adj n v etc. Michaela Geierhos, 24.01.2007 # 8

Phrasenerkennung nach Petra Maier-Meyer Vektoren von möglichen Phrasenkandidaten <The Art of War focus on, the art of war focus on, det n prep n n prep> <on military organization, on military organization, prep adj n pun> <and battlefield tactics, and battlefield tactics, cnj n n pun> <the Thirty-Six Strategies are, the thirty-six strategy be, det adj n v> <the fields of politics, the field of politics, det n prep n pun> <not only battlefield strategies, not only battlefield strategy, adv adj n n pun> Michaela Geierhos, 24.01.2007 # 9

Phrasenerkennung nach Petra Maier-Meyer Linguistische Filter: Was soll nicht als Nomen erkannt werden? according a day's days day eight five four friday half on i minute' s minutes minute monday month's months month nine of one percent quarter saturday second's seconds second seven six sunday ten three thursday time to tuesday two wednesday week's weeks week year's years Michaela Geierhos, 24.01.2007 # 10

Phrasenerkennung nach Petra Maier-Meyer Linguistische Filter: Was sind nicht-aussagekräftige Adjektive? able actual alone appropriate available a best better billion certain common concerned current different dozenth dozen earlier early eight-hundred possible present previous recent real second only specific special sure two-and-a-half two-hundred two-thousand twohundred twothousand useful usual various very whole working zero Michaela Geierhos, 24.01.2007 # 11

Phrasenerkennung nach Petra Maier-Meyer Linguistische Filter: Was sind zu allgemeine Phrasen? first round first time further details large numbers large portion last night last time least in principle little bit long term million people million pounds most part new year next door number of people original page other hand other side other things percentage points period of time point of view second half second place second time short term small group table of contents table of content take place the following time to time to order Michaela Geierhos, 24.01.2007 # 12

Phrasenerkennung nach Petra Maier-Meyer Welche Muster kommen für Nominalphrasen (NPs) in Frage? adj adj n.np adj adj en.np adj n n.np adj en n.np adj n en.np adj en en.np adj n prep n.np adje n prep n.np adj n prep en.np adj en prep en.np adj n.np adj en.np n n.np en n.np n en.np en en.np n n n.np en n n.np n en n.np n n en.np en en n.np en n en.np n en en.np en en en.np n prep adj n.np en prep adj n.np n prep adj en.np en prep adj en.np n prep n.np en prep n.np n prep en.np en prep en.np n prep n n.np en prep n n.np n prep en n.np n prep ne n.np en prep en n.np n prep en en.np en prep en en.np en prep n en.np Michaela Geierhos, 24.01.2007 # 13

Phrasenerkennung nach Petra Maier-Meyer Mögliche Vorgehensweise bei der Phrasenerkennung (Teil II) Statistische Verfahren zur Ermittlung der besten Phrasen Frequenzberechnung der Zitatform einer Phrase => <Phrase (Zitatform), Grundform, Frequenz> Bestimmung der kanonischen Form einer Phrase und deren Frequenz => <Phrase (Kanonische Form), Grundform, Frequenz> Sortieren nach Frequenz (optional) Filtern nach Frequenz Michaela Geierhos, 24.01.2007 # 14

Phrasenerkennung nach Petra Maier-Meyer Einige erkannte Phrasen im Beispieltext ¹ Art of War focus Balance Hide Beams With Rotten Timbers Borrowed Sword Burning House Chinese history Confucian notion of honor Corpse to Raise Dead Tree Distant Enemy Door to Catch Emperor to Cross Exhausted Enemy ¹http://www.cis.uni- muenchen.de/~micha/kurse/korpuslinguistik- WS0607/phrasen/phrasenerkennung_bsptext.txt Locust Tree Master Tan Mountain Link Opportunity To Lead Opposite Shore Delay Plum Tree Role of Guest Secret Art of War Smile Charm Strategy of Beautiful Women Strategy of Sowing Discord Sun Tzu Tactic of Combining Tactics Thirty-Six Strategies Michaela Geierhos, 24.01.2007 # 15

Phrasenerkennung nach Petra Maier-Meyer Fehler bei der Phrasenerkennung: Welche Fehlertypen gibt es? Unvollständige Erkennung des linken Kontextes and -koordinierte Adjektivphrase oder Nominalphrase { most cunning and [subtle strategies] } { time and [place for battle] } Unvollständige Erkennung des rechten Kontextes Komma-separierte Aufzählung { [fields of politics], diplomacy, and espionage } Irrelevantes Adjektiv als Teil einer guten Phrase [only { battlefield strategies] } Michaela Geierhos, 24.01.2007 # 16

Phrasenerkennung nach Petra Maier-Meyer Fehler bei der Phrasenerkennung: Welche Fehlertypen gibt es? Vollständige unerkannte Phrasen im Text { Chinese military texts } { Chinese military works of strategy } Zu weite Erkennung im rechten Kontext in muss bei der lexikalischen Filterung als Nomen verboten werden { [short-term objectives } in order] Weitere Fehlertypen lassen sich mit dem Beispieltext der Demo unter http://parker.cis.uni-muenchen.de/demos/coveragephrase.html ermitteln. Michaela Geierhos, 24.01.2007 # 17

Naive Phrasenerkennung mit Lokalen Grammatiken Können Lokale Grammatiken allein die Qualität der beschriebenen Phrasenerkennung nachempfinden? Die eben vorgestellten lexikalischen Muster lassen sich mühelos in Lokale Grammatiken umwandeln, welche vom System Unitex interpretiert werden können. Werden dieselben Phrasen wie zuvor erkannt? Die entsprechende Konkordanz gibt darüber Aufschluss http://www.cis.uni-muenchen.de/~micha/kurse/korpuslinguistik- WS0607/phrasen/naive_knk.html Michaela Geierhos, 24.01.2007 # 18

Naive Phrasenerkennung mit Lokalen Grammatiken Können Lokale Grammatiken allein die Qualität der beschriebenen Phrasenerkennung nachempfinden? Michaela Geierhos, 24.01.2007 # 19

Naive Phrasenerkennung mit Lokalen Grammatiken Denkfehler und Verbesserungen dieses naiven Ansatzes: Gleiche syntaktische Muster würden ähnliche Ergebnisse erzielen Ressourcenungleichheit auf Wörterbuchebene: => Unitex-System-Lexika vs. CISLEX-EN Lexika zur Filterung von unerwünschten Ambiguitäten auf lexikalischer Ebene fehlen noch diesem Ansatz Linguistische Filter in Form von Negativkontexten, Antigrammatiken oder Filterlexika müssen implementiert werden Verwendung von Phrasenlexika zur Verbesserung der Präzision Heuristiken als Ausschlussverfahren für zu allgemeine Kontexte oder für nicht-aussagekräftige Phrasen. Michaela Geierhos, 24.01.2007 # 20

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Umfassende Erweiterung der lexikalischen Datenbasis mit Fokus auf Mehrwortterme Eigennamen Personennamen, Vornamen, Nachnamen Organisationsnamen/Firmennamen typische adjektivische Kontexte von Firmen Ortsangaben/Lokativa/Geographische Entitäten geographische Adjektive und Nomina geographische Zugehörigkeiten (Nationaltiät, etc.) Berufsbezeichnungen (z.b. baby doctor) Menschenbezeichner (z.b. mother-in-law) Redewendungen (Idiome) Phrasenlexikon (http://www.phrases.com) Michaela Geierhos, 24.01.2007 # 21

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Linguistische Filterlexika und -grammatiken Ausschluss nominaler Lesarten von lexikalisch ambigen Wörtern, wie z.b. a, as, in, etc. Ausschluss irrelevanter phraseneinleitender Adjektive Zahlen unbestimmte Zahlwörter, wie several, many, etc. Ausschluss unbedeutender Adverben another, other, only, etc. Grammatiken für Phrasengrenzen Was leitet eine Phrase ein? Wie sieht der rechte Kontext einer Phrase aus, der sicher eine Nominalphrase begrenzt? Satzende Verbalphrase Interpunktion (außer Komma) Antigrammatiken zur Abdeckung ungewollt erkannter Phrasen Michaela Geierhos, 24.01.2007 # 22

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Lemmatisierung komplexer englischer Zeitformen Systematische Ergänzungen und Erweiterungen des Graphenpakets zur Lemmatisierung komplexer Zeitformen von Maurice Gross fehlende Graphen erstellen Passivgraphen schematisieren Futurgraphen erweitern etc. Tagging des zu untersuchenden Korpus mit den Lemmatisierungsgraphen Interpretation der komplexen Verbalphrasen als Einheit (Token) Verbalphrasen als Indikatoren für Grenzen von Nominalphrasen Grammatiken für die Lemmatisierung einfacher englischer Zeitformen und Annotation dieser im Korpus leichtere Disambiguierung, z.b. to make up (Verb) vs. make up / make-up (Nomen) Markierung von Verbalphrasen als möglicher begrenzender Kontext für die gesuchten Nominalphrasen Michaela Geierhos, 24.01.2007 # 23

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Kaskadierung von Lokalen Grammatiken mit Lemmatisierungsgraphen getaggter Korpus wird zum Eingabetext für die Anwendung von Lokalen Grammatiken, welche Personennamen Organisationsnamen Ortsnamen Datumsangaben, etc. erkennen und annotieren. Die eben genannten Einheiten können wiederum Bestandteil von komplexeren Nominalphrasen sein. Die jeweilige semantische Information dieser Phrasen lässt sich in weiteren Graphen zur Abgrenzung von Phrasen oder zur Erweiterung dieser nutzen. Datumsangaben sind beispielsweise mögliche Grenzen Namen sind selbst komplex und meist Teil komplexerer Nominalphrasen, so dass sie sich als Einheit (XN+PR) taggen lassen. Michaela Geierhos, 24.01.2007 # 24

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg. Verbesserungen: Named-Entity-Recognition (NER) mit Lokalen Grammatiken (z.b. Personennamen) Michaela Geierhos, 24.01.2007 # 25

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Analyse und Beschreibung von phrasenspezifischen Elementen (z.b. geographische Adjektive). Michaela Geierhos, 24.01.2007 # 26

Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Vorteile von kaskadierten Transduktoren. Erkennung von eigentlichen Verbalphrasen als potentielle Nominalphrasen wird vermieden (leichtere Disambiguierung) Getaggte Verbalphrasen dienen als Grenzmarkierung von Nominalphrasen Annotierte Namensphrasen können schematisiert als Teil neuer Phrasenmuster fungieren Vorteile detaillierter Beschreibung phraseninterner Kontexte Kombination von semantischer und syntaktischer Information grenzt potentielle Phrasen genauer ein gezielter Einsatz lexikalischer Ressourcen in engen Kontexten Michaela Geierhos, 24.01.2007 # 27

Phrasenerkennung mit Lokalen Grammatiken: BITE (Bilingual Term Extraction). Phrasenerkennung als Komponente in BITE Konkordanz auf dem Beispieltext mit den BITE-Graphen http://www.cis.uni-muenchen.de/~micha/kurse/korpuslinguistik- WS0607/phrasen/phrasen_bite.html Was ist auch an dieser Konkordanz offensichtlich? Es fehlen linguistische Filter. Es werden detaillierte und umfassendere Lexika benötigt. Vorverarbeitung (z.b. Bestimmung von Verbalphrasen) kann helfen die Nominalphrasengrenzen auszuloten. Gewisse statistische Nachbearbeitungsmethoden sind wichtig, um irrelevante Phrasenadjektive auszuschließen. Michaela Geierhos, 24.01.2007 # 28