PHRASENERKENNUNG IM ENGLISCHEN

Transkript

1 Centrum für Informations- und Sprachverarbeitung (CIS) Michaela Geierhos PHRASENERKENNUNG IM ENGLISCHEN mit kaskadierten lokalen Grammatiken, linguistischen Filtern und diversen statistischen Methoden 24. Januar 2007

2 Begriff der Phrase Was versteht man unter einer Phrase? Die Phrase (griechisch φράση, phrássi - der Satz, Ausdruck, die Wendung) bezeichnet in der Linguistik gemeinhin Satzteile, die nur geschlossen im Satz verschoben werden können. Während der Begriff Satzglied auf der syntaktischen Ebene angesiedelt ist, sagt der Begriff Phrase etwas über die kategoriale Füllung dieser Satzglieder. So werden im Allgemeinen Nominalphrase (NP), Verbalphrase (VP), Präpositionalphrase (PP), Adjektivphrase (AP) und Adverbialphrase (AdvP) voneinander unterschieden. Ohne den Begriff der Phrase wären viele computerlinguistische Modelle nicht vorstellbar. So sind sie grundlegender Baustein von Grammatiken, insbesondere von Phrasenstrukturgrammatiken. Michaela Geierhos, # 2

3 Beispiele für englische Phrasen Realisierungen englischer Phrasen absence of mind = Zerstreutheit auto liability insurance = Kfz-Haftpflichtversicherung axis of ordinates = y-achse free practice of religion = freie Religionsausübung against doctor s orders = entgegen ärztl. Anweisung of unknown paternity = Vater unbekannt Uncle Sam = Vater Staat to live the life of Riley = Leben wie Gott in Frankreich Quelle: Michaela Geierhos, # 3

4 Phrasenerkennung nach Petra Maier-Meyer Phrasenerkennung als vermeintliche Blackbox Michaela Geierhos, # 4

5 Phrasenerkennung nach Petra Maier-Meyer Mögliche Vorgehensweise bei der Phrasenerkennung (Teil I) Normalisierung des Eingabetextes (Korpus) Großschreibung wird auf Kleinschreibung abgebildet Part-of-Speech-Tagging (POS-Tagger = CISTAGGER) Mustererkennung und -extraktion => Liste von Phrasen-Kandidaten bestehend aus Vektoren der Form <Phrase, Grundform, POS-Sequenz> Anwendung linguistischer Filter Korrektur von möglichen Tagging-Fehlern Bereinigung von unsauberem Input Stoppphrasen (Stoppwörter auf Phrasenebene) Disambiguierung von Wortarten Will <=> will, Eigenname/Vorname/Nomen vs. Hilfsverb Michaela Geierhos, # 5

6 Phrasenerkennung nach Petra Maier-Meyer Part-of-Speech Tagging (Beispiel eines POS-Tagger Outputs) <tok><sur> </sur><lem cat="bos" mor=""></lem></tok> <tok><sur>36</sur><lem cat="adj" mor=":4">36</lem></tok> <tok><sur>strategies</sur><lem cat="n" mor=":m">strategy</lem></tok> <tok><sur>of</sur><lem cat="prep" mor="">of</lem></tok> <tok><sur>ancient</sur><lem cat="adj" mor=":b">ancient</lem></tok> <tok><sur>china</sur><lem cat="n" mor=":e">china</lem></tok> <tok><sur>:</sur><lem cat="pun" mor="">:</lem></tok> <tok><sur>.</sur><lem cat="eos" mor=""></lem></tok> Michaela Geierhos, # 6

7 Phrasenerkennung nach Petra Maier-Meyer Part-of-Speech Tagging (Struktur der Tagging-Information) <tok><sur> </sur><lem cat="bos" mor=""></lem></tok> TOKEN SURFACE FORM BEGIN OF SPEECH LEMMA FORM <tok><sur>china</sur><lem cat="n" mor=":e">china</lem></tok> LEXIKALISCHE KATEGORIE MORPHOLOGISCHES MERKMAL Michaela Geierhos, # 7

8 Phrasenerkennung nach Petra Maier-Meyer Mustererkennung und -extraktion innerhalb von Kontexten mögliche Kontexte sind Interpunktion Konjunktionen Artikel, weitere Determinatoren Verben etc. mögliche kontextuelle Phrasenmuster sind cnj n n pun det n prep n pun det adj n v etc. Michaela Geierhos, # 8

9 Phrasenerkennung nach Petra Maier-Meyer Vektoren von möglichen Phrasenkandidaten <The Art of War focus on, the art of war focus on, det n prep n n prep> <on military organization, on military organization, prep adj n pun> <and battlefield tactics, and battlefield tactics, cnj n n pun> <the Thirty-Six Strategies are, the thirty-six strategy be, det adj n v> <the fields of politics, the field of politics, det n prep n pun> <not only battlefield strategies, not only battlefield strategy, adv adj n n pun> Michaela Geierhos, # 9

10 Phrasenerkennung nach Petra Maier-Meyer Linguistische Filter: Was soll nicht als Nomen erkannt werden? according a day's days day eight five four friday half on i minute' s minutes minute monday month's months month nine of one percent quarter saturday second's seconds second seven six sunday ten three thursday time to tuesday two wednesday week's weeks week year's years Michaela Geierhos, # 10

11 Phrasenerkennung nach Petra Maier-Meyer Linguistische Filter: Was sind nicht-aussagekräftige Adjektive? able actual alone appropriate available a best better billion certain common concerned current different dozenth dozen earlier early eight-hundred possible present previous recent real second only specific special sure two-and-a-half two-hundred two-thousand twohundred twothousand useful usual various very whole working zero Michaela Geierhos, # 11

12 Phrasenerkennung nach Petra Maier-Meyer Linguistische Filter: Was sind zu allgemeine Phrasen? first round first time further details large numbers large portion last night last time least in principle little bit long term million people million pounds most part new year next door number of people original page other hand other side other things percentage points period of time point of view second half second place second time short term small group table of contents table of content take place the following time to time to order Michaela Geierhos, # 12

13 Phrasenerkennung nach Petra Maier-Meyer Welche Muster kommen für Nominalphrasen (NPs) in Frage? adj adj n.np adj adj en.np adj n n.np adj en n.np adj n en.np adj en en.np adj n prep n.np adje n prep n.np adj n prep en.np adj en prep en.np adj n.np adj en.np n n.np en n.np n en.np en en.np n n n.np en n n.np n en n.np n n en.np en en n.np en n en.np n en en.np en en en.np n prep adj n.np en prep adj n.np n prep adj en.np en prep adj en.np n prep n.np en prep n.np n prep en.np en prep en.np n prep n n.np en prep n n.np n prep en n.np n prep ne n.np en prep en n.np n prep en en.np en prep en en.np en prep n en.np Michaela Geierhos, # 13

14 Phrasenerkennung nach Petra Maier-Meyer Mögliche Vorgehensweise bei der Phrasenerkennung (Teil II) Statistische Verfahren zur Ermittlung der besten Phrasen Frequenzberechnung der Zitatform einer Phrase => <Phrase (Zitatform), Grundform, Frequenz> Bestimmung der kanonischen Form einer Phrase und deren Frequenz => <Phrase (Kanonische Form), Grundform, Frequenz> Sortieren nach Frequenz (optional) Filtern nach Frequenz Michaela Geierhos, # 14

15 Phrasenerkennung nach Petra Maier-Meyer Einige erkannte Phrasen im Beispieltext ¹ Art of War focus Balance Hide Beams With Rotten Timbers Borrowed Sword Burning House Chinese history Confucian notion of honor Corpse to Raise Dead Tree Distant Enemy Door to Catch Emperor to Cross Exhausted Enemy ¹ muenchen.de/~micha/kurse/korpuslinguistik- WS0607/phrasen/phrasenerkennung_bsptext.txt Locust Tree Master Tan Mountain Link Opportunity To Lead Opposite Shore Delay Plum Tree Role of Guest Secret Art of War Smile Charm Strategy of Beautiful Women Strategy of Sowing Discord Sun Tzu Tactic of Combining Tactics Thirty-Six Strategies Michaela Geierhos, # 15

16 Phrasenerkennung nach Petra Maier-Meyer Fehler bei der Phrasenerkennung: Welche Fehlertypen gibt es? Unvollständige Erkennung des linken Kontextes and -koordinierte Adjektivphrase oder Nominalphrase { most cunning and [subtle strategies] } { time and [place for battle] } Unvollständige Erkennung des rechten Kontextes Komma-separierte Aufzählung { [fields of politics], diplomacy, and espionage } Irrelevantes Adjektiv als Teil einer guten Phrase [only { battlefield strategies] } Michaela Geierhos, # 16

17 Phrasenerkennung nach Petra Maier-Meyer Fehler bei der Phrasenerkennung: Welche Fehlertypen gibt es? Vollständige unerkannte Phrasen im Text { Chinese military texts } { Chinese military works of strategy } Zu weite Erkennung im rechten Kontext in muss bei der lexikalischen Filterung als Nomen verboten werden { [short-term objectives } in order] Weitere Fehlertypen lassen sich mit dem Beispieltext der Demo unter ermitteln. Michaela Geierhos, # 17

18 Naive Phrasenerkennung mit Lokalen Grammatiken Können Lokale Grammatiken allein die Qualität der beschriebenen Phrasenerkennung nachempfinden? Die eben vorgestellten lexikalischen Muster lassen sich mühelos in Lokale Grammatiken umwandeln, welche vom System Unitex interpretiert werden können. Werden dieselben Phrasen wie zuvor erkannt? Die entsprechende Konkordanz gibt darüber Aufschluss WS0607/phrasen/naive_knk.html Michaela Geierhos, # 18

19 Naive Phrasenerkennung mit Lokalen Grammatiken Können Lokale Grammatiken allein die Qualität der beschriebenen Phrasenerkennung nachempfinden? Michaela Geierhos, # 19

20 Naive Phrasenerkennung mit Lokalen Grammatiken Denkfehler und Verbesserungen dieses naiven Ansatzes: Gleiche syntaktische Muster würden ähnliche Ergebnisse erzielen Ressourcenungleichheit auf Wörterbuchebene: => Unitex-System-Lexika vs. CISLEX-EN Lexika zur Filterung von unerwünschten Ambiguitäten auf lexikalischer Ebene fehlen noch diesem Ansatz Linguistische Filter in Form von Negativkontexten, Antigrammatiken oder Filterlexika müssen implementiert werden Verwendung von Phrasenlexika zur Verbesserung der Präzision Heuristiken als Ausschlussverfahren für zu allgemeine Kontexte oder für nicht-aussagekräftige Phrasen. Michaela Geierhos, # 20

21 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Umfassende Erweiterung der lexikalischen Datenbasis mit Fokus auf Mehrwortterme Eigennamen Personennamen, Vornamen, Nachnamen Organisationsnamen/Firmennamen typische adjektivische Kontexte von Firmen Ortsangaben/Lokativa/Geographische Entitäten geographische Adjektive und Nomina geographische Zugehörigkeiten (Nationaltiät, etc.) Berufsbezeichnungen (z.b. baby doctor) Menschenbezeichner (z.b. mother-in-law) Redewendungen (Idiome) Phrasenlexikon ( Michaela Geierhos, # 21

22 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Linguistische Filterlexika und -grammatiken Ausschluss nominaler Lesarten von lexikalisch ambigen Wörtern, wie z.b. a, as, in, etc. Ausschluss irrelevanter phraseneinleitender Adjektive Zahlen unbestimmte Zahlwörter, wie several, many, etc. Ausschluss unbedeutender Adverben another, other, only, etc. Grammatiken für Phrasengrenzen Was leitet eine Phrase ein? Wie sieht der rechte Kontext einer Phrase aus, der sicher eine Nominalphrase begrenzt? Satzende Verbalphrase Interpunktion (außer Komma) Antigrammatiken zur Abdeckung ungewollt erkannter Phrasen Michaela Geierhos, # 22

23 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Lemmatisierung komplexer englischer Zeitformen Systematische Ergänzungen und Erweiterungen des Graphenpakets zur Lemmatisierung komplexer Zeitformen von Maurice Gross fehlende Graphen erstellen Passivgraphen schematisieren Futurgraphen erweitern etc. Tagging des zu untersuchenden Korpus mit den Lemmatisierungsgraphen Interpretation der komplexen Verbalphrasen als Einheit (Token) Verbalphrasen als Indikatoren für Grenzen von Nominalphrasen Grammatiken für die Lemmatisierung einfacher englischer Zeitformen und Annotation dieser im Korpus leichtere Disambiguierung, z.b. to make up (Verb) vs. make up / make-up (Nomen) Markierung von Verbalphrasen als möglicher begrenzender Kontext für die gesuchten Nominalphrasen Michaela Geierhos, # 23

24 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Kaskadierung von Lokalen Grammatiken mit Lemmatisierungsgraphen getaggter Korpus wird zum Eingabetext für die Anwendung von Lokalen Grammatiken, welche Personennamen Organisationsnamen Ortsnamen Datumsangaben, etc. erkennen und annotieren. Die eben genannten Einheiten können wiederum Bestandteil von komplexeren Nominalphrasen sein. Die jeweilige semantische Information dieser Phrasen lässt sich in weiteren Graphen zur Abgrenzung von Phrasen oder zur Erweiterung dieser nutzen. Datumsangaben sind beispielsweise mögliche Grenzen Namen sind selbst komplex und meist Teil komplexerer Nominalphrasen, so dass sie sich als Einheit (XN+PR) taggen lassen. Michaela Geierhos, # 24

25 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg. Verbesserungen: Named-Entity-Recognition (NER) mit Lokalen Grammatiken (z.b. Personennamen) Michaela Geierhos, # 25

26 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Verbesserungen: Analyse und Beschreibung von phrasenspezifischen Elementen (z.b. geographische Adjektive). Michaela Geierhos, # 26

27 Phrasenerkennung mit Lokalen Grammatiken: Step-by-Step zum Erfolg Vorteile von kaskadierten Transduktoren. Erkennung von eigentlichen Verbalphrasen als potentielle Nominalphrasen wird vermieden (leichtere Disambiguierung) Getaggte Verbalphrasen dienen als Grenzmarkierung von Nominalphrasen Annotierte Namensphrasen können schematisiert als Teil neuer Phrasenmuster fungieren Vorteile detaillierter Beschreibung phraseninterner Kontexte Kombination von semantischer und syntaktischer Information grenzt potentielle Phrasen genauer ein gezielter Einsatz lexikalischer Ressourcen in engen Kontexten Michaela Geierhos, # 27

28 Phrasenerkennung mit Lokalen Grammatiken: BITE (Bilingual Term Extraction). Phrasenerkennung als Komponente in BITE Konkordanz auf dem Beispieltext mit den BITE-Graphen WS0607/phrasen/phrasen_bite.html Was ist auch an dieser Konkordanz offensichtlich? Es fehlen linguistische Filter. Es werden detaillierte und umfassendere Lexika benötigt. Vorverarbeitung (z.b. Bestimmung von Verbalphrasen) kann helfen die Nominalphrasengrenzen auszuloten. Gewisse statistische Nachbearbeitungsmethoden sind wichtig, um irrelevante Phrasenadjektive auszuschließen. Michaela Geierhos, # 28