Einführung in die Computerlinguistik



Ähnliche Dokumente
Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

Formale Sprachen und Grammatiken

Grundbegriffe der Informatik

Primzahlen und RSA-Verschlüsselung

Programmiersprachen und Übersetzer

Statuten in leichter Sprache

Professionelle Seminare im Bereich MS-Office

Grundlagen der Theoretischen Informatik, SoSe 2008

Zeichen bei Zahlen entschlüsseln

Informationsblatt Induktionsbeweis

Tutorium zur Mikroökonomie II WS 02/03 Universität Mannheim Tri Vi Dang. Aufgabenblatt 3 (KW 44) ( )

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Was meinen die Leute eigentlich mit: Grexit?

Bürgerhilfe Florstadt

Kapitalerhöhung - Verbuchung

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Erfahrungen mit Hartz IV- Empfängern

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Einführung Computerlinguistik. Konstituentensyntax II

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

1 Mathematische Grundlagen

Das Leitbild vom Verein WIR

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

9. Übung Formale Grundlagen der Informatik

Ideen für die Zukunft haben.

Die Industrie- und Handelskammer arbeitet dafür, dass Menschen überall mit machen können

Wir machen neue Politik für Baden-Württemberg

Grammatiken. Einführung

Die Bundes-Zentrale für politische Bildung stellt sich vor

How to do? Projekte - Zeiterfassung

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Grundbegriffe der Informatik

Was ist Sozial-Raum-Orientierung?

Beweisbar sichere Verschlüsselung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lösungen zum Aufgabenblatt 9 Symbolisches Programmieren

Das Bandtagebuch mit EINSHOCH6 Folge 41: BEI DEN BIERBRAUERN

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Übung 4. Musterlösungen

vitamin de DaF Arbeitsblatt - zum Thema Jugend Partnerschaft auf dem Lande

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Softwaretechnologie -Wintersemester 2013/ Dr. Günter Kniesel

2.11 Kontextfreie Grammatiken und Parsebäume

DAVID: und David vom Deutschlandlabor. Wir beantworten Fragen zu Deutschland und den Deutschen.

Professionelle Seminare im Bereich MS-Office

Theorien und Modelle I WS 2006/07 Prinzipien- und Parametermodell 1

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

Hueber Wörterbuch Deutsch als Fremdsprache Basiswissen kompakt

Studieren- Erklärungen und Tipps

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Die Ratten" von Gerhart Hauptmann

Die Post hat eine Umfrage gemacht

Lineare Differentialgleichungen erster Ordnung erkennen

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Alle gehören dazu. Vorwort

1. Weniger Steuern zahlen

Anleitung über den Umgang mit Schildern

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Zwischenablage (Bilder, Texte,...)

Impulse Inklusion Selbst-bestimmtes Wohnen und Nachbarschaft

Empfehlungen zur Nutzung der CD zum Buch: Klee & Wiemann: Beweglichkeit und Dehnfähigkeit. Schorndorf: Hofmann,

Die Invaliden-Versicherung ändert sich

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

Leichte-Sprache-Bilder

Korrelation (II) Korrelation und Kausalität

WAS finde ich WO im Beipackzettel

2. Psychologische Fragen. Nicht genannt.

Mobile Intranet in Unternehmen

DER SELBST-CHECK FÜR IHR PROJEKT

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Datenexport aus JS - Software

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Veranstaltungsbelegung in QIS/LSF -- Leitfaden für BW-Studierende --

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Bevor lineare Gleichungen gelöst werden, ein paar wichtige Begriffe, die im Zusammenhang von linearen Gleichungen oft auftauchen.

Weiterbildungen 2014/15

Modellbildungssysteme: Pädagogische und didaktische Ziele

Schritte 4. Lesetexte 13. Kosten für ein Girokonto vergleichen. 1. Was passt? Ordnen Sie zu.

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

ALEMÃO. Text 1. Lernen, lernen, lernen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Werte und Grundsätze des Berufskodexes für interkulturell Dolmetschende. Ethische Überlegungen: Was ist richtig? Wie soll ich mich verhalten?

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Theorie der Informatik

Theoretische Informatik 2 (WS 2006/07) Automatentheorie und Formale Sprachen 19

Algorithmische Kryptographie

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

2. Schönheitsoperationen. Beauty S Lifestyle Lifestyle

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Transkript:

Einführung in die Computerlinguistik Syntax II WS 2012/2013 Manfred Pinkal Eigenschaften der syntaktischen Struktur [1] Er hat die Übungen gemacht. Der Student hat die Übungen gemacht. Der interessierte Student hat die Übungen gemacht. Der an computerlinguistischen Fragestellungen interessierte Student hat die Übungen gemacht. Der an computerlinguistischen Fragestellungen interessierte Student im ersten Semester hat die Übungen gemacht. Der an computerlinguistischen Fragestellungen interessierte Student im ersten Semester, der im Hauptfach Informatik studiert, hat die Übungen gemacht. Der an computerlinguistischen Fragestellungen interessierte Student im ersten Semester, der im Hauptfach, für das er sich nach langer Überlegung entschieden hat, Informatik studiert, hat die Übungen gemacht. Eigenschaften der syntaktischen Struktur [2] Eigenschaften der syntaktischen Struktur [3] Peter hat der Dozentin das Übungsblatt heute ins Büro gebracht. Das Übungsblatt hat Peter der Dozentin heute ins Büro gebracht. Der Dozentin hat Peter heute das Übungsblatt ins Büro gebracht. Ins Büro hat heute Peter der Dozentin das Übungsblatt gebracht. Heute hat Peter das Übungsblatt der Dozentin ins Büro gebracht. Wie finden Sie stattdessen die angehängten Bilder? Das sind Fotos, die im Rahmen des TALK-Projektes entstanden sind, uns gehören, und von BMW schon freigegeben waren. Außerdem vermitteln sie besser den Bezug zur Forschung."? Ins Büro hat das Übungsblatt der Dozentin Peter heute gebracht. * Ins Büro heute Peter das Übungsblatt hat gebracht der Dozentin. * Ins heute Büro der Peter Dozentin das hat Übungsblatt gebracht.

Schachtelstruktur in natürlichen Sprachen "Der für die Werkstoffabholung auf der Annahme von drei An- und Abfahrten mit LKW, die Wertstoffe umfüllen, und zwei An- und Abfahrten eines LKW,der zuerst die volle Schrottmulde abholt und diese nach Leerung wiederabliefert, errechnete Beurteilungspegel..." Eine kontextfreie Grammatik für deutsche Sätze G1 = <V,!, P, S> mit V = {S, SRel,, VI, VT, N, Det, RPro} "!! = {schläft, arbeitet, studiert, wählte, Student, Fach, der, das, er} S # VI S # VT SRel # RPro VI # Det N (SRel) SRel # RPro VT # Pro VI # schläft arbeitet liest VT # wählte studiert N # Student Fach Buch RPro # der das Det # der das ein Pro # er sie CFG: Konstituentenstruktur Anders als endliche Automaten beschreibt eine CFG nicht nur die zulässigen Ausdrücke einer Sprache, sondern gibt ihnen implizit auch eine Struktur. Sie ordnet den Sätzen der Sprache Ableitungsbäume zu (auch Parse-Bäume genannt, Parsing = automatische syntaktische Analyse). Durch den Ableitungsbaum werden Teilausdrücke (Teilketten) u von Wörtern (Terminalsymbolen) einer Kategorie zugeordnet: dem nicht-terminalen Symbol A, aus dem u abgeleitet wurde. Wir nennen u eine Konstituente von der Kategorie A, und sagen, dass A die Elemente von u dominiert. Geschachtelte Strukturen in natürlicher Sprache [ der an computerlinguistischen Fragestellungen interessierte Student im ersten Semester, [ SRel der [ das Fach, [ SRel das [ er ] nach langer Überlegung gewählt hat ] ], eifrig studiert] ] Det N SRel der Student RPro VT der Det N SRel studiert das Fach RPro VT das Pro wählte er

Kategorien und Konstituenten er ist eine Konstituente der Kategorie Pro er, der Student, der Student, der Informatik studiert sind Konstituenten der Kategorie der das Fach, das er wählte, studiert das er wählte sind Konstituenten der Kategorie SRel CFG: Konstituentenstruktur Ersetzungsregeln von CFGs erlauben die elegante Darstellung struktureller Regularitäten. Dafür müssen Ersetzungregeln und Kategorien in geeigneter Weise spezifiziert werden. Das ist trivial für formale Sprachen: Die werden ja explizit mithilfe von CFGs definiert. Wie geht man aber bei natürlichen Sprachen vor? Wie bestimmt man Konstituenten, und wie ordnet man sie Kategorien zu? Konstituenten-Test 1: Verschieben Konstituenten-Test 2: Substituieren Peter hat der Dozentin das neue Übungsblatt heute ins Büro gebracht. Peter hat der [ Dozentin das ] neue Übungsblatt heute ins Büro gebracht. [Peter hat] der Dozentin das neue Übungsblatt heute ins Büro gebracht. Peter hat der Dozentin [ das neue Übungsblatt ] heute ins Büro gebracht. [Das neue Übungsblatt ] hat Peter der Dozentin heute ins Büro gebracht. Der Dozentin hat Peter heute [ das neue Übungsblatt ] ins Büro gebracht. Heute hat Peter [ das neue Übungsblatt ] der Dozentin ins Büro gebracht. Verschiebetest: Teilketten, die sich (nur) gemeinsam im Satz verschieben lassen, sind (tendenziell) Konstituenten [ Er ] hat die Übungen gemacht. [ Peter ] hat die Übungen gemacht. [ Der Student ] hat die Übungen gemacht. [ Der an computerlinguistischen Fragestellungen interessierte Student ] hat die Übungen gemacht. Substitutionstest: Lassen sich Wortfolgen in einem gegebenen Kontext füreinander ersetzen, handelt es sich (vermutlich) um Konstituenten der gleichen Kategorie.

Konstituenten-Test 3 (für das Deutsche): Vorfeldbesetzung [ Peter ] hat der Dozentin das Übungsblatt heute ins Büro gebracht. [ Das Übungsblatt ] hat Peter der Dozentin heute ins Büro gebracht. [ Der Dozentin ] hat Peter heute das Übungsblatt ins Büro gebracht. [ PP Ins Büro ] hat heute Peter der Dozentin das Übungsblatt gebracht. [ Adv Heute ] hat Peter das Übungsblatt der Dozentin ins Büro gebracht. "Verb-Zweit" bietet einen verlässlicher Konstituententest fürs Deutsche: Was vor dem finiten Verb im Hauptsatz ("Vorfeld") steht, ist eine Konstituente. Kriterien für Konstituentenstruktur Distributionelle Kriterien: Verschiebbarkeit, Substituierbarkeit Lokale strukturelle Eigenschaften: Komplexe Ausdrücke besitzen tendenziell einen Kopf eines bestimmten Typs, der ihren "grammatischen Charakter" bestimmt Beispiel: Nominalausdrücke besitzen einheitlich als Kopf ein Substantiv oder ein Pronomen, das Genus-, Numerus- und Kasusmerkmale trägt, einen Artikel verlangt, durch Adjektive modifiziert werden kann,... Semantisches Kriterium: Konstituenten beschreiben sinnvolle Bedeutungseinheiten; Konstituenten einer Kategorie beschreiben Bedeutungseinheiten desselben oder ähnlichen Typs Beispiel: Nominalausdrücke bezeichnen/ "denotieren" Entitäten (Personen und Objekte) Etwas Grammatiktheorie: Phrasale Kategorien Für die drei großen oder offenen Wortarten Substantiv, Verb und Adjektiv und die Präpositionen werden üblicherweise vier lexikalische Hauptkategorien (N, V, A und P) angenommen. Entsprechend nimmt man vier phrasale Hauptkategorien (, VP, AP. PP) an, die Ausdrücke der jeweiligen lexikalischen Kategorie als Kopf besitzen: Nominalphrasen: der interessierte Student die Übungen computerlinguistische Fragestellungen Präpositionalphrasen: an computerlinguistischen Fragestellungen im ersten Semester nach langer Überlegung Adjektivphrasen: an computerlinguistischen Fragestellungen interessiert(e), sehr schön, viel größer als Peter Verbphrasen: studiert Informatik - entscheidet sich für das Fach Globale Satzstruktur In unserer Beispielgrammatik hatten wir die folgenden Regeln zur Satzstruktur angenommen: S # VI S # VT Wenn wir eine Verbphrase als Hauptkategorie annehmen, erhalten wir stattdessen: S # VP S VP # VI VP # VT VP Sie liest EN VT Det ein N Buch

Kategoriale Ebenen Lexikalische Kategorien ( Präterminale Symbole ): Sie bilden die linke Seite von Regeln auftauchen, deren rechte Seite aus einem Terminalsymbol (lexikalischen Ausdruck) besteht, z.b. N, A, V, Det, Pro,... Phrasale Kategorien wie und PP, die maximale Konstituenten bezeichnen, die im Satz eine relative Unabhängigkeit besitzen: kommen als Satzteile innerhalb von anderen Phrasen vor, lassen sich relativ leicht verschieben, können nur schwer durch anderes Material unterbrochen werden. -Struktur -Struktur im Deutschen (vereinfacht) # EN Pro Det N N # AP N N # N PP N # N () Beispiel: der geniale Entdecker des Tuberkelbazillus aus Berlin Zwischenkategorien: Hier nimmt man meist genau eine weitere Ebene an, die zwischen der phrasalen und der lexikalischen Ebene vermittelt. Sie werden üblicherweise als N, A, V etc. notiert, alternativ mit einem Überstrich, daher als N-Bar, V-Bar etc. ausgesprochen. -Struktur: Ein Beispiel Det N der N PP AP N P A N aus N A Entdecker Det N EN geniale des N Berlin Kategorie und Funktion Syntaktische Kategorien bezeichnen Klassen von Ausdrücken mit ähnlicher innerer Struktur und ähnlichem distributionellem Verhalten. Grammatische Funktionen dagegen bezeichnen die Rolle, die eine Konstituente im größeren Ausdruck spielt. Eine kann, je nach Stellung im Satz unter anderem die Funktion von Subjekt oder (direktem oder indirektem) Objekt eines Satzes, (Genitiv-) Attribut einer anderen oder Argument einer Präpositionalphrase bilden. - Grammatische Funktionen sind relationale Konzepte! Unterschiedliche Kategorien können die gleiche Funktion ausüben: Subjekte können zum Beispiel Nominalphrasen oder Sätze sein: Dass es regnet, ist lästig Der Regen ist lästig. Tuberkelbazillus

Ein Beispiel Ein Beispiel S subj S EN Sie VT liest VP Det N EN Sie VP VT liest obj det Det N ein Buch ein Buch Grammatische Funktionen Ein zweites Beispiel Köpfe sind die Kernbestandteile einer Konstituente, die für den syntaktischen Charakter der Phrase verantwortlich sind. Die Merkmale des lexikalischen Kopfes vererben sich über die Kopflinie nach oben zur Phrase. Argumente werden durch lexikalische Köpfe subkategorisiert oder regiert : Ein lexikalischer Ausdruck (V, N, A, P) kann ein oder mehrere Argumente mit bestimmten grammatischen Eigenschaften verlangen. Verbargumente sind Subjekt, direktes Objekt, Präpositionales Objekt etc.; Substantive können Argumente als PP oder als Genitivattribut realisieren; die PP nimmt eine als Argument. Modifikatoren sind freie Ergänzungen, die einen Ausdruck erweitern, ohne seine Kategorie zu verändern. Nominale Modifikatoren heißen Attribute (pränominale AP, postnominale PP, Relativsatz), Satzmodifikatoren Adjunkte (auch adverbiale Bestimmungen ). Det N der N PP AP N P A N aus EN geniale Entdecker Det N Berlin des Tuberkelbazillus

Grammatische Funktionen det Det N mod der N PP mod arg AP N arg P A N aus EN det geniale Entdecker Det N Berlin des Tuberkelbazillus Regelschemata -Struktur im Deutschen (vereinfacht) # EN Pro Det N N # AP N N # N PP N # N () Allgemeines XP (X-Bar-)Schema: XP # SpecXP X Specifier + Kopf X # (YP) X beliebig viele Prämodifikatoren + Kopf X # X (YP) Kopf + beliebig viele Postmodifikatoren X # X YP 1... YP n lexikalischer Kopf + n subkategorisierte Argumente Grammatiktheorie Die CFG als solche ist ein Formalismus zur syntaktischen Beschreibung. Die Frage, welche Ausdrücke als Konstituenten betrachtet werden sollen und welche Kategorien und Funktionen die Grammatik annehmen soll, ist eine Angelegenheit der Grammatiktheorie. Die Frage hat keine einfache Antwort. Unterschiedliche Auffassungen haben zu unterschiedlichen Grammatiktheorien geführt. Einvernehmen besteht z.b. darüber, dass es eine begrenzte Zahl von Ebenen für grammatische Kategorien und eine begrenzte Zahl von Hauptkategorien gibt, die sich an den Hauptwortarten ausrichten ( X-Bar-Theorie ). Syntaktische Struktur und semantische Interpretation 93.000! in Gütersloh gefunden in der Handtasche einer Rentnerin, die auf einem Friedhof am Lenker eines Fahrrads baumelte. Aus dem Spiegel, Rubrik Hohlspiegel

Syntaktische Struktur und semantische Interpretation Die syntaktische Struktur ist Grundlage für die semantische Interpretation. Beispiel Arithmetik: Terme bezeichnen ( bedeuten ) Zahlen Operatoren bilden (Paare von) Termbedeutungen/Zahlen auf Termbedeutungen/Zahlen ab. Bedeutung einer Gleichung ist ein Wahrheitswert. Die Bedeutung des Gesamtausdrucks wird kompositionell, entlang der syntaktischen Struktur berechnet. Strukturelle Mehrdeutigkeit, wenn Klammern und Klammerkonventionen fehlen. Beispiel: 3+4*5 : =23 oder =60? Grammatische Mehrdeutigkeit Grammatiken für formale Sprachen werden so definiert, dass strukturelle Mehrdeutigkeit in jedem Fall vermieden wird. Natürliche Sprachen sind strukturell mehrdeutig: Peter sah den Mann mit dem Teleskop Eine Grammatik, die die Mehrdeutigkeit modelliert: S # VP # ART N EN N' # N' PP N # N () VP # V' V' # V' PP V' # VT V' # VI PP # P Die zwei Analysevarianten (Zwischenknoten z.t. weggelassen) [ S Peter [ VP sah [ den [ N Mann [ PP mit dem Teleskop ] ] ] ] ] [ S Peter [ VP [ V' sah [ den Mann ] ] [ PP mit dem Teleskop ] ] ]