Einführung in die Linguistik, Teil 4 Menschliche und Maschinelle Sprachverarbeitung Markus Bader, Miriam Butt, Uli Lutz, Björn Wiemer Einführung in die Linguistik, Teil 4 p. 1/46
Syntax und Sprachverarbeitung Die syntaktische Struktur eines Satzes gibt Auskunft über... Lineare Abfolge In welcher Reihenfolge müssen die einzelnen Wörter im Satz erscheinen? Hierarchische Gliederung Welche Wörter gehören eng zusammen, welche nicht? Syntaktische Funktionen: Was ist das Subjekt eines Satzes, was das Objekt? Einführung in die Linguistik, Teil 4 p. 2/46
Syntax und Sprachproduktion n! Möglichkeiten, n Wörter anzuordnen: (1) {Opa, lacht, unser} a. unser Opa lacht b. *unser lacht Opa c. *Opa lacht unser d. *Opa unser lacht e. Lacht unser Opa f. *Lacht Opa unser Einführung in die Linguistik, Teil 4 p. 3/46
Syntax und Sprachverstehen (1) a. Peter loves Mary. b. Mary loves Peter. (3) a. Der Peter liebt die Maria. b. Den Peter liebt die Maria. (2) a. Peter liebt Maria. b. Maria liebt Peter. Einführung in die Linguistik, Teil 4 p. 4/46
Syntax und Übersetzen 1 1-zu-1-Übersetzung von Englisch nach Deutsch (oder umgekehrt): (1) a. The dog ate the cake. b. Der Hund aß den Kuchen. (2) a. I believe that the dog snores. b. Ich glaube, dass der Hund schnarcht. Einführung in die Linguistik, Teil 4 p. 5/46
Syntax und Übersetzen 2 1-zu-1-Übersetzung von Enlisch nach Deutsch (Fortsetzung): (3) a. The dog will eat the cake. b. *Der Hund wird essen den Kuchen. (4) a. I believe that the dog will snore. b. *Ich glaube, dass der Hund wird schlafen. (5) a. Which cake will the dog eat? b. Welchen Kuchen wird der Hund essen? Einführung in die Linguistik, Teil 4 p. 6/46
Syntax und Sprachverstehen Fragestellungen Wie wird einem Satz beim Sprachverstehen eine syntaktische Struktur zugewiesen? Wie werden syntaktische Ambiguitäten beim Sprachverstehen aufgelöst? Einführung in die Linguistik, Teil 4 p. 7/46
Parsing Die Zuweisung einer syntaktischen Struktur an einen Satz bezeichnet man als PARSING. Einen Mechanismus oder einen Prozess, der eine syntaktische Struktur berechnet, bezeichnet man dementsprechend als PARSER. Diejenigen Prozesse im menschlichen Gehirn, die für das Berechnen syntaktischer Strukturen zuständig sind, bezeichnet man als MENSCHLICHEN PARSER. Auch im Bereich der Computerwissenschaft ist Parsing ein häufig wiederkehrendes Problem: Beispielsweise beinhaltet die Anzeige jeder Webpage einen Parsingprozess (der das anzuzeigende HTML-File parst). Einführung in die Linguistik, Teil 4 p. 8/46
Globale Syntaktische Ambiguitäten (1) Max gefällt Maria. (2) a. Dem Max gefällt die Maria. b. Der Max gefällt der Maria. Satz (1) ist global ambig, denn auch nach Verarbeiten des gesamten Satzes kann man nicht entscheiden, welche DP das Subjekt ist und welche DP das Objekt. Einführung in die Linguistik, Teil 4 p. 9/46
Globale Ambiguität: Beispiele (1) I saw the man with the binoculars. (2) I heard that Mary died before Grandfather came back. (3) Ich kenne den Diener des Grafen, der vor dem Hotel steht. (4) Ich weiss nicht, welche der Tanten Maria besuchen wird. Einführung in die Linguistik, Teil 4 p. 10/46
Lokale Syntaktische Ambiguitäten (1) Max gefällt unserer Mutter. (2) Max gefällt unsere Mutter. Die beiden Sätze (1) und (2) sind lokal ambig. Hat man nur die ersten beiden Wörter gelesen oder gehört, kann man nicht entscheiden, ob Max das Subjekt oder das Objekt ist. Das Wort nach gefällt beendet die lokale Ambiguität. unserer desambiguiert den Satz zugunsten einer Subjekt-Objekt-Struktur. unsere desambiguiert den Satz zugunsten einer Objekt-Subjekt-Struktur. Einführung in die Linguistik, Teil 4 p. 11/46
Garden-Path-Sätze 1 (1) Ich glaube, dass Max zugunsten von Tim etwas unternommen... (2) Ich glaube, dass Max zugunsten von Tim etwas unternommen wurde. (3) Ich glaube, dass Max zugunsten von Tim etwas unternommen hat. Einführung in die Linguistik, Teil 4 p. 12/46
Garden-Path-Sätze 2 (2 ) Ich glaube, dass [Max zugunsten] [von Tim] etwas unternommen wurde. (3 ) Ich glaube, dass [Max] [zugunsten von Tim] etwas unternommen hat. (2 ) [Max zugunsten] wurde [von Tim] etwas unternommen. (3 ) [Max] hat [zugunsten von Tim] etwas unternommen. Einführung in die Linguistik, Teil 4 p. 13/46
Garden-Path-Sätze 3 Garden-Path-Sätze...... enthalten eine lokale syntaktische Ambiguität; d.h., ab einem bestimmten Wort w n sind zwei oder mehr syntaktische Analysen möglich.... werden durch ein späteres Wort w m, m > n, wieder eindeutig.... sind unter der präferierten Desambiguierung schwierig zu verstehen.... heißen deshalb Garden-Path-Sätze, weil sie den Parser in die Irre führen (to lead someone down the garden-path = jemanden in die Irre führen ) Einführung in die Linguistik, Teil 4 p. 14/46
Garden-Path-Sätze 4 (1) Ich glaube, dass Max zugunsten von Tim etwas unternommen wurde. Die Ambiguität beginnt mit dem Wort Max: Analyse 1: Max = Subjekt Analyse 2: Max = Objekt der Postposition zugunsten Die Ambiguität endet mit dem letzten Wort wurde: Dieses Wort ist nur mit Analyse 2 vereinbar. Am Punkt der Desambiguierung kommt es zu Verarbeitungsschwierigkeiten: Die präferierte Analyse ist Analyse 1, aber das letzte Wort widerspricht dieser Analyse. Einführung in die Linguistik, Teil 4 p. 15/46
GP-Sätze als Werkzeug 1 Garden-Path-Sätze stellen ein wichtiges Werkzeug für die Erforschung des menschlichen Parsers dar: (1) Max gefällt Maria. Im Falle eines global ambigen Satzes muß man Versuchspersonen explizit fragen, welche der möglichen Lesarten sie präferieren. Man erhält also nur Off-Line-Daten, die auf Introspektion beruhen. Einführung in die Linguistik, Teil 4 p. 16/46
GP-Sätze als Werkzeug 2 (2) a. Max gefällt unserer Mutter. b. Der Max gefällt unserer Mutter. (2) a. Max gefällt unsere Mutter. b. Dem Max gefällt unsere Mutter. Man lässt Versuchspersonen sowohl lokal ambige als auch entsprechende eindeutige Sätze lesen. Man misst dabei, ob unter einer der möglichen Desambiguierungen Schwierigkeiten auftreten (beispielsweise durch Messung von Blickbewegungen). Einführung in die Linguistik, Teil 4 p. 17/46
GP-Sätze als Werkzeug 2 (2) a. Max gefällt unserer Mutter. b. Der Max gefällt unserer Mutter. (2) a. Max gefällt unsere Mutter. b. Dem Max gefällt unsere Mutter. Verarbeitungsschwierigkeiten schlagen sich in erhöhten Lese- oder Reaktionszeiten für lokal ambige im Gegensatz zu entsprechenden eindeutigen Sätzen nieder. Der Satz, für den Schwierigkeiten auftreten, ist ein Garden-Path-Satz. Einführung in die Linguistik, Teil 4 p. 18/46
Garden-Path-Sätze: Beispiele (1) The horse raced past the barn fell down. (1 ) The horse raced past the barn and fell down. (1 ) The horse that was raced past the barn fell down. (2) The cotton clothing is made of grows in Missisippi. (2 ) The cotton clothing is made of cotton from Missisippi. (2 ) The cotton that clothing is made of grows in Missisippi. (3) Ich weiss, dass Fritz die Oma geholfen hat. (3 ) Ich weiss, dass Fritz die Oma unterstützt hat. (3 ) Ich weiss, dass dem Fritz die Oma geholfen hat. Einführung in die Linguistik, Teil 4 p. 19/46
Auflösung syntaktischer Ambiguitäten Fragestellungen Wann werden Ambiguitäten aufgelöst? Wieso führen manche Ambiguitäten zu Verarbeitungsschwierigkeiten, andere dagegen nicht? Wie wird entschieden, zugunsten welcher Struktur eine Ambiguität aufgelöst wird? Nach welchem Parsingalgorithmus arbeitet der menschliche Parser? Einführung in die Linguistik, Teil 4 p. 20/46
Auflösung syntaktischer Ambiguitäten Angenommen, es muss eine Entscheidung über die syntaktische Struktur eines Satzes getroffen werden, aber der Input läßt mehr als nur eine einzige Entscheidung zu. Was passiert in einer solchen Situation? Commital Parsing Der Parser trifft alle Entscheidungen sofort. Non-Commital Parsing Der Parser vermeidet unsichere Entscheidungen. Einführung in die Linguistik, Teil 4 p. 21/46
Auflösung syntaktischer Ambiguitäten Serielle Verarbeitung Alle Entscheidungen werden sofort getroffen, auch wenn dies die Gefahr von Fehlern mit sich bringt. Es wird nur eine einzige syntaktische Struktur berechnet. Die Festlegung auf eine bestimmte Struktur geschieht unmittelbar. Einführung in die Linguistik, Teil 4 p. 22/46
Auflösung syntaktischer Ambiguitäten Parallele Verarbeitung Unsichere Entscheidungen werden dadurch umgangen, dass alle möglichen syntaktischen Analysen berechnet werden. Es können mehrere syntaktische Strukturen parallel berechnet werden. Die syntaktische Analyse findet sofort statt, die Festlegung auf eine bestimmte Analyse kann dagegen durch Berechnen aller Möglichkeiten verzögert werden. Einführung in die Linguistik, Teil 4 p. 23/46
Auflösung syntaktischer Ambiguitäten Verzögerte Verarbeitung Unsichere Entscheidungen werden dadurch umgangen, dass die Verarbeitung ausgesetzt wird: Der Parser wartet mit der Berechnung einer Struktur, bis weitere Informationen vorhanden sind. Es wird nur eine Analyse berechnet, die aber nicht vollständig spezifiziert sein muss. Die Festlegung auf eine vollständig spezifizierte Analyse kann verzögert werden. Einführung in die Linguistik, Teil 4 p. 24/46
Garden-Path-Sätze: Experimente Die bisherigen Beispiele für Garden-Path-Sätze führten zu so gravierenden Verarbeitungsproblemen, dass die Verarbeitungsschwierigkeiten am Punkt der Desambiguierung bewußt wahrnehmbar waren. Es gibt aber auch viele leichte Garden-Path-Effekte, die man kaum mehr bewußt wahrnehmen kann, und die deshalb experimentell untersucht werden müssen. Im folgenden werden wir die Garden-Path-Theorie von Frazier und Rayner (1982) betrachten, eine Theorie, die eine Fülle weiterer Untersuchungen zum Thema menschliches Parsen nach sich gezogen hat. Einführung in die Linguistik, Teil 4 p. 25/46
The Garden-Path Theory 1 Grundannahmen von Frazier & Rayner (1982) Der menschliche Parser arbeitet SERIELL: Bei Antreffen einer syntaktischen Ambiguität im Input entscheidet er sich für eine der möglichen Strukturen und verfolgt nur diese eine Struktur weiter. Serielle Verarbeitung impliziert INKREMENTELLE Verarbeitung: Jedes Wort wird sofort, nachdem es gelesen oder gehört wurde, syntaktisch analysiert, d.h. in einen Phrasenstrukturbaum eingefügt (vgl. die Hypothese der Immediacy of Interpretation von Just und Carpenter). Einführung in die Linguistik, Teil 4 p. 26/46
The Garden-Path Theory 2 Grundannahmen von Frazier & Rayner (1982) Die Entscheidung, welche Struktur weiterverfolgt wird, erfolgt ausschließlich aufgrund syntaktischer Information. Es gibt zwei Parsing-Prinzipien MINIMAL ATTACHMENT und LATE CLOSURE die darüber entscheiden, welche Struktur präferiert weiterverfolgt wird. Einführung in die Linguistik, Teil 4 p. 27/46
The Garden-Path Theory 3 Da serielles Parsing das Risiko von Fehlanalysen mit sich bringt, benötigt ein serieller Parser zwei Verarbeitungsstufen: Analyse: Die Zuweisung einer syntaktischen Struktur an den Input (Input = Kette von Wörtern). Ambiguitäten werden während der Analysephase aufgrund der Parsingprinzipien zugunsten einer der möglichen Strukturen aufgelöst. Reanalyse: Reanalyse ist nur dann notwendig, wenn späteres Material mit der initialen Struktur nicht kompatibel ist. M.a.W., Reanalyse benötigt man für Garden-Path-Sätze, um doch noch die korrekte Struktur zu finden. Einführung in die Linguistik, Teil 4 p. 28/46
Minimal Attachment Minimal Attachment Attach incoming material into the phrase-marker a being constructed using the fewest nodes consistent with the wellformedness rules of the language. Beispiel Minimal Attachment: The wife will claim the inheritance. Non-Minimal Attachment: The wife will claim the inheritance belongs to her. a phrase-marker = andere Bezeichnung für Phrasenstrukturbaum Einführung in die Linguistik, Teil 4 p. 29/46
Minimal Attachment in Aktion 1 (1) The wife will claim... DP Det IP NP I I VP the wife will V claim Einführung in die Linguistik, Teil 4 p. 30/46
Minimal Attachment in Aktion 2 (1) The wife will claim the... DP the wife IP I will I VP V DP DP the wife IP I will I VP V IP claim Det claim DP the Det the Einführung in die Linguistik, Teil 4 p. 31/46
Minimal Attachment in Aktion 3 (1) The wife will claim the inheritance... IP DP I the wife I will V claim VP Det DP NP the inheritance Einführung in die Linguistik, Teil 4 p. 32/46
Minimal Attachment in Aktion 4 (1) The wife will claim the inheritance belongs... IP DP I the wife I will V claim VP Det DP NP? V belongs the inheritance Einführung in die Linguistik, Teil 4 p. 33/46
Minimal Attachment in Aktion 5 (1) The wife will claim the inheritance belongs... IP DP I the wife I will V claim Det VP IP DP NP VP V the inheritance belongs Einführung in die Linguistik, Teil 4 p. 34/46
Attachment-Sätze Short Minimal Attachment: The lawyers think his second wife will claim the inheritance. Non-Minimal Attachment: The second wife will claim the inheritance belongs to her. Long Minimal Attachment: The lawyers think his second wife will claim the entire family inheritance. Non-Minimal Attachment: The second wife will claim the entire family inheritance belongs to her. Einführung in die Linguistik, Teil 4 p. 35/46
Ergebnisse für Attachment-Sätze Tabelle 1: Mean Reading Time per Letter (msec) for Each of the Four Attachment Sentence Versions Nonminimal A. Minimal A. Mean Long 61 45 53 Short 51 49 50 Mean 56 47 Einführung in die Linguistik, Teil 4 p. 36/46
Late Closure (1) Tom said that Bill read the book yesterday. IP... VP1 V said IP... VP2 V read DP the book? AdvP yesterday Einführung in die Linguistik, Teil 4 p. 37/46
Late Closure Late Closure When possible, attach incoming lexical items into the clause or phrase currently being processed. (1) Tom said that Bill read the book yesterday. IP... VP1 V said IP... VP2 V read DP the book? AdvP yesterday Einführung in die Linguistik, Teil 4 p. 38/46
Closure: Experiment (1) Since Jay always jogs a mile.... (2) Early Closure Since Jay always jogs a mile seems like a very short distance to him. (3) Late Closure Since Jay always jogs a mile this seems like a short distance to him. Einführung in die Linguistik, Teil 4 p. 39/46
Closure-Sätze Short Late Closure: Since Jay always jogs a mile this seems like a short distance to him. Early Closure: Since Jay always jogs a mile seems like a very short distance to him. Long Late Closure: Since Jay always jogs a mile and a half this seems like a short distance to him. Early Closure: Since Jay always jogs a mile and a half seems like a very short distance to him. Einführung in die Linguistik, Teil 4 p. 40/46
Ergebnisse für Closure-Sätze 1 Tabelle 2: Mean Reading Time per Letter (msec) for Each of the Four Closure Sentence Versions Early Closure Late Closure Mean Long 68 50 59 Short 57 55 56 Mean 62.5 52.5 Einführung in die Linguistik, Teil 4 p. 41/46
Ergebnisse für Closure-Sätze 2 Tabelle 3: Second-Pass Mean Reading Time per Letter (msec) in two Diffferent Regions for each of the Four Closure Sentence Versions Short Long Early Cl. Late Cl. Early Cl. Late Cl. Ambiguity 37 27 32 15 Disambiguation 41 22 48 32 Einführung in die Linguistik, Teil 4 p. 42/46
Frazier & Rayner (1982): Zusammenfassung Die Ergebnisse von Frazier & Rayner (1982) zeigen: Es gibt sowohl Evidenz für Late Closure als auch für Minimal Attachment. Die Schwere des Garden-Path-Effekts, der bei nicht-präferierter Desambiguierung auftritt, hängt von der Länge der ambigen Region ab: Ist die desambiguierende Region länger, ist der Garden-Path-Effekt schwerer. Einführung in die Linguistik, Teil 4 p. 43/46
Frazier & Rayner (1982): Diskussion 1 Können wir aus den Ergebnissen von Frazier & Rayner (1982) schließen, dass syntaktische Ambiguitäten ausschließlich aufgrund syntaktischer Informationen aufgelöst werden? Falls ja, würde dies für die informationelle Einkapselung des Parsers sprechen Die Antwort muss aber nein lauten: Die Ergebnisse sind zwar mit informationeller Einkapselung kompatibel, schließen das Gegenteil aber nicht aus. Einführung in die Linguistik, Teil 4 p. 44/46
Frazier & Rayner (1982): Diskussion 2 Grund: Das Experiment von Frazier & Rayner (1982) hat viele Faktoren nicht berücksichtigt, die dafür verantwortlich sein könnten, warum die eine Struktur der anderen vorgezogen wird: a Die Frequenz der alternativen Strukturen Die semantische Plausibilität der alternativen Strukturen Verbspezifische Präferenzen bezüglich des Objekts: Wird ein Verb wie to jog eher mit oder ohne Distanzangabe (a mile)verwendet? Will ein Verb wie to claim eher eine DP oder einen Satz als Objekt? a Das ist das Schicksal der meisten Pionier-Experimente. Einführung in die Linguistik, Teil 4 p. 45/46