Lehrstuhl für Computerlinguistik

Größe: px
Ab Seite anzeigen:

Download "Lehrstuhl für Computerlinguistik"

Transkript

1 Ruprecht-Karls -Universität Heidelberg Lehrstuhl für Computerlinguistik Hauptseminar: Parsing Leitung: PD Dr. Karin Haenelt Referent: A. S. M. Abdullah Eusufzai Referat zum Thema: Probabilistisches Parsing Eusufzai, Abdullah 1

2 Ziel und Inhalt des Referates Das Referat behandelt die folgenden Phänomene des Probabilistischen Parsing: 1. Probabilistische kontextfreie Grammatiken: -Theoretische Grundlagen - Bestimmung der Wahrscheinlichkeit eines Satzes in einer PCFG -Baumbegriffe und Zerlegungsmöglichkeiten des Beispielsatze für die Berechnung der Wahrscheinlichkeiten in PCFG - Bestimmung der Wahrscheinlichkeit einer Zerlegung 2. Satzwahrscheinlichkeit: 2.1. Inside-Wahrscheinlichkeit Berechnung der Satzwahrscheinlichkeit mit Hilfe des Inside- Algorithmus Induktionsschritt der Inside-Wahrscheinlichkeit Beispiel für die Inside-Wahrscheilichkeit Eusufzai, Abdullah 2

3 3. Treebanks 4. Lexikalisation 2.2 Outside-Wahrscheinlichkeit Berechnung der Satzwahrscheinlichkeit mit Hilfe des Outside- Algorithmus Basisfall und Induktionsschritt der Outside-Wahrscheinlichkeit Eusufzai, Abdullah 3 In diesem Referat werden die beiden Punkte Lexikalisation und Treebanks nur kurz gezeigt. Die nächste Referentin Anna Björk Nikulasdottir konkretisiert die Punkte ausführlich. Folien 17 bis 22 hängen mit der Gesamtdarstellung des nächsten Referatsteils zusammen.

4 1. Probabilistische kontextfreie Grammatiken Als Grundlage der PCFG wird die kontextfreie Grammatik (Context -free grammar, im weiteren: CFG) herangezogen. Analog zur CFG wird die PCFG bestimmt als ein Quadrupel <W, N, N 1, R>, wobei W eine Menge von Terminalsymbolen {w 1,..., w? } w k, k= 1,...,? N eine Menge von Nicht-Terminalsymbolen {N 1,..., N? } N i, i=1,...,? N 1 das Startsymbol R eine Menge von Regeln Jede Regel R besitzt die Form N i? j, wobei? j eine Kette von Terminalen und Nichtterminalen darstellt. Im Unterschied zu einer CFG wird jeder Regel R eine Wahrscheinlichkeit zugewiesen: P(N i? j ), die sich für jedes Nichtterminal immer zu 1 summiert Eusufzai, Abdullah 4 1. Probabilistische kontextfreie Grammatiken W eine Menge von Terminalsymbolen {w 1,..., w? }; wie z.b. a, b, c (Terminal-Symbole, also primitive Symbole, die für die Blätter des Satzstruktur-Baumes verwendet werden. Gewöhnlich werden hierfür die morpho-syntaktischen Kategorien wie z.b. nomn, verb, adje verwendet. Man findet aber auch Anwendungen, in denen lexikalische Zeichen direkt als Terminalsymbole verwendet werden.) N eine Menge von Nicht-Terminalsymbolen {N 1,..., N? } wie z. B. A, B, C (Non-Terminal- Symbole, also syntaktische Kategorien wie z.b. S, NP, VP ) R eine Menge von Regeln z. B. S -> NP VP; VP -> V NP etc. N1 das Startsymbol, aus der Menge der Nichtsterminale. Im Unterschied zu einer CFG wird jeder Regel R eine Wahrscheinlichkeit zugewiesen: P(N i?? j ), die sich für jedes Nichtterminal immer zu 1 summiert. Wie zum Beispiel auf dem Folien Nr. 6 S -> NP VP (1,0) VP -> V NP (0,7) VP -> VP PP (0,3) NP -> D N (0,8) NP -> NP PP (0,2) PP -> mit dem Fernglas (1,0) V -> sieht (1,0) N -> Dame (0,4) N -> Mann (0,6) D -> die (0,9) D -> der (1,0)

5 Bestimmung der Wahrscheinlichkeit eines Satzes in einer PCFG Für die folgenden Schritte ist es nötig, die Wahrscheinlichkeit zu ermitteln, die ein Satz in einer PCFG besitzt. Gegeben sei ein Satz W 1,n sowie sämtliche Zerlegungen t 1,n für eben diesen Satz. Die Wahrscheinlichkeit dieses Satzes W 1,n ist nun die Summe der Wahrscheinlichkeiten aller möglichen Zerlegungen: P(w 1,n ) =S t1,n P(w 1,n, t 1,n ) =S t1,n P(t 1,n ) P(w1,n t 1,n ) Bayes-Regel: P(x,y) = P(x) P(y x) =S t1,n p(t 1,n ) Der Terminus P(w 1,n t 1,n ) in Zeile 2 ergibt bei einer gegebenen Zerlegung immer 1 und kann somit entfallen. In einem nächsten Schritt muss nun die Wahrscheinlichkeit einer Zerlegung bestimmt werden Eusufzai, Abdullah 5 Quelle: Charniak, Eugene (1993) Statistical Language Learning.MIT Press. Seite 75.

6 Zerlegungsmöglichkeit I Der Mann sieht die Dame mit dem Fernglas S NP VP D N V NP NP PP D Der Mann sieht die Dame mit dem Fernglas N Eusufzai, Abdullah 6 Wir machen nun schrittweise die probabilistische kontextfreie Grammatik an Hand des Beispielsatzes Der Mann sieht die Dame mit dem Fernglas deutlicher: Wir nehmen für den Satz Der Mann sieht die Dame mit dem Fernglas folgende Zerlegungsmöglichkeiten an: Zerlegungsmöglichkeit I (Foliennummer 4) S? NP VP NP? D N VP? V NP NP? NP PP NP? D N In diesem Fall sieht man, dass VP zuerst durch V und NP zerlegt worden ist. Dann expandiert NP wieder in NP und PP. Zerlegungsmöglichkeit I interpretiert die Präpositionalphrase als von der Nominalphrase abhängig.

7 Zerlegungsmöglichkeit II Der Mann sieht die Dame mit dem Fernglas S NP VP D N VP PP V NP D N Der Mann sieht die Dame mit dem Fernglas Eusufzai, Abdullah 7 Zerlegungsmöglichkeit II Angenommen, dass der Satz Der Mann sieht die Dame mit dem Fernglas auch folgendermaßen expandiert werden kann: S? NP VP NP? D N VP? VP PP VP? V NP NP? D N In diesem Fall sieht man, dass VP zuerst durch VP und PP zerlegt worden ist. Dann wurde VP wieder durch V und NP geteilt. Zerlegungsmöglichkeit II interpretiert die Präpositionalphrase als von der Verbalphrase abhängig.

8 Grammatische Regeln und angenommene Werte der Terminal- und Nicht-Terminal- Symbolen S NP VP (1,0) VP V NP (0,7) VP VP PP (0,3) NP D N (0,8) NP NP PP (0,2) PP mit dem Fernglas (1,0) V sieht (1,0) N Dame (0,4) N Mann (0,6) D die (0,9) D der (1,0) Eusufzai, Abdullah 8 Es ist eine grafische Wiederholung von dem Kommentar der Foliennummer 2 für die Berechnung der Wahrscheinlichkeit

9 Bestimmung der Wahrscheinlichkeit einer Zerlegung S (1,0) S (1,0) (0,8) NP VP (0,7) (0,8) NP VP (0,3) D N V NP (0,2) Der Mann sieht (0,8) NP PP Mit dem F... D N VP PP (0,7) Der Mann Mit dem Fernglas V NP (0,8) sieht die D Welche davon ist wahrscheinlicher? P(t 1 ) = (1,0 x 0,8 x 0,7 x 0,2 x 0,8) = P(t 2 )= (1,0 x 0,8 x 0,3 x 0,7 x 0,8) = N Dame die D N Dame Eusufzai, Abdullah 9 Die Wahrscheinlichkeit jeder Zerlegung ist das Produkt der Wahrscheinlichkeiten aller Regeln des gegebenen Zerlegungsbaumes. So ergeben sich für die beiden Zerlegungen des Beispielsatzes Der Mann sieht die Dame mit dem Fernglas die folgenden Berechnungen: Die Wahrscheinlichkeit der ersten Lesart (Zerlegungsmöglichkeit I) berechnet sich entsprechend den in (Foliennummer 6) den Regeln zugeordneten Wahrscheinlichkeiten wie folgt. P(t 1 ) = (1 x 0.8 x 0.7 x 0.2 x 0,8) = 0.09 Für die zweite Lesart (Zerlegungsmöglichkeit II) ergibt sich eine Wahrscheinlichkeit von P(t 2 ) = (1 x 0,8 x 0,3 x 0,7 x 0,8) = 0.13 Die Zerlegungsmöglichkeit II ist davon Wahrscheinlicher. Wahrscheinlichkeit eines Satzes in einer PCFG: Die Wahrscheinlichkeit eines Satzes ist die Summe der Wahrscheinlichkeiten aller möglichen Zerlegungen. P(S) = P(t1) + P(t2) = 0,224

10 2. Satzwahrscheinlichkeit Inside- und Outside-Wahrscheinlichkeit in PCFG N 1 a N j W1 ß --- W p-1 W q W --- q+1 W p Wm Grafik: (nach) Mannning, Schütze: S Satzwahrscheinlichkeit: [Alle Kommentare ab Foliennummer 10 bis 16 wurden von dem Handouts von Manuel Giuliani fast ohne Änderung für das Referat verwendet ] Mit einer PCFG lässt sich jedem Satz? 1,m gegeben die Grammatik G eine Wahrscheinlichkeit P(? 1,m ) zuordnen. Es gibt zwei rekursive Algorithmen mit denen man diese Wahrscheinlichkeit berechnen kann. Der eine baut auf dem Begriff der Inside-Wahrscheinlichkeit, der andere auf dem der Outside-Wahrscheinlichkeit auf. 2.1 Inside-Wahrscheinlichkeit: Die Inside-Wahrscheinlichkeit eines dominierenden Knotens N j pq kann als die Wahrscheinlichkeit für eine bestimmte Wortfolge? p...? q. verstanden werden. Daher ergibt sich folgende Formel für die Inside-Wahrscheinlichkeit: ß j (p,q) = P (? pq N j pq,g) Berechnung der Satzwahrscheinlichkeit mit Hilfe des Inside-Algorithmus Berechnet man die Inside-Wahrscheinlichkeit eines ganzen Satzes, also des Startsymbol S, erhält man einfach die Wahrscheinlichkeit des Satzes. Also: ß(1, m) = P(? 1q N 1 1q, G) = P (? 1m G) Da wir davon ausgehen, dass die Wortfolge? 1,m zur Sprache L(G) gehört, ist die Wahrscheinlichkeit dafür, dass sich das Startsymbol N 1 über den Bereich 1...m erstreckt, gleich 1. Damit ist die Bedingung N 1 1,n in der obigen Gleichung hinfällig. Basisfall Im Basisfall wollen wir die Wahrscheinlichkeit von einem Knoten berechnen, der eine Wortkette der Länge 1 dominiert. Wir berechnen also ß j (k, k). Dass ein Nichtterminal N j auf eine tetminale Kette? k mit nur einem Element abgeleitet wird, ist einer Grammatik der Chomsky Normal Form (CNF) nur dann möglich, wenn eine Regel N j?? k existiert. Intuitiv sieht man, dass die Inside Wahrscheinlichkeit von N j kk gerade durch die Wahrscheinlichkeit gegeben ist, die N j?? k zugeordnet ist.

11 Induktionsschritt der Inside - Wahrscheinlichkeit N j N r N s W p W d W d+1 W q Grafik: (nach) Mannning, Schütze: S Eusufzai, Abdullah Induktionsschritt der Inside - Wahrscheinlichkeit Wir versuchen nun die Inside Wahrscheinlichkeit für eine beliebige Wortkette zu berechnen, also ß j (p, q). Dazu bedarf es der folgenden Überlegung: Dominiert ein Nichtterminal N j einen Bereich p... q so benötigt man in einer CNF- Grammatik mindestens eine Regel N j? N r N s, wobei N r auf dem Anfangsteil und N s auf Endteil der Wortfolge? p...? q ableitbar sein muss. Mann könnte also den Bereich p... q in zwei Abschnitte?... d und d q aufteilen, wobei d den Trennungspunkt in der Terminalen Kette? pq bezeichnet, der diese in eine von N r und eine andere von N s dominierte Sequenz teilt. Gegeben das Nichtterminal N j lässt sich auf einen Bereich p... q ableiten, so liegt es nach diesen Überlegungen auf der Hand, ß j (p, q) durch die Wahrscheinlichkeit zu definieren, dass N r den ersten, N s den zweiten Teil des zu betrachtenden Bereich überspannt und das sich im Bereich p... q die terminale Kette? p...? q bzw. die Teilkette? p... w d und die Teilkette? d+1...? q befindet. Da es für jedes Nichtterminal N j mehrere verschiedene Bäume geben könnte, und uns der Trennpunkt d nicht bekannt ist üssen wir zur Ermittlung der Inside- Wahrscheinlichkeit von N j pq sämtliche möglichen Bäume und Trennpunkte aufsummieren. Aus diesen Überlegungen kommen wie auf der Folie Nr. 11 Umrechnung: (Weiter auf der Foliennummer 11)

12 Berechnung: (nach) Mannning, Schütze: S Eusufzai, Abdullah 12 weiter auf der Nächsten Folie Nr Berechnung der Inside-Wahrscheinlichkeit durch einen Beispielsatz Beispiel anhand des Satzes astronomers saw stars with ears : (Der Beispielsatz kommt aus dem Buch von Mannning, Christopher; Schütze, Hinrich: S. 394, 1999) Wir wenden nun für den weiteren Schritt die folgende Regeln und die angenommenen Notationen an: S -> NP VP 1.0 NP -> NP PP 0.4 PP -> P NP 1.0 NP -> astronomers 0.1 VP -> V NP 0.7 NP -> ears 0.18 VP -> VP PP NP -> saw P -> with 1.0 NP -> stars 0.18 V -> saw 1.0 NP -> telescopes 0.1

13 Grafik und Berechnung: (nach) Mannning, Schütze: S. 394 und Eusufzai, Abdullah 13 Berechnung der Inside-Wahrscheinlichkeit In der Tabelle gilt βj(reihe, Spalte) Zuerst werden die trivialen Inside-Wahrscheinlichkeiten βj(k, k) berechnet. Anschließend wird für jedes Wort geprüft, ob es eine Regel gibt, die die vorausgehenden Wörter mit dem aktuellen Wort in Verbindung setzt. Dies ist beim dritten Wort der Fall: (2, 3): die Regel VP V NP erzeugt saw stars, wir wenden die Regel (7) an: β VP (2, 3) = P(N VP N V N NP ) * β V (2, 2) * β NP (3, 3) = 0,7 * 1,0 * 0,18 = 0,126 (1, 3): die Regel S NP VP erzeugt astronomers saw stars, wir wenden die Regel (7) an und setzen die bereits berechnete Inside-Wahrscheinlichkeit βvp(2, 3) ein: β S (1, 3) = P(N S N NP N VP ) * β NP (1, 1) * β VP (2, 3) = 1,0 * 0,1 * 0,126 = 0,0126 Auf diese Weise verfahren wir weiter mit den restlichen Wörtern. Interessant ist noch wegen den unterschiedlichen Parse-Möglichkeiten die Berechnung der Inside-Wahrscheinlichkeiten beim Wort ears : (4, 5): die Regel PP P NP erzeugt with ears, wir wenden die Regel (7) an: β PP (4, 5) = P(N PP N P N NP ) * β P (4, 4) * β NP (5, 5) = 1,0 * 1,0 * 0,18 = 0,18 (3, 5): die Regel NP NP PP erzeugt stars with ears, wir wenden die Regel (7) an, und setzen das bereits Bekannte ein: β NP (3, 5) = P(N NP N NP N PP ) * β NP (3, 3) * β PP (4, 5) = 0,4 * 0,18 * 0,18 = 0,01296 (2, 5): die Regel VP V NP zeigt saw stars with ears, wir wenden die Regel (7) an, und setzen das bereits Bekannte ein: β VP (2, 5) = P(N VP N V N NP ) * β V (2, 2) * β NP (3, 5) = 0,7 * 1,0 * 0,01296 = 0, die Regel VP VP PP expandiert ebenfalls saw stars with ears, wir wenden die Regel (7) an, und setzen das bereits Bekannte ein: β VP (2, 5) = P(N VP N VP N PP ) * β VP (2,3) * β PP (4, 5) = 0,3 * 0,126 * 0,18 = 0, Jetzt wenden wir die Regel (1) (Additionssatz) an: β VP (2, 5) = β VP (2, 5) + β VP (2, 5) = 0,015876

14 Outside -Wahrscheinlichkeit Umgebung von N j k, n als linke Tochter: Grafik: (nach) Mannning, Schütze: S Eusufzai, Abdullah Outside-Wahrscheinlichkeit Unter der Outside-Wahrscheinlichkeit versteht man die Wahrscheinlichkeit für eine bestimmte Wortfolge außerhalb des zu betrachtenden Bereichs? p...? q Zuzüglich der Wahrscheinlichkeit dafür, dass sich das Nichtterminal N j von? p bis? q erstreckt. Daher die Formel für die Outside-Wahrscheinlichkeit: a j (p,q) = P(? 1 (p-1), N j pq,? (q+1)m G ) Da es sehr ineffizient wäre die Wahrscheinlichkeit eines Satzes zu errechnen, indem man die Wahrscheinlichkeiten aller möglichen Parsbäume des Satzes addiert, sucht man nach effizienteren Algorithmen Berechnung der Satzwahrscheinlichkeit mit Hilfe des Outside-Algorithmus Wir versuchen jetzt die Satzwahrscheinlichkeit mit der Outside Wahrscheinlichkeit zu berechnen. Dazu greifen wir uns einem Satz beliebigen Knoten heraus, also einen Bereich p... q und spalten die Wortfolge? p...? q wie gewohnt in verschiedene Sequenzen auf. Danach summieren wir wieder die Wahrscheinlichkeiten aller m öglichen Verzweigungen auf. Basisfall Der Basisfall für die Outside-Wahrscheinlichkeit ergibt sich bei Betrachtung des Startknotens. Die Wortfolgen außerhalb des Knotens sind leer, daher ist die Outside-Wahrscheinlichkeit des Startknotens gerade die Wahrscheinlichkeit, dass der Satz durch diesen Knoten erzeugt wird. Davon gehen wir folgendes aus: a (1, m) = 1 (weiter Kommentar Folie Nr. 14 )

15 Umgebung von N j k, n als rechte Tochter: Grafik: (nach) Mannning, Schütze: S Eusufzai, Abdullah 15 Induktionsschritt: Anders als bei der Herleitung der Formel zur Inside-Wahrscheinlichkeit, bei der wir die verschiedenen Zerlegungen des betrachteten Knotens berücksichtigt haben, müssen wir uns nun im Ableitungsbaum nach oben orientieren und diejenigen Zerlegungen betrachten, bei denen der betreffende Konten die Rolle einer Tochter spielt. Man betrachtet also nicht die inneren Strukturen eines Knotens, sondern dessen äußere Umgebung. (Weiter auf der Folie Nr. 15)

16 Durch Umformen ergibt sich die endgültige Formel Berechnung: (nach) Mannning, Schütze: S Eusufzai, Abdullah 16

17 Treebanks Treebanks stellen Repräsentationen syntaktischer Strukturen (Konstituentenstruktur) von den Sätzen bereit. Sie umfassen I. den Aspekt der Grammatikalität oder Wohlgeformtheit von Sätzen a. der Hund sieht die Katze b.? die Katze sieht der Hund c. *der Katze sieht die Hund d. *die Hund sieht die Katze II. die Frage nach der internen syntaktischen Struktur. - Konstituenz: Organisation von Wörtern in Phrasen DET + ADJ + N bildet eine NP (Nominalphrase) DET + N N bildet eine NP (Nominalphrase) bildet eine NP (Nominalphrase) Eusufzai, Abdullah 17 Treebanks stellen Repräsentationen von Konstituentenstrukturen zu den Sätzen einer Datensammlung bereit, die für weitere Verfahren als Trainingsmaterial verwendet werden. Dies umfasst I. den Aspekt der Grammatikalität oder Wohlgeformtheit von Sätzen Auf der Folie sieht man vier Beispielsätze. Nur Satz a. (und bedingt auch Satz b.)zeigt nur grammatische Wohlgeformtheit. II. Die Frage nach ihrer internen syntaktischen Struktur. Hier werden die internen syntaktischen Strukturen des Satzes schrittweise untersucht. Konstituenz: Organisation von Wörtern in Phrasen z.b. eine Nominalphrase kann mit DET + ADJ + N oder DET + N oder nur mit einem Nomen gebildet werden.

18 NP NP NP NP DET N ADJ DET ADJ N DET N N -Wortordnung: schöne < Katze ADJ < N - Ordnung von Phrasen: der Hund < sieht die Katze - Wahrscheinlichkeit NP < VP Eine deklarative, formale Beschreibung von (II) erlaubt die syntaktische Überprüfung der Grammatikalität (I), sowie eine Repräsentation der syntaktischen Struktur (II) von Sätzen Eusufzai, Abdullah 18 Bei dem nächsten Schritt werden die Wörter nach den grammatischen Regeln geordnet. Z. B. schöne > Katze In diesem Fall muss das Adjektiv vor dem Substantiv stehen. Der nächste Schritt zeigt die Ordnung von Phrasen, wie wir sie für den Satz Der Mann sieht die Dame mit dem Fernglas auf der Folie 6 sehen. Natürlich wird auch durch die verschiedenen Zerlegungsmöglichkeiten untersucht, welche davon wahrscheinlicher ist.

19 Beispiel für Treebanks: Strukturbaum Der Hund sieht die Katze S NP VP D N V NP D N Beispiel für Treebanks: Klammernotation Der Hund sieht die Katze [S [NP [DET der] [N Hund]] [VP [V sieht] [NP [D die] [N Katze]]]] Eusufzai, Abdullah 19 Strukturbaum des Satzes Der Hund sieht die Katze und Klammernotation

20 * Die interne Struktur kann in Klammernotation oder Baumnotation Graphisch dargestellt werden. [S [NP [DET der] [N Hund]] [VP [V sieht] [NP [D die] [N Katze]]]] Eusufzai, Abdullah 20 Vollständigkeit der Treebanks.

21 Lexikalisation Frequency of common subcatagoization frames (local trees expanding VP) for selechted verbs. The data show that the rule used to expand VP is highly dependent on the lexical identity of the verb. ( Mannning, Schütze: S. 393) Verb Local tree come take think want VP V 9.5% 2.6% 4.6% 5.7% VP V NP 1.1% 32.1% 0.2% 13.9% VP V PP 34.5% 3.1% 7.1% 0.3% VP V SBAR 6.6% 0.3% 4.8% 70.8% VP V S 2.2% 1.3% 4.8% 70.8% VP V NP S 0.1% 5.7% 0.0% 0.3% VP V PRT NP 0.3% 5.8% 0.0% 0.0% VP V PRT PP 6.1% 1.5% 0.2% 0.0% Eusufzai, Abdullah 21 Lexikalisation Lexikalisation spielt auch eine sehr wichtige Rolle beim probabilistischen Parsing. Es geht dabei besonders um die Verbalphrase VP und ihre Expandierungen. Die Verbergänzungen sind lexikalisch rektionsgebunden. Die Rektion der Verben ist ihre Fähigkeit, ein von ihnen abhängiges Substantiv (oder Pronomen) in einem bestimmten Kasus zu fordern. Manche Verben können auch zwei verschiedene Kasus nebeneinander regieren, andere regieren alternativ zwei oder mehr verschiedene Kasus; oftmals ist damit ein Bedeutungsunterschied verbunden. Die Rektion der Verben gibt keine Auskunft darüber, ob Subjekte, Adverbialbestimmungen, Infinitive, Nebensätze usw. stehen können oder müssen, ob die Objekte obligatorisch oder fakultativ auftreten. Diese Eigenschaften werden von der Valenz festgelegt. Die Valenzunterschiede ändern auch Probabilities der Verbalphrasen Z. B. das Verb schreiben zeigt bei den folgenden Beispielen Valenzunterschiede: Ich schreibe einen Brief. einen Brief. Anna schreibt ihrer Mutter oder Frau Haenelt schreibt. Jeder Satz hat auch unterschiedliche Wahrscheinlichkeiten. Auf der Folie sieht man vier englische Verben come, take, think. Und want und ihre VP Expandierungen. Bei jeder Expandierung zeigen sie unterschiedliche Wertigkeit.

22 Linear Word-level n-gram model Die Katze wartete auf die Mäuse S S wartete NP VP NP Katze VP wartete DET NN V PRÄ PP Die Katze wartete P NP auf DET NN DET die NN Katze VPRÄ wartete PP auf Die Katze wartete P auf NP Mäuse auf DET die NN Mäuse die Mäuse Die Mäuse Eusufzai, Abdullah 22 Linear Word-level n-gram model Linear Word-level n-gram model ist eine Erweiterung der Dependenzgrammatik und Dependenzstrukturbaum. Linear Word-level n- gram model erforscht nicht nur für die Valenzmöglichkeiten der Verben sondern aller Wortarten. Auf dem zweiten Baum sieht man die Expandierungsfähigkeiten und die Valenzmöglichkeiten aller Wortarten.

23 Literatur Charniak, Eugene (1997) Statistical Techniques for Natural Language Parsing. In: AI Magazine (cf. Charniak, Eugene (1993) Statistical Language Learning.MIT Press. Mannning, Christopher; Schütze, Hinrich (1999) Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 11: Probabilistic Context Free Grammars und Kap. 12: Probabilistic Parsing. vgl.: Algorithmen für Probabilistisch Kontextfreie Grammatiken Cornelia Endriss & Christian Ebert Eusufzai, Abdullah 23

24 Probabilistische Kontextfreie Grammatiken. Manuel Giuliani schuetz.doc Eusufzai, Abdullah 24

Probabilistic Context Free Grammars, Part II

Probabilistic Context Free Grammars, Part II Probabilistic Context Free Grammars, Part II Prof Dr. Matthew Crocker Universität des Saarlandes 16. Juli 2015 Matthew Crocker (UdS) PCFG II 16. Juli 2015 1 / 25 Themen heute: 1 Wiederholung: PCFG 2 Formeln

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

Der Earley-Algorithmus

Der Earley-Algorithmus Der Earley-Algorithmus Kursfolien Karin Haenelt 25.03.02 1 25.03.02 2 Inhalt Funktion des Earley-Algorithmus Begriffe Erkenner/Parser Kontextfreie Grammatik Ein Beispiel Funktionen des Algorithmus Funktionsweise

Mehr

Der Earley-Algorithmus

Der Earley-Algorithmus Der Earley-Algorithmus Kursfolien Karin Haenelt 25.03.02 1 25.03.02 2 Inhalt Funktion des Earley-Algorithmus Begriffe Erkenner/Parser Kontextfreie Grammatik Ein Beispiel Funktionen des Algorithmus Funktionsweise

Mehr

Einführung in die Computerlinguistik. Syntax II

Einführung in die Computerlinguistik. Syntax II Einführung in die Computerlinguistik yntax II Hinrich chütze & Robert Zangenfeind Centrum für Informations- und prachverarbeitung, LMU München 18.12.2015 chütze & Zangenfeind: yntax II 1 / 17 Take-away

Mehr

Grammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht

Grammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht Zusammenhang: Formale Sprache Grammatik Formale Sprache kann durch Grammatik beschrieben werden. Zur Sprache L = L(G) gehören nur diejenigen Kombinationen der Zeichen des Eingabealphabets, die durch die

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Alphabet, formale Sprache

Alphabet, formale Sprache n Alphabet Alphabet, formale Sprache l nichtleere endliche Menge von Zeichen ( Buchstaben, Symbole) n Wort über einem Alphabet l endliche Folge von Buchstaben, die auch leer sein kann ( ε leere Wort) l

Mehr

Maschinelle Sprachverarbeitung: Probabilistische, kontextfreie Grammatiken

Maschinelle Sprachverarbeitung: Probabilistische, kontextfreie Grammatiken HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Probabilistische, kontextfreie Grammatiken Tobias Scheffer Ulf Brefeld Sprachmodelle N-Gramm-Modell:

Mehr

Earley Parser. Flutura Mestani

Earley Parser. Flutura Mestani Earley Parser Flutura Mestani Informatik Seminar Algorithmen zu kontextfreien Grammatiken Wintersemester 2015/2016 Prof. Martin Hofmann, Dr. Hans Leiß Flutura Mestani 25.11.2015 Seminar Algorithmen zu

Mehr

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet

Mehr

Chart-Parsing. bersicht. Ziel. Motivation: Bisher vorgestellte Verfahren sind nicht effizient Grundidee des Chart-Parsing Datenstruktur

Chart-Parsing. bersicht. Ziel. Motivation: Bisher vorgestellte Verfahren sind nicht effizient Grundidee des Chart-Parsing Datenstruktur Chart-Parsing bersicht Ziel Motivation: Bisher vorgestellte Verfahren sind nicht effizient Grundidee des Chart-Parsing Datenstruktur Knoten passive und aktive Kanten gepunktete Regeln (dotted rules) Fundamentalregel

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch

MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch Fachbeiträge MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch Abstract: Die Verwendung von ID/LP-Grammatiken und komplexen Symbolen ist bei Flektionsreichen und in der Wortstellung

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Paul Prasse Michael Großhans NLP- (Natural Language Processing-) Pipeline Folge von Verarbeitungsschritten

Mehr

Inhalt. Einführung Formale Sprachen und Grammatiken Übergangsnetze Merkmalsstrukturen Unifikationsgrammatiken

Inhalt. Einführung Formale Sprachen und Grammatiken Übergangsnetze Merkmalsstrukturen Unifikationsgrammatiken 4 Syntax Inhalt Einführung Formale Sprachen und Grammatiken Übergangsnetze Merkmalsstrukturen Unifikationsgrammatiken 4.1 Einführung Einführung Oberflächenstruktur (OF) äußere Erscheinungsform eines Satzes

Mehr

Probabilistisches Parsing Teil II

Probabilistisches Parsing Teil II Ruprecht-Karls-Universität Heidelberg Computerlinguistisches Seminar SS 2002 HS: Parsing Dozentin: Dr. Karin Haenelt Referentin: Anna Björk Nikulásdóttir 10.06.02 1. Parsingmodelle Probabilistisches Parsing

Mehr

Syntax von Programmiersprachen

Syntax von Programmiersprachen "Grammatik, die sogar Könige zu kontrollieren weiß... aus Molière, Les Femmes Savantes (1672), 2. Akt Syntax von Programmiersprachen Prof. Dr. Christian Böhm in Zusammenarbeit mit Gefei Zhang WS 07/08

Mehr

Kontextfreie Sprachen. Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester Kontextfreie Sprachen

Kontextfreie Sprachen. Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester Kontextfreie Sprachen Automaten und Formale Sprachen alias Theoretische Informatik Sommersemester 2012 Dr. Sander Bruggink Übungsleitung: Jan Stückrath Wortproblem: der CYK-Algorithmus Pumping Lemma für kontextfreie Sprachen

Mehr

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina Syntax Alla Shashkina Was ist Syntax? Satzlehre System von Regeln, die beschreiben, wie aus einem Inventar von Grundelementen (Morphemen, Wörtern, Satzgliedern) durch spezifische syntaktische Mittel (Morphologische

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Uwe Dick Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,

Mehr

Syntax von Programmiersprachen

Syntax von Programmiersprachen "Grammatik, die sogar Könige zu kontrollieren weiß... aus Molière, Les Femmes Savantes (1672), 2. Akt Syntax von Programmiersprachen Prof. Dr. Martin Wirsing in Zusammenarbeit mit Michael Barth, Philipp

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

Einführung in unifikationsbasierte Grammatikformalismen

Einführung in unifikationsbasierte Grammatikformalismen Universität Potsdam Institut für Linguistik Computerlinguistik Einführung in unifikationsbasierte Grammatikformalismen Thomas Hanneforth head: VP form: finite subj: pers: 3 num: pl Merkmalsstrukturen:

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Syntax II WS 2011/2012 Manfred Pinkal Geschachtelte Strukturen in natürlicher Sprache [ der an computerlinguistischen Fragestellungen interessierte Student im ersten

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,

Mehr

6 Modellierung von Strukturen 6.1 Kontextfreie Grammatiken

6 Modellierung von Strukturen 6.1 Kontextfreie Grammatiken 6 Modellierung von Strukturen 6.1 Kontextfreie Grammatiken Mod-6.1 Kontextfreie Grammatik (KFG): formaler Kalkül, Ersetzungssystem; definiert Sprache als Menge von Sätzen; jeder Satz ist eine Folge von

Mehr

Syntax von Programmiersprachen

Syntax von Programmiersprachen "Grammatik, die sogar Könige zu kontrollieren weiß aus Molière, Les Femmes Savantes (1672), 2. kt Syntax von Programmiersprachen Prof. Dr. Martin Wirsing Ziele Zwei Standards zur Definition der Syntax

Mehr

Earley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann

Earley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann Earley Parsing Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann 12.12.2012 Agenda Basics Komponenten Earley Parsing - Recognizer Earley Parsing - Parser Vor- und Nachteile Parsing WS 2012/2013

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen

Institut für Informatik Lehrstuhl Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-PipelinePipeline Tobias Scheffer Peter Haider Uwe Dick Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik Sommersemester 2015 22.04.2015 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Bis jetzt 1. Terminologie 2. Endliche Automaten und reguläre Sprachen

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

Teil 111. Chart-Parsing

Teil 111. Chart-Parsing Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),

Mehr

Übungsaufgaben. Eine kontextfreie Grammatik lässt sich formal als Quadrupel darstellen: D : der, das N : Hund, Kaninchen V : sieht, beißt

Übungsaufgaben. Eine kontextfreie Grammatik lässt sich formal als Quadrupel darstellen: D : der, das N : Hund, Kaninchen V : sieht, beißt Universität Bielefeld 25. Juni 2006 Fakultät für Linguistik und Literaturwissenschaft Formale Methoden der Linguistik III Veranstalter: Dieter Metzing Sommersemester 2006 Übungsaufgaben 1. (a) Welche Bestandteile

Mehr

Grammatiken. Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen

Grammatiken. Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen Grammatiken Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen Grammatiken eignen sich besonders zur Modellierung beliebig tief geschachtelter,

Mehr

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Syntax Problem: Gegeben eine Menge von Wortformen (oder Wörtern), welche Reihenfolgen

Mehr

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22 1/22 Formale Methoden 1 Gerhard Jäger Gerhard.Jaeger@uni-bielefeld.de Uni Bielefeld, WS 2007/2008 12. Dezember 2007 2/22 Bäume Baumdiagramme Ein Baumdiagramm eines Satzes stellt drei Arten von Information

Mehr

4 Typen der Verknüpfung von Adjektiv und Substantiv:

4 Typen der Verknüpfung von Adjektiv und Substantiv: Ludwig-Maximilians Universität München Centrum für Informations- und Sprachwissenschaft Hauptseminar: Relationale Grammatiken Betreuer: Herr Leiß Referentin: Wenjuan Li Datum: 14. 05. 03 Abbildungen 4

Mehr

Der Earley-Algorithmus.

Der Earley-Algorithmus. 1 Der Earley-Algorithmus. Eine Erläuterung der formalen Spezifikation mit linguistischen Beispielen Kursskript Karin Haenelt, 25.07.2001 1 Einleitung In diesem Skript wird die formale Spezifikation des

Mehr

Probabilistische kontextfreie Grammatiken und Parsing. Sebastian Pado

Probabilistische kontextfreie Grammatiken und Parsing. Sebastian Pado Probabilistische kontextfreie Grammatiken und Parsing Sebastian Pado 18.01.2005 1 Robustes Parsing Ziel: Syntaktische Analyse von freiem Text Anwendungen: Freier Dialog Große Textmengen (Internet) Herausforderungen

Mehr

Hidden Markov Models Erläuterung der Bestimmung der Wahrscheinlichkeit einer Beobachtung

Hidden Markov Models Erläuterung der Bestimmung der Wahrscheinlichkeit einer Beobachtung Hidden Markov Models Erläuterung der estimmung der Wahrscheinlichkeit einer eobachtung Kursfolien Karin Haenelt Karin Haenelt Hidden Markov-Modelle 9.66 2.64 Hidden Markov Model HMM: eschreibung Ein Hidden

Mehr

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8. Gliederung Natürlichsprachliche Systeme I D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 WS 2011/12, 26. Oktober 2011, c 2010-2012

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 15.01.2015 INSTITUT FÜR THEORETISCHE 0 KIT 15.01.2015 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Das Trainings-Regime Ergebnisse Fehlerdiskussion Zusammenfassung. Baumbank-Training. Mateusz Jozef Dworaczek

Das Trainings-Regime Ergebnisse Fehlerdiskussion Zusammenfassung. Baumbank-Training. Mateusz Jozef Dworaczek 04.06.2007 Inhalt 1 Definition Anno 1996 Überwachtes Training 2 Ablesen der Baumbankgrammatik Berechnen der Regelwahrscheinlichkeiten PCFG 3 Parameter zur Messung der Güte des Parsens 4 Fehlerquellen 1.Fehler

Mehr

Parsing-EinfŸhrung Ð 1

Parsing-EinfŸhrung Ð 1 Parsing-EinfŸhrung bersicht Falsifizierbarkeit, oder: Sind Grammatiken wissenschaftlich? Grammatik, Formalismus Kontextfreie Grammatiken Ableitungen Ziel Verstehen der linguistischen Motivation Intuitives

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Syntax natürlicher Sprachen

Syntax natürlicher Sprachen Syntax natürlicher Sprachen 06: Merkmalstrukturen Martin Schmitt Ludwig-Maximilians-Universität München 29.11.2017 Martin Schmitt (LMU) Syntax natürlicher Sprachen 29.11.2017 1 Themen der heutigen Übung

Mehr

Der Viterbi Algorithmus

Der Viterbi Algorithmus M. 23.Juli.2007 Gliederung 1 2 3 Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes entwickelt Auf Basis von entwickelt Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes

Mehr

Charts. Motivation. Grundfrage. Chart als Graph

Charts. Motivation. Grundfrage. Chart als Graph Charts Motivation Übersicht Chart bzw. Well-Formed Substring Table (WFST) Als azyklischer Graph, Tabelle und Relation Kantenbeschriftungen Kategorien: WFST Regeln: Passive Charts Regelhyposen: Aktive Charts

Mehr

Schnitt- und Äquivalenzproblem

Schnitt- und Äquivalenzproblem Schnitt- und Äquivalenzproblem Das Schnittproblem besteht in der Frage, ob der Schnitt zweier gegebener regulärer Sprachen L 1 und L 2 leer ist. Dabei können die Sprachen durch DEAs oder Typ-3 Grammatiken,

Mehr

Tutorium Prolog für Linguisten 12

Tutorium Prolog für Linguisten 12 Tutorium Prolog für Linguisten 12 Sebastian Golly 29. Januar 2013 Sebastian Golly Tutorium Prolog für Linguisten 12 1 / 13 Plan für heute Fürs Langzeitgedächtnis Zusammenfassung des letzten Seminars Übungsblatt

Mehr

Syntaktische Kategorien: Phrasenkategorien

Syntaktische Kategorien: Phrasenkategorien Syntaktische Kategorien: Phrasenkategorien FLM0410 - Introdução à Linguística Alemã I Profa. Dra. Ma. Helena Voorsluys Battaglia Eugenio Braga 8974165 Márcio Ap. de Deus 7000382 Wörter Phrasen Satz Satz

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik Sommersemester 2017 20.04.2017 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Bis jetzt Organisatorisches Literatur Motivation und Inhalt Kurzer

Mehr

Syntax und Morphologie

Syntax und Morphologie Syntax und Morphologie Einführungskurs 8. Vorlesung Strukturanalyse Aufgabe der syntaktisch-funktionalen Analyse ist es, alle Informationen bereitzustellen, die es der semantischen Analyse ermöglichen,

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik 4. Kellerautomaten und kontextfreie Sprachen (III) 17.06.2015 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Übersicht 1. Motivation 2. Terminologie

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Kontextfreie Sprachen und Pushdown-Automaten Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Formale Komplexität natürlicher Sprachen WS 03/04 Wiederholung c

Mehr

Theoretische Grundlagen der Informatik. Vorlesung am 8. Januar INSTITUT FÜR THEORETISCHE INFORMATIK

Theoretische Grundlagen der Informatik. Vorlesung am 8. Januar INSTITUT FÜR THEORETISCHE INFORMATIK Theoretische Grundlagen der Informatik 0 08.01.2019 Torsten Ueckerdt - Theoretische Grundlagen der Informatik KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft www.kit.edu Letzte Vorlesung Eine

Mehr

Der Viterbi-Algorithmus im Part-of-Speech Tagging

Der Viterbi-Algorithmus im Part-of-Speech Tagging Der Viterbi-Algorithmus im Part-of-Speech Tagging Kursfolien Karin Haenelt 1 Themen Zweck des Viterbi-Algorithmus Hidden Markov Model Formale Spezifikation Beispiel Arc Emission Model State Emission Model

Mehr

Formale Grundlagen der Informatik 1 Kapitel 7 Eigenschaften kontextfreier Sprachen

Formale Grundlagen der Informatik 1 Kapitel 7 Eigenschaften kontextfreier Sprachen Formale Grundlagen der Informatik 1 Kapitel 7 Eigenschaften kontextfreier Sprachen Frank Heitmann heitmann@informatik.uni-hamburg.de 28. April 2015 Frank Heitmann heitmann@informatik.uni-hamburg.de 1/39

Mehr

Sprachen sind durch folgenden Aufbau gekennzeichnet:

Sprachen sind durch folgenden Aufbau gekennzeichnet: BNF UND SYNTAXDIAGRAMME 1. Allgemeines 1.1 Aufbau von Sprachen BNF und Syntaxdiagramme werden verwendet, um die Syntax einer Sprache darzustellen und graphisch zu veranschaulichen. Mit ihnen können entweder

Mehr

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen

Mehr

Theoretische Informatik Mitschrift

Theoretische Informatik Mitschrift Theoretische Informatik Mitschrift 2. Grammatiken und die Chomsky-Hierarchie Beispiel: Syntaxdefinition in BNF :=

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Probabilistische kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 08. Dezember 2015 Let s play a game Ich gebe Ihnen ein Nichtterminalsymbol. S, NP, VP, PP, oder POS-Tag

Mehr

Inhalt Kapitel 11: Formale Syntax und Semantik

Inhalt Kapitel 11: Formale Syntax und Semantik Inhalt Kapitel 11: Formale Syntax und Semantik 1 Abstrakte und konkrete Syntax 2 Lexikalische Analyse 3 Formale Sprachen, Grammatiken, BNF 4 Syntaxanalyse konkret 266 Abstrakte und konkrete Syntax Abstrakte

Mehr

Dativobjekt! Akkusativobjekt! Genitivobjekt! Präpositionalobjekt! = Ziel der Handlung, Patiens!

Dativobjekt! Akkusativobjekt! Genitivobjekt! Präpositionalobjekt! = Ziel der Handlung, Patiens! Akkusativobjekt! Dativobjekt! = Ziel der Handlung, Patiens! = Rezipient [Empfänger(in)]! = Benefizient [Nutznießer(in) der Handlung]! = Experiencer [erfährt etwas]! Genitivobjekt! Präpositionalobjekt!

Mehr

Automatentheorie und formale Sprachen

Automatentheorie und formale Sprachen Automatentheorie und formale Sprachen VL 8 Chomsky-Grammatiken Kathrin Hoffmann 23. Mai 2012 Hoffmann (HAW Hamburg) Automatentheorie und formale Sprachen 23.5. 2012 250 Wortproblem Wortproblem ist das

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Diskrete Wahrscheinlichkeitsräume (1) Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Wintersemester 2011/2012 In vielen Bereichen der CL kommt

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05 Spracherkennung Merkmalsextraktion

Mehr

Kapitel: Die Chomsky Hierarchie. Die Chomsky Hierarchie 1 / 14

Kapitel: Die Chomsky Hierarchie. Die Chomsky Hierarchie 1 / 14 Kapitel: Die Chomsky Hierarchie Die Chomsky Hierarchie 1 / 14 Allgemeine Grammatiken Definition Eine Grammatik G = (Σ, V, S, P) besteht aus: einem endlichen Alphabet Σ, einer endlichen Menge V von Variablen

Mehr

Sie gab das Buch ihrer Schwester.

Sie gab das Buch ihrer Schwester. Linguistische Kriterien für kontextfreie Grammatiken Zerlegung eines Satzes in Konstituenten gemäß Austausch-, Verschiebe- und Weglaßprobe Dies ist ein Beispiel. Beschreibungsmöglichkeiten: 1. S Pron V

Mehr

4 Syntaktische Relationen: Konstituenz

4 Syntaktische Relationen: Konstituenz Übersicht 4 Syntaktische Relationen: Konstituenz 4.1 Konstituentenstruktur 4.1.1 Eigenschaften der Konstituentenstruktur 4.1.2 Konstituentenstruktur des Deutschen 4.2 Modellierung mit kontextfreier Grammatik

Mehr

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 1 Exkurs: Formale

Mehr

Einführung. Vorlesung Grammatikformalismen Alexander Koller. 15. April 2016

Einführung. Vorlesung Grammatikformalismen Alexander Koller. 15. April 2016 Einführung Vorlesung Grammatikformalismen Alexander Koller 15. April 2016 Übersicht Was sind Grammatikformalismen, und warum reichen uns kfgs nicht? Was machen wir in dieser Vorlesung? Prüfungsmodalitäten

Mehr

Kapitel IV Formale Sprachen und Grammatiken

Kapitel IV Formale Sprachen und Grammatiken Kapitel IV Formale Sprachen und Grammatiken 1. Begriffe und Notationen Sei Σ ein (endliches) Alphabet. Dann Definition 42 1 ist Σ das Monoid über Σ, d.h. die Menge aller endlichen Wörter über Σ; 2 ist

Mehr

Formale Sprachen und Grammatiken

Formale Sprachen und Grammatiken Formale Sprachen und Grammatiken Jede Sprache besitzt die Aspekte Semantik (Bedeutung) und Syntax (formaler Aufbau). Die zulässige und korrekte Form der Wörter und Sätze einer Sprache wird durch die Syntax

Mehr

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Algorithmen und Datenstrukturen I - - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 22 Exkurs: Formale Sprachen Im Kapitel

Mehr

Chartparsing & CKY Algorithmus

Chartparsing & CKY Algorithmus Ludwigs Maximiliansuniversität München Centrum für Informations und Sprachverarbeitung Hauptseminar: Parsing Leitung: Prof. Dr. Klaus U. Schulz Sommersemester 2009 Chartparsing & CKY Algorithmus Daniel

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik Grundlagen der Theoretischen Informatik 4. Kellerautomaten und kontextfreie Sprachen (II) 11.06.2015 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Übersicht 1. Motivation 2. Terminologie

Mehr

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri Sprachanalyse WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Inhalt 1. Formale Sprachen 2. Chomsky-Hierarchie 2 FORMALE SPRACHE 1. WAS IST EINE SPRACHE? 2. WIE BESCHREIBT MAN EINE SPRACHE? 3. WAS

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Syntax Wiederholung Aufgabe 1 Was ist Syntax und womit beschäftigt sie sich? 3 Aufgabe 1 Was ist Syntax und womit beschäftigt

Mehr

Einführung in die Computerlinguistik Chart-Parsing

Einführung in die Computerlinguistik Chart-Parsing Einführung in die Computerlinguistik Chart-Parsing Dozentin: Wiebke sen 21.12.2009 Wiebke sen Einführung CL (Wie 09/10) 1 P = calls calls Wiebke sen Einführung CL (Wie 09/10) 2 P = calls calls Wiebke sen

Mehr

Spezielle Themen der KI. NLP Natural Language Processing Parsing

Spezielle Themen der KI. NLP Natural Language Processing Parsing Spezielle Themen der KI NLP Natural Language Processing Parsing Parsing Strategien top-down: Ausgehend von S Hypothesenbildung und Verifikation anhand der Grammatikregeln Ersetzung nicht-terminaler Symbole

Mehr

Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie

Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/2006 07.11.2005 5. Vorlesung 1 Überblick: Kontextfreie Sprachen Formale Grammatik Einführung, Beispiele Formale

Mehr

Erkennung der kontextfreien Grammatiken mittels Boolescher Matrixmultiplikation

Erkennung der kontextfreien Grammatiken mittels Boolescher Matrixmultiplikation Erkennung der kontextfreien Grammatiken mittels Boolescher Matrixmultiplikation Valiant-Erkenner Referent: Fedor Uvarov eminar Algorithmen zu kontextfreien Grammatiken Dozenten: Prof Dr. Hofmann, Dr. Leiß

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Prolog - Definite Clause Grammar Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 25. Januar 2012 Wiederholung: DCGs Parser, Kongruenz, Semantik Praxis Hausaufgaben

Mehr

Übungsblatt 1 - Lösung

Übungsblatt 1 - Lösung Formale Sprachen und Automaten Übungsblatt 1 - Lösung 24. April 2013 1 Wiederholung: Relationen 1. Was ist eine Relation? Definiere (auf grundlegende Begriffe der Mengenlehre kannst du dabei zurückgreifen).

Mehr

Syntax natürlicher Sprachen

Syntax natürlicher Sprachen Syntax natürlicher Sprachen 02: Grammatik und Bäume Martin Schmitt Ludwig-Maximilians-Universität München 25.10.2017 Martin Schmitt (LMU) Syntax natürlicher Sprachen 25.10.2017 1 1 Syntax im NLTK 2 Grammatik

Mehr

EINFÜHRUNG IN DIE GERMANISTISCHE LINGUISTIK KAPITEL 4: SYNTAX LÖSUNGEN

EINFÜHRUNG IN DIE GERMANISTISCHE LINGUISTIK KAPITEL 4: SYNTAX LÖSUNGEN Bitte beachten Sie, dass an verschiedenen Stellen auch andere Lösungen denkbar sind. Ich habe versucht, die Lösungen ausführlicher zu formulieren; das soll aber nicht bedeuten, dass auch Ihre Lösungen

Mehr