Chunk Linking und Chunk Attachment

Größe: px
Ab Seite anzeigen:

Download "Chunk Linking und Chunk Attachment"

Transkript

1 Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Parsing SS 2003 Dozentin: Dr. Karin Haenelt Referent/Innen: Klaus Rothenhäusler, Wiebke Wagner Chunk Linking Chunk Attachment Klaus Rothenhäusler, Wiebke Wagner 1 Inhalt Allgemeiner Teil: Was ist Problemstellung Anforderungen an den Algorithmus Eigene Implementierung eines Attachers Corpusaufbereitung Lernerarchitektur Evaluierung Klaus Rothenhäusler, Wiebke Wagner 2

2 Zur Orientierung Standardoperationen im robusten Parsing: Operation Part-of-speech tagging Chunking Chunk Attachment Chunk Linking Clause Bracketing Ausgabeeinheit Wortarten Chunks Identifikation von Verbindungen zwischen Chunks Identifikation von Verbindungen zwischen Chunks, die Satzfunktionen repräsentieren (Subjekt, Objekt,...) Sätze Klaus Rothenhäusler, Wiebke Wagner 3 Standardoperationen anhand eines Beispielsatzes Tagging Chunking Chunk Chunk Clause Attachment Linking Bracketing Rechnungen nomn [NX] [NP [subje coor Messungen nomn [NX] ] ] haben auxv [VX [VP [praed ergeben verb ] ] ],, dass hypo Handys nomn [NX] [NP] [subje] im prpo [PP [pp Kopf nomn [NX] ] ] nur advb eine dete [NX [NP [trans schwache adje lokale adje Erwärmung nomn ] ] von prpo [PP maximal advb [NX ca. advb 0.1 card masz ] ] ] erzeugen verb [VX] [NVP] [praed].. *vgl. Haenelt 2003 Klaus Rothenhäusler, Wiebke Wagner 4

3 Chunk Attachment Chunk Linking sind interpretierende Operationen, die Zusammenhänge zwischen Chunks ermitteln die Ergebnisstruktur weiter anreichern (vgl. Haenelt 2003). Eine syntaktische Analyse reicht dazu nicht aus; lexikalische semantische Aspekte müssen mit einbezogen werden. Klaus Rothenhäusler, Wiebke Wagner 5 Chunk Attachment Chunk Linking Einfache Chunks: 1) [Der H] [beißt] [den Mann] [mit der Glatze.] 2) [Der H] [beißt] [den Mann] [mit seinen Zähnen.] 1) [NP] [VP] [NP] [PP] 2) [NP] [VP] [NP] [PP] Erweiterte Chunks: 1) [NP] [VP] [NP PP] 2) [NP] [VP] [NP] [ PP] Die richtigen Zusammenhänge zwischen den Chunks können nur durch semantische Informationen ermittelt werden. Klaus Rothenhäusler, Wiebke Wagner 6

4 Der Chunking Parser von Abney Bestandteile des Chunking Parsers: 1) Tokenizer/morphological analyzer => Tagger 2) Chunker => konvertiert Wortketten zu Chunks. 3) Attacher => konvertiert Ketten aus Chunks zu Sätzen. Chunker Attacher sind nicht-deterministische LR-Parser mit ähnlichem Aufbau. Klaus Rothenhäusler, Wiebke Wagner 7 Chunks Aufgabe des Chunkers ist es, Chunks zu ermitteln; das sind die Greinheiten, mit denen im Chunk Attachment operiert wird. Chunks haben syntaktische Struktur: Es handelt sich um Subgraphen, aus denen sich der komplette Syntaxbaum zusammensetzt (vgl. Abney 1991, 2). Definition von Chunks: I define chunks in terms of major heads. Major heads are all content words except those that appear between a function word f and the content word that f selects. (vgl. Abney 1991, 2) Chunks werden auf rein syntaktischer Ebene definiert. Semantische funktionale Faktoren spielen keine Rolle. Klaus Rothenhäusler, Wiebke Wagner 8

5 Chunks Subgraph 1: DP NP Subgraph 1 : DP NP The bald man f content word The bald man major head Es werden neue Knoten in den Syntaxbaum eingefügt, um die Subgraphen zu komplettieren, z.b. DP. Es werden neue Kanten eingefügt, um die Subgraphen miteinander zu Verbinden. Klaus Rothenhäusler, Wiebke Wagner 9 Chunk Attachment Da im Chunk Attachment semantische lexikalische Informationen benötigt werden, sind hier a. Semantische Heuristiken b. lexikalische Eigenschaften c. von Bedeutung. Klaus Rothenhäusler, Wiebke Wagner 10

6 Semantische Heuristiken 1) Prefer argument attachment, prefer verb attachment 2) Prefer low attachment (vgl. Abney 1991, 10) Zu 1): Die Attachmentstellen sind nach Priorität folgendermaßen einzuordnen: 1. Attachment als Verbargument (z.b. Subjekt, Objekt). 2. Attachment als Argument eines Nicht-Verbs (z.b. Attribute). 3. Attachment als Verbmodifizierer (z.b. Modalverben, Adverbien). 4. Attachment als Modifizierer eines Nicht-Verbs (z.b. Modalpartikel). Zu 2): Hier ist die relative Höhe der Attachmentstelle im Baum gemeint. Klaus Rothenhäusler, Wiebke Wagner 11 Lexikalische Eigenschaften Viele Ambiguitätenkommen dadurch zustande, dass Komplemente - die lexikalisch spezifiziert sind - optional sein können. Die lexikalischen Eigenschaften der Köpfe bestimmen dabei, was für Komplemente mit dem Kopf auftreten können. Jedem gegebenen Wort wird ein Frameset zugeschrieben, das die obligatorischen die optionalen Argumente des Wortes in Form von Slots darstellt (<: only appears first ; >: only appears last ) (Vgl. Abney 1991). Klaus Rothenhäusler, Wiebke Wagner 12

7 Eingabe Ausgabe des Chunking Parsers Beispielsatz: This effort of course must have two foci. 1) Words: {[Det this]} {[N effort]} {[Adv of course]} {[N must][v must]} {[V have]} {[Num two]} {[N foci]}. 2) Chunks: 3) [DP [Det this] [NP [N effort]]] 4) [CP [IP [AdvP [Adv of course]] [Modal will] [VP [V have]]]] [DP [NP [Num two] [N foci]]]. 3) Pars: 4) [CP [IP [DP this effort [VP of course must have [DP two foci]]]]] Klaus Rothenhäusler, Wiebke Wagner 13 Vorteile des Chunking Parsers Syntaktische Attachment-Ambiguitäten tauchen innerhalb von Chunks nicht auf, da nicht Worte sondern ganze Chunks als Einheit geparst werden. Semantische Ambiguitätenwerden im Attacher bearbeitet. Die aufwendigen Techniken bleiben auf den Attacher beschränkt. Einfacheres Debugging durch die Trennung von Chunker Attacher. Klaus Rothenhäusler, Wiebke Wagner 14

8 Nachteile des Chunking Parsers Komplexität des LR-Parsers: exponentiell. Nicht alle linguistischen Phänomene sind abgedeckt z.b. Ende des Chunks in: - [In Manhattan] [apartments] [with lowrent] [are] [in great demand] - [In Manhattan apartments] [with lowrent], [rats] [are] [a serious problem] Klaus Rothenhäusler, Wiebke Wagner 15 Chunk Linking Satzfunktionen wie Subjekt, Objekt etc. werden identifiziert. Verbindung zwischen den Einheiten werden hergestellt. Bei Grefenstette (1999) realisiert durch einen Filter, der über die Satzstellung das Subjekt identifiziert. Ist nicht für das Deutsche anwendbar, da im Deutschen auch das Objekt in Satzerststellung stehen kann. Klaus Rothenhäusler, Wiebke Wagner 16

9 Eigene Implementierung Ziel: Eigene Implementierung zur Erkennung von erweiterten Chunks Problem: Regeln schreiben ist langwierig Lösung: Implementierung eines Lerners, der die Regeln selbst findet Klaus Rothenhäusler, Wiebke Wagner 17 Rahmen der Implementierung Einbindung als Modul in ein bestehendes Framework Vorhanden sind (Treetagger): Tagger (POS Tagger) Chunker (Erkennung von Base Chunks) Außerdem: Booster (Lerner) Klaus Rothenhäusler, Wiebke Wagner 18

10 Corpus Extraktion von komplexen Nominal- Präpositionalphrasen aus dem Negracorpus Definition: Komplexe Phrasen sind unmittelbare Konstituenten eines satzwertigenknotens. Klaus Rothenhäusler, Wiebke Wagner 19 Beispiel: komplexe Phrasen Klaus Rothenhäusler, Wiebke Wagner 20

11 Corpus-Extrakt: (komplexe) Phrasen Mögen Puristen aller Musikbereiche NP auch die Nase NP rümpfen, die Zukunft der Musik NP liegt für viele junge Komponisten PP im Crossover-Stil PP. Sie gehen gewagte Verbindungen Risiken NP ein, versuchen ihre Möglichkeiten NP auszureizen. Auch Philip Glass NP wurde auf seinen weltweiten Tourneen PP mit Kassetten Tonbändern PP überschüttet. Klaus Rothenhäusler, Wiebke Wagner 21 Lernaufgabe Booster: binärer Klassifizierer Binäre Formulierung der Lernaufgabe: Für ein gegebenes Basischunk muss entschieden werden, ob es ans unmittelbar vorhergehende anzuschließen ist. Anforderung: Markierung von positiven negativen Beispielen bezüglich der Lernaufgabe im Corpus: positiv: Ein Basischunk, das teil der gleichen komplexen Phrase ist, wie das vorhergehende Basischunk daher anzuschließen ist. negativ: Ein Basischunk, das nicht zusammen mit dem vorhergehenden in ein komplexe Phrase gehört. Folgt ein Basischunk auf ein Verbalchunk, ist ein Anschluss nicht möglich. Es handelt sich um ein triviales Beispiel, das ohne einen Klassifizierer erkannt werden kann daher auch nicht ins Trainingsset wandert. Klaus Rothenhäusler, Wiebke Wagner 22

12 Positive negative Trainingsbeispiele Mögen [ Puristen aller Musikbereiche ] auch [ die Nase ] rümpfen, [ die Zukunft der Musik ] liegt [ für viele junge Komponisten ] [ im Crossover-Stil ] Sie gehen [ gewagte Verbindungen Risiken ] ein, versuchen [ ihre Möglichkeiten ] auszureizen. [ Auch Philip Glass ] wurde [ auf seinen weltweiten Tourneen] [ mit Kassetten Tonbändern ] überschüttet negatives Beispiel positives Beispiel triviales Beispiel (nach Verbalchunk) Verbalchunk Klaus Rothenhäusler, Wiebke Wagner 23 Merkmalsextraktion Die Merkmale, an Hand derer der Lerner die Klassifikation leisten soll, sind: 1. Chunktypen der zwei vorhergehenden Chunks 2. Chunktyp des Item 3. Chunktypen der zwei folgenden Chunks 4. POS/Wort zwischen vorhergehendem Chunk Item: gehört das POS zu einer offenen Wortklasse (Nomen, Verben, etc.) wird das POS gewählt, sonst das Wort 5. POS/Wort zwischen Item folgendem Chunk (s. 4.) 6. Erstes Wort des vorhergehenden aktuellen Chunks, sofern es sich um einen Artikel oder eine Präposition handelt, sonst Erstes Wort des folgenden Chunks (s. 6.) Klaus Rothenhäusler, Wiebke Wagner 24

13 Beispielsatz Wort POS Chunk Extended Chunk Dann werden VAFIN 40 [NP Kindergarten- TRU KON 60 [ Hortplätze zusätzlich im [PP Stadtteil ] zur [PP Verfügung ] stehen VVFIN. $. Klaus Rothenhäusler, Wiebke Wagner 25 Beispielsatz: positive negative Trainingsinstanzen Wort Dann werden 40 Kindergarten- 60 Hortplätze zusätzlich im Stadtteil zur Verfügung stehen. POS VAFIN TRU KON VVFIN $. Chunk [ ] ] Extended Chunk [NP [PP [PP Klaus Rothenhäusler, Wiebke Wagner 26

14 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 27 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 28

15 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 29 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 30

16 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 31 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks -1-1 zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 32

17 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks -1-1 zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 33 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks -1-1 zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks im Klaus Rothenhäusler, Wiebke Wagner 34

18 Trainingscorpus (aus 90% der Sätze des Negra Corpus) positive Beispiele negative Beispiele Klaus Rothenhäusler, Wiebke Wagner 35 Lerner Booster kombiniert Baselearner (PAC) Baselearner: Decision Stump Wurzel eines Decision Tree: Findet das beste Merkmal zur Klassifikation durch Minimierung der Entropie Booster generiert einen Baselearner pro Trainingsdurchlauf Entspricht einer Regel Umgewichtung der Trainingsinstanzen nach jedem Trainingsdurchlauf: falsch klassifizierte Beispiele erhalten höheres Gewicht Gewichtung der Baselearner nach Korrektheit der Klassifikation DEMO!!! Klaus Rothenhäusler, Wiebke Wagner 36

19 Systemarchitektur Negra Corpus Phrase Extractor Evaluation CLFramework (komplexe) Phrasen annotierter Corpus CLFramework (mit Chunk Erweiterung) Chunk- Erweiterungs- Modul CLFramework (Beispieldaten- Vektorisierer) Testcorpus (10%) Training erzeugt Trainingscorpus (90%) Lerner (Booster) Klaus Rothenhäusler, Wiebke Wagner 37 Evaluation Nach 100 Trainingsdurchläufen liegt die Klassifikationsgenauigkeit bei: 63,2% Klaus Rothenhäusler, Wiebke Wagner 38

20 Evaluation Testset: 3441 Beispiele Davon positiv: 1400 Negativ: 2041 Damit liegt die Baseline für die Klassifikationsgenauigkeit bei 59,3% => Die Verbesserung durch das Training ist marginal (3,9%). => Der Lerner versagt. Klaus Rothenhäusler, Wiebke Wagner 39 Analyse Corpus unbrauchbar? Merkmale schlecht gewählt? Aufgabe unlösbar (interpretierendes Verfahren) Lerner taugt nichts? Decision Stumps zu ifferenziert! Klaus Rothenhäusler, Wiebke Wagner 40

21 Analyse (Update) Experiment: Boosting von Decision Trees Nach 10 Trainingsläufen: Ergebnis für das Testset: 75,1% Die Merkmale geben demnach mehr her Die Schwäche liegt also hauptsächlich bei den Decision Stumps Klaus Rothenhäusler, Wiebke Wagner 41 Literatur Abney, Steven (1991): Parsing By Chunks. In: Robert Berwick and Steven Abney and Carol Tenny, Principle-Based Parsing, Kluwer Academic Publishers. Abney, Steven (1996): Partial Parsing via Finite-State Cascades. In: Workshop on Robust parsing, 8th European Summer School in Logic, Language and Information (ESSLLI). Prag, 1996, S Abney, Steven & Schapire, Robert E. & Singer, Yoram (1999). Boosting applied to tagging and PP attachment. In Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, /article/abney99boosting.html Dreyer, Markus (2002a): Syntaktisches Parsing zur prosodischen Merkmalsgenerierung. Magisterarbeit. Universität Heidelberg. / Klaus Rothenhäusler, Wiebke Wagner 42

22 Literatur Dreyer, Markus (2002b): Kombiniertes transformations-basiertes Lernen erweiterter Chunks. In: Proceedings of KONVENS 2002, 6. Konferenz zur Verarbeitung natürlicher Sprache, Saarbrücken, Germany. / Grefenstette, Gregory (1999): Light Parsing as Finite State Filtering. In: Kornai 1999, S frühere Version: In: Workshop on Extended finite state models of language, Budapest, Hungary, Aug , ECAI'96." /grefenstette96light.html Haenelt, Karin (2003): HS Parsing, /Parsing/ Witten, Ian H. Frank, Eibe (1999). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. Klaus Rothenhäusler, Wiebke Wagner 43

Chunk Linking und Chunk Attachment

Chunk Linking und Chunk Attachment 21.7.2003 Klaus Rothenhäusler, Wiebke Wagner 1 Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Parsing SS 2003 Dozentin: Dr. Karin Haenelt Referent/Innen: Klaus Rothenhäusler,

Mehr

Chunk linking und Chunk attachment

Chunk linking und Chunk attachment Titus von der Malsburg, Heike Stadler Chunk linking und Chunk attachment HS Parsing, Karin Haenelt Heidelberg, 8.7.2002 Chunk linking und Chunk attachment Inhalt Was ist Chunk linking und Chunk attachment?

Mehr

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik CLab Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT Chunk Parsing Universität Zürich Institut für Computerlinguistik Prof. Dr. Michael Hess 1. Voraussetzungen 2 Sie sollten wissen,

Mehr

Sprachtechnologie. Parsing Übersicht und Kurskonzept. Komplexe Phänomene. Parsing - Stand. Parsingmethoden. Komplexe Aufgaben.

Sprachtechnologie. Parsing Übersicht und Kurskonzept. Komplexe Phänomene. Parsing - Stand. Parsingmethoden. Komplexe Aufgaben. Übersicht und Kurskonzept 01.04.2003 1 Karin Haenelt, Stand 2003 Kursfolien Karin Haenelt Sprachverarbeitung Pragmatik Textualität Semantik Syntax Morphologie Informationsanalyse Sprachanalyse Sprachverstehen

Mehr

Parsing Übersicht und Kurskonzept

Parsing Übersicht und Kurskonzept Parsing Übersicht und Kurskonzept Kursfolien Karin Haenelt 01.04.2003 1 Übersetzung Verkehr, Auto Wohnen Sprachverarbeitung Pragmatik Textualität Semantik Syntax Morphologie Informationsanalyse Sprachanalyse

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

Der Earley-Algorithmus

Der Earley-Algorithmus Der Earley-Algorithmus Kursfolien Karin Haenelt 25.03.02 1 25.03.02 2 Inhalt Funktion des Earley-Algorithmus Begriffe Erkenner/Parser Kontextfreie Grammatik Ein Beispiel Funktionen des Algorithmus Funktionsweise

Mehr

Kombiniertes transformations-basiertes Lernen erweiterter Chunks

Kombiniertes transformations-basiertes Lernen erweiterter Chunks Kombiniertes transformations-basiertes Lernen erweiterter Chunks Markus Dreyer Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg dreyer@cl.uni-heidelberg.de Abstract Chunking beschränkt

Mehr

Der Earley-Algorithmus

Der Earley-Algorithmus Der Earley-Algorithmus Kursfolien Karin Haenelt 25.03.02 1 25.03.02 2 Inhalt Funktion des Earley-Algorithmus Begriffe Erkenner/Parser Kontextfreie Grammatik Ein Beispiel Funktionen des Algorithmus Funktionsweise

Mehr

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet

Mehr

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

Automatisches Verstehen gesprochener Sprache

Automatisches Verstehen gesprochener Sprache Automatisches Verstehen gesprochener Sprache 6. Syntaxanalyse Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehr

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer

Mehr

Teil 111. Chart-Parsing

Teil 111. Chart-Parsing Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),

Mehr

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Erkennung und Visualisierung attribuierter Phrasen in Poetiken Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung

Mehr

Computerlexikographie-Tutorium

Computerlexikographie-Tutorium Computerlexikographie-Tutorium 18.04.2008 Thema für heute: lexikalische Regeln nach Daniel Flickinger Computerlexikographie PS, Ruprecht-Karls-Universität Heidelberg, SS08 Dozentin: Claudia Kunze ~*~ Tutorin:

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

VP vs.?p. N V P N? N P N V Peter kommt nach Hause...dass Peter nach Hause kommt. Syntax V 2

VP vs.?p. N V P N? N P N V Peter kommt nach Hause...dass Peter nach Hause kommt. Syntax V 2 Syntax V Rechts- vs. Links-Köpfigkeit VL-Sätze als grundlegende Muster funktionale Kategorien IP/CP zum Nachlesen: Grewendorf/Hamm/Sternefeld: Sprachliches Wissen, S. 213-223, Kap. 7.1., 7.2 Syntax V 1

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI Syntax Ending Khoerudin Deutschabteilung FPBS UPI Traditionale Syntaxanalyse Was ist ein Satz? Syntax: ein System von Regeln, nach denen aus einem Grundinventar kleinerer Einheiten (Wörter und Wortgruppen)

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05 Spracherkennung Merkmalsextraktion

Mehr

Textmining Wissensrohstoff Text

Textmining Wissensrohstoff Text Textmining Wissensrohstoff Text Wintersemester 2008/09 Teil 5 Chunking und Parsing Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Zerlegung von Sätzen 1.

Mehr

Einführung in unifikationsbasierte Grammatikformalismen

Einführung in unifikationsbasierte Grammatikformalismen Universität Potsdam Institut für Linguistik Computerlinguistik Einführung in unifikationsbasierte Grammatikformalismen Thomas Hanneforth head: VP form: finite subj: pers: 3 num: pl Merkmalsstrukturen:

Mehr

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Charts. Motivation. Grundfrage. Chart als Graph

Charts. Motivation. Grundfrage. Chart als Graph Charts Motivation Übersicht Chart bzw. Well-Formed Substring Table (WFST) Als azyklischer Graph, Tabelle und Relation Kantenbeschriftungen Kategorien: WFST Regeln: Passive Charts Regelhyposen: Aktive Charts

Mehr

Hidden Markov Models (HMM)

Hidden Markov Models (HMM) Hidden Markov Models (HMM) Kursfolien Karin Haenelt 1 Themen Definitionen Stochastischer Prozess Markow Kette (Visible) Markov Model Hidden Markov Model Aufgaben, die mit HMMs bearbeitet werden Algorithmen

Mehr

Earley Parser. Flutura Mestani

Earley Parser. Flutura Mestani Earley Parser Flutura Mestani Informatik Seminar Algorithmen zu kontextfreien Grammatiken Wintersemester 2015/2016 Prof. Martin Hofmann, Dr. Hans Leiß Flutura Mestani 25.11.2015 Seminar Algorithmen zu

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Merkmalstrukturen und Unifikation Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Formale Komplexität natürlicher Sprachen WS 03/04 Universität Potsdam Institut

Mehr

Slot Grammar Eine Einführung

Slot Grammar Eine Einführung Slot Grammar Eine Einführung München, 4. Dez. 2002 Gerhard Rolletschek gerhard@cis.uni-muenchen.de 1 ! Entstehungskontext Übersicht! Elemente der Slot Grammar (Was ist ein Slot?)! Complement Slots vs.

Mehr

MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch

MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch Fachbeiträge MODIFIKATIONEN DES TOMITA-PARSERS FÜR ID/LP UND FEATURE GRAMMARS Jens Woch Abstract: Die Verwendung von ID/LP-Grammatiken und komplexen Symbolen ist bei Flektionsreichen und in der Wortstellung

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Sie gab das Buch ihrer Schwester.

Sie gab das Buch ihrer Schwester. Linguistische Kriterien für kontextfreie Grammatiken Zerlegung eines Satzes in Konstituenten gemäß Austausch-, Verschiebe- und Weglaßprobe Dies ist ein Beispiel. Beschreibungsmöglichkeiten: 1. S Pron V

Mehr

Probeklausur Syntax-Übung MA Linguistik

Probeklausur Syntax-Übung MA Linguistik Probeklausur Syntax-Übung MA Linguistik Prof. Dr. Stefan Müller Humboldt Universität Berlin St.Mueller@hu-berlin.de 12. Februar 2018 In diesem Dokument gibt es Fragen zu allem, was in der Veranstaltung

Mehr

Einführung in die Sprachwissenschaft -Tutorium-

Einführung in die Sprachwissenschaft -Tutorium- Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Wintersemester 2010/2011 Einführung in die Sprachwissenschaft -Tutorium- Dienstag, 16.00 18.00 Uhr Seminarraum 10 Aufgaben Kapitel 1

Mehr

Einführung in die Computerlinguistik. Syntax II

Einführung in die Computerlinguistik. Syntax II Einführung in die Computerlinguistik yntax II Hinrich chütze & Robert Zangenfeind Centrum für Informations- und prachverarbeitung, LMU München 18.12.2015 chütze & Zangenfeind: yntax II 1 / 17 Take-away

Mehr

Hidden Markov Models Erläuterung der Bestimmung der Wahrscheinlichkeit einer Beobachtung

Hidden Markov Models Erläuterung der Bestimmung der Wahrscheinlichkeit einer Beobachtung Hidden Markov Models Erläuterung der estimmung der Wahrscheinlichkeit einer eobachtung Kursfolien Karin Haenelt Karin Haenelt Hidden Markov-Modelle 9.66 2.64 Hidden Markov Model HMM: eschreibung Ein Hidden

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Chart-Parsing. bersicht. Ziel. Motivation: Bisher vorgestellte Verfahren sind nicht effizient Grundidee des Chart-Parsing Datenstruktur

Chart-Parsing. bersicht. Ziel. Motivation: Bisher vorgestellte Verfahren sind nicht effizient Grundidee des Chart-Parsing Datenstruktur Chart-Parsing bersicht Ziel Motivation: Bisher vorgestellte Verfahren sind nicht effizient Grundidee des Chart-Parsing Datenstruktur Knoten passive und aktive Kanten gepunktete Regeln (dotted rules) Fundamentalregel

Mehr

Karl Heinz Wagner

Karl Heinz Wagner PATR II Funktionale Beschreibungen Der PATR II Formalismus Auch für PATR II gilt Sprachliche Ausdrücke werden durch funktionale Beschreibungen oder Deskriptionen (engl. functional descriptions,, FD beschrieben

Mehr

Vorlesung 7: LFG I. Einführung, c- und f-strukturen

Vorlesung 7: LFG I. Einführung, c- und f-strukturen Vorlesung 7: LFG I. Einführung, c- und f-strukturen Dozent: Gerold Schneider Übersicht Die Behandlung überkreuzender Abhängigkeiten Transformationen Diskontinuierliche Grammatiken Argumentskomposition

Mehr

Practical Grammar Engineering Using HPSG 2.Tag. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel

Practical Grammar Engineering Using HPSG 2.Tag. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel Practical Grammar Engineering Using HPSG 2.Tag Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel Inhalt Matrix Differenzlisten Debugging (Demo, Frederik) Die LinGO Grammar Matrix Ein Nachteil

Mehr

Operationen auf endlichen Akzeptoren und Transduktoren

Operationen auf endlichen Akzeptoren und Transduktoren Operationen auf endlichen Akzeptoren und Transduktoren Kursfolien Karin Haenelt Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, 08.07.2006 ( 1 05.04.2004) 1 Notationskonventionen L reguläre

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Syntax Wiederholung Aufgabe 1 Was ist Syntax und womit beschäftigt sie sich? 3 Aufgabe 1 Was ist Syntax und womit beschäftigt

Mehr

Deutsche Grammatik WS 14/15. Kerstin Schwabe

Deutsche Grammatik WS 14/15. Kerstin Schwabe Deutsche Grammatik WS 14/15 Kerstin Schwabe Generelle Information Dr. Kerstin Schwabe Zentrum für Allgemeine Sprachwissenschaft Schützenstraße 18, R. 432 10117 Berlin Tel.: 20192410 E-mail: schwabe@zas.gwz-berlin.de

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Syntax II WS 2011/2012 Manfred Pinkal Geschachtelte Strukturen in natürlicher Sprache [ der an computerlinguistischen Fragestellungen interessierte Student im ersten

Mehr

Named Entity Recognition (NER)

Named Entity Recognition (NER) Named Entity Recognition (NER) Katharina Stein 01/12/2017 Named Entity Recognition 1 Inhalt Named Entity Recognition Was ist Named Entity Recognition? Bedeutung für Natural Language Processing Herausforderungen

Mehr

LFG-basierter Transfer

LFG-basierter Transfer Inhaltsverzeichnis 1 2 2 Ein Beispiel 4 3 Strukturaufbau 7 4 Alternative Übersetzungen 8 5 Adjunkte 9 6 Kodeskription 10 http://www.ims.uni-stuttgart.de/ gojunaa/mue_tut.html 1 1 Um einen quellsprachlichen

Mehr

Kontextsensitive Sprachen

Kontextsensitive Sprachen Kontextsensitive Sprachen Standardbeispiel: {anbncn} S a b c S a A b B c c B A B b c B b b A A b a A a a Im Bereich der natürlichen Sprachen gibt es zahlreiche kontextsensitive Phänomene in der Semantik

Mehr

Probabilistisches Parsing Teil II

Probabilistisches Parsing Teil II Ruprecht-Karls-Universität Heidelberg Computerlinguistisches Seminar SS 2002 HS: Parsing Dozentin: Dr. Karin Haenelt Referentin: Anna Björk Nikulásdóttir 10.06.02 1. Parsingmodelle Probabilistisches Parsing

Mehr

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen

Mehr

Tutorium Prolog für Linguisten 12

Tutorium Prolog für Linguisten 12 Tutorium Prolog für Linguisten 12 Sebastian Golly 29. Januar 2013 Sebastian Golly Tutorium Prolog für Linguisten 12 1 / 13 Plan für heute Fürs Langzeitgedächtnis Zusammenfassung des letzten Seminars Übungsblatt

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Earley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann

Earley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann Earley Parsing Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann 12.12.2012 Agenda Basics Komponenten Earley Parsing - Recognizer Earley Parsing - Parser Vor- und Nachteile Parsing WS 2012/2013

Mehr

Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten

Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten Dozentin: Wiebke Petersen Foliensatz 3 Wiebke Petersen Einführung CL 1 Describing formal languages by enumerating all words

Mehr

Künstliche Intelligenz Sprachverarbeitung mit Prolog

Künstliche Intelligenz Sprachverarbeitung mit Prolog Künstliche Intelligenz Sprachverarbeitung mit Prolog Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parsing mit Prolog Grammatik Wortartenklassifikation,

Mehr

Syntax und Morphologie

Syntax und Morphologie Syntax und Morphologie Einführungskurs 8. Vorlesung Strukturanalyse Aufgabe der syntaktisch-funktionalen Analyse ist es, alle Informationen bereitzustellen, die es der semantischen Analyse ermöglichen,

Mehr

Erkennung von Teilsatzgrenzen

Erkennung von Teilsatzgrenzen Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Malte Helmert 23. Februar 2000 Seminar Autonome Mobile Systeme/Machine Learning Übersicht 1. Part of Speech Tagging

Mehr

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,

Mehr

Semantic Role Labeling im modernen Text-Analyse-Prozess

Semantic Role Labeling im modernen Text-Analyse-Prozess Semantic Role Labeling im modernen Text-Analyse-Prozess Bastian Haarmann info@bastianhaarmann.de http://www.bastianhaarmann.de Agenda I Text-Analyse-Prozesse 1. Motivation 2. Informationsextraktion 3.

Mehr

Syntax natürlicher Sprachen

Syntax natürlicher Sprachen Syntax natürlicher Sprachen 03: Phrasen und Konstituenten Martin Schmitt Ludwig-Maximilians-Universität München 08.11.2017 Martin Schmitt (LMU) Syntax natürlicher Sprachen 08.11.2017 1 Themen der heutigen

Mehr

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features

Mehr

EINFÜHRUNG IN DIE GERMANISTISCHE LINGUISTIK KAPITEL 4: SYNTAX LÖSUNGEN

EINFÜHRUNG IN DIE GERMANISTISCHE LINGUISTIK KAPITEL 4: SYNTAX LÖSUNGEN Bitte beachten Sie, dass an verschiedenen Stellen auch andere Lösungen denkbar sind. Ich habe versucht, die Lösungen ausführlicher zu formulieren; das soll aber nicht bedeuten, dass auch Ihre Lösungen

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Ausgangsfrage PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Irina Gossmann Carine Dombou 9. Juli 2007 INHALT Ausgangsfrage 1 AUSGANGSFRAGE 2 SYNTAX DES DEUTSCHEN + NEGRA 3 PROBABILISTISCHE

Mehr

Zur Struktur der Verbalphrase

Zur Struktur der Verbalphrase Zur Struktur der Verbalphrase Ein formales Kriterium zur Verbklassifikation: V ist ein intransitives Verb (ohne Objekte) schlafen, arbeiten, tanzen,... (1) Klaus-Jürgen schläft. V ist ein transitives Verb

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

. How Complex are Complex Predicates? K. Maiterth, A. Domberg. Seminar: Komplexe Verben im Germanischen Universität Leipzig Problem..

. How Complex are Complex Predicates? K. Maiterth, A. Domberg. Seminar: Komplexe Verben im Germanischen Universität Leipzig Problem.. How Complex are Complex Predicates? K Maiterth, A Domberg Seminar: Komplexe Verben im Germanischen Universität Leipzig 21052012 Inhalt 1 Verbcluster im Deutschen Komplexer Kopf VP-Komplementierung 2 Haiders

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten

Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten Dozentin: Wiebke Petersen 03.11.2009 Wiebke Petersen Einführung CL (WiSe 09/10) 1 Formal language Denition Eine formale Sprache

Mehr

Formale Methoden III - Tutorium

Formale Methoden III - Tutorium Formale Methoden III - Tutorium Daniel Jettka 08.05.06 Anmeldung im ekvv Inhaltsverzeichnis 1. Aufgaben vom 27.04.06 1.1 Aufgabe 1 1.2 Aufgabe 2 1.3 Aufgabe 3 1.4 Aufgabe 4 1.5 Aufgabe 5 1.6 Aufgabe 6

Mehr

Eine formale Beschreibung der Gebärdensprache mit HPSG

Eine formale Beschreibung der Gebärdensprache mit HPSG Eine formale Beschreibung der Gebärdensprache mit HPSG Jan Bungeroth Lehrstuhl für Informatik VI RWTH Aachen J. Bungeroth Eine formale Beschreibung der Gebärdensprache mit HPSG 31.10.2003 1 Überblick Einleitung

Mehr

Syntax und Phonologie: Prosodische Phrasen

Syntax und Phonologie: Prosodische Phrasen Morphologie und Syntax (BA) Syntax und Phonologie: Prosodische Phrasen PD Dr. Ralf Vogel Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld, SoSe 2007 Ralf.Vogel@Uni-Bielefeld.de 28.6.2007

Mehr

Flaches Parsing mit endlichen Automaten

Flaches Parsing mit endlichen Automaten Flaches Parsing mit endlichen Automaten Ruprecht-Karls Universität Heidelberg SS 2008 HS : Endliche Automaten für die Sprachverarbeitung Dozentin : Dr. Karin Haenelt Referenten: Teodosiya Yancheva, George

Mehr

Einführung in die Linguistik, Teil 4

Einführung in die Linguistik, Teil 4 Einführung in die Linguistik, Teil 4 Syntax - Die Auflösung syntaktischer Ambiguitäten beim menschlichen Sprachverstehen Markus Bader, Frans Plank, Henning Reetz, Björn Wiemer Einführung in die Linguistik,

Mehr

Syntaktische Kategorien: Phrasenkategorien

Syntaktische Kategorien: Phrasenkategorien Syntaktische Kategorien: Phrasenkategorien FLM0410 - Introdução à Linguística Alemã I Profa. Dra. Ma. Helena Voorsluys Battaglia Eugenio Braga 8974165 Márcio Ap. de Deus 7000382 Wörter Phrasen Satz Satz

Mehr

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Syntax Verb-Zweit. Modul Syntax und Semantik. Universität Leipzig heck. Institut für Linguistik

Syntax Verb-Zweit. Modul Syntax und Semantik. Universität Leipzig  heck. Institut für Linguistik Syntax Verb-Zweit Modul 04-006-1003 Syntax und Semantik Institut für Linguistik Universität Leipzig www.uni-leipzig.de/ heck V2-Effekte Beobachtung: In deutschen Matrixsätzen ist die Position nach der

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

TreeTagger. Deborah Watty

TreeTagger. Deborah Watty TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.

Mehr

Syntax Phrasenstruktur und Satzglieder

Syntax Phrasenstruktur und Satzglieder Syntax Phrasenstruktur und Satzglieder Sätze und ihre Bestandteile haben eine hierarchische Struktur. Die Bestandteile eines Satzes (Konstituenten) bestehen aus geordneten Wortfolgen, die ihrerseits wieder

Mehr

Satzglieder und Gliedteile. Duden

Satzglieder und Gliedteile. Duden Satzglieder und Gliedteile Duden 1.1-1.3 1. Valenz: Ergänzungen und Angaben - Verb (bzw. Prädikat) bestimmt den Satz syntaktisch und semantisch [Anna] stellte [rasch] [eine Kerze] [auf den Tisch]. - Neben

Mehr

Inhalt. " DiaGen Historie und Beschreibung. " Architektur eines DiaGen-Editors. " Hypergraphen. " DiaGen-Editoren Komponenten

Inhalt.  DiaGen Historie und Beschreibung.  Architektur eines DiaGen-Editors.  Hypergraphen.  DiaGen-Editoren Komponenten DIAGEN Sven Goeckels Seminar : Visuelle Sprachen Universität Bremen FB Informatik WS 2001/2002 Inhalt " DiaGen Historie und Beschreibung " " Hypergraphen " DiaGen-Editoren Komponenten? Modeler? Reducer?

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Teil II: Phrasen und Phrasenstruktur

Teil II: Phrasen und Phrasenstruktur Teil II: Phrasen und Phrasenstruktur Übersicht: Grammatische Funktionen Kategorien Konstituenten & Strukturbäume Konstituententest Endozentrizität 1 Einfacher Satzbau Drei allgemeine Grundfragen der Syntax:

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr