Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Ähnliche Dokumente
KAPITEL I EINLEITUNG

Tagger for German. Online BRILL-Tagger für das Deutsche

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten

Inhalt.

Deutsche Grammatik Grundfragen und Abriß

Die Wortarten. Die Duden-Grammatik (2. Aufl. 1966, S ) unterscheidet sechs Wortarten:

Tutorial II: Corpus Methods for Historical Linguistics

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

7. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten

Morphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005

Einführung in die Grammatik der deutschen Gegenwartssprache

Einführung in die Computerlinguistik. Morphologie III

SATZGLIEDER UND WORTARTEN

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache

UBUNGS- GRAMMATIK DEUTSCH

Morphologie, Lemmatisierung und Wortartenklassifikationen

Morphologische Grundmerkmale prototypischer Adjektive: 1.) deklinierbar. 2.) freies Genus (Unterschied zu Nomen)

DWDS: Hilfe Kurzübersicht

Wort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:

Tagging: Wortarten. Wortarten - Hintergrund

Die Grammatik. sowie ausführlichem Register. Auflage

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis

Wortarten und Tagsets. Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10

1 Das Lernen der norwegischen Sprache Begrifflichkeit... 11

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Einführung in die Computerlinguistik. Morphologie II

Morphologie. Dazu gehört auch: Wortarten und ihre Einteilung. Morphologie ist die Lehre vom Strukturaufbau der Wörter.

Inhalt. Einleitung. Wortarten 1

Stichwortverzeichnis. Anhang. Bedingungssatz siehe Konditionalsatz Befehlsform

Die Struktur eine Nominalphrase (die Kopfprojektionsknoten in Rot)

Grammatische Terminologie

ABKÜRZUNGEN UND SYMBOLE 14 DIE EINZELNEN WORTKLASSEN 15

6. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten

Deutsche Grammatik WS 14/15. Kerstin Schwabe

Referat Wortstellung. 1. Generelle Theorien zu Wortstellung Stellungsfeldermodell

Teil II: Phrasen und Phrasenstruktur

1 Das Lernen der schwedischen Sprache Begrifflichkeit... 11

1 Einführung Morphologie Phonologie Semantik

Phonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Erste Hilfe. Grammatik

Zur Struktur der Verbalphrase

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter

Sprachsynthese: Part-of-Speech-Tagging

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Vollständige Liste mit Könnens-Standards zur Erstellung didaktischer Analysen

Satzglieder und Gliedteile. Duden

Einschub: Tagsets STTS (Deutsch) und Penn. Wortarten - Hintergrund. Wortarten und Tagsets. Wortarten - Kriterien STTS

Ungarische Grammatik

Inhaltsverzeichnis 2 INHALT. Durchstarten in der deutschen Grammatik... 7

VP vs.?p. N V P N? N P N V Peter kommt nach Hause...dass Peter nach Hause kommt. Syntax V 2


Wort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter

Vorlesung Morphologie Flexion

Syntaktische Kategorien: Phrasenkategorien

6. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten

Adjektive L1- Was ist ein Adjektiv Adjektive L 2 Adjektivdeklination...31 Adjektive L 2.1 Adjektivdeklination nach bestimmten Artikeln...

LEITFADEN DER DEUTSCHEN GRAMMATIK

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Basiswissen Deutsche Gegenwartssprache

Duden. Rechtschreibung und Grammatik. Bearbeitet von der Dudenredaktion. Dudenverlag. Mannheim Zürich

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Übungsblätter. Schulgrammatik extra. Deutsch. 5. bis 10. Klasse. Kopiervorlagen zum Üben und Wiederholen von Grammatik

LEITFADEN DER DEUTSCHEN GRAMMATIK

Inhaltsverzeichnis. Abkürzungen... 9 Tipps & Tricks Inhaltsverzeichnis. 1.1 Der bestimmte Artikel Der unbestimmte Artikel...

Flexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem

PROBLEME DER WORTARTEN-KLASSIFIKATION

Wörter. Funktionswörter und Inhaltswörter. Inhaltswörter: begriffliche Bedeutung, die Bedeutung besteht unabhängig von der Sprechsituation

Einführung Syntaktische Funktionen

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Verzeichnis grundlegender grammatischer Fachausdrücke Vorbemerkung*

Grundwissen: Formale Sprachbetrachtung (Unterstufenpensum)

Syntax I. Vorlesung: Syntax des Deutschen unter besonderer Berücksichtigung regionaler Varietäten Claudia Bucheli Berger

Wortarten I: Die Deklinierbaren

Die Begleiter des Nomens / Les déterminants du nom... 11

Lexikonwort (Grundform) vs. Satzwort (konkrete Realisierung im sprachlichen Kontext) Änderung der Form (Flexion) und der Bedeutung im Kontext möglich

Morphosyntaktische Etikettierung

Syntax Morphosyntaktische Merkmale

5. Maschinelle Verarbeitung natürlicher Sprache (Computerlinguistik) (1)

Inhalt. Verben: a-konjugation und esse (3. Person Präsens) 13 Subjekt und Prädikat 14. Subjekt im Prädikat 14. Akkusativ als Objekt 19

Wortarten und Satzglieder

Die Grammatikalisierung deutscher Präpositionen

NLP Eigenschaften von Text


Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.

1.Auflage Reinhard Laun Zeichnungen und Grafik: Reinhard Laun. Verlag: Tradition GmbH, Hamburg Printed in Germany

Lies die Sätze und schreibe die entsprechende Zeitform in das Kästchen!

Grammatikübungen. Regeln und Formen zum Üben. 5. bis 10. Klasse. 5. bis 10. Klasse. Von Lehrern empfohlen

QUALIA STRUKTUR NACH PUSTEJOVSKY

Phrase vs. Satzglied. 1. Bedeutung der Kapitän hat das Fernrohr:

Grundwissen Grammatik

ALLGEMEINBILDENDE GYMNASIEN - GK-Englisch - Sonderteil - Kurzgrammatik KURZGRAMMATIK - ALLE JAHRGÄNGE. VIII. Präpositionen Prepositions

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1.

Einführung in die Computerlinguistik

Grammatik-Wiederholung (1) Von Lauten zu Texten: Laute Silben Worte Sätze Absätze Texte. (3) Wortarten

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Transkript:

Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen Reduzierbarkeit der Daten

Klassische Wortartenlehre Was sind Wörter? Was sind Wortarten? Kriterien zu Wortartenermittlung

Klassische Wortartenlehre Wortart morphologisch syntaktisch semantisch (Duden 1984) 1. Verb flektierbar Funktion: v.a. Prädikat Zustände, Vorgänge, (Konjugation) Distribution: in Kongruenz mit dem Subjekt Tätigkeiten, Handlungen 2. Substantiv flektierbar Funktion: Subjekt, Objekt, adverbiale Lebewesen, Sachen (Deklination) Bestimmung, Attribut (Dinge), Begriffe Distribution: mit Artikel (Abstrakta) 3. Adjektiv flektierbar Funktion: Attribut, adverbiale Bestimmung Eigenschaften, Merkmale (Deklination) Distribution: mit Substantiv bzw. Verb komparierbar 4. Artikel, flektierbar Funktion: Attibut oder Substantiv-Stellvertreter Verweis, nähere Pronomen (Deklination) (mit entsprechender Funktion) Bestimmungen Distribution: mit oder an Stelle eines Substantivs 5. Partikeln 5a. Adverb unflektierbar Funktion: Attribut oder Umstandsangabe nähere Umstände Distribution: mit Substantiv, Adjektiv, Verb 5b. Präposition unflektierbar Funktion: Präpositionalkasus Verhältnisse, Beziehungen Distribution: vor Substantiven (Pronomen) 5c. Konjunktion unflektierbar Funktion: Verbindung, Einleitung, Unterordnung Verknüpfungen im Distribution: zwischen Sätzen, innerhalb von Satzgliedern und Attributen logischen, zeitlichen, begründenden, modalen u.ä. Sinn 6. Interjektion unflektierbar gewöhnlich syntaktisch isoliert; Empfindungen, Gefühle, dialogsteuernde und -gliedernde Funktion Stellungnahmen

Lexikalische Kategorien wären nach Sasse (1993) solche, die sich ermitteln lassen mittels a) morphologischer Kriterien (v.a. Flexion) b) distributionelle Kriterien (Kollokationsklassen im strukturalistischen Sinne) c) semantischer/ontologischer Kriterien. Syntaktische Kategorien wären solche, die syntaktische Funktion erfüllen, nämlich a) als Argumente von Köpfen, b) als Prädikate, c) strukturelle syntaktische Funktion (als Kopf einer Konstituente = Phrase, als Modifikatoren Klassische Wortartenlehre Taugt diese Wortartenklassifikation? Ist die Liste erschöpfend? Wichtige Ergänzungen Offene Klassen vs. geschlossene Klassen Lexikalische vs. syntaktische Kategorien

Klassische Wortartenlehre Sind völlig andere Konzeptionen/ Repräsentationen von Wortarten denkbar? categories complexity measure classical categories ----------------------------------------------------------------------------------------- {N}, {P}, { } 0 proper name, auxil., functor (respectively) {N,P} 1 {N;P}, {P;N} 2 noun, verb (respectively) {P:N} 3 adjective whereby X,Y means: non-specific combination of X and Y, X;Y means:dependency, whereby X is the head, Y the dependent, X:Y means:mutual dependency (Anderson 1997)

Tagsets Wie verhält sich der gute Computerlinguist? Brown-Corpus-Tagset (179 Tags) www.scs.leeds.ac.uk/ccalas/tagsets/brown.html Penn-Treebank-Tagset (University of Pennsylvania) (45 Tags) ftp.cis.upenn.edu/pub/treebank/doc/cl93.ps.gz STTS ( Stuttgar-Tübingen TagSet ) (54 Tags, reduzierbar) www.ims.uni-stuttgart.de/pub/corpora/stts_guide.ps.gz Text Encoding Initiative (TEI) http://www.tei-c.org/

Tagsets Nähere Betrachtung des STTS: 48 reine POS-tags, 6 zusätzliche tags Grundkategorien: Ausdrücklich gemischte Kriterien (=>) Manuelle Annotation

Tagsets Mein Wochenende <ABSATZ> Letztes Wochenende war langweilig. Die Fete zum Ferienbeginn fiel ins Wasser, weil die Disco abgebrannt war. Ausserdem kam auch nichts Anstaendiges im Fernsehn. <ABSATZ> Mein PPOSAT mein PPOSAT = attribuierendes Possessivpronomen Wochenende NN Wochenende NN = normale Nomina <SATZ><segmentgrenze><ABSATZ> Letztes NN Letzte Wochenende NN Wochenende war VAFIN sein VAFIN = finites Auxiliarverb langweilig ADJD langweilig ADJD = prädikativ oder adverbial gebrauchte Adjektive. SATZ-P. <SATZ><segmentgrenze>

Tagsets Die ART d ART = Artikel Fete NN Fete zum APPRART zum APPRART = Präposition mit Artikel Ferienbeg. NN Ferienbeginn fiel VVFIN fallen VVFIN = Vollverb finit ins APPRART ins Wasser NN Wasser, $,, weil KOUS weil KOUS = unterordnende Konjunktion mit Satz die ART d Disco NN Disco abgebrannt VVPP abbrennen VVPP = nicht flektiertes Partizip Perfekt war VAFIN sein. SATZ-P. <SATZ><segmentgrenze> Außerdem ADV außerdem kam VVFIN kommen auch ADV auch nichts PIAT nichts PIAT = attribuierendes Indefinitpronomen ohne Anständiges NN Anständige Determiner vorkommend im APPRART im Fernsehn NN <unknown>. SATZ-P.

Annotation höherer Ebenen Welche höheren Ebenen sind annotierbar? (siehe auch nächste Folie) Probleme Formale Markierung von Sequenzen (auch überlappend und diskontinuierlich) Elliptische Konstruktionen Ambiguität Und: Das alles in lesbarer (zumindest: abfragbarer) Weise

Anno... Battle tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico, a boatload of warriors blown ashore 375 years ago. (Marcus et al. 1993)

Design von Tagsets Anwendung von Teilmengen vorhandener Tagsets Entwurf optimal angepasster Tagsets Vermeidung fixierter Annotation

Literatur Anderson, John, 1997. A Notional Theory of Syntactic Categories. Cambridge: Cambridge University Press (= Cambridge Studies in Linguistics 82). Marcus, Mitchel P., Beatrice Santorini, Mary Ann Markinkiewicz, 1993. Building a large annotated corpus of English: the Penn Treebank. [ftp.cis.upenn.edu/pub/treebank/doc/cl93.ps.gz] Sasse, Hans-Jürgen, 1993. Syntactic categories and subcategories. In: HSK 9.1 (Syntax). 646-686.