Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets
Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen Reduzierbarkeit der Daten
Klassische Wortartenlehre Was sind Wörter? Was sind Wortarten? Kriterien zu Wortartenermittlung
Klassische Wortartenlehre Wortart morphologisch syntaktisch semantisch (Duden 1984) 1. Verb flektierbar Funktion: v.a. Prädikat Zustände, Vorgänge, (Konjugation) Distribution: in Kongruenz mit dem Subjekt Tätigkeiten, Handlungen 2. Substantiv flektierbar Funktion: Subjekt, Objekt, adverbiale Lebewesen, Sachen (Deklination) Bestimmung, Attribut (Dinge), Begriffe Distribution: mit Artikel (Abstrakta) 3. Adjektiv flektierbar Funktion: Attribut, adverbiale Bestimmung Eigenschaften, Merkmale (Deklination) Distribution: mit Substantiv bzw. Verb komparierbar 4. Artikel, flektierbar Funktion: Attibut oder Substantiv-Stellvertreter Verweis, nähere Pronomen (Deklination) (mit entsprechender Funktion) Bestimmungen Distribution: mit oder an Stelle eines Substantivs 5. Partikeln 5a. Adverb unflektierbar Funktion: Attribut oder Umstandsangabe nähere Umstände Distribution: mit Substantiv, Adjektiv, Verb 5b. Präposition unflektierbar Funktion: Präpositionalkasus Verhältnisse, Beziehungen Distribution: vor Substantiven (Pronomen) 5c. Konjunktion unflektierbar Funktion: Verbindung, Einleitung, Unterordnung Verknüpfungen im Distribution: zwischen Sätzen, innerhalb von Satzgliedern und Attributen logischen, zeitlichen, begründenden, modalen u.ä. Sinn 6. Interjektion unflektierbar gewöhnlich syntaktisch isoliert; Empfindungen, Gefühle, dialogsteuernde und -gliedernde Funktion Stellungnahmen
Lexikalische Kategorien wären nach Sasse (1993) solche, die sich ermitteln lassen mittels a) morphologischer Kriterien (v.a. Flexion) b) distributionelle Kriterien (Kollokationsklassen im strukturalistischen Sinne) c) semantischer/ontologischer Kriterien. Syntaktische Kategorien wären solche, die syntaktische Funktion erfüllen, nämlich a) als Argumente von Köpfen, b) als Prädikate, c) strukturelle syntaktische Funktion (als Kopf einer Konstituente = Phrase, als Modifikatoren Klassische Wortartenlehre Taugt diese Wortartenklassifikation? Ist die Liste erschöpfend? Wichtige Ergänzungen Offene Klassen vs. geschlossene Klassen Lexikalische vs. syntaktische Kategorien
Klassische Wortartenlehre Sind völlig andere Konzeptionen/ Repräsentationen von Wortarten denkbar? categories complexity measure classical categories ----------------------------------------------------------------------------------------- {N}, {P}, { } 0 proper name, auxil., functor (respectively) {N,P} 1 {N;P}, {P;N} 2 noun, verb (respectively) {P:N} 3 adjective whereby X,Y means: non-specific combination of X and Y, X;Y means:dependency, whereby X is the head, Y the dependent, X:Y means:mutual dependency (Anderson 1997)
Tagsets Wie verhält sich der gute Computerlinguist? Brown-Corpus-Tagset (179 Tags) www.scs.leeds.ac.uk/ccalas/tagsets/brown.html Penn-Treebank-Tagset (University of Pennsylvania) (45 Tags) ftp.cis.upenn.edu/pub/treebank/doc/cl93.ps.gz STTS ( Stuttgar-Tübingen TagSet ) (54 Tags, reduzierbar) www.ims.uni-stuttgart.de/pub/corpora/stts_guide.ps.gz Text Encoding Initiative (TEI) http://www.tei-c.org/
Tagsets Nähere Betrachtung des STTS: 48 reine POS-tags, 6 zusätzliche tags Grundkategorien: Ausdrücklich gemischte Kriterien (=>) Manuelle Annotation
Tagsets Mein Wochenende <ABSATZ> Letztes Wochenende war langweilig. Die Fete zum Ferienbeginn fiel ins Wasser, weil die Disco abgebrannt war. Ausserdem kam auch nichts Anstaendiges im Fernsehn. <ABSATZ> Mein PPOSAT mein PPOSAT = attribuierendes Possessivpronomen Wochenende NN Wochenende NN = normale Nomina <SATZ><segmentgrenze><ABSATZ> Letztes NN Letzte Wochenende NN Wochenende war VAFIN sein VAFIN = finites Auxiliarverb langweilig ADJD langweilig ADJD = prädikativ oder adverbial gebrauchte Adjektive. SATZ-P. <SATZ><segmentgrenze>
Tagsets Die ART d ART = Artikel Fete NN Fete zum APPRART zum APPRART = Präposition mit Artikel Ferienbeg. NN Ferienbeginn fiel VVFIN fallen VVFIN = Vollverb finit ins APPRART ins Wasser NN Wasser, $,, weil KOUS weil KOUS = unterordnende Konjunktion mit Satz die ART d Disco NN Disco abgebrannt VVPP abbrennen VVPP = nicht flektiertes Partizip Perfekt war VAFIN sein. SATZ-P. <SATZ><segmentgrenze> Außerdem ADV außerdem kam VVFIN kommen auch ADV auch nichts PIAT nichts PIAT = attribuierendes Indefinitpronomen ohne Anständiges NN Anständige Determiner vorkommend im APPRART im Fernsehn NN <unknown>. SATZ-P.
Annotation höherer Ebenen Welche höheren Ebenen sind annotierbar? (siehe auch nächste Folie) Probleme Formale Markierung von Sequenzen (auch überlappend und diskontinuierlich) Elliptische Konstruktionen Ambiguität Und: Das alles in lesbarer (zumindest: abfragbarer) Weise
Anno... Battle tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico, a boatload of warriors blown ashore 375 years ago. (Marcus et al. 1993)
Design von Tagsets Anwendung von Teilmengen vorhandener Tagsets Entwurf optimal angepasster Tagsets Vermeidung fixierter Annotation
Literatur Anderson, John, 1997. A Notional Theory of Syntactic Categories. Cambridge: Cambridge University Press (= Cambridge Studies in Linguistics 82). Marcus, Mitchel P., Beatrice Santorini, Mary Ann Markinkiewicz, 1993. Building a large annotated corpus of English: the Penn Treebank. [ftp.cis.upenn.edu/pub/treebank/doc/cl93.ps.gz] Sasse, Hans-Jürgen, 1993. Syntactic categories and subcategories. In: HSK 9.1 (Syntax). 646-686.