Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource

Transkript

1 Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Kerstin Eckart 18. Februar 2013 Kerstin Eckart 1 / 45

2 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45

3 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45

4 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45

5 Konzepte I Annotation Zu einer Ressource hinzugefügte (linguistische) Information. frei nach [McEnery and Wilson, 2001] Primärdaten Möglichst grundlegende Version einer Ressource, die annotiert werden soll. In unserem Fall meist eine elektronische Repräsentation von Sprachdaten: Korpora geschriebener Sprache Korpora gesprochener Sprache Multimodale Korpora Kerstin Eckart 3 / 45

6 Konzepte II Annotationsebenen Beschreibung verschiedener Phänomene Kerstin Eckart 4 / 45

7 Annotationsebenen: Dokumentstruktur M.Schiehlen (2003), A Cascaded Finite-State Parser for German. Kerstin Eckart 5 / 45

8 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45

12 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45

17 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

23 Annotationsebenen: Syntax Kerstin Eckart 8 / 45

27 Annotationsebenen: Informationsstatus Kerstin Eckart 9 / 45

28 Annotationsebenen: Informationsstatus Kerstin Eckart 9 / 45

29 Annotationsebenen: Prosodie Kerstin Eckart 10 / 45

30 Annotationsebenen: Prosodie Wavesurfer, Kerstin Eckart 10 / 45

31 Strukturannotation Kerstin Eckart 11 / 45

38 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Kerstin Eckart 13 / 45

39 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format Kerstin Eckart 13 / 45

40 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format linguistisches Wissen Kerstin Eckart 13 / 45

41 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format linguistisches Wissen Zuordnungsmodelle, Darstellungsaspekte Kerstin Eckart 13 / 45

42 Annotationsrichtlinien I Natürlichsprachlich formulierte Vorschriften und Anleitungen: Beispiele zur Wortartenannotation aus Schiller et al., 1999, 86 Seiten Guidelines für das Tagging deutscher Textcorpora mit STTS (Stuttgart-Tübingen-TagSet) Kerstin Eckart 14 / 45

43 Annotationsrichtlinien II Formale Regeln für die maschinelle Verarbeitung: Kerstin Eckart 15 / 45

44 Annotationsrichtlinien III Basieren auf zugrunde liegender Theorie / zu untersuchender Fragestellung Annotationsentscheidungen so verständlich wie möglich machen linguistische Tests Beispiele für Grenz-/Problemfälle Kenntlichmachung von Festlegungen Ggf. iteratives Verfahren zur schrittweisen Verbesserung der Richtlinien Kerstin Eckart 16 / 45

45 Tagsets Kurzformen für verwendete Datenkategorien, z.b.: Kerstin Eckart 17 / 45

46 Tagsets Kerstin Eckart 17 / 45

47 Tagsets Kerstin Eckart 17 / 45

48 Tagsets STTS Kerstin Eckart 18 / 45

49 Tagsets STTS Kerstin Eckart 18 / 45

50 Inline- vs. Stand-off-Annotation I Inline-Annotation Annotationen werden direkt in die Primärdaten eingefügt. Er PPER fährt VVFIN ein ART Auto NN. $. (S quad(np (PPER Er)) quad(vp (VVFIN fährt) quadquad(np (ART ein) (NN Auto)) quad) quad($..) q) Inline Annotation im Stil des Lancaster-Oslo-Bergen Korpus. Inline Annotation im Stil der PennTreebank. Kerstin Eckart 19 / 45

51 Inline- vs. Stand-off-Annotation II - Änderung der Primärdaten Information kann verloren gehen (z.b. Leerzeichen) - Keine überlappenden Annotationen - Ergänzung weiterer Annotationsebenen wird erschwert + Je nach Anwendung vorteilhaft in der Prozessierung Kerstin Eckart 20 / 45

52 Inline- vs. Stand-off-Annotation III Stand-off-Annotation Annotationen werden getrennt von den Primärdaten abgelegt. <body>er fährt ein Auto.</body> <mark id="tok_1" xlink:href="#xpointer(string-range(//body,,1,2))"/> <mark id="tok_2" xlink:href="#xpointer(string-range(//body,,4,5))"/> <! > <feat xlink:href="#tok_1" value="stts.type_pos.xml#pper"/> <feat xlink:href="#tok_2" value="stts.type_pos.xml#vvfin"/> <! > Stand-off-Annotation encodiert in PAULA, version 1.1. [Dipper, 2005] Kerstin Eckart 21 / 45

53 Inline- vs. Stand-off-Annotation IV Statische Abbildung der Positionen in den Primärdaten: - Erfordert Referenzmechanismus zur Zuordnung zu den Primärdaten + Erleichtert die Versionierung und das gleichzeitige Vorhalten nebenläufiger Annotationsebenen + Erlaubt Abgleiche von extrahierten Fällen und Fehlern mit den Primärdaten Kerstin Eckart 22 / 45

54 Mehrebenenannotation I Ressource umfasst mehrere Annotationsebenen, z.b. Segmentierung, Wortartenannotation, Syntaxannotation Annotationsebenen können sich auf Primärdaten und auf darunterligende Annotationsebenen beziehen Ressource kann mehrere Annotationen der gleichen Ebene umfassen, z.b. zwei Wortartenannotationen, die mit verschiedenen Tools erzeugt wurden Mehrebenenannotation in Verbindung mit Stand-off-Annotation erlaubt Umgang mit Korrektur-/Normalisierungsebenen ohne Verlust der Primärdaten Kerstin Eckart 23 / 45

55 Mehrebenenannotation I Ressource umfasst mehrere Annotationsebenen, z.b. Segmentierung, Wortartenannotation, Syntaxannotation Annotationsebenen können sich auf Primärdaten und auf darunterligende Annotationsebenen beziehen Ressource kann mehrere Annotationen der gleichen Ebene umfassen, z.b. zwei Wortartenannotationen, die mit verschiedenen Tools erzeugt wurden Mehrebenenannotation in Verbindung Nachhaltigkeit mit Stand-off-Annotation erlaubt Umgang mit Korrektur-/Normalisierungsebenen ohne Verlust der Primärdaten Kerstin Eckart 23 / 45

56 Mehrebenenannotation II Abhängigkeiten zwischen den Annotationsebenen müssen explizit gemacht werden. Kerstin Eckart 24 / 45

57 Repräsentationsformat... spezifiziert, wie die Annotationen repräsentiert werden. Kerstin Eckart 25 / 45

58 BitPar, [Schmid, 2004]

59 BitPar, [Schmid, 2004]

60 TCF als Austauschformat für die maschnielle Prozessierungskette in WebLicht <TextCorpus xmlns=" <text>er fährt ein Auto.</text> <tokens> <token ID="t1">Er</token> <token ID="t2">fährt</token> <! > </tokens> <sentences> <sentence ID="s1" tokenids="t1 t2 t3 t4 t5" /> </sentences> <POStags tagset="stts"> <tag tokenids="t1">pper</tag> <tag tokenids="t2">vvfin</tag> <! > </POStags> </TextCorpus> lang="de"> TCF 0.4 Kerstin Eckart 27 / 45

61 Wer annotiert eigentlich? Kerstin Eckart 28 / 45

62 Wer annotiert eigentlich? Zeitungskorpora TIGER Korpus [Brants et al., 2002] TüBa-D/Z [Hinrichs et al., 2004] Tokens Sätze Tokens Sätze Kerstin Eckart 28 / 45

63 Wer annotiert eigentlich? Zeitungskorpora TIGER Korpus [Brants et al., 2002] TüBa-D/Z [Hinrichs et al., 2004] Tokens Sätze Tokens Sätze Webkorpora [Baroni et al., 2009] dewac itwac 1,7 Milliarden Tokens 2 Milliarden Tokens Kerstin Eckart 28 / 45

64 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Kerstin Eckart 29 / 45

65 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Automatische Annotation Tools generieren Annotationen Richtlinien: trainiertes Modell, Grammatik, Lexikon,... Beispiele: Satzgrenzenerkenner, Wortarten-Tagger, Parser,... Kerstin Eckart 29 / 45

66 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Automatische Annotation Tools generieren Annotationen Richtlinien: trainiertes Modell, Grammatik, Lexikon,... Beispiele: Satzgrenzenerkenner, Wortarten-Tagger, Parser,... Semi-automatische Annotation Toolausgabe wird manuell überprüft/korrigiert Kerstin Eckart 29 / 45

67 Qualität der Annotation Typische Fehler in manuellen Annotationen Typische Fehler in automatisch generierten Annotationen Kerstin Eckart 30 / 45

68 Qualität der Annotation Typische Fehler in manuellen Annotationen Inkonsistenzen (Ermüdungseffekt, Trainigseffekt) Übersehene Fälle Ambiguitäten in den Richtlinien / als Teil des Phänomens Typische Fehler in automatisch generierten Annotationen Kerstin Eckart 30 / 45

69 Qualität der Annotation Typische Fehler in manuellen Annotationen Inkonsistenzen (Ermüdungseffekt, Trainigseffekt) Übersehene Fälle Ambiguitäten in den Richtlinien / als Teil des Phänomens Typische Fehler in automatisch generierten Annotationen Fehlentscheidungen bei Ambiguitäten Fälle für die das Tool keine Richtlinie kennt (zu wenig / Art der Trainigsdaten,... ) Kerstin Eckart 30 / 45

70 Qualitätssicherung I Nachhaltigkeit Inhalt Manuelle Annotation Mehrere Annotatoren Inter-Annotator-Agreement [Artstein and Poesio, 2008] Automatisches Auffinden von Inkonsistenzen [Boyd et al., 2008] ggf. Verbesserung der Annotationsrichtlinien Automatische Annotation Toolevaluation z.b. gegen manuell annotiertes Testset Gütemaße: Accuracy, Precision, Recall Kerstin Eckart 31 / 45

71 Qualitätssicherung II Format Feststellung der strukturellen Wohlgeformtheit der Annotationen Validierung gegen ein Schema, z.b. XML Schemata Kerstin Eckart 32 / 45

72 Ein Beispiel: Workflow des SRCMF Korpus Syntactic Reference Corpus of Medieval French [Stein and Prévost, 2013] Sophie Prévost (CNRS Lattice, Paris) Achim Stein (ILR, Universität Stuttgart) Teile zweier Textkorpora wurden syntaktisch annotiert: Base de Français Médiéval (BFM) Nouveau Corpus d Amsterdam (NCA) Dazu wurde ein Modell für die Annotation von Dependenzstrukturen entwickelt Kerstin Eckart 33 / 45

73 Grafik: Achim Stein Corpora: BFM, NCA Kerstin Eckart 34 / 45

74 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles manual annotation with Notabene tool Kerstin Eckart 34 / 45

75 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation manual annotation with Notabene tool Kerstin Eckart 34 / 45

76 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool Kerstin Eckart 34 / 45

77 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions Kerstin Eckart 34 / 45

78 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions syntactic structures (RDF graphs) Kerstin Eckart 34 / 45

79 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions queries with TigerSearch TigerXML syntactic structures (RDF graphs) Kerstin Eckart 34 / 45

80 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions queries with TigerSearch TigerXML syntactic structures (RDF graphs) CoNLL training of dependency parsers Kerstin Eckart 34 / 45

81

83 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Kerstin Eckart 37 / 45

84 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Kerstin Eckart 37 / 45

85 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Kerstin Eckart 37 / 45

86 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Abbilden spezifischer Repräsentationsformate Format mit Hilfe von Austauschformaten generisch, Theorie-unabhänging z.b. Linguistic Annotation Framework [ISO24612:2012] Kerstin Eckart 37 / 45

87 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Abbilden spezifischer Repräsentationsformate Format mit Hilfe von Austauschformaten generisch, Theorie-unabhänging z.b. Linguistic Annotation Framework [ISO24612:2012] Abbilden von Datenkategorien in in Data Category Registries z.b. ISOcat Inhalt Kerstin Eckart 37 / 45

88 CLARIN-D Empfehlungen I Geeignete Annotation hängt von vielen Faktoren ab, z.b.: Art der Primärdaten Annotatoren Verfügbare Tools Fragestellung Kerstin Eckart 38 / 45

89 CLARIN-D Empfehlungen II Wichtigste Anforderung für eine nachhaltige Ressource: Bereitstellung von Metadaten und Dokumentation zu jeder Annotationsebene. Metadaten und Dokumentation Wie wurde annotiert? manuell, semi-automatisch, automatisch Nach welchen Richtlinien wurde annotiert? Wo sind sie dokumentiert? Welche Tagsets wurden verwendet? Wo sind sie dokumentiert? Wie ist ihre Verbindung zu registrierten Datenkategorien? (ISOcat) Kerstin Eckart 39 / 45

90 CLARIN-D Empfehlungen III Welche Tools oder Wissensbasen wurden verwendet? In welchen Versionen? Wie ist die Qualität der Annotationen einzuschätzen? Inter-Annotator-Agreement, Toolevaluierung Gibt es Abhängigkeiten zwischen den Annotationsebenen, oder zwischen Annotationsebenen und bestimmten Versionen der Primärdaten? Kerstin Eckart 40 / 45

91 CLARIN-D Empfehlungen III Für bereits existierende Ressourcen können ein Teil der Informationen ggf. nicht mehr rekonstruierbar sein. Nachhaltigkeitsakpekte für neue Ressourcen: Versionierung (De-facto) Standards für Repräsentationsformate und Zeichenkodierung Feingranulare Segmentierung Kerstin Eckart 41 / 45

92 Das Annotieren einer Ressource bedeutet immer auch eine Interpretation ihres Inhalts und/oder ihrer Struktur. Daher kann eine Annotation nie universeller Konsens sein. frei nach [McEnery and Wilson, 2001] und [Leech, 1993] Kerstin Eckart 42 / 45

93 Literatur I Artstein, R. and Poesio, M. (2008). Inter-coder agreement for computational linguistics. Computational Linguistics, 34(4). Baroni, M., Bernardini, S., Ferraresi, A., and Zanchetta, E. (2009). The WaCky Wide Web: A collection of very large linguistically processed web-crawled corpora. Language Resources and Evaluation, 43(3): Boyd, A., Dickinson, M., and Meurers, D. (2008). On detecting errors in dependency treebanks. Research on Language and Computation, 6(2): Brants, S., Dipper, S., Hansen, S., Lezius, W., and Smith, G. (2002). The TIGER Treebank. Dipper, S. (2005). XML-based stand-off representation and exploitation of multi-level linguistic annotation. In Proceedings of Berliner XML Tage 2005 (BXML 2005), pages 39 50, Berlin. Kerstin Eckart 43 / 45

94 Literatur II Hinrichs, E., Kübler, S., Naumann, K., Telljohann, H., and Trushkina, J. (2004). Recent developments in linguistic annotations of the TüBa-D/Z Treebank. In Proceedings of the Third Workshop on Treebanks and Linguistic Theories (TLT). Leech, G. (1993). Corpus annotation schemes. Literary and Linguistic Computing, 8(4): Marcus et al, M. P. (1993). Building a large annotated corpus of english: The Penn Treebank. Computational Linguistics, 19(2): McEnery, T. and Wilson, A. (2001). Corpus linguistics. An introduction. Edinburgh textbooks in empirical linguistics. Edinburgh university press, Edinburgh, 2nd edition. Kerstin Eckart 44 / 45

95 Literatur III Schiehlen, M. (2003). A cascaded finite-state parser for German. In Proceedings of EACL 2003, pages , Budapest. Schiller et al., A. (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS. Schmid, H. (2004). Efficient parsing of highly ambiguous context-free grammars with bit vectors. volume 1, pages Stein, A. and Prévost, S. (2013). Syntactic annotation of medieval texts: the syntactic reference corpus of medieval french (SRCMF). In Bennett, P., Durrell, M., Scheible, S., and Whitt, R., editors, New Methods in Historical Corpus Linguistics, Corpus Linguistics and International Perspectives on Language, CLIP Vol. 3. Narr, Tübingen. to appear. Kerstin Eckart 45 / 45