Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource

Größe: px
Ab Seite anzeigen:

Download "Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource"

Transkript

1 Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Kerstin Eckart 18. Februar 2013 Kerstin Eckart 1 / 45

2 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45

3 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45

4 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45

5 Konzepte I Annotation Zu einer Ressource hinzugefügte (linguistische) Information. frei nach [McEnery and Wilson, 2001] Primärdaten Möglichst grundlegende Version einer Ressource, die annotiert werden soll. In unserem Fall meist eine elektronische Repräsentation von Sprachdaten: Korpora geschriebener Sprache Korpora gesprochener Sprache Multimodale Korpora Kerstin Eckart 3 / 45

6 Konzepte II Annotationsebenen Beschreibung verschiedener Phänomene Kerstin Eckart 4 / 45

7 Annotationsebenen: Dokumentstruktur M.Schiehlen (2003), A Cascaded Finite-State Parser for German. Kerstin Eckart 5 / 45

8 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45

9 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45

10 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45

11 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45

12 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45

13 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45

14 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45

15 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45

16 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45

17 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

18 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

19 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

20 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

21 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

22 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45

23 Annotationsebenen: Syntax Kerstin Eckart 8 / 45

24 Annotationsebenen: Syntax Kerstin Eckart 8 / 45

25 Annotationsebenen: Syntax Kerstin Eckart 8 / 45

26 Annotationsebenen: Syntax Kerstin Eckart 8 / 45

27 Annotationsebenen: Informationsstatus Kerstin Eckart 9 / 45

28 Annotationsebenen: Informationsstatus Kerstin Eckart 9 / 45

29 Annotationsebenen: Prosodie Kerstin Eckart 10 / 45

30 Annotationsebenen: Prosodie Wavesurfer, Kerstin Eckart 10 / 45

31 Strukturannotation Kerstin Eckart 11 / 45

32 Strukturannotation Kerstin Eckart 11 / 45

33 Strukturannotation Kerstin Eckart 11 / 45

34 Strukturannotation Kerstin Eckart 11 / 45

35 Strukturannotation Kerstin Eckart 11 / 45

36 Strukturannotation Kerstin Eckart 11 / 45

37 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 12 / 45

38 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Kerstin Eckart 13 / 45

39 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format Kerstin Eckart 13 / 45

40 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format linguistisches Wissen Kerstin Eckart 13 / 45

41 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format linguistisches Wissen Zuordnungsmodelle, Darstellungsaspekte Kerstin Eckart 13 / 45

42 Annotationsrichtlinien I Natürlichsprachlich formulierte Vorschriften und Anleitungen: Beispiele zur Wortartenannotation aus Schiller et al., 1999, 86 Seiten Guidelines für das Tagging deutscher Textcorpora mit STTS (Stuttgart-Tübingen-TagSet) Kerstin Eckart 14 / 45

43 Annotationsrichtlinien II Formale Regeln für die maschinelle Verarbeitung: Kerstin Eckart 15 / 45

44 Annotationsrichtlinien III Basieren auf zugrunde liegender Theorie / zu untersuchender Fragestellung Annotationsentscheidungen so verständlich wie möglich machen linguistische Tests Beispiele für Grenz-/Problemfälle Kenntlichmachung von Festlegungen Ggf. iteratives Verfahren zur schrittweisen Verbesserung der Richtlinien Kerstin Eckart 16 / 45

45 Tagsets Kurzformen für verwendete Datenkategorien, z.b.: Kerstin Eckart 17 / 45

46 Tagsets Kerstin Eckart 17 / 45

47 Tagsets Kerstin Eckart 17 / 45

48 Tagsets STTS Kerstin Eckart 18 / 45

49 Tagsets STTS Kerstin Eckart 18 / 45

50 Inline- vs. Stand-off-Annotation I Inline-Annotation Annotationen werden direkt in die Primärdaten eingefügt. Er PPER fährt VVFIN ein ART Auto NN. $. (S quad(np (PPER Er)) quad(vp (VVFIN fährt) quadquad(np (ART ein) (NN Auto)) quad) quad($..) q) Inline Annotation im Stil des Lancaster-Oslo-Bergen Korpus. Inline Annotation im Stil der PennTreebank. Kerstin Eckart 19 / 45

51 Inline- vs. Stand-off-Annotation II - Änderung der Primärdaten Information kann verloren gehen (z.b. Leerzeichen) - Keine überlappenden Annotationen - Ergänzung weiterer Annotationsebenen wird erschwert + Je nach Anwendung vorteilhaft in der Prozessierung Kerstin Eckart 20 / 45

52 Inline- vs. Stand-off-Annotation III Stand-off-Annotation Annotationen werden getrennt von den Primärdaten abgelegt. <body>er fährt ein Auto.</body> <mark id="tok_1" xlink:href="#xpointer(string-range(//body,,1,2))"/> <mark id="tok_2" xlink:href="#xpointer(string-range(//body,,4,5))"/> <! > <feat xlink:href="#tok_1" value="stts.type_pos.xml#pper"/> <feat xlink:href="#tok_2" value="stts.type_pos.xml#vvfin"/> <! > Stand-off-Annotation encodiert in PAULA, version 1.1. [Dipper, 2005] Kerstin Eckart 21 / 45

53 Inline- vs. Stand-off-Annotation IV Statische Abbildung der Positionen in den Primärdaten: - Erfordert Referenzmechanismus zur Zuordnung zu den Primärdaten + Erleichtert die Versionierung und das gleichzeitige Vorhalten nebenläufiger Annotationsebenen + Erlaubt Abgleiche von extrahierten Fällen und Fehlern mit den Primärdaten Kerstin Eckart 22 / 45

54 Mehrebenenannotation I Ressource umfasst mehrere Annotationsebenen, z.b. Segmentierung, Wortartenannotation, Syntaxannotation Annotationsebenen können sich auf Primärdaten und auf darunterligende Annotationsebenen beziehen Ressource kann mehrere Annotationen der gleichen Ebene umfassen, z.b. zwei Wortartenannotationen, die mit verschiedenen Tools erzeugt wurden Mehrebenenannotation in Verbindung mit Stand-off-Annotation erlaubt Umgang mit Korrektur-/Normalisierungsebenen ohne Verlust der Primärdaten Kerstin Eckart 23 / 45

55 Mehrebenenannotation I Ressource umfasst mehrere Annotationsebenen, z.b. Segmentierung, Wortartenannotation, Syntaxannotation Annotationsebenen können sich auf Primärdaten und auf darunterligende Annotationsebenen beziehen Ressource kann mehrere Annotationen der gleichen Ebene umfassen, z.b. zwei Wortartenannotationen, die mit verschiedenen Tools erzeugt wurden Mehrebenenannotation in Verbindung Nachhaltigkeit mit Stand-off-Annotation erlaubt Umgang mit Korrektur-/Normalisierungsebenen ohne Verlust der Primärdaten Kerstin Eckart 23 / 45

56 Mehrebenenannotation II Abhängigkeiten zwischen den Annotationsebenen müssen explizit gemacht werden. Kerstin Eckart 24 / 45

57 Repräsentationsformat... spezifiziert, wie die Annotationen repräsentiert werden. Kerstin Eckart 25 / 45

58 BitPar, [Schmid, 2004]

59 BitPar, [Schmid, 2004]

60 TCF als Austauschformat für die maschnielle Prozessierungskette in WebLicht <TextCorpus xmlns=" <text>er fährt ein Auto.</text> <tokens> <token ID="t1">Er</token> <token ID="t2">fährt</token> <! > </tokens> <sentences> <sentence ID="s1" tokenids="t1 t2 t3 t4 t5" /> </sentences> <POStags tagset="stts"> <tag tokenids="t1">pper</tag> <tag tokenids="t2">vvfin</tag> <! > </POStags> </TextCorpus> lang="de"> TCF 0.4 Kerstin Eckart 27 / 45

61 Wer annotiert eigentlich? Kerstin Eckart 28 / 45

62 Wer annotiert eigentlich? Zeitungskorpora TIGER Korpus [Brants et al., 2002] TüBa-D/Z [Hinrichs et al., 2004] Tokens Sätze Tokens Sätze Kerstin Eckart 28 / 45

63 Wer annotiert eigentlich? Zeitungskorpora TIGER Korpus [Brants et al., 2002] TüBa-D/Z [Hinrichs et al., 2004] Tokens Sätze Tokens Sätze Webkorpora [Baroni et al., 2009] dewac itwac 1,7 Milliarden Tokens 2 Milliarden Tokens Kerstin Eckart 28 / 45

64 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Kerstin Eckart 29 / 45

65 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Automatische Annotation Tools generieren Annotationen Richtlinien: trainiertes Modell, Grammatik, Lexikon,... Beispiele: Satzgrenzenerkenner, Wortarten-Tagger, Parser,... Kerstin Eckart 29 / 45

66 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Automatische Annotation Tools generieren Annotationen Richtlinien: trainiertes Modell, Grammatik, Lexikon,... Beispiele: Satzgrenzenerkenner, Wortarten-Tagger, Parser,... Semi-automatische Annotation Toolausgabe wird manuell überprüft/korrigiert Kerstin Eckart 29 / 45

67 Qualität der Annotation Typische Fehler in manuellen Annotationen Typische Fehler in automatisch generierten Annotationen Kerstin Eckart 30 / 45

68 Qualität der Annotation Typische Fehler in manuellen Annotationen Inkonsistenzen (Ermüdungseffekt, Trainigseffekt) Übersehene Fälle Ambiguitäten in den Richtlinien / als Teil des Phänomens Typische Fehler in automatisch generierten Annotationen Kerstin Eckart 30 / 45

69 Qualität der Annotation Typische Fehler in manuellen Annotationen Inkonsistenzen (Ermüdungseffekt, Trainigseffekt) Übersehene Fälle Ambiguitäten in den Richtlinien / als Teil des Phänomens Typische Fehler in automatisch generierten Annotationen Fehlentscheidungen bei Ambiguitäten Fälle für die das Tool keine Richtlinie kennt (zu wenig / Art der Trainigsdaten,... ) Kerstin Eckart 30 / 45

70 Qualitätssicherung I Nachhaltigkeit Inhalt Manuelle Annotation Mehrere Annotatoren Inter-Annotator-Agreement [Artstein and Poesio, 2008] Automatisches Auffinden von Inkonsistenzen [Boyd et al., 2008] ggf. Verbesserung der Annotationsrichtlinien Automatische Annotation Toolevaluation z.b. gegen manuell annotiertes Testset Gütemaße: Accuracy, Precision, Recall Kerstin Eckart 31 / 45

71 Qualitätssicherung II Format Feststellung der strukturellen Wohlgeformtheit der Annotationen Validierung gegen ein Schema, z.b. XML Schemata Kerstin Eckart 32 / 45

72 Ein Beispiel: Workflow des SRCMF Korpus Syntactic Reference Corpus of Medieval French [Stein and Prévost, 2013] Sophie Prévost (CNRS Lattice, Paris) Achim Stein (ILR, Universität Stuttgart) Teile zweier Textkorpora wurden syntaktisch annotiert: Base de Français Médiéval (BFM) Nouveau Corpus d Amsterdam (NCA) Dazu wurde ein Modell für die Annotation von Dependenzstrukturen entwickelt Kerstin Eckart 33 / 45

73 Grafik: Achim Stein Corpora: BFM, NCA Kerstin Eckart 34 / 45

74 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles manual annotation with Notabene tool Kerstin Eckart 34 / 45

75 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation manual annotation with Notabene tool Kerstin Eckart 34 / 45

76 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool Kerstin Eckart 34 / 45

77 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions Kerstin Eckart 34 / 45

78 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions syntactic structures (RDF graphs) Kerstin Eckart 34 / 45

79 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions queries with TigerSearch TigerXML syntactic structures (RDF graphs) Kerstin Eckart 34 / 45

80 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions queries with TigerSearch TigerXML syntactic structures (RDF graphs) CoNLL training of dependency parsers Kerstin Eckart 34 / 45

81

82 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 36 / 45

83 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Kerstin Eckart 37 / 45

84 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Kerstin Eckart 37 / 45

85 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Kerstin Eckart 37 / 45

86 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Abbilden spezifischer Repräsentationsformate Format mit Hilfe von Austauschformaten generisch, Theorie-unabhänging z.b. Linguistic Annotation Framework [ISO24612:2012] Kerstin Eckart 37 / 45

87 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Abbilden spezifischer Repräsentationsformate Format mit Hilfe von Austauschformaten generisch, Theorie-unabhänging z.b. Linguistic Annotation Framework [ISO24612:2012] Abbilden von Datenkategorien in in Data Category Registries z.b. ISOcat Inhalt Kerstin Eckart 37 / 45

88 CLARIN-D Empfehlungen I Geeignete Annotation hängt von vielen Faktoren ab, z.b.: Art der Primärdaten Annotatoren Verfügbare Tools Fragestellung Kerstin Eckart 38 / 45

89 CLARIN-D Empfehlungen II Wichtigste Anforderung für eine nachhaltige Ressource: Bereitstellung von Metadaten und Dokumentation zu jeder Annotationsebene. Metadaten und Dokumentation Wie wurde annotiert? manuell, semi-automatisch, automatisch Nach welchen Richtlinien wurde annotiert? Wo sind sie dokumentiert? Welche Tagsets wurden verwendet? Wo sind sie dokumentiert? Wie ist ihre Verbindung zu registrierten Datenkategorien? (ISOcat) Kerstin Eckart 39 / 45

90 CLARIN-D Empfehlungen III Welche Tools oder Wissensbasen wurden verwendet? In welchen Versionen? Wie ist die Qualität der Annotationen einzuschätzen? Inter-Annotator-Agreement, Toolevaluierung Gibt es Abhängigkeiten zwischen den Annotationsebenen, oder zwischen Annotationsebenen und bestimmten Versionen der Primärdaten? Kerstin Eckart 40 / 45

91 CLARIN-D Empfehlungen III Für bereits existierende Ressourcen können ein Teil der Informationen ggf. nicht mehr rekonstruierbar sein. Nachhaltigkeitsakpekte für neue Ressourcen: Versionierung (De-facto) Standards für Repräsentationsformate und Zeichenkodierung Feingranulare Segmentierung Kerstin Eckart 41 / 45

92 Das Annotieren einer Ressource bedeutet immer auch eine Interpretation ihres Inhalts und/oder ihrer Struktur. Daher kann eine Annotation nie universeller Konsens sein. frei nach [McEnery and Wilson, 2001] und [Leech, 1993] Kerstin Eckart 42 / 45

93 Literatur I Artstein, R. and Poesio, M. (2008). Inter-coder agreement for computational linguistics. Computational Linguistics, 34(4). Baroni, M., Bernardini, S., Ferraresi, A., and Zanchetta, E. (2009). The WaCky Wide Web: A collection of very large linguistically processed web-crawled corpora. Language Resources and Evaluation, 43(3): Boyd, A., Dickinson, M., and Meurers, D. (2008). On detecting errors in dependency treebanks. Research on Language and Computation, 6(2): Brants, S., Dipper, S., Hansen, S., Lezius, W., and Smith, G. (2002). The TIGER Treebank. Dipper, S. (2005). XML-based stand-off representation and exploitation of multi-level linguistic annotation. In Proceedings of Berliner XML Tage 2005 (BXML 2005), pages 39 50, Berlin. Kerstin Eckart 43 / 45

94 Literatur II Hinrichs, E., Kübler, S., Naumann, K., Telljohann, H., and Trushkina, J. (2004). Recent developments in linguistic annotations of the TüBa-D/Z Treebank. In Proceedings of the Third Workshop on Treebanks and Linguistic Theories (TLT). Leech, G. (1993). Corpus annotation schemes. Literary and Linguistic Computing, 8(4): Marcus et al, M. P. (1993). Building a large annotated corpus of english: The Penn Treebank. Computational Linguistics, 19(2): McEnery, T. and Wilson, A. (2001). Corpus linguistics. An introduction. Edinburgh textbooks in empirical linguistics. Edinburgh university press, Edinburgh, 2nd edition. Kerstin Eckart 44 / 45

95 Literatur III Schiehlen, M. (2003). A cascaded finite-state parser for German. In Proceedings of EACL 2003, pages , Budapest. Schiller et al., A. (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS. Schmid, H. (2004). Efficient parsing of highly ambiguous context-free grammars with bit vectors. volume 1, pages Stein, A. and Prévost, S. (2013). Syntactic annotation of medieval texts: the syntactic reference corpus of medieval french (SRCMF). In Bennett, P., Durrell, M., Scheible, S., and Whitt, R., editors, New Methods in Historical Corpus Linguistics, Corpus Linguistics and International Perspectives on Language, CLIP Vol. 3. Narr, Tübingen. to appear. Kerstin Eckart 45 / 45

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand

Mehr

Florian Zipser Humboldt-Universität zu Berlin

Florian Zipser Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin LAUDATIO Workshop 2014-10-07 1 Heterogene Domäne Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie 2 Heterogene Domäne Linguistische Daten und

Mehr

Erweiterung des STTS für gesprochene Sprache

Erweiterung des STTS für gesprochene Sprache Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart

Mehr

Seminar für Sprachwissenschaft Werkzeuge und Ressourcen am Seminar für Sprachwissenschaft der Universität Tübingen

Seminar für Sprachwissenschaft Werkzeuge und Ressourcen am Seminar für Sprachwissenschaft der Universität Tübingen Seminar für Sprachwissenschaft Werkzeuge und Ressourcen am Seminar für Sprachwissenschaft der Universität Tübingen Kathrin Beck, Christopher Culy, Erhard Hinrichs KobRA Kick-off-Meeting, 16. November 2012

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Modellierung von linguistischen Forschungsdaten. Kolloquium Korpuslinguistik Carolin Odebrecht Humboldt-Universität zu Berlin

Modellierung von linguistischen Forschungsdaten. Kolloquium Korpuslinguistik Carolin Odebrecht Humboldt-Universität zu Berlin Modellierung von linguistischen Forschungsdaten Kolloquium Korpuslinguistik 13.11.2013 Carolin Odebrecht Humboldt-Universität zu Berlin Überblick 1. Forschungskontext 2. Forschungsfrage 3. Anwendungsbereich

Mehr

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck

Mehr

CLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig

CLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig CLARIN-D Überblick, Metadaten, Demo Christoph Kuras Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig Institut für Informatik 1 CLARIN: Common Language Resource and Technology

Mehr

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und

Mehr

Tutorial: Automatische Textannotation mit WebLicht

Tutorial: Automatische Textannotation mit WebLicht Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...

Mehr

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features

Mehr

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen

Mehr

1 Korpora. Heike Zinsmeister

1 Korpora. Heike Zinsmeister 1 Korpora Heike Zinsmeister Im vorangehenden Kapitel zu den computerlinguistischen Methoden wurden an mehreren Stellen linguistische Korpora erwähnt, die als empirische Datengrundlage dienen und zum Trainieren

Mehr

FAKULTÄT FÜR SPRACH-, LITERATUR- UND

FAKULTÄT FÜR SPRACH-, LITERATUR- UND Dr. Max Mustermann Lehrstuhl Referat Kommunikation für Medieninformatik & Marketing FAKULTÄT Verwaltung FÜR SPRACH-, LITERATUR- UND Introducing PaLaFra A Project on the Creation and Analysis of an Electronic

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Ich baue ein eigenes Korpus

Ich baue ein eigenes Korpus Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte

Mehr

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Erkennung und Visualisierung attribuierter Phrasen in Poetiken Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern... Lemmatisierung Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 zum Lemmatisieren braucht man also ein Lexikon, in dem die Lemmata mit ihrer Flexionsklasse

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Auxiliary Fronting in German: A Synchronic and Diachronic Corpus Study

Auxiliary Fronting in German: A Synchronic and Diachronic Corpus Study Auxiliary Fronting in German: A Synchronic and Diachronic Corpus Study Erhard Hinrichs University of Tübingen The added value of RIs Research infrastructures should enable researchers to formulate entirely

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

SICHTWEISE VON CLARIN ZUKÜNFTIGE AUFGABEN, KOMPONENTEN, HERAUSFORDERUNGEN THORSTEN TRIPPEL, UNIVERSITÄT TÜBINGEN.

SICHTWEISE VON CLARIN ZUKÜNFTIGE AUFGABEN, KOMPONENTEN, HERAUSFORDERUNGEN THORSTEN TRIPPEL, UNIVERSITÄT TÜBINGEN. SICHTWEISE VON CLARIN ZUKÜNFTIGE AUFGABEN, KOMPONENTEN, HERAUSFORDERUNGEN THORSTEN TRIPPEL, UNIVERSITÄT TÜBINGEN CLARIN in Europa Zweites European Research Infrastructure Consortium (ERIC) Mitglieder:

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft

Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Andreas Witt Institut für Deutsche Sprache, Mannheim Workshop Forschungsdaten WGL Geschäftsstelle Berlin 2012-05-10 Institut

Mehr

Wiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten

Wiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Wiederholung: Forschungsfragen und Korpusdaten Korpusdaten können benutzt werden um zu entscheiden,

Mehr

Mitte Links Satzfunktionen im Lernermittelfeld. Marc Reznicek Kobalt- Workshop , Växjö (Schweden)

Mitte Links Satzfunktionen im Lernermittelfeld. Marc Reznicek Kobalt- Workshop , Växjö (Schweden) Mitte Links Satzfunktionen im Lernermittelfeld Marc Reznicek Kobalt- Workshop 11.10.2012, Växjö (Schweden) Übersicht Hintergrund Mittelfeld & Wortstellung Betrachtungsebene Methode topologische Felder

Mehr

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Malte Helmert 23. Februar 2000 Seminar Autonome Mobile Systeme/Machine Learning Übersicht 1. Part of Speech Tagging

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Corpus-based language analysis in research and teaching:

Corpus-based language analysis in research and teaching: Corpus-based language analysis in research and teaching: Experiences, requirements and perspectives Angelika Storrer Corpus-based research projects Bericht zur Lage der deutschen Sprache [report on the

Mehr

Karsten Hütter 3. April 2008

Karsten Hütter 3. April 2008 Exposé einer Diplomarbeit Entwicklung einer Benutzerschnittstelle für die Suche in linguistischen mehrebenen Korpora unter Betrachtung softwareergonomischer Gesichtspunkte. Karsten Hütter huetter@informatik.hu-berlin.de

Mehr

Technischer Bericht. Integration der KobRA-Verfahren in die IDS-Infrastrukturen

Technischer Bericht. Integration der KobRA-Verfahren in die IDS-Infrastrukturen Technischer Bericht Nr. 2016/3 (Meilenstein 4c) Integration der KobRA-Verfahren in die IDS-Infrastrukturen BMBF-Verbundprojekt: Korpus-basierte linguistische Recherche und Analyse mithilfe von Data-Mining

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

XML als Beschreibungssprache syntaktisch annotierter Korpora

XML als Beschreibungssprache syntaktisch annotierter Korpora Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören

Mehr

Automatentheorie und formale Sprachen

Automatentheorie und formale Sprachen Automatentheorie und formale Sprachen Wiebke Petersen Wiebke Petersen Automatentheorie und formale Sprachen - WiSe12/13 1 Seminarplan Lektüre: Theoretische Grundlagen der Informatik, Rolf Socher, 2008

Mehr

Technik und Arbeitsablauf für FALKO

Technik und Arbeitsablauf für FALKO Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg

Mehr

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation

Mehr

Chancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in Seminaren

Chancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in Seminaren Heike Zinsmeister Chancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in Seminaren 1 Einleitung Mit Korpora oder lexikalisch-semantischen Ressourcen zu arbeiten und dabei

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Tesla - ein Labor für Computerlinguisten

Tesla - ein Labor für Computerlinguisten Jürgen Hermes & Stephan Schwiebert Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln 01.06.2012 Anwendungsfall 1 Anwendungsfall 2 Arbeiten mit Tesla Fazit und Diskussion

Mehr

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007 POS Tagging Stefanie Dipper CL-Einführung, 2. Mai 2007 Überblick 1. Was ist POS-Tagging? 2. Geschichtlicher Überblick 3. ( Moderne Tagger) 1. Was ist POS-Tagging? POS (PoS) = part of speech: Wortart Tag:

Mehr

Grammatiken und linguistische Evidenz

Grammatiken und linguistische Evidenz Grammatiken und linguistische Evidenz SE: Quantitative Analyse linguistischer Variation Dozentin: Ines Rehbein 14.11.2012 Linguistische Variation (Ines Rehbein) WS 2012/13 1 / 28 Heutige Sitzung I. Zusammenfassung

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de

Mehr

Softwareprojekte WS 2009/10. Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10

Softwareprojekte WS 2009/10. Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10 Softwareprojekte WS 2009/10 Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10 Projekt 2 Computing predominant senses for German Computing predominant sense for German Most Frequent

Mehr

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber Speech Recognition Grammar Compilation in Grammatikal Framework von Michael Heber Agenda 1. Einführung 2. Grammatical Framework (GF) 3. Kontextfreie Grammatiken und Finite-State Modelle 4. Quellen 2 1.

Mehr

Korpusbasierte Sprachreflexion mit Online-Ressourcen. Heike Zinsmeister Institut für Maschinelle Sprachverarbeitung Universität Stuttgart

Korpusbasierte Sprachreflexion mit Online-Ressourcen. Heike Zinsmeister Institut für Maschinelle Sprachverarbeitung Universität Stuttgart Korpusbasierte Sprachreflexion mit Online-Ressourcen Heike Zinsmeister Institut für Maschinelle Sprachverarbeitung Universität Stuttgart CLARIN-D Common Language Resources and Technology Infrastructure

Mehr

Technischer Bericht. Integration der KobRA-Verfahren in WebLicht

Technischer Bericht. Integration der KobRA-Verfahren in WebLicht Universität Tübingen Seminar für Sprachwissenschaft (SfS) Lehrstuhl Allgemeine Sprachwissenschaft und Computerlinguistik Technische Universität Dortmund Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Mehr

Verbal Morphosyntactic Disambiguation through Topological Field Recognition in German-Language Law Texts

Verbal Morphosyntactic Disambiguation through Topological Field Recognition in German-Language Law Texts Institut für Computerlinguistik Verbal Morphosyntactic Disambiguation through Topological Field Recognition in German-Language Law Texts SFCM 2013 Kyoko Sugisaki and Stefan Höfler 06.09.2013 Seite 1 Background

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW) Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?

Mehr

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

KRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN

KRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN KRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN Identifier: http://www.kimforum.org/material/pdf/zertifizierungsrichtlinien_20101503.pdf Title: Kriterien für die Zertifizierung von Metadatenprofilen

Mehr

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora

Mehr

Dependenzgrammatik-Parsing

Dependenzgrammatik-Parsing Dependenzgrammatik-Parsing LMT-/Watson-Parser, MaltParser, Stanford Parser Kurt Eberle k.eberle@lingenio.de 03. August 2018 1 / 45 Übersicht Dependenzgrammatik Regelbasiertes Dependenz-Parsing Statistisches

Mehr

Ressourcen in den GSHS... am Beispiel LEXUS

Ressourcen in den GSHS... am Beispiel LEXUS > Digitale Ressourcen in den GSHS... am Beispiel LEXUS GSHS LIBRARY CONFERENCE Florenz 10.11.2006 < Marc Kemps-Snijders, Jaqcuelijn Ringersma, Peter Wittenburg MPI for Psycholinguistics, Netherlands

Mehr

Quellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur

Quellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur Quellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur - Ein CLARIN-D Kurationsprojekt der F-AG Neuere Geschichte - Maret Keller, Christian

Mehr

GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG

GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten Jennifer Krisch Daimler AG Inhalte 1 Motivation 2 Was sind Weak-Words? 3 Vorgehen bei der Analyse 4 Evaluation

Mehr

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon

Mehr

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung

Mehr

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich

Mehr

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Ausgangsfrage PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Irina Gossmann Carine Dombou 9. Juli 2007 INHALT Ausgangsfrage 1 AUSGANGSFRAGE 2 SYNTAX DES DEUTSCHEN + NEGRA 3 PROBABILISTISCHE

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner

Mehr

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines

Mehr

Modellierung von Metadaten Technisch-abstrakte Perspektive

Modellierung von Metadaten Technisch-abstrakte Perspektive Modellierung von Metadaten Technisch-abstrakte Perspektive Korpuslinguistik Kolloquium Carolin Odebrecht carolin.odebrecht@hu-berlin.de LAUDATIO-Repository laudatio-repository.org Themen Modellierung linguistischer

Mehr

Background for Hybrid Processing

Background for Hybrid Processing Background for Hybrid Processing Hans Uszkoreit Foundations of LST WS 04/05 Scope Classical Areas of Computational Linguistics: computational morphology, computational syntax computational semantics computational

Mehr

Metadatenqualität und - interoperabilität

Metadatenqualität und - interoperabilität Metadatenqualität und - interoperabilität Jürgen Braun 16.03.2010 KIM Interoperabilität von Metadaten Probleme: Metadaten werden nicht nach einheitlichen Regeln und Standards erfasst Die einzelnen Communities

Mehr

Herausforderungen in der Nutzung vorhandener Tools für arabische Daten

Herausforderungen in der Nutzung vorhandener Tools für arabische Daten Herausforderungen in der Nutzung vorhandener Tools für arabische Daten Tillmann Feige und Alicia González Vorgehen 1 Hintergründe & Workflow 2 Die Annotation 2.1 Anforderungen 3 Visualisierung 3.1 Anforderungen

Mehr

Verknüpfung heterogener texttechnologischer Ressourcen

Verknüpfung heterogener texttechnologischer Ressourcen Verknüpfung heterogener texttechnologischer Ressourcen Daniela Goecke, Dieter Metzing, Andreas Witt Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld Postfach 10 01 31 33501 Bielefeld

Mehr

10.1 Standardisierung für E-Learning 10.2 KI im E-Learning 10.3 Mobile Medien und E-Learning

10.1 Standardisierung für E-Learning 10.2 KI im E-Learning 10.3 Mobile Medien und E-Learning 10 Ausblick Niegemann et. al., Kap. 18 Hasebrook/Otte, Abschnitt 3.1 Haake et al., Kap. 4.6 Ludwig-Maximilians-Universität München Prof. Hußmann Multimediale Lehr- und Lernumgebungen 10-1 Grundprinzip

Mehr

Erkennung von Teilsatzgrenzen

Erkennung von Teilsatzgrenzen Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen

Mehr

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus: RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister Syntaktische Annotationen Korpuslinguistik Dr. Heike Zinsmeister 18.11.2011 Syntax Gestern war mir, wie vielen europäischen Abgeordneten, die Teilnahme unmöglich, da der Flug von Air France, mit dem wir

Mehr

TnT - Statistischer Part-of- Speech Tagger

TnT - Statistischer Part-of- Speech Tagger TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin

Mehr

STTS als Part-of-Speech-Tagset in Tübinger Baumbanken

STTS als Part-of-Speech-Tagset in Tübinger Baumbanken Heike Telljohann, Yannick Versley, Kathrin Beck, Erhard Hinrichs, Thomas Zastrow STTS als Part-of-Speech-Tagset in Tübinger Baumbanken 1 Einleitung Das Stuttgart-Tübingen Tagset (STTS, Schiller et al.,

Mehr

CoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten

CoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten CoRS-O-Mat Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten Ziele Bereitstellung der Forschungsdaten des Projekts CoRS zur Nachnutzung Computergestützte Weiterführung des Projekts

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Wittgenstein Scholarship 2013 München, Juli 25 26, 2013

Wittgenstein Scholarship 2013 München, Juli 25 26, 2013 CIS, München, Juli 25. 26. München, Juli 25 26, 2013 CIS, München, Juli 25. 26. Centrum für Informatons- und Disambiguation of particle verb constructions in Big Typescript of Ludwig Wittgenstein introduced

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

XML als Beschreibungssprache syntaktisch annotierter Korpora

XML als Beschreibungssprache syntaktisch annotierter Korpora Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören

Mehr

Proseminar Syntax. Diana Schackow

Proseminar Syntax. Diana Schackow Proseminar Syntax Diana Schackow 1 Fahrplan Inhalt: Analyse syntaktischer Strukturen deskriptive Perspektive, typologische Vielfalt Vergleich verschiedener theoretischer Ansätze 2 Fahrplan Voraussetzungen:

Mehr

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil

Mehr