Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource
|
|
- Ingelore Gitta Lenz
- vor 7 Jahren
- Abrufe
Transkript
1 Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Kerstin Eckart 18. Februar 2013 Kerstin Eckart 1 / 45
2 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45
3 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45
4 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 2 / 45
5 Konzepte I Annotation Zu einer Ressource hinzugefügte (linguistische) Information. frei nach [McEnery and Wilson, 2001] Primärdaten Möglichst grundlegende Version einer Ressource, die annotiert werden soll. In unserem Fall meist eine elektronische Repräsentation von Sprachdaten: Korpora geschriebener Sprache Korpora gesprochener Sprache Multimodale Korpora Kerstin Eckart 3 / 45
6 Konzepte II Annotationsebenen Beschreibung verschiedener Phänomene Kerstin Eckart 4 / 45
7 Annotationsebenen: Dokumentstruktur M.Schiehlen (2003), A Cascaded Finite-State Parser for German. Kerstin Eckart 5 / 45
8 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45
9 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45
10 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45
11 Annotationsebenen: Dokumentstruktur Kerstin Eckart 5 / 45
12 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45
13 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45
14 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45
15 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45
16 Annotationsebenen: Segmentierung Kerstin Eckart 6 / 45
17 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45
18 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45
19 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45
20 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45
21 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45
22 Annotationsebenen: Wortarten Kerstin Eckart 7 / 45
23 Annotationsebenen: Syntax Kerstin Eckart 8 / 45
24 Annotationsebenen: Syntax Kerstin Eckart 8 / 45
25 Annotationsebenen: Syntax Kerstin Eckart 8 / 45
26 Annotationsebenen: Syntax Kerstin Eckart 8 / 45
27 Annotationsebenen: Informationsstatus Kerstin Eckart 9 / 45
28 Annotationsebenen: Informationsstatus Kerstin Eckart 9 / 45
29 Annotationsebenen: Prosodie Kerstin Eckart 10 / 45
30 Annotationsebenen: Prosodie Wavesurfer, Kerstin Eckart 10 / 45
31 Strukturannotation Kerstin Eckart 11 / 45
32 Strukturannotation Kerstin Eckart 11 / 45
33 Strukturannotation Kerstin Eckart 11 / 45
34 Strukturannotation Kerstin Eckart 11 / 45
35 Strukturannotation Kerstin Eckart 11 / 45
36 Strukturannotation Kerstin Eckart 11 / 45
37 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 12 / 45
38 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Kerstin Eckart 13 / 45
39 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format Kerstin Eckart 13 / 45
40 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format linguistisches Wissen Kerstin Eckart 13 / 45
41 Entscheidungen vor Beginn der Aufbereitung Annotationsrichtlinien Datenkategorien / Tagsets Korpusaufbau Zuordnung der Annotationen zu den Primärdaten Zuordnung von Annotationsebenen Repräsentationsformat Inhalt vs. Format linguistisches Wissen Zuordnungsmodelle, Darstellungsaspekte Kerstin Eckart 13 / 45
42 Annotationsrichtlinien I Natürlichsprachlich formulierte Vorschriften und Anleitungen: Beispiele zur Wortartenannotation aus Schiller et al., 1999, 86 Seiten Guidelines für das Tagging deutscher Textcorpora mit STTS (Stuttgart-Tübingen-TagSet) Kerstin Eckart 14 / 45
43 Annotationsrichtlinien II Formale Regeln für die maschinelle Verarbeitung: Kerstin Eckart 15 / 45
44 Annotationsrichtlinien III Basieren auf zugrunde liegender Theorie / zu untersuchender Fragestellung Annotationsentscheidungen so verständlich wie möglich machen linguistische Tests Beispiele für Grenz-/Problemfälle Kenntlichmachung von Festlegungen Ggf. iteratives Verfahren zur schrittweisen Verbesserung der Richtlinien Kerstin Eckart 16 / 45
45 Tagsets Kurzformen für verwendete Datenkategorien, z.b.: Kerstin Eckart 17 / 45
46 Tagsets Kerstin Eckart 17 / 45
47 Tagsets Kerstin Eckart 17 / 45
48 Tagsets STTS Kerstin Eckart 18 / 45
49 Tagsets STTS Kerstin Eckart 18 / 45
50 Inline- vs. Stand-off-Annotation I Inline-Annotation Annotationen werden direkt in die Primärdaten eingefügt. Er PPER fährt VVFIN ein ART Auto NN. $. (S quad(np (PPER Er)) quad(vp (VVFIN fährt) quadquad(np (ART ein) (NN Auto)) quad) quad($..) q) Inline Annotation im Stil des Lancaster-Oslo-Bergen Korpus. Inline Annotation im Stil der PennTreebank. Kerstin Eckart 19 / 45
51 Inline- vs. Stand-off-Annotation II - Änderung der Primärdaten Information kann verloren gehen (z.b. Leerzeichen) - Keine überlappenden Annotationen - Ergänzung weiterer Annotationsebenen wird erschwert + Je nach Anwendung vorteilhaft in der Prozessierung Kerstin Eckart 20 / 45
52 Inline- vs. Stand-off-Annotation III Stand-off-Annotation Annotationen werden getrennt von den Primärdaten abgelegt. <body>er fährt ein Auto.</body> <mark id="tok_1" xlink:href="#xpointer(string-range(//body,,1,2))"/> <mark id="tok_2" xlink:href="#xpointer(string-range(//body,,4,5))"/> <! > <feat xlink:href="#tok_1" value="stts.type_pos.xml#pper"/> <feat xlink:href="#tok_2" value="stts.type_pos.xml#vvfin"/> <! > Stand-off-Annotation encodiert in PAULA, version 1.1. [Dipper, 2005] Kerstin Eckart 21 / 45
53 Inline- vs. Stand-off-Annotation IV Statische Abbildung der Positionen in den Primärdaten: - Erfordert Referenzmechanismus zur Zuordnung zu den Primärdaten + Erleichtert die Versionierung und das gleichzeitige Vorhalten nebenläufiger Annotationsebenen + Erlaubt Abgleiche von extrahierten Fällen und Fehlern mit den Primärdaten Kerstin Eckart 22 / 45
54 Mehrebenenannotation I Ressource umfasst mehrere Annotationsebenen, z.b. Segmentierung, Wortartenannotation, Syntaxannotation Annotationsebenen können sich auf Primärdaten und auf darunterligende Annotationsebenen beziehen Ressource kann mehrere Annotationen der gleichen Ebene umfassen, z.b. zwei Wortartenannotationen, die mit verschiedenen Tools erzeugt wurden Mehrebenenannotation in Verbindung mit Stand-off-Annotation erlaubt Umgang mit Korrektur-/Normalisierungsebenen ohne Verlust der Primärdaten Kerstin Eckart 23 / 45
55 Mehrebenenannotation I Ressource umfasst mehrere Annotationsebenen, z.b. Segmentierung, Wortartenannotation, Syntaxannotation Annotationsebenen können sich auf Primärdaten und auf darunterligende Annotationsebenen beziehen Ressource kann mehrere Annotationen der gleichen Ebene umfassen, z.b. zwei Wortartenannotationen, die mit verschiedenen Tools erzeugt wurden Mehrebenenannotation in Verbindung Nachhaltigkeit mit Stand-off-Annotation erlaubt Umgang mit Korrektur-/Normalisierungsebenen ohne Verlust der Primärdaten Kerstin Eckart 23 / 45
56 Mehrebenenannotation II Abhängigkeiten zwischen den Annotationsebenen müssen explizit gemacht werden. Kerstin Eckart 24 / 45
57 Repräsentationsformat... spezifiziert, wie die Annotationen repräsentiert werden. Kerstin Eckart 25 / 45
58 BitPar, [Schmid, 2004]
59 BitPar, [Schmid, 2004]
60 TCF als Austauschformat für die maschnielle Prozessierungskette in WebLicht <TextCorpus xmlns=" <text>er fährt ein Auto.</text> <tokens> <token ID="t1">Er</token> <token ID="t2">fährt</token> <! > </tokens> <sentences> <sentence ID="s1" tokenids="t1 t2 t3 t4 t5" /> </sentences> <POStags tagset="stts"> <tag tokenids="t1">pper</tag> <tag tokenids="t2">vvfin</tag> <! > </POStags> </TextCorpus> lang="de"> TCF 0.4 Kerstin Eckart 27 / 45
61 Wer annotiert eigentlich? Kerstin Eckart 28 / 45
62 Wer annotiert eigentlich? Zeitungskorpora TIGER Korpus [Brants et al., 2002] TüBa-D/Z [Hinrichs et al., 2004] Tokens Sätze Tokens Sätze Kerstin Eckart 28 / 45
63 Wer annotiert eigentlich? Zeitungskorpora TIGER Korpus [Brants et al., 2002] TüBa-D/Z [Hinrichs et al., 2004] Tokens Sätze Tokens Sätze Webkorpora [Baroni et al., 2009] dewac itwac 1,7 Milliarden Tokens 2 Milliarden Tokens Kerstin Eckart 28 / 45
64 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Kerstin Eckart 29 / 45
65 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Automatische Annotation Tools generieren Annotationen Richtlinien: trainiertes Modell, Grammatik, Lexikon,... Beispiele: Satzgrenzenerkenner, Wortarten-Tagger, Parser,... Kerstin Eckart 29 / 45
66 Manuelle Annotation 1..n Personen, Experten/Laien, trainiert/untrainiert Automatische Annotation Tools generieren Annotationen Richtlinien: trainiertes Modell, Grammatik, Lexikon,... Beispiele: Satzgrenzenerkenner, Wortarten-Tagger, Parser,... Semi-automatische Annotation Toolausgabe wird manuell überprüft/korrigiert Kerstin Eckart 29 / 45
67 Qualität der Annotation Typische Fehler in manuellen Annotationen Typische Fehler in automatisch generierten Annotationen Kerstin Eckart 30 / 45
68 Qualität der Annotation Typische Fehler in manuellen Annotationen Inkonsistenzen (Ermüdungseffekt, Trainigseffekt) Übersehene Fälle Ambiguitäten in den Richtlinien / als Teil des Phänomens Typische Fehler in automatisch generierten Annotationen Kerstin Eckart 30 / 45
69 Qualität der Annotation Typische Fehler in manuellen Annotationen Inkonsistenzen (Ermüdungseffekt, Trainigseffekt) Übersehene Fälle Ambiguitäten in den Richtlinien / als Teil des Phänomens Typische Fehler in automatisch generierten Annotationen Fehlentscheidungen bei Ambiguitäten Fälle für die das Tool keine Richtlinie kennt (zu wenig / Art der Trainigsdaten,... ) Kerstin Eckart 30 / 45
70 Qualitätssicherung I Nachhaltigkeit Inhalt Manuelle Annotation Mehrere Annotatoren Inter-Annotator-Agreement [Artstein and Poesio, 2008] Automatisches Auffinden von Inkonsistenzen [Boyd et al., 2008] ggf. Verbesserung der Annotationsrichtlinien Automatische Annotation Toolevaluation z.b. gegen manuell annotiertes Testset Gütemaße: Accuracy, Precision, Recall Kerstin Eckart 31 / 45
71 Qualitätssicherung II Format Feststellung der strukturellen Wohlgeformtheit der Annotationen Validierung gegen ein Schema, z.b. XML Schemata Kerstin Eckart 32 / 45
72 Ein Beispiel: Workflow des SRCMF Korpus Syntactic Reference Corpus of Medieval French [Stein and Prévost, 2013] Sophie Prévost (CNRS Lattice, Paris) Achim Stein (ILR, Universität Stuttgart) Teile zweier Textkorpora wurden syntaktisch annotiert: Base de Français Médiéval (BFM) Nouveau Corpus d Amsterdam (NCA) Dazu wurde ein Modell für die Annotation von Dependenzstrukturen entwickelt Kerstin Eckart 33 / 45
73 Grafik: Achim Stein Corpora: BFM, NCA Kerstin Eckart 34 / 45
74 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles manual annotation with Notabene tool Kerstin Eckart 34 / 45
75 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation manual annotation with Notabene tool Kerstin Eckart 34 / 45
76 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool Kerstin Eckart 34 / 45
77 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions Kerstin Eckart 34 / 45
78 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions syntactic structures (RDF graphs) Kerstin Eckart 34 / 45
79 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions queries with TigerSearch TigerXML syntactic structures (RDF graphs) Kerstin Eckart 34 / 45
80 Grafik: Achim Stein Corpora: BFM, NCA dependency model annotation principles Forum: discussion of grammar and annotation correction 1: compare parallel annotations manual annotation with Notabene tool correction 2: review of compared versions queries with TigerSearch TigerXML syntactic structures (RDF graphs) CoNLL training of dependency parsers Kerstin Eckart 34 / 45
81
82 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen vor Beginn Annotation Inhalt vs. Format Qualitätssicherung Beispiel weitere Nachhaltigkeitsaspekte CLARIN-D Empfehlungen Kerstin Eckart 36 / 45
83 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Kerstin Eckart 37 / 45
84 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Kerstin Eckart 37 / 45
85 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Kerstin Eckart 37 / 45
86 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Abbilden spezifischer Repräsentationsformate Format mit Hilfe von Austauschformaten generisch, Theorie-unabhänging z.b. Linguistic Annotation Framework [ISO24612:2012] Kerstin Eckart 37 / 45
87 Nachhaltigkeit Wieder- und Weiterverwendbarkeit Vergleichbarkeit Kombination in gemeinsamen Abfragen Austausch und Kombination von Annotationen Abbilden spezifischer Repräsentationsformate Format mit Hilfe von Austauschformaten generisch, Theorie-unabhänging z.b. Linguistic Annotation Framework [ISO24612:2012] Abbilden von Datenkategorien in in Data Category Registries z.b. ISOcat Inhalt Kerstin Eckart 37 / 45
88 CLARIN-D Empfehlungen I Geeignete Annotation hängt von vielen Faktoren ab, z.b.: Art der Primärdaten Annotatoren Verfügbare Tools Fragestellung Kerstin Eckart 38 / 45
89 CLARIN-D Empfehlungen II Wichtigste Anforderung für eine nachhaltige Ressource: Bereitstellung von Metadaten und Dokumentation zu jeder Annotationsebene. Metadaten und Dokumentation Wie wurde annotiert? manuell, semi-automatisch, automatisch Nach welchen Richtlinien wurde annotiert? Wo sind sie dokumentiert? Welche Tagsets wurden verwendet? Wo sind sie dokumentiert? Wie ist ihre Verbindung zu registrierten Datenkategorien? (ISOcat) Kerstin Eckart 39 / 45
90 CLARIN-D Empfehlungen III Welche Tools oder Wissensbasen wurden verwendet? In welchen Versionen? Wie ist die Qualität der Annotationen einzuschätzen? Inter-Annotator-Agreement, Toolevaluierung Gibt es Abhängigkeiten zwischen den Annotationsebenen, oder zwischen Annotationsebenen und bestimmten Versionen der Primärdaten? Kerstin Eckart 40 / 45
91 CLARIN-D Empfehlungen III Für bereits existierende Ressourcen können ein Teil der Informationen ggf. nicht mehr rekonstruierbar sein. Nachhaltigkeitsakpekte für neue Ressourcen: Versionierung (De-facto) Standards für Repräsentationsformate und Zeichenkodierung Feingranulare Segmentierung Kerstin Eckart 41 / 45
92 Das Annotieren einer Ressource bedeutet immer auch eine Interpretation ihres Inhalts und/oder ihrer Struktur. Daher kann eine Annotation nie universeller Konsens sein. frei nach [McEnery and Wilson, 2001] und [Leech, 1993] Kerstin Eckart 42 / 45
93 Literatur I Artstein, R. and Poesio, M. (2008). Inter-coder agreement for computational linguistics. Computational Linguistics, 34(4). Baroni, M., Bernardini, S., Ferraresi, A., and Zanchetta, E. (2009). The WaCky Wide Web: A collection of very large linguistically processed web-crawled corpora. Language Resources and Evaluation, 43(3): Boyd, A., Dickinson, M., and Meurers, D. (2008). On detecting errors in dependency treebanks. Research on Language and Computation, 6(2): Brants, S., Dipper, S., Hansen, S., Lezius, W., and Smith, G. (2002). The TIGER Treebank. Dipper, S. (2005). XML-based stand-off representation and exploitation of multi-level linguistic annotation. In Proceedings of Berliner XML Tage 2005 (BXML 2005), pages 39 50, Berlin. Kerstin Eckart 43 / 45
94 Literatur II Hinrichs, E., Kübler, S., Naumann, K., Telljohann, H., and Trushkina, J. (2004). Recent developments in linguistic annotations of the TüBa-D/Z Treebank. In Proceedings of the Third Workshop on Treebanks and Linguistic Theories (TLT). Leech, G. (1993). Corpus annotation schemes. Literary and Linguistic Computing, 8(4): Marcus et al, M. P. (1993). Building a large annotated corpus of english: The Penn Treebank. Computational Linguistics, 19(2): McEnery, T. and Wilson, A. (2001). Corpus linguistics. An introduction. Edinburgh textbooks in empirical linguistics. Edinburgh university press, Edinburgh, 2nd edition. Kerstin Eckart 44 / 45
95 Literatur III Schiehlen, M. (2003). A cascaded finite-state parser for German. In Proceedings of EACL 2003, pages , Budapest. Schiller et al., A. (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS. Schmid, H. (2004). Efficient parsing of highly ambiguous context-free grammars with bit vectors. volume 1, pages Stein, A. and Prévost, S. (2013). Syntactic annotation of medieval texts: the syntactic reference corpus of medieval french (SRCMF). In Bennett, P., Durrell, M., Scheible, S., and Whitt, R., editors, New Methods in Historical Corpus Linguistics, Corpus Linguistics and International Perspectives on Language, CLIP Vol. 3. Narr, Tübingen. to appear. Kerstin Eckart 45 / 45
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrStrukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs
Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand
MehrFlorian Zipser Humboldt-Universität zu Berlin
Humboldt-Universität zu Berlin LAUDATIO Workshop 2014-10-07 1 Heterogene Domäne Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie 2 Heterogene Domäne Linguistische Daten und
MehrErweiterung des STTS für gesprochene Sprache
Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart
MehrSeminar für Sprachwissenschaft Werkzeuge und Ressourcen am Seminar für Sprachwissenschaft der Universität Tübingen
Seminar für Sprachwissenschaft Werkzeuge und Ressourcen am Seminar für Sprachwissenschaft der Universität Tübingen Kathrin Beck, Christopher Culy, Erhard Hinrichs KobRA Kick-off-Meeting, 16. November 2012
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrModellierung von linguistischen Forschungsdaten. Kolloquium Korpuslinguistik Carolin Odebrecht Humboldt-Universität zu Berlin
Modellierung von linguistischen Forschungsdaten Kolloquium Korpuslinguistik 13.11.2013 Carolin Odebrecht Humboldt-Universität zu Berlin Überblick 1. Forschungskontext 2. Forschungsfrage 3. Anwendungsbereich
MehrLösungsvorschlag für das Übungsblatt 8. Aufgabe1.
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrDeutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können
Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrCLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig
CLARIN-D Überblick, Metadaten, Demo Christoph Kuras Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig Institut für Informatik 1 CLARIN: Common Language Resource and Technology
MehrVon Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte
Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und
MehrTutorial: Automatische Textannotation mit WebLicht
Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...
MehrOverview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1
Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrLinguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets
Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen
Mehr1 Korpora. Heike Zinsmeister
1 Korpora Heike Zinsmeister Im vorangehenden Kapitel zu den computerlinguistischen Methoden wurden an mehreren Stellen linguistische Korpora erwähnt, die als empirische Datengrundlage dienen und zum Trainieren
MehrFAKULTÄT FÜR SPRACH-, LITERATUR- UND
Dr. Max Mustermann Lehrstuhl Referat Kommunikation für Medieninformatik & Marketing FAKULTÄT Verwaltung FÜR SPRACH-, LITERATUR- UND Introducing PaLaFra A Project on the Creation and Analysis of an Electronic
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrIch baue ein eigenes Korpus
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte
MehrErkennung und Visualisierung attribuierter Phrasen in Poetiken
Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrLemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...
Lemmatisierung Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 zum Lemmatisieren braucht man also ein Lexikon, in dem die Lemmata mit ihrer Flexionsklasse
MehrTagging von Online-Blogs
Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt
MehrAuxiliary Fronting in German: A Synchronic and Diachronic Corpus Study
Auxiliary Fronting in German: A Synchronic and Diachronic Corpus Study Erhard Hinrichs University of Tübingen The added value of RIs Research infrastructures should enable researchers to formulate entirely
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrSICHTWEISE VON CLARIN ZUKÜNFTIGE AUFGABEN, KOMPONENTEN, HERAUSFORDERUNGEN THORSTEN TRIPPEL, UNIVERSITÄT TÜBINGEN.
SICHTWEISE VON CLARIN ZUKÜNFTIGE AUFGABEN, KOMPONENTEN, HERAUSFORDERUNGEN THORSTEN TRIPPEL, UNIVERSITÄT TÜBINGEN CLARIN in Europa Zweites European Research Infrastructure Consortium (ERIC) Mitglieder:
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrForschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft
Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Andreas Witt Institut für Deutsche Sprache, Mannheim Workshop Forschungsdaten WGL Geschäftsstelle Berlin 2012-05-10 Institut
MehrWiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Wiederholung: Forschungsfragen und Korpusdaten Korpusdaten können benutzt werden um zu entscheiden,
MehrMitte Links Satzfunktionen im Lernermittelfeld. Marc Reznicek Kobalt- Workshop , Växjö (Schweden)
Mitte Links Satzfunktionen im Lernermittelfeld Marc Reznicek Kobalt- Workshop 11.10.2012, Växjö (Schweden) Übersicht Hintergrund Mittelfeld & Wortstellung Betrachtungsebene Methode topologische Felder
MehrKorpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes
MehrTransformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging
Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Malte Helmert 23. Februar 2000 Seminar Autonome Mobile Systeme/Machine Learning Übersicht 1. Part of Speech Tagging
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrCorpus-based language analysis in research and teaching:
Corpus-based language analysis in research and teaching: Experiences, requirements and perspectives Angelika Storrer Corpus-based research projects Bericht zur Lage der deutschen Sprache [report on the
MehrKarsten Hütter 3. April 2008
Exposé einer Diplomarbeit Entwicklung einer Benutzerschnittstelle für die Suche in linguistischen mehrebenen Korpora unter Betrachtung softwareergonomischer Gesichtspunkte. Karsten Hütter huetter@informatik.hu-berlin.de
MehrTechnischer Bericht. Integration der KobRA-Verfahren in die IDS-Infrastrukturen
Technischer Bericht Nr. 2016/3 (Meilenstein 4c) Integration der KobRA-Verfahren in die IDS-Infrastrukturen BMBF-Verbundprojekt: Korpus-basierte linguistische Recherche und Analyse mithilfe von Data-Mining
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrXML als Beschreibungssprache syntaktisch annotierter Korpora
Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören
MehrAutomatentheorie und formale Sprachen
Automatentheorie und formale Sprachen Wiebke Petersen Wiebke Petersen Automatentheorie und formale Sprachen - WiSe12/13 1 Seminarplan Lektüre: Theoretische Grundlagen der Informatik, Rolf Socher, 2008
MehrTechnik und Arbeitsablauf für FALKO
Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg
MehrGliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute
Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation
MehrChancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in Seminaren
Heike Zinsmeister Chancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in Seminaren 1 Einleitung Mit Korpora oder lexikalisch-semantischen Ressourcen zu arbeiten und dabei
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrTesla - ein Labor für Computerlinguisten
Jürgen Hermes & Stephan Schwiebert Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln 01.06.2012 Anwendungsfall 1 Anwendungsfall 2 Arbeiten mit Tesla Fazit und Diskussion
MehrPOS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007
POS Tagging Stefanie Dipper CL-Einführung, 2. Mai 2007 Überblick 1. Was ist POS-Tagging? 2. Geschichtlicher Überblick 3. ( Moderne Tagger) 1. Was ist POS-Tagging? POS (PoS) = part of speech: Wortart Tag:
MehrGrammatiken und linguistische Evidenz
Grammatiken und linguistische Evidenz SE: Quantitative Analyse linguistischer Variation Dozentin: Ines Rehbein 14.11.2012 Linguistische Variation (Ines Rehbein) WS 2012/13 1 / 28 Heutige Sitzung I. Zusammenfassung
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrSoftwareprojekte WS 2009/10. Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10
Softwareprojekte WS 2009/10 Anette Frank Seminar für Computerlinguistik Universität Heidelberg WS 2009/10 Projekt 2 Computing predominant senses for German Computing predominant sense for German Most Frequent
MehrSpeech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber
Speech Recognition Grammar Compilation in Grammatikal Framework von Michael Heber Agenda 1. Einführung 2. Grammatical Framework (GF) 3. Kontextfreie Grammatiken und Finite-State Modelle 4. Quellen 2 1.
MehrKorpusbasierte Sprachreflexion mit Online-Ressourcen. Heike Zinsmeister Institut für Maschinelle Sprachverarbeitung Universität Stuttgart
Korpusbasierte Sprachreflexion mit Online-Ressourcen Heike Zinsmeister Institut für Maschinelle Sprachverarbeitung Universität Stuttgart CLARIN-D Common Language Resources and Technology Infrastructure
MehrTechnischer Bericht. Integration der KobRA-Verfahren in WebLicht
Universität Tübingen Seminar für Sprachwissenschaft (SfS) Lehrstuhl Allgemeine Sprachwissenschaft und Computerlinguistik Technische Universität Dortmund Fakultät Informatik Lehrstuhl für Künstliche Intelligenz
MehrVerbal Morphosyntactic Disambiguation through Topological Field Recognition in German-Language Law Texts
Institut für Computerlinguistik Verbal Morphosyntactic Disambiguation through Topological Field Recognition in German-Language Law Texts SFCM 2013 Kyoko Sugisaki and Stefan Höfler 06.09.2013 Seite 1 Background
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrNamed Entity Recognition auf Basis von Wortlisten
Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -
MehrSprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)
Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?
MehrOverview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1
Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrKRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN
KRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN Identifier: http://www.kimforum.org/material/pdf/zertifizierungsrichtlinien_20101503.pdf Title: Kriterien für die Zertifizierung von Metadatenprofilen
MehrKorpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.
Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora
MehrDependenzgrammatik-Parsing
Dependenzgrammatik-Parsing LMT-/Watson-Parser, MaltParser, Stanford Parser Kurt Eberle k.eberle@lingenio.de 03. August 2018 1 / 45 Übersicht Dependenzgrammatik Regelbasiertes Dependenz-Parsing Statistisches
MehrRessourcen in den GSHS... am Beispiel LEXUS
> Digitale Ressourcen in den GSHS... am Beispiel LEXUS GSHS LIBRARY CONFERENCE Florenz 10.11.2006 < Marc Kemps-Snijders, Jaqcuelijn Ringersma, Peter Wittenburg MPI for Psycholinguistics, Netherlands
MehrQuellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur
Quellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur - Ein CLARIN-D Kurationsprojekt der F-AG Neuere Geschichte - Maret Keller, Christian
MehrGI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG
GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten Jennifer Krisch Daimler AG Inhalte 1 Motivation 2 Was sind Weak-Words? 3 Vorgehen bei der Analyse 4 Evaluation
MehrModul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon
MehrÜberblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation
Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung
MehrWortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin
Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich
MehrPROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES
Ausgangsfrage PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Irina Gossmann Carine Dombou 9. Juli 2007 INHALT Ausgangsfrage 1 AUSGANGSFRAGE 2 SYNTAX DES DEUTSCHEN + NEGRA 3 PROBABILISTISCHE
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrDas Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten
Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner
MehrWortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines
MehrModellierung von Metadaten Technisch-abstrakte Perspektive
Modellierung von Metadaten Technisch-abstrakte Perspektive Korpuslinguistik Kolloquium Carolin Odebrecht carolin.odebrecht@hu-berlin.de LAUDATIO-Repository laudatio-repository.org Themen Modellierung linguistischer
MehrBackground for Hybrid Processing
Background for Hybrid Processing Hans Uszkoreit Foundations of LST WS 04/05 Scope Classical Areas of Computational Linguistics: computational morphology, computational syntax computational semantics computational
MehrMetadatenqualität und - interoperabilität
Metadatenqualität und - interoperabilität Jürgen Braun 16.03.2010 KIM Interoperabilität von Metadaten Probleme: Metadaten werden nicht nach einheitlichen Regeln und Standards erfasst Die einzelnen Communities
MehrHerausforderungen in der Nutzung vorhandener Tools für arabische Daten
Herausforderungen in der Nutzung vorhandener Tools für arabische Daten Tillmann Feige und Alicia González Vorgehen 1 Hintergründe & Workflow 2 Die Annotation 2.1 Anforderungen 3 Visualisierung 3.1 Anforderungen
MehrVerknüpfung heterogener texttechnologischer Ressourcen
Verknüpfung heterogener texttechnologischer Ressourcen Daniela Goecke, Dieter Metzing, Andreas Witt Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld Postfach 10 01 31 33501 Bielefeld
Mehr10.1 Standardisierung für E-Learning 10.2 KI im E-Learning 10.3 Mobile Medien und E-Learning
10 Ausblick Niegemann et. al., Kap. 18 Hasebrook/Otte, Abschnitt 3.1 Haake et al., Kap. 4.6 Ludwig-Maximilians-Universität München Prof. Hußmann Multimediale Lehr- und Lernumgebungen 10-1 Grundprinzip
MehrErkennung von Teilsatzgrenzen
Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen
MehrEin XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:
RDF in wissenschaftlichen Bibliotheken 5HWULHYDODXI5') Momentan existiert noch keine standardisierte Anfragesprache für RDF Dokumente. Auf Grund der existierenden XML Repräsentation von RDF liegt es jedoch
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrSyntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister
Syntaktische Annotationen Korpuslinguistik Dr. Heike Zinsmeister 18.11.2011 Syntax Gestern war mir, wie vielen europäischen Abgeordneten, die Teilnahme unmöglich, da der Flug von Air France, mit dem wir
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin
MehrSTTS als Part-of-Speech-Tagset in Tübinger Baumbanken
Heike Telljohann, Yannick Versley, Kathrin Beck, Erhard Hinrichs, Thomas Zastrow STTS als Part-of-Speech-Tagset in Tübinger Baumbanken 1 Einleitung Das Stuttgart-Tübingen Tagset (STTS, Schiller et al.,
MehrCoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten
CoRS-O-Mat Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten Ziele Bereitstellung der Forschungsdaten des Projekts CoRS zur Nachnutzung Computergestützte Weiterführung des Projekts
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrWittgenstein Scholarship 2013 München, Juli 25 26, 2013
CIS, München, Juli 25. 26. München, Juli 25 26, 2013 CIS, München, Juli 25. 26. Centrum für Informatons- und Disambiguation of particle verb constructions in Big Typescript of Ludwig Wittgenstein introduced
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrXML als Beschreibungssprache syntaktisch annotierter Korpora
Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören
MehrProseminar Syntax. Diana Schackow
Proseminar Syntax Diana Schackow 1 Fahrplan Inhalt: Analyse syntaktischer Strukturen deskriptive Perspektive, typologische Vielfalt Vergleich verschiedener theoretischer Ansätze 2 Fahrplan Voraussetzungen:
MehrKL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
Mehr