WebApps - Einführung (Daten) Die Rätoromanische Chrestomathie Claes Neuefeind & Mihail Atanassov Sprachliche Informationsverarbeitung Universität zu Köln 27. Oktober 2015
Das Ra toromanische DRC/ARC/PG Verortung/Daten U berblick I I I Digitale Tiefenerschließung der RC (DRC) Annotiertes Korpus des Romanischen (ARC) Pledari Grond - Lexikographische Ressourcen (PG) Abbildung: Ra toromanische Chrestomathie (Octopus Verlag, Chur) Sprachliche Informationsverarbeitung - Universita t zu Ko ln
Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
Sprachgebiete der Schweiz Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
Sprachgebiete der Schweiz Die vier Landessprachen
Sprachgebiete der Schweiz Kanton Graubünden
Einordnung, Eigenschaften Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
Einordnung, Eigenschaften Chronik 15 v. Chr. Eroberung durch die Römer, Gründung der Provinz Raetien 5.-6. Jhd. Zerfall des röm. Reichs, Ansiedlung von Alemannen (Raetien nun Teil von Franken) 843 Chur wird dem Erzbistum Mainz zugeordnet 13./14. Jhd. Ansiedlung deutschsprachiger Walser 16./17. Jhd. erste Verschriftlichung des Romanischen 1803 Beitritt des dreisprachigen Kantons Graubünden zur Eidgenossenschaft 1880/92 formelle Gewährleistung der Dreisprachigkeit
Einordnung, Eigenschaften Die romanischen Sprachen Europas
Einordnung, Eigenschaften Genealogie
Einordnung, Eigenschaften Questione Ladina
Einordnung, Eigenschaften Lautunterschiede der Idiome
DRC-Projekt (2009-2011) Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
Das Ra toromanische DRC/ARC/PG Verortung/Daten DRC-Projekt (2009-2011) Decurtins und die Chrestomathie I Caspar Decurtins (1855-1916) I Erschienen 1888-1919 I Ca. 8000 Seiten aus 4 Jhd. I Hoher Variantenreichtum I Repra sentativ: Textsorten, Regionen, Zeiten I Nachdruck Octopus Verlag (1982-85) mit Register Sprachliche Informationsverarbeitung - Universita t zu Ko ln
DRC-Projekt (2009-2011) Portalseite: www.crestomazia.ch Digital images OCR Coll. correction Corrected text
DRC-Projekt (2009-2011) Architektur: Editing vs. Reading/Searching
DRC-Projekt (2009-2011) DRC-Editor
DRC-Projekt (2009-2011) Daten
DRC-Projekt (2009-2011) Ergebnisse Erstellung einer digitalen Version der RC Kollaboratives Tool für die Bearbeitung Open Access zu Daten & Werkzeugen
ARC-Projekt (2013-2015) Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
ARC-Projekt (2013-2015) DRC ARC Projektziel: Workflow vom Digitalisat zum annotierten Korpus Aufgaben: Bestehende lexikalische Ressourcen erschließen Semi-automatische Annotation (POS) Digital images (text) OCR Coll. correction corrected text split Biblioteca Digitala Romansh Chrestomathy + other collections... Digital images (lex) OCR parse, transform & generate fullform lexdb annotate training sets coll. annotation: review/disambiguate Refactoring des Editors POS tagging anno'd text
ARC-Projekt (2013-2015) ARC - Editor: Korrektur, Annotation
ARC-Projekt (2013-2015) ARC - Statistik Idiom Tokens % Types Sursilvan 1,010,278 37.711 136,155 Puter 468,277 17.48 87,565 Vallader 378,936 14.145 71,820 Surmiran 250,156 9.338 48,393 Sutsilvan 101,424 3.786 24,072 Bivio 26,722 0.997 8,394 Val Müstair 140,039 5.227 33,122 Sutsettisch 12,199 0.455 3,714 Bühlers Koine 115,222 4.301 18,645 Latein 2,106 0.079 1,180 Deutsch 12,771 0.477 5,465 Bergagliot 59,384 2.217 15,393 Italiano 631 0.024 335 Andere 25,285 0.944 11,539 CLASSIFIED: 2,603,430 97.179 465,792 NOT CLASSIFIED: 75565 2.821 TOTAL: 2,527,865 368,746
Pledari Grond (seit 2013) Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
Pledari Grond (seit 2013) Das Pledari Grond
Pledari Grond (seit 2013) Maalr - Architektur
Das Rätoromanische Sprachgebiete der Schweiz Einordnung, Eigenschaften Kollaborativer Aufbau von Sprachressourcen DRC-Projekt (2009-2011) ARC-Projekt (2013-2015) Pledari Grond (seit 2013) Ressourcen, Tools, Daten
Kontext: Sprachressourcen für das Romanische DRC Collaborative OCR correction Corrected Text ARC Collaborative annotation Annotated Text LexDB Biblioteca Digitala Read, search and Edit Text Other Applications, e.g. translation, shallow parsing, etc. Maalr Collaborative lexicon expansion Online Dictionaries Abbildung: Die DRC-Projektfamilie.
Beispiel: Suche als Service
drcwebapp: Erweiterungen, Services, Views Suche (KWIC, Filter, RegEx) Bilddateien Ling/NLP (z.b. Stemming, Kontexte) Frontend/Layout Statistiken (TTR, Häufigkeiten, Korrelationen) Wortwolken (keywords, wordle) Metadatenanreicherung, XML- bzw. TEI-Export Inhalte (Infoseiten/News... ) Datei-Upload (Digitalisate) OCR (Abbyy, Open Source) Anbindung PG: Übersetzungen, Vorschläge...
Grazia fitg! neuefeind@spinfo.uni-koeln.de matanass@uni-koeln.de www.crestomazia.ch www.biblioteca-digitala.ch www.pledarigrond.ch www.liarumantscha.ch https://github.com/spinfo/drcwebapp https://github.com/spinfo/drc https://github.com/spinfo/arc https://github.com/spinfo/maalr-core