Text+Berg digital. Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk.

Transkript

1 Text+Berg digital Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk. Universität Zürich Institut für Computerlinguistik 12. Juni 2009 T. Marek (Universität Zürich) 12. Juni / 32

2 Übersicht 1 Einführung 2 Korpus-Erstellung 3 Forschungsanwendungen Computerlinguistik Sprachwissenschaften 4 Werbeblock T. Marek (Universität Zürich) 12. Juni / 32

3 Das Projekt Berg +Berg Text+ g Text+Berg Tex Text+Berg Text+Ber ext+berg Text+Berg T Berg Text+Berg Text+Be erg Text+Berg Text+Berg Te Berg Text+Berg Text+Berg Text+B rg Text+Berg Text+Berg Text+Berg Text+B Text+Berg Text+Berg Text+Berg Text+Berg Tex g Text+Berg Text+Berg Text+Berg Text+Berg Text+B Text+Berg Text+Berg Text+Berg Text+Berg Text+Berg Text+Berg digital Projekt zur korpuslinguistischen Erschliessung alpinistischer Literatur Dr. Noah Bubenhofer (Deutsches Seminar, UZH) Prof. Martin Volk (Institut für Computerlinguistik, UZH) T. Marek (Universität Zürich) 12. Juni / 32

4 Das Projekt II Ziele Erstellung eines Korpus mit alpinistischer Literatur mehrsprachig Deutsch, Französisch, Englisch, Italienisch diachron Archivierung ( cultural heritage data ) Verfügbarkeit für quantitative und qualitative Analyse T. Marek (Universität Zürich) 12. Juni / 32

5 Das Projekt II Ziele Erstellung eines Korpus mit alpinistischer Literatur mehrsprachig Deutsch, Französisch, Englisch, Italienisch diachron Archivierung ( cultural heritage data ) Verfügbarkeit für quantitative und qualitative Analyse Textarten Reise- und Wanderberichte Wissenschaftliche Artikel Essays T. Marek (Universität Zürich) 12. Juni / 32

6 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte T. Marek (Universität Zürich) 12. Juni / 32

7 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität T. Marek (Universität Zürich) 12. Juni / 32

8 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten T. Marek (Universität Zürich) 12. Juni / 32

9 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen T. Marek (Universität Zürich) 12. Juni / 32

10 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen Raum (Entstehung und Domäne) T. Marek (Universität Zürich) 12. Juni / 32

11 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen Raum (Entstehung und Domäne) aber: große Zeitspanne (knapp 150 Jahre) T. Marek (Universität Zürich) 12. Juni / 32

12 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen Raum (Entstehung und Domäne) aber: große Zeitspanne (knapp 150 Jahre) freie Nutzung für Forschungszwecke T. Marek (Universität Zürich) 12. Juni / 32

13 Beispiele alpinistischer Literatur British Alpine Club erster Bergsteigerclub der Welt gegründet 1857 Publikationen The Alpine Journal (seit 1863) Schweizer Alpenclub (S.A.C.) gegründet 1863 Publikationen Jahrbuch des S.A.C. ( ) ALPEN (ab 1924) T. Marek (Universität Zürich) 12. Juni / 32

14 Korpus-Erstellung T. Marek (Universität Zürich) 12. Juni / 32

15 Quellen Jahrbuch des S.A.C. erschienen von Artikel in Deutsch oder Französisch comparable corpus T. Marek (Universität Zürich) 12. Juni / 32

16 Quellen Jahrbuch des S.A.C. erschienen von Artikel in Deutsch oder Französisch comparable corpus ALPEN erscheint seit 1924 zuerst jährliche Ausgabe, jetzt Monatszeitschrift französische und deutsche Ausgabe mit weitgehend identischem Inhalt parallel corpus T. Marek (Universität Zürich) 12. Juni / 32

17 Bücher-Akquisition Problematik jedes Buch muss in mindestens zwei Exemplaren vorliegen Scan-Exemplar (wird zerschnitten) Referenzexemplar T. Marek (Universität Zürich) 12. Juni / 32

18 Bücher-Akquisition Problematik jedes Buch muss in mindestens zwei Exemplaren vorliegen Scan-Exemplar (wird zerschnitten) Referenzexemplar Bücher bis zu 150 Jahre alt teilweise antiquarische Raritäten T. Marek (Universität Zürich) 12. Juni / 32

19 Bücher-Akquisition Problematik jedes Buch muss in mindestens zwei Exemplaren vorliegen Scan-Exemplar (wird zerschnitten) Referenzexemplar Bücher bis zu 150 Jahre alt teilweise antiquarische Raritäten Lösung Presseaufrufe in der S.A.C.-Zeitschrift mittlerweile jedes Buch mindestens zweimal vorhanden T. Marek (Universität Zürich) 12. Juni / 32

20 Scan-Prozess I Vorgang Bindung der Bücher wird aufgeschnitten Seiten werden mit Duplex-Scanner gescannt (schwarz-weiß, 300 dpi) 15 min / Buch ( Seiten), 500 MB Bilddaten Farbabbildungen, Karten und Einlagen werden separat mit Flachbettscanner eingelesen T. Marek (Universität Zürich) 12. Juni / 32

21 Scan-Prozess I Vorgang Bindung der Bücher wird aufgeschnitten Seiten werden mit Duplex-Scanner gescannt (schwarz-weiß, 300 dpi) 15 min / Buch ( Seiten), 500 MB Bilddaten Farbabbildungen, Karten und Einlagen werden separat mit Flachbettscanner eingelesen OCR-Verarbeitung Software: ABBYY FineReader 7.0 OCR parallel zum Scannen Schrift ist immer Antiqua, nicht Gothik/Fraktur Text: 1 MB / Buch T. Marek (Universität Zürich) 12. Juni / 32

22 Beispiel Gefaltete Einlage, Originalgr oße cm T. Marek (Universit at Z urich) 12. Juni / 32

23 Scan-Prozess II: Aufbereitung Nachbearbeitung zur Zeit nur manuell korrekte Zuweisung von Bildunterschriften zu Bildern Reversion der Silbentrennung T. Marek (Universität Zürich) 12. Juni / 32

24 Scan-Prozess II: Aufbereitung Nachbearbeitung zur Zeit nur manuell korrekte Zuweisung von Bildunterschriften zu Bildern Reversion der Silbentrennung OCR-Fehler unsichere Erkennung im Ergebnis markiert Genauigkeit: 30-40% Trefferquote: 50% Erfahrungswerte der Korrektoren! T. Marek (Universität Zürich) 12. Juni / 32

25 Fehlerkorrektur II Warum überhaupt manuelle Korrektur? lange (10-12h / Buch) fehleranfällig hochgradig langweilig T. Marek (Universität Zürich) 12. Juni / 32

26 Fehlerkorrektur II Warum überhaupt manuelle Korrektur? lange (10-12h / Buch) fehleranfällig hochgradig langweilig Verschiedene Ausgabeformate PDF mit Originalbild und erkannten Text für Archiv wird aus FineReader erstellt Standard-Version von FineReader kann man nicht skripten/fernsteuern mehrere Lösungen werden diskutiert T. Marek (Universität Zürich) 12. Juni / 32

27 Automatische Fehlerkorrektur Probleme für normale Spellchecker verschiedene Rechtschreibungen fürs Deutsche veraltete Schreibweisen (z.b. Rédaction) Fachtermini, Namen, Fremdwörter T. Marek (Universität Zürich) 12. Juni / 32

28 Automatische Fehlerkorrektur Probleme für normale Spellchecker verschiedene Rechtschreibungen fürs Deutsche veraltete Schreibweisen (z.b. Rédaction) Fachtermini, Namen, Fremdwörter Korpusbasierte Korrektur (Reynaert, 2006; Reynart, 2008) korpusbasiertes Auffinden fehlerhafter Worte wenig externes Wissen erforderlich benötigt großes Korpus geringe Fehlerquote keine systematischen Fehler T. Marek (Universität Zürich) 12. Juni / 32

29 Korpus-Zugang Aktueller Status 145 Jahrgänge 57 Bücher gescannt 12 in Korrektur 10 komplett korrigiert T. Marek (Universität Zürich) 12. Juni / 32

30 Korpus-Zugang Aktueller Status 145 Jahrgänge 57 Bücher gescannt 12 in Korrektur 10 komplett korrigiert Zugang Jahrgänge bereits im S.A.C.-Archiv fertiges Korpus soll online abrufbar & durchsuchbar sein T. Marek (Universität Zürich) 12. Juni / 32

31 Linguistische Annotation I Grundlegende Aufbereitung Export in XML-Format Satzgrenzenerkennung Sprachenerkennung Tokenisierung Übernahme der Dokumentenstruktur Anreicherung bzw. Markup von Meta-Informationen PoS-Tagging (TreeTagger) T. Marek (Universität Zürich) 12. Juni / 32

32 Linguistische Annotation I Grundlegende Aufbereitung Export in XML-Format Satzgrenzenerkennung Sprachenerkennung Tokenisierung Übernahme der Dokumentenstruktur Anreicherung bzw. Markup von Meta-Informationen PoS-Tagging (TreeTagger) Besonderheiten Bilder und Bildunterschriften bleiben erhalten Sprachenerkennung auf Satzebene T. Marek (Universität Zürich) 12. Juni / 32

33 Named Entities I Es ist noch stockdunkle Nacht, und trotzdem befinde ich mich mit meinem Kameraden Detlef Hecker bereits auf dem Gipfel der Wellenkuppe (3903 m). Die ersten Zinalrothornbesucher verlassen soeben die Rothornhütte. Mit ihren Laternen sehen sie von hier oben wie Fackelträger einer nächtlichen Prozession aus. In grimmiger Kälte steigen wir zum Sattel zwischen Wellenkuppe und Obergabelhorn hinunter. T. Marek (Universität Zürich) 12. Juni / 32

34 Named Entities I Es ist noch stockdunkle Nacht, und trotzdem befinde ich mich mit meinem Kameraden Detlef Hecker bereits auf dem Gipfel der Wellenkuppe (3903 m). Die ersten Zinalrothornbesucher verlassen soeben die Rothornhütte. Mit ihren Laternen sehen sie von hier oben wie Fackelträger einer nächtlichen Prozession aus. In grimmiger Kälte steigen wir zum Sattel zwischen Wellenkuppe und Obergabelhorn hinunter. Geographische Entitäten sehr viele Namen/Referenzen sehr unterschiedliche Entitäten erfordern detaillierte Ontologie dreidimensionale Koordinaten T. Marek (Universität Zürich) 12. Juni / 32

35 Named Entities II Erkennung geographischer Entitäten 1 Detektion 2 Sammeln von Kontextinformation 3 Disambiguation 4 Grounding (Zuweisung geographischer Koordinaten) T. Marek (Universität Zürich) 12. Juni / 32

36 Named Entities II Erkennung geographischer Entitäten 1 Detektion 2 Sammeln von Kontextinformation 3 Disambiguation 4 Grounding (Zuweisung geographischer Koordinaten) Analyse geographischer Referenzen HLT-NAACL 2003 Workshop on Analysis of Geographic References T. Marek (Universität Zürich) 12. Juni / 32

37 1 Einführung 2 Korpus-Erstellung 3 Forschungsanwendungen Computerlinguistik Sprachwissenschaften 4 Werbeblock T. Marek (Universität Zürich) 12. Juni / 32

38 Named Entities III: Anwendungen Spatiale Suche Indizieren aller Texte anhand der vorkommenden geographischen Entitäten graphische Darstellung auf Karten T. Marek (Universität Zürich) 12. Juni / 32

39 Named Entities III: Anwendungen Spatiale Suche Indizieren aller Texte anhand der vorkommenden geographischen Entitäten graphische Darstellung auf Karten Routenextraktion Erstellung einer Route basierend auf einem Text interaktive Darstellung der Route auf einer Karte T. Marek (Universität Zürich) 12. Juni / 32

40 Maschinelle Übersetzung I Statistische MÜ data-driven benötigt große Mengen von Texten Methode ist domänenunabhängig T. Marek (Universität Zürich) 12. Juni / 32

41 Maschinelle Übersetzung I Statistische MÜ data-driven benötigt große Mengen von Texten Methode ist domänenunabhängig Zwei Modelle Sprachmodell (monolinguale Korpora) Wie wahrscheinlich ist ein bestimmter Satz, unabhängig vom Ausgangstext? Übersetzungsmodell (parallele Korpora) Wie hoch ist die Wahrscheinlichkeit, dass Satz F eine korrekte Übersetzung von Satz E ist? T. Marek (Universität Zürich) 12. Juni / 32

42 Domänenspezifische SMT Domänenspezifische Lexika (Ayan et al., 2003) Extraktion von Fachtermini aus den zu übersetzenden Dokumenten Erstellung zweier Korpora mit vergleichbaren Texten in beiden Sprachen mittels cross-lingual IR Dokumenten-Alignierung zum Finden ähnlicher Dokumente teilweise bis zu 50% Verbesserung beim BLEU-Score T. Marek (Universität Zürich) 12. Juni / 32

43 Domänenspezifische SMT Domänenspezifische Lexika (Ayan et al., 2003) Extraktion von Fachtermini aus den zu übersetzenden Dokumenten Erstellung zweier Korpora mit vergleichbaren Texten in beiden Sprachen mittels cross-lingual IR Dokumenten-Alignierung zum Finden ähnlicher Dokumente teilweise bis zu 50% Verbesserung beim BLEU-Score Kombinierte Trainingsdaten (Koehn and Schroeder, 2007) großes allgemeines Korpus (z.b. Europarl) kleines domänenspezifisches Korpus Domänenkorpus für spezielle Sprach- und Übersetzungsmodelle T. Marek (Universität Zürich) 12. Juni / 32

44 Sprachwissenschaften Eine noble, königliche Erscheinung darf man ihn füglich nennen, diesen zweithöchsten Gipfel des Alpsteins. Ob von Norden oder Osten, von Süden oder Westen gesehen, allüberall macht er auf uns den Eindruck einer harmonischen Schönheit. T. Marek (Universität Zürich) 12. Juni / 32

45 Sprachwissenschaften Eine noble, königliche Erscheinung darf man ihn füglich nennen, diesen zweithöchsten Gipfel des Alpsteins. Ob von Norden oder Osten, von Süden oder Westen gesehen, allüberall macht er auf uns den Eindruck einer harmonischen Schönheit. Veränderung des Sprachgebrauchs Sprachgebrauch geprägt durch kulturelle & gesellschaftliche Aspekte kontrastive Analyse der Sprache erlaubt, diese Faktoren zu rekonstruieren T. Marek (Universität Zürich) 12. Juni / 32

46 Kunstwissenschaft T. Marek (Universit at Z urich) 12. Juni / 32

47 Fazit Korpuserschließung viele Forschungsmöglichkeiten für fast alle Geisteswissenschaften und einige Naturwissenschaften interessant... aber erst durch digitale Verfügbarkeit möglich T. Marek (Universität Zürich) 12. Juni / 32

48 Fazit Korpuserschließung viele Forschungsmöglichkeiten für fast alle Geisteswissenschaften und einige Naturwissenschaften interessant... aber erst durch digitale Verfügbarkeit möglich Multilinguale Korpora äußerst wertvolle Trainingsdaten für CL cross-lingual IR statistische maschinelle Übersetzung T. Marek (Universität Zürich) 12. Juni / 32

49 1 Einführung 2 Korpus-Erstellung 3 Forschungsanwendungen Computerlinguistik Sprachwissenschaften 4 Werbeblock T. Marek (Universität Zürich) 12. Juni / 32

50 Multilinguale Textanalyse an der UZH Multilinguale Textanalyse Spezialisierter internationaler Masterstudiengang Kombination von Text-/Korpuslingustik und Sprachtechnologie T. Marek (Universität Zürich) 12. Juni / 32

51 Multilinguale Textanalyse an der UZH Multilinguale Textanalyse Spezialisierter internationaler Masterstudiengang Kombination von Text-/Korpuslingustik und Sprachtechnologie Beteiligte Institute Institut für Computerlinguistik Englisches Seminar Deutsches Seminar Romanisches Seminar T. Marek (Universität Zürich) 12. Juni / 32

52 Warum? Was? Ziele Sprachübergreifendes Wissen in Linguistik Anwendungen von Sprachtechnologie im multilingualen Umfeld T. Marek (Universität Zürich) 12. Juni / 32

53 Warum? Was? Ziele Sprachübergreifendes Wissen in Linguistik Anwendungen von Sprachtechnologie im multilingualen Umfeld Themenauswahl Erstellung, Annotation und Anwendung paralleler Korpora Maschinelle Übersetzung Computerunterstützte Übersetzung (CAT) Cross-language IR Kontrastive Studien zwischen Sprachen T. Marek (Universität Zürich) 12. Juni / 32

54 Kursbeispiele Kurse im Herbstsemester Einführung in die multilinguale Textanalyse (CL) Parsingtechnologie für große Korpora (CL) Programmiertechniken in der Computerlinguistik (CL) Medientexte (DS) Das Englische im Pazifik (ES) Typologie der romanischen Sprachen (RS) T. Marek (Universität Zürich) 12. Juni / 32

55 Kursbeispiele Kurse im Herbstsemester Einführung in die multilinguale Textanalyse (CL) Parsingtechnologie für große Korpora (CL) Programmiertechniken in der Computerlinguistik (CL) Medientexte (DS) Das Englische im Pazifik (ES) Typologie der romanischen Sprachen (RS) Extras alle zwei Semester: Intensivwoche Anerkennung von Konferenzbesuchen/Sommerschulen T. Marek (Universität Zürich) 12. Juni / 32

56 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse T. Marek (Universität Zürich) 12. Juni / 32

57 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse Finanzielles 789 SFR (520 e) Semestergebühren Tutoren- und HiWi-Stellen verfügbar T. Marek (Universität Zürich) 12. Juni / 32

58 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse Finanzielles 789 SFR (520 e) Semestergebühren Tutoren- und HiWi-Stellen verfügbar Bewerbung Studienbeginn jeweils im Herbst (verspätete) Einschreibung fürs Herbstsemester 2009 zum 31. Juli möglich T. Marek (Universität Zürich) 12. Juni / 32

59 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse Finanzielles 789 SFR (520 e) Semestergebühren Tutoren- und HiWi-Stellen verfügbar Bewerbung Studienbeginn jeweils im Herbst (verspätete) Einschreibung fürs Herbstsemester 2009 zum 31. Juli möglich Kontakt T. Marek (Universität Zürich) 12. Juni / 32

60 Referenzen Ayan, N. F., Dorr, B. J., and Kolak, O. (2003). Evaluation techniques applied to domain tuning of mt lexicons. In Proceedings of the Evaluation Workshop at the MT Summit. Koehn, P. and Schroeder, J. (2007). Experiments in domain adaptation for statistical machine translation. In ACL Workshop on Statistical Machine Translation. Reynaert, M. W. C. (2006). Corpus-induced corpus clean-up. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC-06). Reynart, M. W. C. (2008). Non-interactive ocr post-correction for giga-scale digitization. In Proceedings of the computational linguistics and intelligent text processing 9th international conference. T. Marek (Universität Zürich) 12. Juni / 32

61 Ende Vielen Dank für Eure Aufmerksamkeit. Fragen? T. Marek (Universität Zürich) 12. Juni / 32