Text+Berg digital. Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk.

Größe: px
Ab Seite anzeigen:

Download "Text+Berg digital. Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk."

Transkript

1 Text+Berg digital Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk. Universität Zürich Institut für Computerlinguistik 12. Juni 2009 T. Marek (Universität Zürich) 12. Juni / 32

2 Übersicht 1 Einführung 2 Korpus-Erstellung 3 Forschungsanwendungen Computerlinguistik Sprachwissenschaften 4 Werbeblock T. Marek (Universität Zürich) 12. Juni / 32

3 Das Projekt Berg +Berg Text+ g Text+Berg Tex Text+Berg Text+Ber ext+berg Text+Berg T Berg Text+Berg Text+Be erg Text+Berg Text+Berg Te Berg Text+Berg Text+Berg Text+B rg Text+Berg Text+Berg Text+Berg Text+B Text+Berg Text+Berg Text+Berg Text+Berg Tex g Text+Berg Text+Berg Text+Berg Text+Berg Text+B Text+Berg Text+Berg Text+Berg Text+Berg Text+Berg Text+Berg digital Projekt zur korpuslinguistischen Erschliessung alpinistischer Literatur Dr. Noah Bubenhofer (Deutsches Seminar, UZH) Prof. Martin Volk (Institut für Computerlinguistik, UZH) T. Marek (Universität Zürich) 12. Juni / 32

4 Das Projekt II Ziele Erstellung eines Korpus mit alpinistischer Literatur mehrsprachig Deutsch, Französisch, Englisch, Italienisch diachron Archivierung ( cultural heritage data ) Verfügbarkeit für quantitative und qualitative Analyse T. Marek (Universität Zürich) 12. Juni / 32

5 Das Projekt II Ziele Erstellung eines Korpus mit alpinistischer Literatur mehrsprachig Deutsch, Französisch, Englisch, Italienisch diachron Archivierung ( cultural heritage data ) Verfügbarkeit für quantitative und qualitative Analyse Textarten Reise- und Wanderberichte Wissenschaftliche Artikel Essays T. Marek (Universität Zürich) 12. Juni / 32

6 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte T. Marek (Universität Zürich) 12. Juni / 32

7 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität T. Marek (Universität Zürich) 12. Juni / 32

8 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten T. Marek (Universität Zürich) 12. Juni / 32

9 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen T. Marek (Universität Zürich) 12. Juni / 32

10 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen Raum (Entstehung und Domäne) T. Marek (Universität Zürich) 12. Juni / 32

11 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen Raum (Entstehung und Domäne) aber: große Zeitspanne (knapp 150 Jahre) T. Marek (Universität Zürich) 12. Juni / 32

12 Sonderstellung Herkömmliche Korpora Repräsentativität stark heterogene Texte Text+Berg Homogenität Textarten Themen Raum (Entstehung und Domäne) aber: große Zeitspanne (knapp 150 Jahre) freie Nutzung für Forschungszwecke T. Marek (Universität Zürich) 12. Juni / 32

13 Beispiele alpinistischer Literatur British Alpine Club erster Bergsteigerclub der Welt gegründet 1857 Publikationen The Alpine Journal (seit 1863) Schweizer Alpenclub (S.A.C.) gegründet 1863 Publikationen Jahrbuch des S.A.C. ( ) ALPEN (ab 1924) T. Marek (Universität Zürich) 12. Juni / 32

14 Korpus-Erstellung T. Marek (Universität Zürich) 12. Juni / 32

15 Quellen Jahrbuch des S.A.C. erschienen von Artikel in Deutsch oder Französisch comparable corpus T. Marek (Universität Zürich) 12. Juni / 32

16 Quellen Jahrbuch des S.A.C. erschienen von Artikel in Deutsch oder Französisch comparable corpus ALPEN erscheint seit 1924 zuerst jährliche Ausgabe, jetzt Monatszeitschrift französische und deutsche Ausgabe mit weitgehend identischem Inhalt parallel corpus T. Marek (Universität Zürich) 12. Juni / 32

17 Bücher-Akquisition Problematik jedes Buch muss in mindestens zwei Exemplaren vorliegen Scan-Exemplar (wird zerschnitten) Referenzexemplar T. Marek (Universität Zürich) 12. Juni / 32

18 Bücher-Akquisition Problematik jedes Buch muss in mindestens zwei Exemplaren vorliegen Scan-Exemplar (wird zerschnitten) Referenzexemplar Bücher bis zu 150 Jahre alt teilweise antiquarische Raritäten T. Marek (Universität Zürich) 12. Juni / 32

19 Bücher-Akquisition Problematik jedes Buch muss in mindestens zwei Exemplaren vorliegen Scan-Exemplar (wird zerschnitten) Referenzexemplar Bücher bis zu 150 Jahre alt teilweise antiquarische Raritäten Lösung Presseaufrufe in der S.A.C.-Zeitschrift mittlerweile jedes Buch mindestens zweimal vorhanden T. Marek (Universität Zürich) 12. Juni / 32

20 Scan-Prozess I Vorgang Bindung der Bücher wird aufgeschnitten Seiten werden mit Duplex-Scanner gescannt (schwarz-weiß, 300 dpi) 15 min / Buch ( Seiten), 500 MB Bilddaten Farbabbildungen, Karten und Einlagen werden separat mit Flachbettscanner eingelesen T. Marek (Universität Zürich) 12. Juni / 32

21 Scan-Prozess I Vorgang Bindung der Bücher wird aufgeschnitten Seiten werden mit Duplex-Scanner gescannt (schwarz-weiß, 300 dpi) 15 min / Buch ( Seiten), 500 MB Bilddaten Farbabbildungen, Karten und Einlagen werden separat mit Flachbettscanner eingelesen OCR-Verarbeitung Software: ABBYY FineReader 7.0 OCR parallel zum Scannen Schrift ist immer Antiqua, nicht Gothik/Fraktur Text: 1 MB / Buch T. Marek (Universität Zürich) 12. Juni / 32

22 Beispiel Gefaltete Einlage, Originalgr oße cm T. Marek (Universit at Z urich) 12. Juni / 32

23 Scan-Prozess II: Aufbereitung Nachbearbeitung zur Zeit nur manuell korrekte Zuweisung von Bildunterschriften zu Bildern Reversion der Silbentrennung T. Marek (Universität Zürich) 12. Juni / 32

24 Scan-Prozess II: Aufbereitung Nachbearbeitung zur Zeit nur manuell korrekte Zuweisung von Bildunterschriften zu Bildern Reversion der Silbentrennung OCR-Fehler unsichere Erkennung im Ergebnis markiert Genauigkeit: 30-40% Trefferquote: 50% Erfahrungswerte der Korrektoren! T. Marek (Universität Zürich) 12. Juni / 32

25 Fehlerkorrektur II Warum überhaupt manuelle Korrektur? lange (10-12h / Buch) fehleranfällig hochgradig langweilig T. Marek (Universität Zürich) 12. Juni / 32

26 Fehlerkorrektur II Warum überhaupt manuelle Korrektur? lange (10-12h / Buch) fehleranfällig hochgradig langweilig Verschiedene Ausgabeformate PDF mit Originalbild und erkannten Text für Archiv wird aus FineReader erstellt Standard-Version von FineReader kann man nicht skripten/fernsteuern mehrere Lösungen werden diskutiert T. Marek (Universität Zürich) 12. Juni / 32

27 Automatische Fehlerkorrektur Probleme für normale Spellchecker verschiedene Rechtschreibungen fürs Deutsche veraltete Schreibweisen (z.b. Rédaction) Fachtermini, Namen, Fremdwörter T. Marek (Universität Zürich) 12. Juni / 32

28 Automatische Fehlerkorrektur Probleme für normale Spellchecker verschiedene Rechtschreibungen fürs Deutsche veraltete Schreibweisen (z.b. Rédaction) Fachtermini, Namen, Fremdwörter Korpusbasierte Korrektur (Reynaert, 2006; Reynart, 2008) korpusbasiertes Auffinden fehlerhafter Worte wenig externes Wissen erforderlich benötigt großes Korpus geringe Fehlerquote keine systematischen Fehler T. Marek (Universität Zürich) 12. Juni / 32

29 Korpus-Zugang Aktueller Status 145 Jahrgänge 57 Bücher gescannt 12 in Korrektur 10 komplett korrigiert T. Marek (Universität Zürich) 12. Juni / 32

30 Korpus-Zugang Aktueller Status 145 Jahrgänge 57 Bücher gescannt 12 in Korrektur 10 komplett korrigiert Zugang Jahrgänge bereits im S.A.C.-Archiv fertiges Korpus soll online abrufbar & durchsuchbar sein T. Marek (Universität Zürich) 12. Juni / 32

31 Linguistische Annotation I Grundlegende Aufbereitung Export in XML-Format Satzgrenzenerkennung Sprachenerkennung Tokenisierung Übernahme der Dokumentenstruktur Anreicherung bzw. Markup von Meta-Informationen PoS-Tagging (TreeTagger) T. Marek (Universität Zürich) 12. Juni / 32

32 Linguistische Annotation I Grundlegende Aufbereitung Export in XML-Format Satzgrenzenerkennung Sprachenerkennung Tokenisierung Übernahme der Dokumentenstruktur Anreicherung bzw. Markup von Meta-Informationen PoS-Tagging (TreeTagger) Besonderheiten Bilder und Bildunterschriften bleiben erhalten Sprachenerkennung auf Satzebene T. Marek (Universität Zürich) 12. Juni / 32

33 Named Entities I Es ist noch stockdunkle Nacht, und trotzdem befinde ich mich mit meinem Kameraden Detlef Hecker bereits auf dem Gipfel der Wellenkuppe (3903 m). Die ersten Zinalrothornbesucher verlassen soeben die Rothornhütte. Mit ihren Laternen sehen sie von hier oben wie Fackelträger einer nächtlichen Prozession aus. In grimmiger Kälte steigen wir zum Sattel zwischen Wellenkuppe und Obergabelhorn hinunter. T. Marek (Universität Zürich) 12. Juni / 32

34 Named Entities I Es ist noch stockdunkle Nacht, und trotzdem befinde ich mich mit meinem Kameraden Detlef Hecker bereits auf dem Gipfel der Wellenkuppe (3903 m). Die ersten Zinalrothornbesucher verlassen soeben die Rothornhütte. Mit ihren Laternen sehen sie von hier oben wie Fackelträger einer nächtlichen Prozession aus. In grimmiger Kälte steigen wir zum Sattel zwischen Wellenkuppe und Obergabelhorn hinunter. Geographische Entitäten sehr viele Namen/Referenzen sehr unterschiedliche Entitäten erfordern detaillierte Ontologie dreidimensionale Koordinaten T. Marek (Universität Zürich) 12. Juni / 32

35 Named Entities II Erkennung geographischer Entitäten 1 Detektion 2 Sammeln von Kontextinformation 3 Disambiguation 4 Grounding (Zuweisung geographischer Koordinaten) T. Marek (Universität Zürich) 12. Juni / 32

36 Named Entities II Erkennung geographischer Entitäten 1 Detektion 2 Sammeln von Kontextinformation 3 Disambiguation 4 Grounding (Zuweisung geographischer Koordinaten) Analyse geographischer Referenzen HLT-NAACL 2003 Workshop on Analysis of Geographic References T. Marek (Universität Zürich) 12. Juni / 32

37 1 Einführung 2 Korpus-Erstellung 3 Forschungsanwendungen Computerlinguistik Sprachwissenschaften 4 Werbeblock T. Marek (Universität Zürich) 12. Juni / 32

38 Named Entities III: Anwendungen Spatiale Suche Indizieren aller Texte anhand der vorkommenden geographischen Entitäten graphische Darstellung auf Karten T. Marek (Universität Zürich) 12. Juni / 32

39 Named Entities III: Anwendungen Spatiale Suche Indizieren aller Texte anhand der vorkommenden geographischen Entitäten graphische Darstellung auf Karten Routenextraktion Erstellung einer Route basierend auf einem Text interaktive Darstellung der Route auf einer Karte T. Marek (Universität Zürich) 12. Juni / 32

40 Maschinelle Übersetzung I Statistische MÜ data-driven benötigt große Mengen von Texten Methode ist domänenunabhängig T. Marek (Universität Zürich) 12. Juni / 32

41 Maschinelle Übersetzung I Statistische MÜ data-driven benötigt große Mengen von Texten Methode ist domänenunabhängig Zwei Modelle Sprachmodell (monolinguale Korpora) Wie wahrscheinlich ist ein bestimmter Satz, unabhängig vom Ausgangstext? Übersetzungsmodell (parallele Korpora) Wie hoch ist die Wahrscheinlichkeit, dass Satz F eine korrekte Übersetzung von Satz E ist? T. Marek (Universität Zürich) 12. Juni / 32

42 Domänenspezifische SMT Domänenspezifische Lexika (Ayan et al., 2003) Extraktion von Fachtermini aus den zu übersetzenden Dokumenten Erstellung zweier Korpora mit vergleichbaren Texten in beiden Sprachen mittels cross-lingual IR Dokumenten-Alignierung zum Finden ähnlicher Dokumente teilweise bis zu 50% Verbesserung beim BLEU-Score T. Marek (Universität Zürich) 12. Juni / 32

43 Domänenspezifische SMT Domänenspezifische Lexika (Ayan et al., 2003) Extraktion von Fachtermini aus den zu übersetzenden Dokumenten Erstellung zweier Korpora mit vergleichbaren Texten in beiden Sprachen mittels cross-lingual IR Dokumenten-Alignierung zum Finden ähnlicher Dokumente teilweise bis zu 50% Verbesserung beim BLEU-Score Kombinierte Trainingsdaten (Koehn and Schroeder, 2007) großes allgemeines Korpus (z.b. Europarl) kleines domänenspezifisches Korpus Domänenkorpus für spezielle Sprach- und Übersetzungsmodelle T. Marek (Universität Zürich) 12. Juni / 32

44 Sprachwissenschaften Eine noble, königliche Erscheinung darf man ihn füglich nennen, diesen zweithöchsten Gipfel des Alpsteins. Ob von Norden oder Osten, von Süden oder Westen gesehen, allüberall macht er auf uns den Eindruck einer harmonischen Schönheit. T. Marek (Universität Zürich) 12. Juni / 32

45 Sprachwissenschaften Eine noble, königliche Erscheinung darf man ihn füglich nennen, diesen zweithöchsten Gipfel des Alpsteins. Ob von Norden oder Osten, von Süden oder Westen gesehen, allüberall macht er auf uns den Eindruck einer harmonischen Schönheit. Veränderung des Sprachgebrauchs Sprachgebrauch geprägt durch kulturelle & gesellschaftliche Aspekte kontrastive Analyse der Sprache erlaubt, diese Faktoren zu rekonstruieren T. Marek (Universität Zürich) 12. Juni / 32

46 Kunstwissenschaft T. Marek (Universit at Z urich) 12. Juni / 32

47 Fazit Korpuserschließung viele Forschungsmöglichkeiten für fast alle Geisteswissenschaften und einige Naturwissenschaften interessant... aber erst durch digitale Verfügbarkeit möglich T. Marek (Universität Zürich) 12. Juni / 32

48 Fazit Korpuserschließung viele Forschungsmöglichkeiten für fast alle Geisteswissenschaften und einige Naturwissenschaften interessant... aber erst durch digitale Verfügbarkeit möglich Multilinguale Korpora äußerst wertvolle Trainingsdaten für CL cross-lingual IR statistische maschinelle Übersetzung T. Marek (Universität Zürich) 12. Juni / 32

49 1 Einführung 2 Korpus-Erstellung 3 Forschungsanwendungen Computerlinguistik Sprachwissenschaften 4 Werbeblock T. Marek (Universität Zürich) 12. Juni / 32

50 Multilinguale Textanalyse an der UZH Multilinguale Textanalyse Spezialisierter internationaler Masterstudiengang Kombination von Text-/Korpuslingustik und Sprachtechnologie T. Marek (Universität Zürich) 12. Juni / 32

51 Multilinguale Textanalyse an der UZH Multilinguale Textanalyse Spezialisierter internationaler Masterstudiengang Kombination von Text-/Korpuslingustik und Sprachtechnologie Beteiligte Institute Institut für Computerlinguistik Englisches Seminar Deutsches Seminar Romanisches Seminar T. Marek (Universität Zürich) 12. Juni / 32

52 Warum? Was? Ziele Sprachübergreifendes Wissen in Linguistik Anwendungen von Sprachtechnologie im multilingualen Umfeld T. Marek (Universität Zürich) 12. Juni / 32

53 Warum? Was? Ziele Sprachübergreifendes Wissen in Linguistik Anwendungen von Sprachtechnologie im multilingualen Umfeld Themenauswahl Erstellung, Annotation und Anwendung paralleler Korpora Maschinelle Übersetzung Computerunterstützte Übersetzung (CAT) Cross-language IR Kontrastive Studien zwischen Sprachen T. Marek (Universität Zürich) 12. Juni / 32

54 Kursbeispiele Kurse im Herbstsemester Einführung in die multilinguale Textanalyse (CL) Parsingtechnologie für große Korpora (CL) Programmiertechniken in der Computerlinguistik (CL) Medientexte (DS) Das Englische im Pazifik (ES) Typologie der romanischen Sprachen (RS) T. Marek (Universität Zürich) 12. Juni / 32

55 Kursbeispiele Kurse im Herbstsemester Einführung in die multilinguale Textanalyse (CL) Parsingtechnologie für große Korpora (CL) Programmiertechniken in der Computerlinguistik (CL) Medientexte (DS) Das Englische im Pazifik (ES) Typologie der romanischen Sprachen (RS) Extras alle zwei Semester: Intensivwoche Anerkennung von Konferenzbesuchen/Sommerschulen T. Marek (Universität Zürich) 12. Juni / 32

56 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse T. Marek (Universität Zürich) 12. Juni / 32

57 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse Finanzielles 789 SFR (520 e) Semestergebühren Tutoren- und HiWi-Stellen verfügbar T. Marek (Universität Zürich) 12. Juni / 32

58 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse Finanzielles 789 SFR (520 e) Semestergebühren Tutoren- und HiWi-Stellen verfügbar Bewerbung Studienbeginn jeweils im Herbst (verspätete) Einschreibung fürs Herbstsemester 2009 zum 31. Juli möglich T. Marek (Universität Zürich) 12. Juni / 32

59 Formales Voraussetzungen Bachelor-Abschluss 45 ECTS in Linguistik oder Computerlinguistik Englisch- und Deutschkenntnisse Finanzielles 789 SFR (520 e) Semestergebühren Tutoren- und HiWi-Stellen verfügbar Bewerbung Studienbeginn jeweils im Herbst (verspätete) Einschreibung fürs Herbstsemester 2009 zum 31. Juli möglich Kontakt T. Marek (Universität Zürich) 12. Juni / 32

60 Referenzen Ayan, N. F., Dorr, B. J., and Kolak, O. (2003). Evaluation techniques applied to domain tuning of mt lexicons. In Proceedings of the Evaluation Workshop at the MT Summit. Koehn, P. and Schroeder, J. (2007). Experiments in domain adaptation for statistical machine translation. In ACL Workshop on Statistical Machine Translation. Reynaert, M. W. C. (2006). Corpus-induced corpus clean-up. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC-06). Reynart, M. W. C. (2008). Non-interactive ocr post-correction for giga-scale digitization. In Proceedings of the computational linguistics and intelligent text processing 9th international conference. T. Marek (Universität Zürich) 12. Juni / 32

61 Ende Vielen Dank für Eure Aufmerksamkeit. Fragen? T. Marek (Universität Zürich) 12. Juni / 32

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines

Mehr

Grundlagen und Definitionen

Grundlagen und Definitionen Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Mit XML-Spider die Gesetzesproduktion modernisieren

Mit XML-Spider die Gesetzesproduktion modernisieren know-how innovation Mit XML-Spider die Gesetzesproduktion modernisieren Von Word/PDF zu CHLexML 23.3.2006, Hubert Münst & Peter Schäuble solution Worum geht es? Wie konvertiere ich meine Erlasse in CHLexML?

Mehr

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

Big Data and Machine Learning

Big Data and Machine Learning Weiterbildung Big Data and Machine Learning Certificate of Advanced Studies CAS Institut für Informatik Institut für Computerlinguistik Universität Zürich 2018 Seite 1/6 Beschreibung Die Informatik ist

Mehr

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe Archivierung mit PDF und XPS Formate, Standards und Prozessabläufe Dr. Hans Bärfuss PDF Tools AG Winterthur, 8. Mai 2007 Copyright 2007 PDF Tools AG 1 Inhalt Formate Anforderungen an ein Archivformat Ordnung

Mehr

Automatische Übersetzung zwischen Bild und Text: Visuelle und textuelle Phrasen

Automatische Übersetzung zwischen Bild und Text: Visuelle und textuelle Phrasen MARSILIUS KOLLEG UNIVERSITÄT HEIDELBERG ZUKUNFT SEIT 1386 Automatische Übersetzung zwischen Bild und Text: Visuelle und textuelle Phrasen Stefan Riezler Auszug aus dem Jahresbericht Marsilius-Kolleg 2015/2016

Mehr

Studienfach Linguistische Informatik. 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS

Studienfach Linguistische Informatik. 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS 2 Lehrveranstaltungen VL Grundlagen der Computerlinguistik 1 (2 SWS) UE Grundlagen der Computerlinguistik 1 (2 SWS) UE Arbeitstechniken der

Mehr

Formatvalidierung bei Forschungsdaten: Wann und wozu?

Formatvalidierung bei Forschungsdaten: Wann und wozu? Formatvalidierung bei Forschungsdaten: Wann und wozu? 106. Deutscher Bibliothekartag Frankfurt am Main, 1. Juni 2017 Dr. Matthias Töwe, ETH-Bibliothek, ETH Zürich M. Töwe 01.06.2017 1 Überblick Formatidentifizierung

Mehr

Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen

Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen Bachelorarbeit betreut von Mathias Landhäußer Ronny Hug 20. August 2014 IPD TICHY KIT Universität des Landes Baden-Württemberg und nationales

Mehr

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber Maschinelles Übersetzen natürlicher Sprachen 2 Praktikum SS 2012 Torsten Stüber Zielstellung Entwicklung eines einfachen Übersetzungssystems I saw her duck. Übersetzer Ich sah ihre Ente. SMT-System Statistical

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Angewandte Linguistik IUED Institut für Übersetzen und Dolmetschen Sprachtechnologie für die mehrsprachige Kommunikation

Angewandte Linguistik IUED Institut für Übersetzen und Dolmetschen Sprachtechnologie für die mehrsprachige Kommunikation Zürcher Hochschule für Angewandte Wissenschaften Angewandte Linguistik IUED Institut für Übersetzen und Dolmetschen Sprachtechnologie für die mehrsprachige Kommunikation Certificate of Advanced Studies

Mehr

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie

Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie Nebenfach/Anwendungsfach Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

in deutschsprachigen Romanen

in deutschsprachigen Romanen Automatische Erkennung von Figuren in deutschsprachigen Romanen F. Jannidis, M. Krug, I. Reger, M. Toepfer, L. Weimer, F. Puppe (Universität Würzburg) Kontext Korpusbasierte Geschichte des deutschsprachigen

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Web-Content- Management-Systeme

Web-Content- Management-Systeme Web-Content- Management-Systeme 9.1.2001 Wolfgang Wiese Wolfgang.Wiese@rrze.uni-erlangen.de Einführung Einführung Grundkonzepte XML Auswahlkriterien Zusammenfassung Web-Content-Management-Systeme 2 Einführung

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Lehramtsstudiengänge Philosophische Fakultät

Lehramtsstudiengänge Philosophische Fakultät Lehramtsstudiengänge Philosophische Fakultät POS Abbildungsdokumentation Französisch Deutsch Englisch Geschichte Latein Griechisch Italienisch Philosophie Sozialwissenschaften Jan Ehlert Thomas Güth erstellt:

Mehr

Anhang III: Modulhandbuch

Anhang III: Modulhandbuch Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

LAREX - Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken

LAREX - Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken LAREX - Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik Universität Würzburg 17.03.2017 Motivation und Ansatz Segmentierung

Mehr

Tekom-Frühjahrstagung in Potsdam, 14./ Eindrücke, Erkenntnisse, Ideen

Tekom-Frühjahrstagung in Potsdam, 14./ Eindrücke, Erkenntnisse, Ideen Tekom-Frühjahrstagung in Potsdam, 14./15.4.2011 Eindrücke, Erkenntnisse, Ideen Carolin Hummel 12.5.2011 Seite 1 Themenblöcke der Tagung Anwenderfreundlichkeit Technologien für die Erstellung von technischen

Mehr

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup 2015 19. März 2015

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup 2015 19. März 2015 Space Usage Rules? InformatiCup 2015 1 Agenda 1. Vorstellung des Teams 2. Entwicklungsprozess und Umsetzung 3. Verbesserung der Strategien 4. Auswertung der Strategien 5. Ausblick 6. Fazit 2 Vorstellung

Mehr

Twitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets

Twitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets Twitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets Manuel Burghardt 1, Heike Karsten 2, Melanie Pflamminger 2 und Christian Wolff 1 Lehrstuhl für Medieninformatik

Mehr

Christa Schöning-Walter. Ist automatische Erschließung möglich? Erfahrungen der Deutschen Nationalbibliothek

Christa Schöning-Walter. Ist automatische Erschließung möglich? Erfahrungen der Deutschen Nationalbibliothek Christa Schöning-Walter Ist automatische Erschließung möglich? Erfahrungen der Deutschen Nationalbibliothek 1 Automatische Erschließung bei der DNB warum? Ziele: Geschäftsprozesse beschleunigen Erschließungsaufwände

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

Interaktive Visualisierungen in E-Government

Interaktive Visualisierungen in E-Government Interaktive Visualisierungen in E-Government Dipl.-Inf. Dirk Burkhardt TU Darmstadt, FB Informatik & Hochschule Darmstadt, FB Informatik Mail: dirk.burkhardt@h-da.de Tel.: +49 6151 16-38498 Prof. Dr.-Ing.

Mehr

Philosophische Fakultät Studienordnungen der Studienprogramme der Philosophischen Fakultät

Philosophische Fakultät Studienordnungen der Studienprogramme der Philosophischen Fakultät Philosophische Fakultät Studienordnungen der Studienprogramme der Philosophischen Fakultät Teil B Haupt- und Nebenfachprogramme der Institute und Seminare Philosophische Fakultät Deutsches Seminar Studienprogramme

Mehr

Citavi. Einführung in Ihr persönliches Literaturverwaltungsprogramm. Dezernat Digitale Bibliothek

Citavi. Einführung in Ihr persönliches Literaturverwaltungsprogramm. Dezernat Digitale Bibliothek Citavi Einführung in Ihr persönliches Literaturverwaltungsprogramm Citavi@ub.uni-due.de Dezernat Digitale Bibliothek Was kann Citavi? Citavi unterstützt Studierende und Forschende bei allen Schritten des

Mehr

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen

Mehr

7th PhD Day. Term Translation with Domain Adaptation and Lexical knowledge. Mihael Arcan UNLP, Insight@NUI Galway

7th PhD Day. Term Translation with Domain Adaptation and Lexical knowledge. Mihael Arcan UNLP, Insight@NUI Galway 7th PhD Day Term Translation with Domain Adaptation and Lexical knowledge Mihael Arcan UNLP, Insight@NUI Galway Date: 25. 11. 2014 Introduction Motivation Issues with Term Translation with Statistical

Mehr

2. Nachweis besonderer Vorbildung oder Tätigkeit oder Bestehen einer Eignungsprüfung ( 2 Abs. 3): Keine

2. Nachweis besonderer Vorbildung oder Tätigkeit oder Bestehen einer Eignungsprüfung ( 2 Abs. 3): Keine 6. Englisch A. Fachspezifische Zulassungsvoraussetzungen 1. Über die Regelungen von 2 Abs. 2 hinaus wird vorausgesetzt, dass die Studierenden über sehr gute aktive und passive englische Sprachkenntnisse

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Studieninhalte und Zeitplan M. Sc. Technische Kommunikation und Medienmanagement (31. Studiengang, Start Wintersemester 2017)

Studieninhalte und Zeitplan M. Sc. Technische Kommunikation und Medienmanagement (31. Studiengang, Start Wintersemester 2017) Studieninhalte und Zeitplan M. Sc. Technische Kommunikation und Medienmanagement (31. Studiengang, Start Wintersemester 2017) Präsenztage zusammen mit M. Sc. 30 (16.10.17 bis 20.10.17) Zeitmanagement,

Mehr

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW   Subject: MTZH Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Unterschied zwischen Normalisierung und Lemmatisierung? Enthält GermaNet schweizerdeutsche Einträge?

Mehr

ECM mit Lexmark ES. Enterprise Content Management-Lösung mit Saperion, Kofax, Readsoft und Perseptive. März 2016

ECM mit Lexmark ES. Enterprise Content Management-Lösung mit Saperion, Kofax, Readsoft und Perseptive. März 2016 ECM mit Lexmark ES Enterprise Content Management-Lösung mit Saperion, Kofax, Readsoft und Perseptive März 2016 Siemens AG 2016 Siemens seit 168 Jahren innovativ Seite 3 Zinsberger/GS IT ER EU2, 30.3.2016

Mehr

Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln

Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln Prof. Dr. Klaus-Dirk Schmitz Fachhochschule Köln - Fakultät 03 - ITMK Crowd

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik Exposé zur Bachelorarbeit eingereicht von Irina Glushanok 23.04.2015 1 Einführung Um eine bequeme Suche nach passender Literatur

Mehr

Günter Wimmer Vertrieb und Marketing

Günter Wimmer Vertrieb und Marketing Günter Wimmer Vertrieb und Marketing 2 OFFICE 365 - Braucht es überhaupt noch einen IT-Partner? 3 WAS KÖNNEN WIR FÜR SIE TUN? IT BASICS Lösungen für eine stabile IT-Infrastruktur im Unternehmen DATA PROTECTION

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

ipsydion PETRA Posteingang & Typ-Relative Abteilungsverarbeitung 2.06 (DRAFT)

ipsydion PETRA Posteingang & Typ-Relative Abteilungsverarbeitung 2.06 (DRAFT) ipsydion PETRA Posteingang & Typ-Relative Abteilungsverarbeitung 2.06 (DRAFT) PETRA -Der Name PETRA Post Eingang, Typ-Relative Abteilungsbearbeitung ipsydion PETRA beschäftigt sich (primär) mit dem papierhaften

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Peer-Review-Verfahren zur Qualitätssicherung von Open-Access-Zeitschriften

Peer-Review-Verfahren zur Qualitätssicherung von Open-Access-Zeitschriften Peer-Review-Verfahren zur Qualitätssicherung von Open-Access-Zeitschriften Systematische Klassifikation und empirische Untersuchung Uwe Müller Humboldt-Universität zu Berlin Institut für Bibliotheks- und

Mehr

BARCODE FILE MANAGER ALLGEMEIN

BARCODE FILE MANAGER ALLGEMEIN Der Barcode File Manager ist ein Programm zur automatischen barcodegestützten Verarbeitung, Übertragung und Verwaltung von Dokumenten und Bildern. Er wurde primär zum einfachen Umgang mit Ablieferbelegen

Mehr

D A S I N S P E K T I O N S S Y S T E M Q U A L I T Ä T S S I C H E R U N G

D A S I N S P E K T I O N S S Y S T E M Q U A L I T Ä T S S I C H E R U N G D A S I N S P E K T I O N S S Y S T E M Q U A L I T Ä T S S I C H E R U N G mit der QUINS - EASY - Systemlösung Zuverlässig Schnell Einfach Quins-easy - ein praxisnahes Inspektionssystem mit vielen Vorteilen

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

1. Wichtige Regeln beim Einscannen Bevor Sie mit dem Scanvorgang beginnen, stellen Sie sicher, dass folgende Bedingungen erfüllt sind:

1. Wichtige Regeln beim Einscannen Bevor Sie mit dem Scanvorgang beginnen, stellen Sie sicher, dass folgende Bedingungen erfüllt sind: Scannen 1 1. Wichtige Regeln beim Einscannen Bevor Sie mit dem Scanvorgang beginnen, stellen Sie sicher, dass folgende Bedingungen erfüllt sind: 1. Es dürfen nur die Fragebögen aus einer Umfrage in einem

Mehr

CoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten

CoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten CoRS-O-Mat Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten Ziele Bereitstellung der Forschungsdaten des Projekts CoRS zur Nachnutzung Computergestützte Weiterführung des Projekts

Mehr

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Poesie in einer Programmiersprache #define ( bb!bb ) Übersetzungstechnologien Maschinelle Übersetzung Begriffe MÜS Maschinelles

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Digitalisierung von Backlist-Titeln mit Online-Prozesssteuerung

Digitalisierung von Backlist-Titeln mit Online-Prozesssteuerung Digitalisierung von Backlist-Titeln mit Online-Prozesssteuerung Druckerei C.H.Beck 05.07.2017 1 Motivation für das Projekt I. Projektstart Ausgangslage Verlage: Titel vergriffen, Nachauflage Offsetdruck

Mehr

Abbildung 1: Korrektes Einlegen der Fragebögen

Abbildung 1: Korrektes Einlegen der Fragebögen Scannen 1 1. Wichtige Regeln beim Scannen Bevor Sie mit dem Scanvorgang beginnen, stellen Sie sicher, dass folgende Bedingungen erfüllt sind: 1. Es dürfen nur Fragebögen einer Umfrage in einem Scanvorgang

Mehr

Bachelor-Curr. am Besp. Französisch

Bachelor-Curr. am Besp. Französisch Bachelor-Curr. am Besp. Französisch A. Kompetenzbereich Basics (30 ) 1. Pflichtmodul: Grundlagen des philologisch-kulturwissenschaftlichen Studiums a. VO Grundlagen des philologisch-kulturwissenschaftlichen

Mehr

https://weiterbildung.zhaw.ch/de/angewandtelinguistik/programm/sommerschule-barrierefreie-kommunikation.html

https://weiterbildung.zhaw.ch/de/angewandtelinguistik/programm/sommerschule-barrierefreie-kommunikation.html Sommerschule Barrierefreie Kommunikation Übersicht Studienform: Abschluss: Die Sommerschule umfasst 25 Kontaktlektionen und ca. 15 Stunden begleitetes Selbststudium in Form von praktischen Aufgaben und

Mehr

Die Deutsche Biographie und das Biographie-Portal als vernetztes historisch-biographisches Informationssystem

Die Deutsche Biographie und das Biographie-Portal als vernetztes historisch-biographisches Informationssystem Die Deutsche Biographie und das Biographie-Portal als vernetztes historisch-biographisches Informationssystem Biographische Lexika des dritten Jahrtausends Historický ústav AV ČR Praha, 11. Oktober 2017

Mehr

Ich baue ein eigenes Korpus

Ich baue ein eigenes Korpus Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte

Mehr

Beispiel der Zusammenarbeit Die Thüringer Universitätsund Landesbibliothek Jena als Kooperationspartner in der ViFaOst

Beispiel der Zusammenarbeit Die Thüringer Universitätsund Landesbibliothek Jena als Kooperationspartner in der ViFaOst 2006 Thüringer Universitäts- und Landesbibliothek Jena Beispiel der Zusammenarbeit Die Thüringer Universitätsund Landesbibliothek Jena als Kooperationspartner in der ViFaOst Workshop Osteuropaforschung

Mehr

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer

Mehr

Coextant Seminar 2007 Mitarbeiterportale und Web Anwendungen optimal gestalten und nutzen

Coextant Seminar 2007 Mitarbeiterportale und Web Anwendungen optimal gestalten und nutzen Mitarbeiterportale und Coextant Seminar 2007 Mitarbeiterportale und Web Anwendungen optimal Maschinenübersetzung der P R O J E C T C O N S U L T 1 Agenda Multilinguale Bereitstellung von Inhalten Der Live-Demo

Mehr

Automatische Textzusammenfasung

Automatische Textzusammenfasung Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze

Mehr

PAUL STAMM MODELLBAU ARCHIV

PAUL STAMM MODELLBAU ARCHIV DEUSCHE AUSGABE 2017 PAUL STAMM MODELLBAU ARCHIV INFORMATION Restaurierung von Zeichnungen Überarbeitung von Zeichnungen Masstabsänderungen Konvertierung in CAD Rohdaten WWW.PAUL-STAMM-MODELLBAU.DE Bei

Mehr

Grundlagen u. Orientierungsprüfung im Rahmen des B.A.-Studiengangs

Grundlagen u. Orientierungsprüfung im Rahmen des B.A.-Studiengangs Grundlagen u. Orientierungsprüfung im Rahmen des B.A.-Studiengangs Hauptfach: Studierende im Hauptfach Anglistik, Amerikanistik oder Englische Sprachwissenschaft müssen bis zum Ende des 2. Fachsemesters

Mehr

Translation Memories am Beispiel von Transit 3.0

Translation Memories am Beispiel von Transit 3.0 Technik Elisabetta D'Amato Translation Memories am Beispiel von Transit 3.0 Studienarbeit Johannes-Gutenberg-Universität Mainz FASK Germersheim Institut für Romanistik Translation Memories am Beispiel

Mehr

ABACUS Infopoint. ABACUS Kundentagung,

ABACUS Infopoint. ABACUS Kundentagung, ABACUS Infopoint Rechnungswesen und Auswertungen > Finanzbuchhaltung / Kostenrechnung mit verknüpften Originalbelegen > Dokumentsuche > Direktzugriff in Excel auf ABACUS Daten (AbaVision) Cyrill Schärli

Mehr

Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft

Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft Helga Höhlein, Peter H. Marsden, Clausdirk Poliner Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft Mit Kommentaren Max Niemeyer Verlag Tübingen 1987 INHALT Seite Allgemeine Hilfsmittel.

Mehr

Sharing Digital Knowledge and Expertise

Sharing Digital Knowledge and Expertise Sharing Digital Knowledge and Expertise Die Spring und Summer Schools des GCDH Veranstaltungen 2012 2015 Summer und Spring Schools Workshop: Soziale Netzwerkanalyse Grundlagen und Interpretation Strickmuster

Mehr

Spaten trifft Daten 29. Mai 2015 Data Center for the Humanities (DCH)

Spaten trifft Daten 29. Mai 2015 Data Center for the Humanities (DCH) Data Center for the Humanities (DCH) Kölner Datenzentrum für die Geisteswissenschaften zentrale Serviceeinrichtung der Philosophischen Fakultät der Universität zu Köln Gegründet 2013 unterstützt die dauerhafte

Mehr

Modulhandbuch für den Studiengang Linguistik. im Masterstudium der Philosophischen Fakultät der Heinrich-Heine-Universität Düsseldorf.

Modulhandbuch für den Studiengang Linguistik. im Masterstudium der Philosophischen Fakultät der Heinrich-Heine-Universität Düsseldorf. Modulhandbuch für den Studiengang Linguistik im Masterstudium der Philosophischen Fakultät der Heinrich-Heine-Universität Düsseldorf Stand: 02/2012 Inhaltsübersicht MK Mastermodul Kernbereiche der Linguistik

Mehr

Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k

Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k Arbeitsstelle Computerphilologie Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k Cris%na Vertan cris%na.vertan@uni hamburg.de 18.01.2011 1 Überblick Das Kontext (Lehrangebot

Mehr

User Story. Jennifer Dacay. Benutzerprofil. Arbeite ich bei meiner Tätigkeit mit Dokumenten?

User Story.  Jennifer Dacay. Benutzerprofil. Arbeite ich bei meiner Tätigkeit mit Dokumenten? Die Qualität der erfassten Dokumente ist nicht immer perfekt. FineReader verbessert die Scans und Bilder auf großartige Weise und es erfordert nur wenige Mausklicks, um das gewünschte Ergebnis zu erzielen.

Mehr

Automatische Erkennung von Figuren in deutschsprachigen Romanen

Automatische Erkennung von Figuren in deutschsprachigen Romanen Automatische Erkennung von Figuren in deutschsprachigen Romanen Fotis Jannidis, Isabella Reger, Lukas Weimer Universität Würzburg: Lehrstuhl für Computerphilologie Markus Krug, Martin Toepfer, Frank Puppe

Mehr

Prüfungsordnung der Albert-Ludwigs-Universität für den Studiengang Bachelor of Arts (B.A.)

Prüfungsordnung der Albert-Ludwigs-Universität für den Studiengang Bachelor of Arts (B.A.) Vom 25. November 2011 (Amtliche Bekanntmachungen Jg. 42, Nr. 104, S. 723 968) in der Fassung vom 21. Dezember 2015 (Amtliche Bekanntmachungen Jg. 46, Nr. 79, S. 489 573) Prüfungsordnung der Albert-Ludwigs-Universität

Mehr

Lehrplan für Linguistik / Allgemeine Sprachwissenschaft, Master

Lehrplan für Linguistik / Allgemeine Sprachwissenschaft, Master Version: 23.01.2017 Lehrplan für Linguistik / Allgemeine Sprachwissenschaft, Master Sommersemester 2017 M o d u l s i g e l n [ASW-M1] Sprachstrukturkurse: 53-985 (Jääsalmi-Krüger, Chantisch) 53-966 (Janurik,

Mehr

Technische Dokumentation: Übersetzungsgerechte Texterstellung und Content-Management. Click here if your download doesn"t start automatically

Technische Dokumentation: Übersetzungsgerechte Texterstellung und Content-Management. Click here if your download doesnt start automatically Technische Dokumentation: Übersetzungsgerechte Texterstellung und Content-Management Click here if your download doesn"t start automatically Technische Dokumentation: Übersetzungsgerechte Texterstellung

Mehr

WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING. Andreas Weiß / Maik Fiedler

WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING. Andreas Weiß / Maik Fiedler WELT DER KINDER BEARBEITUNG GROßER DIGITALER KORPORA MIT TOPIC MODELING Andreas Weiß / Maik Fiedler PROJEKTPARTNER Projekt im Leibniz-Wettbewerb (2014-2017) Georg-Eckert-Institut Welt der Kinder Seite

Mehr

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Neue Erkenntnisse aus unstrukturierten Daten gewinnen Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.

Mehr

Einführung in BioConductor

Einführung in BioConductor Einführung in BioConductor Christian Netzer 03.03.2009 Christian Netzer Fakultät Statistik, TU Dortmund 22. Mai 2009 Seminar Bioinformatik Was ist BioConductor? http://www.bioconductor.org/ BioConductor

Mehr