Sprachressourcen in der Lehre: Erfahrungen, Einsatzszenarien, Nutzerwünsche



Ähnliche Dokumente
Linguisticsweb.org. Ressourcen für die Ausbildung in den Digital Humanities

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung

TextGrid: Eine modulare Plattform für kooperative Textdatenverarbeitung

Tagging von Online-Blogs

Auswertung zu 5510P MES-Praktikum

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Einführung in die Informatik

Einsatz von E-Learning in Vorlesungen und Seminaren

Analyse und Toolevaluierung

Universität Bayreuth Englisch Lehramtsstudium. 1. Nicht-Vertieftes Studium des Faches

Reform der universitären Sprachpraxisausbildung

Sharing Digital Knowledge and Expertise

Modulhandbuch. für den Teilstudiengang. Englisch (Anglistik/Amerikanistik)

E-Business Architekturen

Angewandte Informatik

Event Recognition Engine

Die Online-Self-Assessments der Uni Wien

Modulhandbuch für den Studiengang Informationswissenschaft (Ergänzungsfach)

ECTS - EUROPEAN CREDIT TRANSFER SYSTEM -

BACHELORSTUDIUM (BA) ANGLISTIK UND AMERIKANISTIK

Modularisierung und E-Learning: Das Projekt Informationskompetenz in Baden-Württemberg

und Landeswissenschaften) M 2 Basismodul Fachdidaktik 3 M 1 Basismodul Sprachpraxis 1 4 Summe 72

Studiengang "Lehramt an Gymnasien" Englisch Hauptfach

Lernziele Ablauf Übungsaufgaben Formalitäten. Programmierpraktika. Einführung in das Programmieren und Weiterführendes Programmieren

Kooperatives Forschungsprojekt Online-Brief-Datenbank. Ein Beispiel für disziplinspezifische Anwendungen

Einführung. Dr. A. Götze

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

The Virtual Linguistics Campus (VLC)

Name: Vorname: Matr. Nr.:

Bachelor-Studiengang (B.A.) Anglistik (Hauptfach)

Wahlpflicht Schwerpunkt 6 C Mathe I od. Info I. Wahlpflicht Schwerpunkt 6 C. Wahlpflicht Schwerpunkt 6 C. Wahlpflicht Recht WD III 6 C 6 C WD II 6 C

Übergang vom Diplom zum Bachelor

Master of Science in Psychologie Universität Ulm

Einführung in die Informatik

Bildungsinitiative Schaufenster Elektromobilität Bayern / Sachsen

Modulhandbuch. Master of Arts - Englische Linguistik - ab WS05/06

Master. (Vocationomics) Abschluss: Master of Science (M.Sc.) Professur Berufs- und Wirtschaftspädagogik

PHP Kurs Online Kurs Analysten Programmierer Web PHP

Ergänzungsmodul. Modulnummer. Wirtschaft, Marketing und Medienrecht (A) Modulverantwortlich

Stadt- und Regionalentwicklung

Studiengang Master of Arts (M.A.) Im Fach "Fremdsprache Deutsch/Interkulturelle Germanistik" sind insgesamt 120 ECTS-Punkte zu erwerben.

Die DITA-Entscheidungshilfe der tekom

STUDIENLEITFADEN für das Fach Deutsch (Hauptfach) nach der GymPO I aktualisierte Fassung vom November 2013

Effizientes Dokumenten und Belegmanagement in verteilten maritimen Geschäftsprozessen

Die Hochschule hat in der Fakultät Technologie und Bionik am Campus Kleve zum folgende Position zu besetzen:

Weiterbildungen und Fortbildungen für Hochschulangehörige

Der Patient im Mittelpunkt: Interprofessionelle Ausbildung und Zusammenarbeit gestalten und entwickeln

Wahlmodul MI-IT-Workshop

Studiengang Landschaftsarchitektur Berufsschullehrerausbildung Garten und Landschaftsbau. Hochschule RheinMain Prof. Klaus Werk

1 Anwendbarkeit des Allgemeinen Teils der Prüfungsordnung

Lernergebnisorientierte Bedarfsanalyse in der wissenschaftlichen IT-Weiterbildung

Wir suchen ab sofort eine(n) weitere(n): IT-Projektmanager (m/w) Ihre Aufgabe:

Universität Bayreuth Englisch Lehramtsstudium. 1. Vertieftes Studium des Faches

BERUFS- UND WIRTSCHAFTSPÄDAGOGIK (VOCATIONOMICS)

Einführung in die Informatik II

Studien- und Prüfungsleistungen

Semantik Visualisierung

Evaluationsergebnisse: 'Einführung in die formale Spezifikation von Software' (ws0809) - Bernhard Beckert

IT-gestützte Verfahren in der Archäologie: Erfahrungen mit e-learning-kursen an der Universität Zürich

Terminologie- und Wissensmanagement für Dolmetscher

Studiengang Angewandte Informatik Master-AI. Institut für Neuroinformatik

Modulhandbuch B.A. Frankocom Nebenfach Deutsch als Fremdsprache. - Allgemeiner Teil -

Masterstudiengang Medientechnologie (M.SC.)

Institut für Wirtschafts- und Sozialgeschichte Georg-August-Universität Göttingen. der Wirtschafts- und Sozialgeschichte

Seminar aus dem Bereich E-Learning

Praktikant Personalentwicklung/-auswahl im Themenfeld Automobilhandel (m/w)

Georg-August-Universität Göttingen

Beiblatt Bachelor Translationswissenschaft 1 von 14. Betrifft:

VLADISLAVA ARABADZHIEVA

wissenschaftliche Ausbildung, die eine Grundlage für ein weit gefächertes berufliches Tätigkeitsspektrum darstellt.

Studien- und Prüfungsordnung für Bachelor- Studiengänge der Hochschule Aalen - Technik und Wirtschaft vom 4. Juni 2007

Projekte verwalten mit TextGrid

Richtlinie für das Praktikum im Masterstudiengang Linguistik: Kognition und Kommunikation 1 Allgemeines (1) Der Masterstudiengang Linguistik:

Neueste Fassung der Studienordnung für den Studiengang Primarstufe mit dem Schwerpunktfach Englisch (Entwurf)

System Center Essentials 2010

Rheinische Friedrich-Wilhelms-Universität Bonn. Master of Science (M.Sc.) im Studiengang Klinische Medizintechnik

Ergänzungsmodul. V.a. Modulnummer

Individuelles Bachelorstudium. Software Engineering for Physics

Studien- und Prüfungsordnung für Master- Studiengänge der Hochschule Aalen - Technik und Wirtschaft vom 2. Juni 2006

B.A.-MODULBESCHREIBUNGEN GERMANISTIK: SPRACH- UND KULTURWISSENSCHAFT. GSp-1.1 MODULNUMMER MODULNAME VERANTWORTLICHE DOZENTINNEN/ DOZENTEN

2. Installation unter Windows 8.1 mit Internetexplorer 11.0

27 Master-Studiengang Höheres Lehramt an beruflichen Schulen in Informatik und BWL/VWL

Modulhandbuch Masterstudiengang Theaterpädagogik (Ergänzungsfach) Universität Siegen Philosophische Fakultät. (Stand: )

5 SHK-Stellen im Projekt KomBiA - Kompetenzbilanzierung für ältere Arbeitnehmerinnen und Arbeitnehmer

Studienordnung für die Lehramtsstudiengänge an der Humboldt-Universität zu Berlin

Einsatz von Berufsorientierungsvideos und Online-Assessment-Verfahren im Mittelstand

virtuos Zentrum für Informationsmanagement und virtuelle Lehre Nutzung und Produktion von PmWiki-Lernmodulen in Stud.IP

Online-Prüfungen in der Fremdsprachenausbildung. Probleme und Perspektiven

Datenmanagement und einfache Automatisierungen in Ingenieursanwendungen mit dem DataFinder Eike Hoffmann 5. April 2006 Frankfurt a.m.

Sprachen und Kulturen studieren an der Universität Würzburg

Universitätslehrgang. Kommunikation. in Interpersonal Communication (MSc)

Doppelwahlpflichtfach Sozialkunde im Rahmen der Ausbildung zum Diplom-Handelslehrer (= "Wirtschaftspädagogik")

. Syntaktische und semantische Annotation frühneuhochdeutscher Hexenverhörprotokolle. Fabian Barteld

PD Dr. Sybille Große - Lehrveranstaltungen. SoSe 2011 Universität Potsdam. WS 2010/2011 Universität Leipzig. SoSe 2010 Universität Leipzig

Studiengang Service Engineering an der Staatliche Studienakademie Leipzig in Kooperation mit Bilfinger Industrial Services

PCC Outlook Integration Installationsleitfaden

Studium für das Lehramt an Grundschulen Bachelor/Master of Education (ab WS 2007/08)

geändert durch Satzungen vom 28. Februar September November März Februar Juni 2015

Transkript:

D-SPIN workshop Dr. Sabine Bartsch (Januar 2011) Sprachressourcen in der Lehre: Erfahrungen, Einsatzszenarien, Nutzerwünsche Prototypen und Processing Chains: Werkzeuge und Kompetenzen für die linguistische Sprachverarbeitung Sabine Bartsch Technische Universität Darmstadt Institut für Sprach- und Literaturwissenschaft URI: http://www.linglit.tu-darmstadt.de E-Mail: {lastname}@linglit.tu-darmstadt.de Sprachressourcen in der Lehre 18. Januar 2011 BBAW, Berlin

Rahmenbedingungen Studiengänge Zielkompetenzen und Erwartungshorizont Verwendete Sprachressourcen Lehre und F & L Transfer Erfahrungen und Lehren Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 2

Studiengänge & Zielgruppen Promotion Master of Arts Linguistic & Literary Computing Master of Science Informatik Anwendungsfach Engl. Linguistik Bachelor of Arts Studiengänge anderer Universitäten (Philologie oder verwandt) Joint Bachelor of Arts Anglistik, Germanistik (Philologie plus weiteres Fach z.b. Informatik) Bachelor of Science Studiengänge (Informatik o.ä.) Philologen Ingenieure Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 3

1. Sem. 2. Sem. 3. Sem. 4. Sem. 5. Sem. 6. Sem. Sprachpraxis Englisch Optionalbereich Bachelor of Arts Anglistik Studienprogramm 180 CP Bachelor Thesis: Corpusbasierte Projekte (Bachelor Thesis) Corpusbasierte Seminare: Registerlinguistik Textanalyse Genre Corpuslinguistik Hauptseminar Übung Basismodul Sprachwissenschaft Einführungsvorlesung Proseminare Dr. Sabine Bartsch (Januar 2011) Genre und Erzähltheorie Basismodul Literaturwissenschaft Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 4

Zielkompetenzen: Bachelor of Arts Corpusbasierte Seminare Corpuslinguistik: Lexis, Grammatik, Diskurs Basismodul Sprachwissenschaft Corpusbasierte Seminare (Kookkurrenzphänomene, Registerlinguistik, Diskursphänomene) Anwendung corpuslinguistischer Fertigkeiten Corpusstatistik (Frequenzen, statistische Verfahren) Corpusabfrage Frequenzanalyse (Häufigkeitsverteilung, Kookkurrenz) Automatische und manuelle Annotation Tokenisierung, lx MWA, Satzerkennung Corpora und Corpuskodierung Empirische Methoden Händische Analysen Sprachsystem und Sprachtheorie Grundlagen der Sprachwissenschaft Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 5

Verteilung auf Lernergruppen Bachelor of Arts Anglistik Corpora: Standardcorpora: British National Corpus, BROWN, LOB, FROWN, FLOB; eigene Corpora, z.b. aus Texten des Oxford Text Archive Annotation: Automatische Annotation: Tokenizer, POS tagger, Parser; Manuelle Annotation stand-alone Werkzeuge Query: Frequenz, Konkordanz, lexikalische / grammatische Muster Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 6

Studentische Projekte Kollokationen in literarischen Texten am Bsp. der Werke von Charles Dickens Basis: Bestehendes Corpus, Kollokationsstatistik Statistische Kollokationsanalyse: Kollokationen von Begriffen aus dem Bereich der Körpermerkmale der zentralen und peripheren Protagonisten Charakterisierung flacher vs. runder Charaktere Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 7

Studentische Projekte Vergleichende Analyse amerikanischer und russischer Präsidentenreden des frühen 21. Jh. Vergleichscorpora: Nutzung des bestehenden Darmstädter ObamaSpeeches Corpus plus Aufbau und Annotation eines eigenen Vergleichscorpus russischer Präsidentenreden Problematik: Umgang mit anderen Alphabetsystemen und Kodierungen Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 8

Studentische Projekte Multimodale Analyse von Werbeartefakten aus der Kosmetikbranche (Printwerbung und YouTube) Corpusaufbau: Printwerbung und YouTube Channels der Firmen Transkription und Annotation mit automatischen Werkzeugen und Exmaralda Auswertung von Unterschieden zwischen Produktlinien und Firmen (Interpersonale Relationen, Lexiko-Grammatik, Pseudowissenschaftlicher Jargon Nanosomen-Komplex ) Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 9

Herausforderungen Linguistische Fragestellungen Operationalisierung Auswahl, Aufbau und Benutzung geeigneter Ressourcen (Corpora, Annotation, Query) Basale technische Fertigkeiten aufbauen Vorurteile über Technologie abbauen Betreuung und Beratung bei Installation Begleitung und Beratung der Projekte Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 10

Ziele im philologischen Bachelor Verständnis für linguistische Fragestellungen und deren Operationalisierung Auswahl geeigneter Daten und Werkzeuge Verständnis für den Aufbau der Daten Sicherer Umgang mit linguistischen Ressourcen Abfolge von Werkzeugen (Tokenisierung Tagging usw.) Notwendige Schritte zur Aufbereitung von Daten zur Annotation Geeignete Query-Szenarien und -Techniken einplanen Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 11

Master of Arts Linguistic & Literary Computing 120 CP Master Thesis C.3 Projekt Corpus- & Computerlinguistik oder Computerphilologie 6 CP 24 CP 1. Sem. 2. Sem. 3. Sem. 4. Sem. C.2 Computerphilologie 15 CP C.1 Corpus- & Computer- Dr. linguistik Sabine Bartsch (Januar 2011) 15 CP B English Language Proficiency 6 CP D Allgemeine Informatik III 5 CP D Allgemeine Informatik II 5 CP A.1 Sprachwissenschaft 12 CP A.2 Literaturwissenschaft 12 CP D Allgemeine Informatik I 5 CP Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 12

Studiengänge & Zielgruppen Promotion Master of Arts Linguistic & Literary Computing Master of Science Informatik Anwendungsfach Engl. Linguistik Bachelor of Arts Studiengänge (Philologie oder verwandt) Joint Bachelor of Arts Anglistik, Germanistik (Philologie plus weiteres Fach z.b. Informatik) Bachelor of Science Studiengänge (Informatik o.ä.) Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 13

Zielkompetenzen: Master of Arts Linguistic & Literary Computing Informatik Einführung in die Allgemeine Informatik Java Programmierung NLTK (NLP mit Python) (in der Erprobung) Corpus- und Computerlinguistische / Computerphilologische Seminare Computeranwendungen in der Linguistik Sprachwissenschaft Registerlinguistik / Diskurslingustik Corpora und probabilistische Verfahren Computerphilologie (Edition, Lexikographie) XML-Familie (XML, XSLT; TEI) Anwendungen (Annotation, MT, IR/IE, Diskursorganis.) Ressourcenaufbau Techniken und Werkzeuge Fortgeschrittene Annotationsaufgaben Sprachsystem und Sprachtheorie Empirische Methoden Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 14

Verteilung auf Lernergruppen MA Linguistic & Literary Computing MSc Informatik, Anwendungsfach Engl. Linguistik Corpora: Annotation: Komplexere Annotation: Query: Standardcorpora plus Aufbau eigener Corpora, z.b. Obama Speeches Corpus, Literarische Corpora abstraktere Phänomene Diskursphänomene, z.b. (semi-)automatische Annotation von Kohäsion oder Thema-Rhema Processing chains, Pipelines; roll-your-own ; Multilayer Annotation (Exmaralda, MMAX2, TEI) Erweiterte Kenntnisse, multilayer Query (Exmaralda, MMAX2) auch Programmierung mit Python & NLTK, XSLT Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 15

Studentische Projekte Automatically detecting gender allocation in A.L. Kennedy s Failing to fall Formulierung von operationalisierbaren Kriterien für die Genderzuordnung der Protagonisten Aufbau des Corpus und Annotation geeigneter Merkmale Auswertung und Visualisierung der Merkmale (mit xslt) Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 16

Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 17

Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 18

Studentische Projekte ObamaSpeechesCorpus Aufbereitung: Html Plain text XML GATE DataStore POS, Parsing, RST, Kohäsion Software: Little Cohesion Helper Werkzeug, das auf Basis von NLTK, WordNet und MMAX2 lexikalische Kohäsion automatisch annotiert und manuell nachbearbeitbar macht Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 19

Zielkompetenzen im Master LLC Entwicklung eigener Workflows Entwicklung von Spezifikationen und Prototypen (LLC-Studenten) Fähigkeit zum Aufbau eigener Sprachressourcen Durchführung gemeinsamer Seminarprojekte und ggf. Publikation Bsp.: Theme-Annotator (Schwarz et al. 2008), LittleCohesionHelper (Tragl & Weck 2009) plus Obama Speeches Corpus (Bartsch et al. 2009) Gemischte Gruppen: LLC und Informatiker Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 20

Vorteile der gemischten Gruppe Zusammenführung unterschiedlicher Ausgangskompetenzen Einüben von gegenseitigem Verständnis Interdisziplinäre Kommunikationsfähigkeit Simulation der Teamstruktur in Forschungsprojekten (Linguisten / Philologen plus Informatiker) Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 21

Eingesetzte Sprachressourcen Textcorpora Abfragewerkzeuge Annotationswerkzeuge Processing Pipelines Anforderungen Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 22

TEXTCORPORA Verwendete Sprachressourcen Monolinguale Corpora (BNC, ICAME corpora, ICE International Corpora of English etc.) Multilinguale Corpora Textarchive (OTA, Project Gutenberg) Elektronische Editionen und Wörterbücher Corpuscompilation Corpuskodierung (Unicode etc.) XML-Familie und Standards (XML, XSLT; TEI) für strukturierte Textressourcen und Metadaten Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 23

ABFRAGEWERKZEUGE Verwendete Sprachressourcen Webinterfaces (Mark Davies s Corpus interfaces) Stand-alone Konkordanzprogramme IMS Open Corpus Workbench mit CorpusWeb (eigenes Interface für Corpusabfragen mit CQP) ANNIS2 (Corpusimport nicht trivial) Plain text Abfragen Abfragen über annotierte Corpora Baumbankabfragen (Tregex, TigerSearch) Abfragen über multilayer Annotationen Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 24

Eigenes IMS Open CWB Interface Bereitstellung Copyrightgeschützter Corpora Didaktische Unterstützung beim Erlernen einer Abfragesprache designed for corpus query Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 25

Corpusauswahl Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 26

Simple query Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 27

Advanced query Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 28

Advanced query Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 29

Customized query Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 30

ANNOTATIONSWERKZEUGE Verwendete Sprachressourcen Automatische Annotationswerkzeuge POS Tagger (TreeTagger, Stanford POS) Syntaktische Parser (Stanford Parser) Diskursannotation (OpenNLP Tools, eigenes automatisches Kohäsionsannotationswerkzeug) Manuelle Annotationswerkzeuge Systemic Coder / RST Tool Multilayer Annotation (Exmaralda, UAM Corpus Tool, MMAX2) TextGrid-Werkzeuge (Edition, Text-Bild) Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 31

PROCESSINGPIPELINES Verwendete Sprachressourcen Integrierte Toolchains / kompatibele Werkzeuge Stanford NLP Tools OpenNLP Tools, LingPipe GATE (ANNIE) / UIMA und Eclipse TextGrid Kompatibele, kombinierbare Werkzeugsets Einheitliche Programmierung / Annotation / Ein- und Ausgabeformate Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 32

ANFORDERUNGEN Verwendete Sprachressourcen Fachwissenschaftlich Linguistische Fragestellungen Linguistische Theorien Methoden Corpuslinguistik Daten in der Linguistik Corpora, Werkzeuge, Herangehensweisen Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 33

ANFORDERUNGEN Verwendete Sprachressourcen Ressourcen (Werkzeuge / Daten) Plattformunabhängig Frei verfügbar Lokal installierbar, extern zugänglich Kompatibele Formate Werkzeuge zur Formattransformation Ressourcen (Institutionell) Technische Ressourcen an den Universitäten und universitätsübergreifend Lehrressourcen durch erhöhten Aufwand (andere Lehrformen, zeitlicher Aufwand) Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 34

Portal mit Materialien, Corpora, Query-Interface über E-Learning Plattform und auf eigenen Servern designed for corpus query Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 35 Sabine Bartsch (01-2011)

Erfahrungen und Lehren Philologische Fragestellungen vor Werkzeugen Frühes Kennenlernen empirischer Methoden an kleinen, manuell annotierten Corpora Freie Zugänglichkeit der Werkzeuge und Daten (im CIP-Pool und von ausserhalb der Universität) Volltextzugang zu allen Ressourcen Erhöhter Aufwand pro Lehrveranstaltung Gemischte Gruppen aus Linguisten / Philologen und Informatikern führen oft weiter Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 36

Erwartungen und Wünsche Handling (Lehrende / Studierende) Wartbarkeit: Installation und Service Nachhaltigkeit: Wiederverwendbarkeit, gesicherte Verfügbarkeit von Software und Daten Zugänglichkeit: Lösungen für Copyright / Lizenzgebühren / Plattformunabhängigkeit Dokumentation / How-tos, Tutorials / Papers Ausbau der Lehrressourcen in der Methodenausbildung (institutionell, technisch und personell) in den digital humanities Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 37

Referenzen Bartsch et al. 2009. ObamaSpeeches.com: Building and Processing a Corpus of Political Speeches. A student project. Poster im Rahmen eines Workshops zum Thema: Processing Pipelines im Rahmen der Jahrestagung der GSCL (Gesellschaft für Sprachtechnologie und Computerlinguistik). Studentisches Projekt von Sabine Bartsch, Christoph Tragl, Claudio Weck, Stefania Degaetano, Tomasz Grubba, Nina Petrychka, David Sullivan. Universität Potsdam, 29. Sept. 2. Okt. 2009. Schwarz et al. 2008. "Theme Annotator: A rule-based approach to automatic Theme-Rheme identification", mit Lara Schwarz, Richard Eckart, Elke Teich. Proceedings of the 9th Conference on Natural Language Processing (KONVENS 2008). Berlin, New York: Mouton de Gruyter. Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 38

Tools Stanford NLP: http://nlp.stanford.edu/ OpenNLP Tools: http://incubator.apache.org/opennlp/ LingPipe: http://alias-i.com/lingpipe/ GATE: http://gate.ac.uk/ Apache UIMA: http://uima.apache.org/ TextGrid: http://www.textgrid.de/ NLTK: http://www.nltk.org/ TreeTagger: http://www.ims.uni-stuttgart.de/projekte/ corplex/treetagger/decisiontreetagger.html Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 39

Manual annotation tools Exmaralda: http://www.exmaralda.org/ MMAX2: http://mmax2.sourceforge.net/ RST Tool: http://www.wagsoft.com/rsttool/ UAM Corpus Tool: http://www.wagsoft.com/corpustool/ Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 40

Query ANNIS 2: http://www.sfb632.uni-potsdam.de/d1/annis/ Concordancer for Windows: http://www.linglit.tudarmstadt.de/index.php?id=linguistics IMS Open Corpus Workbench mit CorpusWeb: http://cwb.sourceforge.net/ WordSmith Tools: http://www.lexically.net/wordsmith/ Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 41

Corpora and other resources British National Corpus: http://www.natcorp.ox.ac.uk/ Brown corpus: http://icame.uib.no/brown/bcm.html LOB corpus: http://khnt.hit.uib.no/icame/manuals/lob/index.htm Mark Davies Concordance View: http://corpus.byu.edu/ WordNet: http://wordnet.princeton.edu/ Sabine Bartsch TU Darmstadt Institut für Sprach- und Literaturwissenschaft D-SPIN Sprachressourcen in der Lehre 42