Korpus. Was ist ein Korpus?

Ähnliche Dokumente
Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Korpora in NLTK Vortrag im Seminar Computerlinguis6sche Textanalyse WS 2014/15 (B- GSW- 12, M- GSW- 09)

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

NLP Eigenschaften von Text

Part-of-Speech- Tagging

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Inhaltsverzeichnis. Vorwort 5

Elementare statistische Methoden

Verfügbare Deutsche Korpora (gesprochene und geschriebene Texte)

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken

Quantitative Linguistik 2 WS 2004/05,

Bachelorarbeit: Aufbau eines Sprachkorpus zur Programmierung autonomer Roboter mittels natürlicher Sprache

1 Grundlagen zur Arbeit mit Text

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Korpuslinguistik Grundlagen Korpora

Syntaktische Tendenzen der Gegenwartssprache

Das elektronische Zeitalter des Informationsangebotes Datenbanken E-journals E-books

Seminar. NoSQL Datenbank Technologien. Michaela Rindt - Christopher Pietsch. Richtlinien Ausarbeitung (15. November 2015)

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

Narrative Kompetenz in der Fremdsprache Englisch

Modulhandbuch Masterstudiengang Sprachwissenschaft: Deutsch, Englisch, Romanische Sprachen. Universität Siegen Philosophische Fakultät.

Kapitel 1: Einführung. Was ist Informatik? Begriff und Grundprobleme der Informatik. Abschnitt 1.1 in Küchlin/Weber: Einführung in die Informatik

Aufbau des Experiments Reihung von Versuchsitems und Distraktoren

Linguistische Forschungsdaten

Tipps für die Seminararbeit - Englisch -

Zwischen fristgerechter und verspäteter Einschulung

Diskurslinguistik Theorien und Methoden der transtextuellen Sprachanalyse

Neuerungen Oktober 2011

Aufgaben aus Kegli 2 (Korpuslinguistik)

Daten Methoden Theorien Datentypen - Erhebungsverfahren

Das Buch im Medienportfolio. Mediennutzungstypen unter Berücksichtigung des Buches in Deutschland, Österreich und der Schweiz

Die elektronischen Dokumentationen im Institut für Ethik und Geschichte der Medizin in Tübingen

Das Internet als Instrument der Unternehmenskommunikation unter besonderer Berücksichtigung der Investor Relations

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

MÜNDLICHKEIT UND SCHRIFTLICHKEIT IN

Automatisches Übersetzen von Gebärdensprache

Kontinuität, Erosion und Innovation des Italienischen im Migrationskontext

ordnet.dk und elexiko ein Vergleich Jörg Asmussen Gesellschaft für dänische Sprache und Literatur, DSL

Jan Strunk

Arten und Typen von Grammatiken

Was Kinder lesen: Kognitive Konsequenzen und pädagogische Herausforderungen. Sascha Schroeder Sascha Schroeder

Grammatik im engen Sinn: Grammatik = Syntax Von syntaxis = Zusammenordnung.

Sprachdaten sammeln und auswerten

Korpus Beratungsgespräche (BG--)

Wie mobil sind E Books?

Thema: Erklär mir die Liebe (Sehnsucht und Liebe)

Die Auswirkungen der englischsprachigen Hochschullehre in Deutschland auf das Deutschlernen in China

Aussprache und Musik

Hellmut Riediger Recherchieren: Grundsätze und Grundbegriffe. Online-Wörterbücher und -Lexika

Elektronisches Publizieren

Staatsexamen Lehramt an Grundschulen Englisch

1 Part-of-Speech Tagging

Konkordanzen aus dem Bonner Frühneuhochdeutschkorpus exportieren

Zeitung als Zeichen. Identität und Mediennutzung nationaler Minderheiten in Deutschland. Bearbeitet von Swea Starke

Pädagogische Hochschule Heidelberg - FB II - Fach Englisch Fachinterne Meldung zur mündlichen Prüfung im Frühjahr/Herbst 20...

2. Einfach drauf los schreiben

linguistischer und literaturwissenschaftlicher Perspektive

Wie Bilder «entstehen» Eigenschaften und Entwicklung [Band 1] Dieter Maurer Claudia Riboni

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Einführung in die portugiesische Sprachwissenschaft

Scherzkommunikation unter Jugendlichen

GYMNASIUM HORN-BAD MEINBERG

Lineare (Un-)Gleichungen und lineare Optimierung

Epistemische Modalität

Tutorial: Automatische Textannotation mit WebLicht

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Proseminar Linguistische Annotation

"Deutsch heute" Sprachaufnahmen im Projekt "Variation des gesprochenen Deutsch"

Empathie und historisches Lernen

Psychosoziale Beratung im Kontext von pränataler Diagnostik

WebApps - Einführung (Daten)

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Die Recherche nach wissenschaftlicher Literatur. Max Winter

Einführung in die Computerlinguistik

Schreiben in Unterrichtswerken

Untersuchungsarten im quantitativen Paradigma

Die Aufarbeitung und Analyse der Daten in Lernerkorpora

KAPITEL I EINLEITUNG

Bewerbung um die Professur für

Einsatz und Rückzug an Schulen Engagement und Disengagement bei Lehrern, Schulleitern und Schülern

Richtlinien und Hinweise für. Seminararbeiten

ANLAGEN- INVENTUR [ Version 2.0 ]

Das Geheimnis der Kunst. Elektronische (Voll)texte für die Kunstgeschichte

Wortarten und Korpus

Ihre Regionale Lebenshilfezeitung. Stand: Juli Herausgeber Lebenshilfe NRW, Landesverband, Orts- und Kreisvereinigungen

Preis Auszeichnung. Baden-Württemberg. für Berichterstattung über soziale Themen Euro dotiert. Journalisten

A Verlag im Internet

Transkript:

Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend von den jeweils spezifischen Fragestellungen und methodischen Voraussetzungendes theoretischen Rahmens der Untersuchung ab., vergl. z.b. die Einschätzung empirischer Daten im Strukturalismus und in der generativen Transformationsgrammatik aus: H. Bußmann: Lexikon der Sprachwissenschaft Korpusgrößen - Wieviele Wörter enthält diese Folie? - Wieviele Wörter enthält eine Zeitung? - Was entspricht einer Million Wörter? - Was wird gezählt? -> Types - Tokens Unterschiedliche Aspekte - Medium - Art der Zusammenstellung - Sprache - Format 1

Druck/Handschrift Korpusmedien 1 - Bestimmte Texte als Grundlage: (z.b. Untersuchungen zum Sprachgebrauch in bestimmten Werken) - Auswahl von mehreren Texten (z.b. nach Autor, Zeit, Thema usw.) - Belegsammlungen auf Karteikarten o.ä. - Beispiel: Käding (1897) Auswertung eines 11 Millionen- Wort-Korpus Elektronischer Text - Satzbänder von gedruckten Werken - Nur-Text-Versionen von gedruckt erschienen Texten (Zeitung, Buch,...) - Texte, die normalerweise nur elektronisch existieren (email, Web-Seiten, Online-Hilfen,...) 2

Korpusmedien 2 gesprochene Sprache - als Soundfile digitalisiert bzw. analoge Aufnahmen - transkribiert - kombiniert Bilder - Bildarchive mit oder ohne Verschlagwortung Video/Film - mit/ohne Verschlagwortung gemischt 3

Zusammenstellung eines Korpus repräsentativ ( balanced ): - das Korpus soll hinsichtlich das gewählte Themengebiet bzw. den gewählten Sprachausschnitt möglichst gut repräsentieren. - Beispiel 1: Sprachdaten werden von möglichst unterschiedlichen Sprechern (Geschlecht, Alter, Herkunft) gesammelt, die Verteilung soll der normalen Verteilung in der Bevölkerung entsprechen. - Beispiel 2: Textdaten werden aus möglichst vielen Gebieten und Genres gesammelt, wobei die Verteilung repräsentativ sein soll. opportunistisch: - alles verfügbare Material wird ins Korpus aufgenommen (auch als Textbank bezeichnet) spezielle Korpora: - Zeitungskorpus oder auch nur Artikel aus best. Sparte - bestimmter Bereich (z.b. nur juristische Texte) - Sprachdaten von einer speziellen Gruppe (Kinder, regional,..) - Zeitausschnitt (Wendekorpus) 4

einsprachig mehrsprachig Sprache des Korpus - paralleles Korpus: die Texte liegen parallel in mehreren Sprachen vor - aligniertes Korpus: sich entsprechende Abschnitte/ Sätze in einem parallelen Korpus sind ausgezeichnet - Muttersprachler / Sprachlerner synchron - es wird nur der aktuelle Sprachzustand dargestellt diachron - die gesamte (oder auf best. Zeitraum beschränkte) Entwicklung der Sprache soll repräsentiert werden Sprachvarianten (isoliert bzw. kontrastiv) - z.b. britisches/ameriakanisches Englisch 5

Annotierung/Mark-Up von Korpora nicht ausgezeichnet - Korpus enthält keine weiteren Informationen Format-Auszeichnung - Abschnittse, Seitenumbruch - Fettdruck, Fontwechsel formale Auszeichnung - identifizierende Information wird ausgezeichnet (Autor, Titel, Verlag,...) inhaltliche/linguistische Auszeichnung - Satzende, Wortart (part of speech Tagging), syntaktische Struktur, Lesarteninformation,... - Korpora, die mit syntaktischen Strukturen annotiert sind, nennt man Treebank 6

Beispiele 1 (englisch) Brown-Korpus (Francis & Kucera) 1961-1. umfangreiches elektronisches Korpus: 1 Mio laufende Wörter - geschriebenes amerikanische Englisch aus dem Jahr 1961-500 versch. Texte mit ca 2000 Wörtern - repräsentativ zusammengestellt aus verschiedenen Genres (Zeitung, Reportagen, Editorials, Memoiren, relig. Texte, Science-Fiction, Krimis) - getaggte Version: 1980 (maschinell getaggt und manuell korrigiert) - SUSANNE = geparste Version des Brown-Korpus (surface and underlying structural analyses of naturalistic English) - bis heute eines der wichtigsten Standard Korpora 7

Beispiele 2 (englisch) Lancaster-Oslo/Bergen Corpus (LOB), 1970 - als britisches Pendant zu Brown gedacht, 1 Mio. Wörter - Textauswahl entspricht Brown - getaggt - Lancaster-Leeds Treebank: 45.000 Wörter von LOB manuell geparst - Lancaster Parsed Corpus: 140.000 Wörter automatsich geparst London-Lund-Corpus (LLC) 1975-500.000 Wörter, transkribierte gesprochene Sprache - Sprecher unterschiedlichen Alters ( in den 60er Jahren gesammelt) British National Corpus (BNC) seit 1992-100 Mio Wörter, gesprochenes und geschriebenes britisches Englisch - vollständig SGML ausgezeichnet (POS) - beteiligt: versch brit. Wörterbuchverlage und Universitäten 8

Beispiele 3 Französisch Trésor de la Langue Française (TLF) - 150 Mio Wörter, 2000 Texte aus versch. Genres und versch. Zeiträumen (von 17 Jh. bis heute) Deutsch Korpora am IDS: - Mannheimer Korpus (8 Mio Wörter, opportunistisch) - Bonner Zeitungskorpus (3 Mio Wörter, 1949-1974) - LIMAS (1,1 Mio Wörter, analog zum Brown Korpus) am CIS vorhanden: - mehrere Gigabyte Textmaterial - teilweise lemmatisiert und SGML-ausgezeichnet - teilweise NP-geparst - nähere Informationen kommen später 9