Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend von den jeweils spezifischen Fragestellungen und methodischen Voraussetzungendes theoretischen Rahmens der Untersuchung ab., vergl. z.b. die Einschätzung empirischer Daten im Strukturalismus und in der generativen Transformationsgrammatik aus: H. Bußmann: Lexikon der Sprachwissenschaft Korpusgrößen - Wieviele Wörter enthält diese Folie? - Wieviele Wörter enthält eine Zeitung? - Was entspricht einer Million Wörter? - Was wird gezählt? -> Types - Tokens Unterschiedliche Aspekte - Medium - Art der Zusammenstellung - Sprache - Format 1
Druck/Handschrift Korpusmedien 1 - Bestimmte Texte als Grundlage: (z.b. Untersuchungen zum Sprachgebrauch in bestimmten Werken) - Auswahl von mehreren Texten (z.b. nach Autor, Zeit, Thema usw.) - Belegsammlungen auf Karteikarten o.ä. - Beispiel: Käding (1897) Auswertung eines 11 Millionen- Wort-Korpus Elektronischer Text - Satzbänder von gedruckten Werken - Nur-Text-Versionen von gedruckt erschienen Texten (Zeitung, Buch,...) - Texte, die normalerweise nur elektronisch existieren (email, Web-Seiten, Online-Hilfen,...) 2
Korpusmedien 2 gesprochene Sprache - als Soundfile digitalisiert bzw. analoge Aufnahmen - transkribiert - kombiniert Bilder - Bildarchive mit oder ohne Verschlagwortung Video/Film - mit/ohne Verschlagwortung gemischt 3
Zusammenstellung eines Korpus repräsentativ ( balanced ): - das Korpus soll hinsichtlich das gewählte Themengebiet bzw. den gewählten Sprachausschnitt möglichst gut repräsentieren. - Beispiel 1: Sprachdaten werden von möglichst unterschiedlichen Sprechern (Geschlecht, Alter, Herkunft) gesammelt, die Verteilung soll der normalen Verteilung in der Bevölkerung entsprechen. - Beispiel 2: Textdaten werden aus möglichst vielen Gebieten und Genres gesammelt, wobei die Verteilung repräsentativ sein soll. opportunistisch: - alles verfügbare Material wird ins Korpus aufgenommen (auch als Textbank bezeichnet) spezielle Korpora: - Zeitungskorpus oder auch nur Artikel aus best. Sparte - bestimmter Bereich (z.b. nur juristische Texte) - Sprachdaten von einer speziellen Gruppe (Kinder, regional,..) - Zeitausschnitt (Wendekorpus) 4
einsprachig mehrsprachig Sprache des Korpus - paralleles Korpus: die Texte liegen parallel in mehreren Sprachen vor - aligniertes Korpus: sich entsprechende Abschnitte/ Sätze in einem parallelen Korpus sind ausgezeichnet - Muttersprachler / Sprachlerner synchron - es wird nur der aktuelle Sprachzustand dargestellt diachron - die gesamte (oder auf best. Zeitraum beschränkte) Entwicklung der Sprache soll repräsentiert werden Sprachvarianten (isoliert bzw. kontrastiv) - z.b. britisches/ameriakanisches Englisch 5
Annotierung/Mark-Up von Korpora nicht ausgezeichnet - Korpus enthält keine weiteren Informationen Format-Auszeichnung - Abschnittse, Seitenumbruch - Fettdruck, Fontwechsel formale Auszeichnung - identifizierende Information wird ausgezeichnet (Autor, Titel, Verlag,...) inhaltliche/linguistische Auszeichnung - Satzende, Wortart (part of speech Tagging), syntaktische Struktur, Lesarteninformation,... - Korpora, die mit syntaktischen Strukturen annotiert sind, nennt man Treebank 6
Beispiele 1 (englisch) Brown-Korpus (Francis & Kucera) 1961-1. umfangreiches elektronisches Korpus: 1 Mio laufende Wörter - geschriebenes amerikanische Englisch aus dem Jahr 1961-500 versch. Texte mit ca 2000 Wörtern - repräsentativ zusammengestellt aus verschiedenen Genres (Zeitung, Reportagen, Editorials, Memoiren, relig. Texte, Science-Fiction, Krimis) - getaggte Version: 1980 (maschinell getaggt und manuell korrigiert) - SUSANNE = geparste Version des Brown-Korpus (surface and underlying structural analyses of naturalistic English) - bis heute eines der wichtigsten Standard Korpora 7
Beispiele 2 (englisch) Lancaster-Oslo/Bergen Corpus (LOB), 1970 - als britisches Pendant zu Brown gedacht, 1 Mio. Wörter - Textauswahl entspricht Brown - getaggt - Lancaster-Leeds Treebank: 45.000 Wörter von LOB manuell geparst - Lancaster Parsed Corpus: 140.000 Wörter automatsich geparst London-Lund-Corpus (LLC) 1975-500.000 Wörter, transkribierte gesprochene Sprache - Sprecher unterschiedlichen Alters ( in den 60er Jahren gesammelt) British National Corpus (BNC) seit 1992-100 Mio Wörter, gesprochenes und geschriebenes britisches Englisch - vollständig SGML ausgezeichnet (POS) - beteiligt: versch brit. Wörterbuchverlage und Universitäten 8
Beispiele 3 Französisch Trésor de la Langue Française (TLF) - 150 Mio Wörter, 2000 Texte aus versch. Genres und versch. Zeiträumen (von 17 Jh. bis heute) Deutsch Korpora am IDS: - Mannheimer Korpus (8 Mio Wörter, opportunistisch) - Bonner Zeitungskorpus (3 Mio Wörter, 1949-1974) - LIMAS (1,1 Mio Wörter, analog zum Brown Korpus) am CIS vorhanden: - mehrere Gigabyte Textmaterial - teilweise lemmatisiert und SGML-ausgezeichnet - teilweise NP-geparst - nähere Informationen kommen später 9