Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe

Größe: px

Ab Seite anzeigen:

Download "Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe"

Ewald Dirk Stieber
vor 6 Jahren
Abrufe

1 Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe Institut für Angewandte Informationswissenschaft Definitionen Korpus das, 1. Belegsammlung von Texten oder Schriften [aus dem Mittelalter oder der Antike]. 2. einer wissenschaftlichen [Sprach]analyse zugrunde liegendes Material, repräsentative Sprachprobe. (Fremdwörterlexikon/Duden) 1

2 Definitionen Corpus [Pl. Corpora; lat. corpus >Körper<]. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwi. Untersuch-ungen dienen. Stellenwert und Beschaffenheit des C. hängen weitgehend von den je spezifischen Frage-stellungen und methodischen Vorraussetzungen des theoretischen Rahmens der Untersuchung ab, wie sich z.b. an der unterschiedlichen Einschätzung empirischer Daten im Strukturalismus und in der generativen Transformationsgrammatik zeigt. (Lexikon der Sprachwissenschaft, Hadumod Bußmann): Definitionen A corpus is a collection of naturallyoccuring language text, chosen to characterize a state or variety of language. (John Sinclair, Entwickler von BOE) 2

3 Kritik an Korpora Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. (Chomsky 1962, zitiert nach McEnery 1996, S. 8) Traditionelle Korpora Erstellung des Oxford English Dictionary auf Hilfe von Freiwilligen basierende Korpuserstellung von 1858 bis zur Fertigstellung des Lexikons im Jahre 1928 wurden über vier Millionen Zitatstellen gesammelt 3

4 Traditionelle Korpora 3. Ausgabe von Webster`s New International Dictionary systematisches Lesen von Zeitungen, Zeitschriften und Büchern durch professionelle Lexikographen seit 1936 dadurch Erhöhung von 1,6 Millionen auf 4,5 Millionen Belegbeispiele bis zur 1961 erschienenen dritten Ausgabe HEUTE Auswerten und Durchsuchen von Korpusdaten mit Hilfe moderner Computer Verwendung im Bereich der Lexikographie unverzichtbar 4

5 Erste Computerkorpora Brown Corpus Erstes Korpus für die Benutzung mit einem Rechnersystem 1964 an der Brown University (USA) erstellt Brown Corpus 500 Texte aus 15 Genres ca Wörter je Text 1 Million Wörter: Maximum bei damaliger Computertechnologie und verfügbaren Geldmitteln 5

6 LOB Corpus Lancaster Oslo Bergen Corpus 1978 fertiggestellt basierend auf der Komposition des Brown Corpus konzipiert als britisches Gegenstück Texte der gleichen Genres aus dem gleichen Zeitraum ermöglichte den direkten Vergleich zwischen britischem und amerikanischem Englisch LIMAS Korpus In Deutschland: 1970 an der Universität Bonn erstellt entspricht in Textanzahl- und Umfang dem Brown Corpus enthält jedoch Texte aus 33 Themengebieten bislang einziges balanciertes Korpus deutscher Sprache 6

7 Erste Computerkorpora unter heutigen Gesichtspunkten relativ kleine Korpora Aber: heute noch häufige Verwendung in der Forschung Grund: zuverlässige Datenbasis, durch zahlreiche Forschungsarbeiten analysiert und annotiert Neue Möglichkeiten Trend zu empirischen Methoden der automatischen Spracherkennung und verarbeitung in der Computerlinguistik ermöglicht durch die Verfügbarkeit sehr großer Korpora natürlicher Sprache 7

8 Wichtige Aspekte Wiederverwendbarkeit bereits bestehender Korpora Entwicklung neuer Korpora Kooperative Infrastruktur zum Sammeln, Erhalten und Verbreiten von Korpora Repräsentativität bezeichnet die Auswahl der Texte Gesamtmenge möglicher Texte eines Korpus wird im voraus bestimmt Repräsentative Zufallsauswahl (sampling frame) 8

9 Balanciertheit bezeichnet die Art der Gesamtzusammenstellung des Korpus möglichst viele Textformen- und Sorten sowie unterschiedliche Sprachvarianten in einer vorher bestimmten Anzahl Balance zwischen den verschiedenen Kategorien Repräsentativität und Balanciertheit Laut Sinclair: balanciertes, repräsentatives Korpus = general corpus Abbildung allgemeiner Verwendung von Sprache Berücksichtigung von Spezial- und Fachsprache nur in dem Maße wie diese Variante auch im Alltag wiederzufinden ist 9

10 Balancierte Korpora Beispiele für balancierte Korpora: BNC LIMAS Brown Corpus Spezialkorpora Korpora, die bewußt nur einen bestimmten Teil oder eine bestimmte Kategorie einer Sprache abbilden, und somit auch nur für diesen bestimmten Sprach- oder Texttyp repräsentativ sind 10

11 Spezialkorpora Beispiele: Goethe-Korpus (IDS in Mannheim) Grimm-Korpus (IDS) Marx-Engels-Korpus (IDS) CLUE-Medizin-Korpus (Uni Erlangen) Fortschritt in der Computertechnik Speicherung immer größerer Textmengen Heute: Korpora umfassen mehrere 100 Millionen Wörter 11

12 Nutzen von Korpora Analyse natürlicher Sprache linguistischer Phänomene Training von statistischen Modellen zur automatischen Spracherkennung werden. automatische Erstellung von Lexika Berechnung häufiger Kollokationen Untersuchung von Frequenzverteilungen Verbesserung und Entwicklung von Programmen zur Prüfung von Rechtschreibung, Grammatik, automatischer Silbentrennung Multilinguale Textverarbeitungsprogramme Große Korpora BOE (Bank Of English) BNC (British National Corpus) IDS-Korpora (Institut für Deutsche Sprache) TIGER-Korpus (IMS Stuttgart) 12

13 BOE (Bank Of English) Umfangreichstes Korpus englischer Sprache Fertigstellung 1991 von COBUILD unter der Leitung von John Sinclair Ständige Erweiterung des Datenbestandes Januar 2002: 450 Mio. laufende Wortformen BNC (British National Corpus) Fertigstellung 1994 durch eine Gruppe von Wörterbuchverlagen (OUP, Longman, Chambers-Larousse) und akademischen Forschungszentren (Unis, British Library) Balanciertes Korpus mit 100 Mio. Wörter Samples mit max Wörtern Zugriffssystem SARA 13

14 IDS-Korpora Umfangreichste Sammlung deutscher Korpora am Institut für Deutsche Sprache in Mannheim Gesamtumfang: Mio. Textwörter Hauptsächlich Spezialkorpora (außer z.b. LIMAS) Zugriffssystem COSMAS Spezielle Verarbeitung von großen Korpora Standard-Tools zur Textverarbeitung reichen für solche Datenmengen nicht aus Notwendigkeit der Speicherung in einer Datenbank Spezielle Anforderungen beim Verarbeiten und Speichern von Korpustexten- und Analysen Entwicklung spezieller Systeme für Korpora 14

15 Zugriffssysteme SARA (SGML-Aware-Retrieval-Application) CORSICA (`Corpus storage and interactive retrieval') IMS Corpus Workbench COSMAS (Corpus Storage, Maintenance and Access System) CORSICA 15

16 Korpusannotationen Hinzufügung von Informationen zu einem Korpus Meistens linguistische Analysen der Korpusdaten: Analyse der Wortklasse über Morphologie und Syntax Semantische Analyse Einordnung in semantische Datenbanken Positionelle Attribute Position Wort pos. Attr. 1 pos. Attr pos. Attr. i n wort(0) pos_attr_1(0) pos_attr_2(0)... pos_attr_i(0) wort(1) pos_attr_1(1) pos_attr_2(1)... pos_attr_i(1) wort(n) pos_attr_1(n) pos_attr_2(n)... pos_attr_i(n) 16

17 Positionelle Attribute Lemma = Speicherung der Grundform einer jeden Wortform Tag = Zuordnung einer grammatischen Kategorie Positionelle Attribute Word Wordtag Lemma Parse Field I PPIS1 I [S[Nea:s.Nea:s] suspected VVDt suspect [Vd.Vd] why RRQq why [Fn?:o[Rq:c.Rq:c] he PPHS1m he [Nas:s.Nas:s] brought VVDt bring [Vd.Vd] it PPH1 it Auszug aus dem [Ni:o.Ni:o] SUSANNE-Korpus (Sampson 1995) along RL along [R:p.R:p]Fn?:o]S] 17

18 Tagging 2 Phasen des Tagging: 1. Tag-Zuordnung: Jeder Wortform wird eine Anzahl von möglichen Tags zugeordnet 2. Tag-Disambiguierung: Die in Phase 1 zugeordneten Tags werden disamibguiert, so dass ein eindeutig getaggtes Korpus entsteht. Disambiguierung Mehrdeutige Tag-Sequenz: he can can a can ProN Mod Mod Det Mod Nn Nn Nn Vb Vb Vb 18

19 Disambiguierung Disambiguierte Tag-Sequenz: he can can a can ProN Mod Vb Det Nn TAGGER TAGGIT (Brown Corpus) ENCGG Tagger (BOE) CLAWS (LOB, BNC) 19

20 Parsing Syntaktische Einheiten zusammenfassen und Abhängigkeiten voneinander bestimmen Syntaktisch analysierte Korpora treebanks: Analyse der Sätze beruht auf Syntaxbaum Kodierung Kodierung der Korpustexte für Einheitlichkeit Internationaler Standard: SGML (Standard Generalized Markup Language) Sammlung von Richtlinien zur Kodierung von Text: TEI (Text Encoding Initiative) 20

21 Tokenisierung Token = Einheit des Textes Tokenisierung = Ermittlung der Einheiten eines Textes, Bestimmung der Wortgrenzen Zukunft von Korpora Große Textdatenbanken Benutzer definieren Korpus für ihre Zwecke selbst 21

22 Literatur Zierl, Marco (1997): Entwicklung und Implementierung eines Datenbanksystems zur Speicherung und Verarbeitung von Textkorpora. Erlangen-Nürnberg. Cole, R. (ed.) (1998): Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. Bußmann, Hadumod. Lexikon der Sprachwissenschaft. 2., völlig neu bearbeitete Auflage. Stuttgart: Kröner (= Kröners Taschenausgabe Bd. 452) Links BOE IDS / COSMAS I BNC TIGER KURA Spider Korpus 22

Ähnliche Dokumente

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend