Gliederung. Morphologische Produktivität Eine diachrone Untersuchung zu -nis. Jana Drescher Stephanie Köhler Bettina Wenzel

Morphologische Produktivität Eine diachrone Untersuchung zu -nis Jana Drescher Stephanie Köhler Bettina Wenzel Gliederung 2. Eine diachrone Untersuchung zur Produktivität der er Nominalisierungen 3. Eigene diachrone Untersuchung zur Produktivität des Suffixes -nis Intuitives Vorverständnis: Produktivität zählt zu den unklarsten Begriffen der Linguistik. (Mayerthaler 1981: 124, z.n. Bauer 2001: 1) (i) (ii) Produktivität ist die Möglichkeit, gemäß den Wortbildungsregeln einer Sprache neue Wörter zu bilden. Produktivität ist eine graduelle Größe. Phänomene: (1) V + er > Leser (2) N + mäßig > fahrplanmäßig (3) A + ling > Hübschling (4) einsam > dreisam () Obrigkeit > Untrigkeit (6) deutlich > deutschlich Produktivität und Kreativität Produktive Prozesse (1-3) sind regelgeleitet. Sie geschehen mit einem geringen Grad an Bewusstheit. Kreative Prozesse (4-6) hingegen sind Resultate intentionaler Akte eines Sprachbenutzers. Ihre Bildungsweise ist analog.

Differenzierte Begriffsbildung von Produktivität Hinsichtlich der Produktivität eines Wortbildungsprozesses werden quantitative und qualitative Aspekte unterschieden: quantitativer Aspekt: Frequenz qualitativer Aspekt: Restriktionen Produktivität und Frequenz Ein Prozess ist umso produktiver, je mehr Formen er hervorbringt. Probleme: Produktivität kann nicht mit Frequenz bewertet werden. Auf der einen Seite gibt es morphologische Prozesse, die produktiv sind, aber nicht viele neue Wörter hervorbringen. Auf der anderen Seite gibt es morphologische Prozesse mit vielen Wortformen, die aber nicht produktiv sind. Die Frequenz ist auch abhängig von der Größe der Klasse möglicher Basismorpheme. Ist diese klein, können auch nur wenige Wörter entstehen, ist sie hingegen groß, können viele Neubildungen entstehen. Dies sagt aber nichts über díe Produktivität des jeweiligen Wortbildungsprozesses. Produktivität und Restriktionen Ein Prozess ist umso produktiver, je weniger Restriktionen es hinsichtlich seiner möglichen Basismorpheme gibt. Mögliche Restriktionen sind u.a.: phonologische Beschränkungen: betreffen die segmentale Beschaffenheit des Basismorphems, seine suprasegmentalen Merkmale oder die Anzahl seiner Silben (z.b. das Suffix -heit kann mit mehrsilbigen Adjektiven nur dann verbunden werden, wenn eine Endbetonung vorliegt wie in Gesamtheit) morphologische Beschränkungen: betreffen die inhärente Struktur oder Klasse der Basis (z.b. kann das Zirkumfix Ge- -e nicht mit Präfixverben verbunden werden: Geschimpfe aber nicht *Gebeschimpfe) syntaktische Beschränkungen: betreffen den Kontext, in dem das Wort gebraucht werden soll, so können die meisten Affixe nur mit bestimmten Wortklassen verbunden werden (z.b. das Suffix bar kann nur mit transitiven Verben verbunden werden wie in lesbar, aber nicht mit intransitiven Verben wie *schlafbar) semantische Beschränkungen: betreffen die inhärente Bedeutung der Basis (z.b. kann das Suffix tum nur mit Nomen verbunden werden, die Personen bezeichnen, z.b. Strebertum)

Probleme: Es ist problematisch, den Begriff der Produktiviät auf die Größe der Anwendungsdomäne einer Regel zu beziehen und anhand von Restriktionen Produktivität zu bewerten. Restriktionen können absolut (ein Affix schließt bestimmte Typen an Basismorphemen aus) wirken. Viele wirken aber nur variable, d.h. ein Affix bevorzugt einen bestimmten Typ an Basismorphemen. Aber: Eine quantitative Analyse kann mit Hilfe einer qualitativen Analyse interpretiert werden. Die klassische Definition von Produktivität We see productivity as a morphological phenomen as the possibility for language users to coin unintentionally an in principle unlimited number of new formations, by using the morphological procedure that lies behind the form-meaning correspondence of some known words. (Schultink 1961: 113, z.n. Lüdeling 2001: 1) Gegenstandsbereich: Precise measurement of word formation productivity thus would not seem to be a realistic goal. (Bolozky 1999: 3, z.n. Bauer 2001: 12) Anhand von Korpora kann nur eine begrenzte Anzahl aktueller Wörter einer bestimmten Form untersucht werden. Das tatsächliche Potential eines Wortbildungsregel lässt sich nicht ermitteln. Die gemessene Produktivität bleibt immer ein Schätzwert. Es werden zwei Arten von Frequenzen gemessen: Type-Frequenz (V): die Anzahl der verschiedenen Wortformen in einem Korpus, wobei jede Form nur einmal zählt Token-Frequenz (N): die Anzahl der Wortformen in einem Korpus, wobei jede Wiederholung einer Form einmal zählt Insgesamt 498 Tokens Type Martinis Tennis 1 Gefängnis 1 Mißverständnis 1 Erkenntnis 1 Investitionshemmnis 1 Wagnis 2 Verzeichnis 2 Befugnis 3 Geheimnis 4 Hindernis Ereignis 6 Bedürfnis 8 Erfordernis 9 Besorgnis 23 Bekenntnis 46 Kenntnis 68 Verständnis 79 Verhältnis 103 Bündnis 114 Ergebnis Insgesamt 19 Types

Die idealen Kurven: Probleme mit Korpusdaten: Eine Korpusabfrage liefert auch Daten, die nicht durch den entsprechenden Wortbildungsprozess gebildet wurden: Komposita: war die Komposition oder die Derivation früher (d.h. ((C + C) + A) oder (C + (C + A)) )? nur beim ersten Typ handelt es sich um eine Neubildung (betrifft nicht nur Komposition) Wörter, die zufällig auf dem gleichen Affix enden (z.b. Balsam) Resultate kreativer Bildungen (z.b. kinobetriebsam) 2. Eine diachrone Untersuchung: Productivity and word formation change Diachrone korpusbasierte Untersuchung von er Nominalisierungen im Deutschen qualitativ und quantitativ - Untersuchte Periode: 17. 20. Jhd. Methode Korpus: Mainzer Zeitungskorpus 1 Million Wortformen in 9 Subkorpora mit je ca. 100 000 Wortformen Messpunkte: 1609, 160, 1700, 170, 1800, 180, 1900, 190, 2000 Voraussetzungen Der -er Wortbildungsprozess Input: Morphologisch simplizische und komplexe Basen aller Kategorien Output: Nomen verschiedener semantischer Konzepte: PERSON (Mittvierziger, Fleischer), OBJEKT (Champagner, Wasserkocher), ABSTRAKT (Seufzer, Einakter)

-er Nomen, Verteilung der semantischen Konzepte vom Ahdt. bis Nhdt. PERSON OBJEKT ABSTRAKT -er Nomen (Types) im Mainzer Zeitungskorpus pro 100 000 Wortformen Ahd. Gut dokumentiert vereinzelte Belege Keine Belege Typen total 1609 161 160 98 1700 174 170 22 1800 236 180 312 1900 36 190 426 2000 61 total 1821 Fnhd. Nhd. (Wellmann 197) Gut dokumentiert 79,1 % einige Belege 13,3 % Erstes Auftreten 3, % PERSON OBJEKT ABSTRAKT 1 1 89 8 0 18 14 1 202 18 4 212 19 288 18 6 298 49 8 36 0 11 00 44 17 170 206 4 -er Nomen: Verteilung der Types -er Nomen: Wachstum der Anzahl der Types Type Martinis Produktivitätsindex P (Baayen 1992) P = V 1 (N)/N P = Wahrscheinlichkeit, mit der neue Formen gebildet werden können N = Tokens V 1 = Hapax Legomena: Types, die nur ein Token haben Tennis 1 Gefängnis 1 Mißverständnis Hapax 1 Erkenntnis 1 Investitionshemmnis 1 Wagnis 2 Verzeichnis 2 Befugnis 3 Geheimnis 4 Hindernis Ereignis 6 Bedürfnis 8 Erfordernis 9 Besorgnis 23 Bekenntnis 46 Kenntnis 68 Verständnis 79 Verhältnis 103 Bündnis 114 Ergebnis

-er Nomen: Produktivität (Potential zur Bildung neuer Formen) Zusammenfassung: Produktivität kann sich diachron ändern Produktivität kann abhängig sein von z.b. semantischen Eigenschaften Wortbildung mit er hat insgesamt an Produktivität gewonnen Zusammenfassung: Zusammenfassung: Anteil der er Nomen, die Personen denotieren, ist diachron gesunken, dennoch ist ihre Anzahl gestiegen das Konzept PERSON repräsentiert heute nach wie vor das Kernkonzept des er Wortbildungsmusters (90 %) Anzahl der er Nomen, die Objekte und Abstrakta denotieren ist kontinuierlich gestiegen seit dem 17. Jhd. Die Konzepte OBJEKT und ABSTRAKT sind heute nach wie vor in der Minderheit, aber deutlich produktiver als das Konzept PERSON. 3. Eigene Untersuchung Diachrone Untersuchung der Produktivität des Suffixes -nis quantitative Untersuchung des Derivationssuffixes nis von 1900-2000 und im MHD Produktivität nicht nur synchron, sondern auch diachron betrachtet Datengrundlage für die Untersuchung: Das digitale Wörterbuch der deutschen Sprache (DWDS) Akademiecorpus Die Mittelhochdeutsche Begriffsdatenbank (MHDBDB)

Das Akademiecorpus Ein Projekt der Berlin-Brandenburgischen Akademie der Wissenschaften Es wurde ein digitales Wörterbuch der deutschen Sprache von 1900 bis 2000 erstellt Ergebnis wird nicht einfach ein gedrucktes Wörterbuch sein, sondern eine recherchierbare lexikographische Datenbank (W. Klein) Zielgruppe: Wissenschaftler, Journalisten, Übersetzer und alle, die sich für Sprache interessieren Ziel: Breite Datengrundlage ausgewogenes Korpus Das Akademiecorpus Kerncorpus 100 Millionen Textwörter, d.h. 10 Millionen pro Dekade Frei zugänglich Problem: Keine ausgewogene Textgrundlage (urheberrechtliche Gründe) Ergänzungscorpus 980 Millionen Textwörter Aus Urheberrechtsgründen ist die Recherche nur im Kerncorpus möglich Vorgehensweise Akademiecorpus Manuelle Aufbereitung Recherche nach Wörtern mit dem Suffix nis für jede Dekade (von 1900-2000) Aus mangelnder Serverkapazität werden leider nur 00 Tokens für jede Dekade angezeigt Notwendig: Manuelle Aufbereitung Manuelle Bereinigung Auszählung der Types Wörter, die nicht das Derivationssuffix nis enthalten (Tennis, Tunis, Mussolinis) Schreibfehler (fängnis, gebnis) Manuelle Aufbereitung Entscheidung, ob durch Komposition oder Derivation ein neues Type entstanden ist oder nicht Wo liegen die Wortgrenzen? Beispiele: Missverstehen + nis Miss + Verhältnis Welt + Verständnis neues Type kein neues Type kein neues Type Mittelhochdeutsche Begriffsdatenbank (MHDBDB) Ermöglicht den Zugriff auf die wichtigsten literarischen Werke der mittelhochdeutschen Dichtung 1992 entstanden aus der Zusammenarbeit der beiden Langzeitprojekte Namen in deutschen literarischen Texten des Mittelalters (Dr. Horst P. Pütz, Universität Kiel) Begriffswörterbuch der mittelhochdeutschen Literatur (Prof. Klaus M. Schmidt, Bowling Green State University, Ohio) Seit 2002 ist das Projekt an der Universität Salzburg Ca. Millionen Textwörter Alle Texte werden lemmatisiert und disambiguiert Datenbank befindet sich noch im Aufbau

Vorgehensweise MHDBDB Komplizierte Recherche Im Mittelhochdeutschen gibt es mehrere Variationen des heutigen Suffixes nis (nis, niß, nus, nuß, nisse, nusse, nüsse) Problem keine einheitliche Recherche möglich, mehrere Suchanfragen sind nötig Die Datenbank ist noch im Aufbau, d.h. dass noch nicht alle Texte komplett lemmatisiert sind Enormer Zeitaufwand für die Recherche Manuelle Aufbereitung Probleme bei der Festlegung und Zuordnung der Tokens zu einem Type Wann ist eine Schreibvariation ein eigener Type? Besonders problematisch, wenn ein Token noch nicht lemmatisiert wurde subjektive Entscheidung Manuelle Aufbereitung Manuelle Aufbereitung Häufigkeit Wort Text Lexer Bedeutung 40 gelîchnisse Lemma gelîchnisse, gelîchnus Gleichheit 1 glichniß PL1; PL3 1 glichniße PL3 (ol) 1 glychniß PL3 (ol) glichnuoß PL3 (ol) 16 glichnuß PL3 1 gelichnus AK 1 glichnisse PL2 Häufigkeit Wort Text Lexer Bedeutung 26 wiltniß Lemma wiltnisse, wiltnis, wiltnüsse, Wildnis wiltnus 21 wiltniß PL3 1 wiltnißen PL3 1 wiltnisse ENE 2 wiltnuß PL3 1 wiltnuoß PL3 24 gewiltni Lemma gewiltnisse Wildnis ß 24 gewiltniß PL3 Darstellung der Ergebnisse Darstellung der Ergebnisse MHD 1900 1910 1920 1930 1940 190 1960 1970 1980 1990 2000 total T 9 41 36 33 9 48 40 38 40 2 19 43 422 H L 28 1 9 7 10 7 7 8 4 10 12 T o 830 490 482 491 48 474 487 462 490 497 498 442 6330 P 0,034 K 0,0 0,03 0,019 0,014 0,02 0,01 0,014 0,017 0,008 0,02 0,01 0,027 MHD 1900 1910 1920 1930 1940 190 1960 1970 1980 1990 2000 total T 9 41 36 33 9 48 40 38 40 2 19 43 422 H 28 1 9 7 10 7 7 8 4 10 12 L T 830 490 482 491 48 474 487 462 490 497 498 442 6330 o P 0,034 K 0,0 0,03 0,019 0,014 0,02 0,01 0,014 0,017 0,008 0,02 0,01 0,027 T= Types, HL= Hapax Legomena, To= Tokens P= HL/Tokens T= Types, HL= Hapax Legomena, To= Tokens P= HL/Tokens

Darstellung der Ergebnisse Darstellung der Ergebnisse MHD 1900 1910 1920 1930 1940 190 1960 1970 1980 1990 2000 total T 9 41 36 33 9 48 40 38 40 2 19 43 422 H 28 1 9 7 10 7 7 8 4 10 12 L T 830 490 482 491 48 474 487 462 490 497 498 442 6330 o P 0,034 K 0,0 0,03 0,019 0,014 0,02 0,01 0,014 0,017 0,008 0,02 0,01 0,027 MHD 1900 1910 1920 1930 1940 190 1960 1970 1980 1990 2000 total T 9 41 36 33 9 48 40 38 40 2 19 43 422 H 28 1 9 7 10 7 7 8 4 10 12 L T 830 490 482 491 48 474 487 462 490 497 498 442 6330 o P 0,034 K 0,0 0,03 0,019 0,014 0,02 0,01 0,014 0,017 0,008 0,02 0,01 0,027 T= Types, HL= Hapax Legomena, To= Tokens P= HL/Tokens T= Types, HL= Hapax Legomena, To= Tokens P= HL/Tokens Type Martinis Tennis 1 Gefängnis 1 Mißverständnis 1 Erkenntnis 1 Investitionshemmnis 1 Wagnis 2 Verzeichnis 2 Befugnis 3 Geheimnis 4 Hindernis Ereignis 6 Bedürfnis 8 Erfordernis 9 Besorgnis 23 Bekenntnis 46 Kenntnis 68 Verständnis 79 Verhältnis 103 Bündnis 114 Ergebnis Keine Derivate Type Martinis Tennis 1 Gefängnis 1 Mißverständnis Hapax 1 Erkenntnis 1 Investitionshemmnis 1 Wagnis 2 Verzeichnis 2 Befugnis 3 Geheimnis 4 Hindernis Ereignis 6 Bedürfnis 8 Erfordernis 9 Besorgnis 23 Bekenntnis 46 Kenntnis 68 Verständnis 79 Verhältnis 103 Bündnis 114 Ergebnis Keine Derivate Insgesamt 498 Type Martinis Tennis 1 Gefängnis 1 Mißverständnis Hapax 1 Erkenntnis 1 Investitionshemmnis 1 Wagnis 2 Verzeichnis 2 Befugnis 3 Geheimnis 4 Hindernis Ereignis 6 Bedürfnis 8 Erfordernis 9 Besorgnis 23 Bekenntnis 46 Kenntnis 68 Verständnis 79 Verhältnis 103 Bündnis 114 Ergebnis Keine Derivate Darstellung der Ergebnisse MHD 1900 1910 1920 1930 1940 190 1960 1970 1980 1990 2000 total T 9 41 36 33 9 48 40 38 40 2 19 43 422 H L 28 1 9 7 10 7 7 8 4 10 12 T 830 490 482 491 48 474 487 462 490 497 498 442 6330 o P 0,034 K 0,0 0,03 0,019 0,014 0,02 0,01 0,014 0,017 0,008 0,02 0,01 0,027 T= Types, HL= Hapax Legomena, To= Tokens P= HL/Tokens

Korrektur des P-Wertes für das Mittelhochdeutsche Graphische Darstellung von Produktivität Insg.: 830 Tokens davon 29 gefengniß (kommt ausschließlich in dentexten PL1, PL2, PL3 vor) Neue bereinigte Berechnung des P-Wertes 28 HL/71 Tokens = 0,049 Gegenüber dem alten P-Wert 28 HL/830 Tokens = 0,034 Häufigkeit 30 2 20 1 10 0 1 2 3 4 6 7 8 9 10 11 Produktivität MHD Graphische Darstellung von Produktivität Graphische Darstellung von Produktivität Häufigkeit 30 2 20 1 10 0 1 2 3 4 6 7 8 9 10 11 Produktivität MHD Produktivität 1990 Häufigkeit 30 2 20 1 10 0 1 2 3 4 6 7 8 9 10 11 Produktivität MHD Produktivität 1900 Produktivität 1990 Graphische Darstellung von Produktivität Probleme Warum unsere Daten nicht repräsentativ sind Häufigkeit 30 2 20 1 10 0 1 2 3 4 6 7 8 9 10 11 Produktivität MHD Produktivität 1900 Produktivität 1990 Produktivität 2000 Unausgewogene Korpora MHDBDB: Nur lit. Texte Akademiecorpus: aus urheberrechtlichen Gründen nicht ausgewogen bei der Recherche keinen Einfluss auf die Sortierung der Texte (Bsp.: Für die letzte Dekade stammen alle 00 Tokens aus Ausgaben der Zeit Jan./Feb 2000) Korpusgröße s ist viel zu gering Schwierigkeiten bei der manuellen Aufbereitung P-Wert ist problematisch zu vergleichen (statistische Gründe)

Darstellung der Ergebnisse Bibliographie Im 20. Jahrhundert ist nis nicht produktiv Im Vergleich könnte man sagen, -nis war im Mittelhochdeutschen produktiver Baayen, R.H. (1992): Quantitative aspects of morphological productivity. In: Yearbook of Morphology 1991. 109-19. Bauer, Laurie (2001): Morphological Productivity. Cambridge. Bolozky, Shmuel (1999): Measuring Productivity in Word Formation. Leiden. Fleischer, Wolfgang / Barz, Irmhild (199): Wortbildung der deutschen Gegenwartssprache. 2. Auflage. Tübingen. Lüdeling, Anke / Evert, Stefan (2001): Measuring morphological productivity: Is automatic preprocessing sufficient? URL:http://www.ims.uni-stuttgart.de/projekte/corplex/paper/evert/EvertLuedeling2001.pdf, 27.1.2004 Lüdeling, Anke / Evert, Stefan (2003): Linguistic experience and productivity: corpus evidence for fine-grained distinctions. URL: http://www2.hu-berlin.de/korpling/mitarbeiter/anke/luedeling-evert-paper.pdf, 27.1.2004 Bibliographie Mayerthaler, Willi (1981): Morphologische Natürlichkeit. Wiesbaden. Plag, Ingo (1999): Morphological Productivity. Structural Constraints in English Derivation. Berlin. (Topics in English Linguistics 28). Scherer, Carmen (2003): Productivity and word formation change. URL: http://www.cogsci.uni-osnabrueck.de/~productivity/talks/scherertalk.pdf, 27.1.2004 Schultink, H. (1961): Produktiviteit als morphologisch fenomeen. In: Forum der Letteren. 110 12. Korpora DWDS URL: http://www.dwds.de/, 27.1.2004 MHDBDB URL: http://mhdbdb.sbg.ac.at:8000/index.de.html, 27.1.2004