Grapheme und Laute des Russischen: Zwei Ebenen ein Häufigkeitsmodell? Re-Analyse einer Untersuchung von A.M. Peškovskij

Ähnliche Dokumente
з ъ з Ц Д ж Б Ц Д с Ю Ю р Б я ы Ю с я ъ з Я з ъ я Е э з Ю Ц Ц з ш Ц э Ю ш ж у ж Б я Х з з

Ё ж с ж Б Ю- ё Ю Ц Д Ю И ъ М ш. ж у ж Б я щ Н ъ М ш ъ з с ж Б Ц з Д ж Д. з ч... ч ч Ю Ц Ю с я

з Г я з щ Ё ё

( ж Б ч я ъ з Я, ъ т щ з Я, Б я ъ Х з Я, Ё )

Ukrainisch für Anfänger und Fortgeschrittene

Merkblatt zur russischen Aussprache

Erza-Mordwinisch München,

Graphemhäufigkeiten (Am Beispiel des Russischen)

Liebe Freunde der russischen Sprache!

Graphemhäufigkeiten im Ukrainischen Teil I: Ohne Apostroph (')

Deutsch-Weißrussischer Sprachführer

Häufigkeiten von Buchstaben / Graphemen / Phonemen: Konvergenzen des Rangierungsverhaltens

Wortlänge und Vokal-/Konsonantenhäufgkeit: Evidenz aus slowenischen, makedonischen, tschechischen und r ussischen Par alleltexten

а

Orthographie der Russischen Sprache. Präsentiert von: Olga Gedsun Seminar: Slawische Sprachen

DAS WORT. Germanistisches Jahrbuch Russland. Editorial

Lesen Sie nun den vollständigen Artikel über das kyrillische Alphabet.

1 3Planungshandbuch Dampfkessel. Dampfkessel

а

Cursus Johanneum. Nachmittagsangebote. im Schuljahr 2017 / 2018 Gymnasium Johanneum Wadersloh

Ich will nach Russland

Häufigkeiten von Buchstaben / Graphemen / Phonemen: Konvergenzen des Rangierungsverhaltens

: Bosch Industriekessel GmbH, Nürnberger Str. 73, D Gunzenhausen

Emmerich Kelih (Graz)

Emmerich Kelih (Graz)

Formale Hinweise zur Gestaltung von Hausarbeiten und BA-/MA-Arbeiten auf dem Gebiet der Slawistik

Entlehnungen und Fremdwörter: Quantitative Aspekte

nein нет Gibt es Medikamente, die Sie auf keinen Fall erhalten dürfen? Haben Sie Allergien gegen Medikamente?

Phoneminventar Phonotaktik Silbenstruktur in slawischen Sprachen

Wortlänge: Ein Charakteristikum von individueller Autorschaft und/oder von Texttyp?

Was leisten Phoneminventare in den slawischen Sprachen?

Inhaltliche und formale Hinweise zum Verfassen einer wissenschaftlichen Hausarbeit (auch Bachelor- und Masterarbeiten)

Il classico in prima persona.

Sprachführer Deutsch - Ukrainisch - Russisch

Hinweise zum wissenschaftlichen Arbeiten (Hausarbeiten/Seminararbeiten, Bachelorarbeiten, Masterarbeiten)

Quantitative Linguistik 2 WS 2004/05,

Allgemeine Hinweise. Transliteration und Transkription

Hinweise zur Erstellung schriftlicher Arbeiten am Fachbereich für Slawistik

Anhang A: Wie findet man Orte in Osteuropa?

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Здра вствуйте! Guten Tag!

Selektivität der Lösungsmittel in flüssigen Modellsystemen 1-Hexen Benzol Lösungsmittel. IL Selektivität der wasserhaltigen Lösungsmittel

Вы говори те по-ру сски? Sprechen Sie Russisch? A Ч А Ш К А Г Ш Ч С Б B А Х Ж Я Ч И С Л О У C Й А Ш К А Я З Ы К Т D Н П И В О Б Л И Н Ы

Auswahl von Schätzfunktionen

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Komplexität sprachlicher Formen. Die Singh-Poisson-Verteilung: ein Modell in der Wortlängenforschung?

SEBASTIAN KEMPGEN WORTARTEN ALS KLASSIFIKATORI- SCHES PROBLEM DER DESKRIPTIVEN GRAMMATIK.

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesentests mit SPSS

Cox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells

Grundlegende Eigenschaften von Punktschätzern

Massnahmen im Mahnverfahren in Bezug auf das Zahlverhalten der Kunden

Bachelorarbeit. Was ist zu tun?

ZUR DIVERSIFIKATION DEUTSCHER HEXAMETER

Prтsens Aktiv,

Teil: lineare Regression

Wortlänge und Vokal-/Konsonantenhäufigkeit: Evidenz aus slowenischen, makedonischen, tschechischen und russischen Paralleltexten

Jungen mögen nur Abenteuergeschichten?! Interessensunterschiede im Lesen zwischen Mädchen und Jungen

Hinweise zur Erstellung schriftlicher Arbeiten am Fachbereich Slawistik

Inhalt. Fördernde Mitglieder stellen sich vor

Стиральная машина WAY28790EU

Ц fiapple *

Zum Analytismus und Synthetismus in slawischen Sprachen

Statistische Tests (Signifikanztests)

MATHEMATISCHE STATISTIK

Station 1 Das Galtonbrett, Realmodelle

Teil III - Baustein Soziales Lernen - Seite 1. lesebaustein zueinanderreisen DEUTSCH BIOLOGIE. Soziales Lernen. Hilfe, die verbindet

(7)

: (812)

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Eine zweidimensionale Stichprobe

AUSSPRACHEREGELN FÜR DAS BULGARISCHE IM SPRACHSYNTHESESYSTEM FESTIVAL

Dynamische Modelle für chronische psychische Störungen

Aufgaben zu Kapitel 9

Methoden der qualitativen und quantitativen Inhaltsanalyse

SCHUTZ VON INNOVATIONEN ÜBER GESCHÄFTSGEHEIMNISSE UND PATENTE: BESTIMMUNGSFAKTOREN FÜR UNTERNEHMEN IN DER EUROPÄISCHEN UNION ZUSAMMENFASSUNG

Germanistische Linguistik

KORREKTURANLEITUNGEN zum Testheft A2

Alternative Darstellung des 2-Stcihprobentests für Anteile

Gerd Flaig Martin Hoffmann Siggi Langauf Stefan Tichy. Internet-Telefonie. VoIP mit Asterisk und SER. 2., aktualisierte und erweiterte Auflage

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Univ.-Prof. Dr. Georg Wydra Methoden der Physiotherapie II Elemente einer empirischen Arbeit

Aufgaben zu Kapitel 9

Auf der Suche nach dem Praktischen im Urteilen.

Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte

1. Einführung in die induktive Statistik

Forschungsstatistik I

Oberstufe (11, 12, 13)

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner /

Anpassungstests VORGEHENSWEISE

1 Einleitung. Heute weiß man von allem den Preis, von nichts den Wert. Oscar Wilde

Mathematik für Naturwissenschaftler II SS 2010

1. Inhaltsverzeichnis. 2. Abbildungsverzeichnis

Parametrische vs. Non-Parametrische Testverfahren

und Fallstudien innovativer Unternehmen

Die Hausarbeit ein kleiner Leitfaden

Aussprache, Intonation und Schreibregeln

Transkript:

Grapheme und Laute des Russischen: Zwei Ebenen ein Häufigkeitsmodell? Re-Analyse einer Untersuchung von A.M. Peškovskij Emmerich Kelih 1 Einleitung Die vorliegende Untersuchung ist ein Beitrag zur statistischen Modellierung russischer Graphem- und Lauthäufigkeiten. Als Untersuchungsbasis werden Daten zur Lautfrequenz im Russischen von Peškovskij (1925) herangezogen und zu den entsprechenden Graphemhäufigkeiten in Bezug gesetzt. Damit sollen diese in dieser Form bislang nicht analysierten Daten in die aktuelle Erforschung von theoretischen Rangverteilungen für Graphem- und Lauthäufigkeiten integriert werden. Vor der eigentlichen Untersuchung ist jedoch ein kurzer Überblick über aktuelle Arbeiten zur statistischen Modellierung slawischer Graphemhäufigkeiten geboten. In einer methodologisch und wissenschaftsgeschichtlich ausgerichteten Studie zu russischen Graphemhäufigkeiten konnte gezeigt werden dass technische informationstheoretische u.ä. Aspekte im Zentrum des Interesses standen und nur zum Teil linguistische und systemtheoretische Fragestellungen behandelt wurden (vgl. Grzybek & Kelih 2003a). Eine eingehende Diskussion der Problematik der Modellierung von Graphemhäufigkeiten in Grzybek Kelih & Altmann (2004) führte sodann zu einer Verallgemeinerung von Rangverteilungen im Sinne des synergetischen Ansatzes von Wimmer & Altmann (2005 2006). In Anbetracht einer zuvor nicht systematisch durchgeführten Modellierung russischer Graphemhäufigkeiten wurden sodann folgende Modelle einer empirischen Untersuchung unterzogen: 1 a. Zipf (zeta)-verteilung b. Zipf-Mandelbrot-Verteilung c. geometrische Verteilung d. Good-Verteilung e. neg. hypergeometrische Verteilung f. Whitworth-Verteilung Die Adäquatheit dieser Modelle wurde in Grzybek Kelih & Altmann (2004) für das Russische in 38 Texten unterschiedlicher Länge überprüft; 1. In weiteren noch nicht publizierten Untersuchungen wurden der Systematik halber dann auch noch die Waring- und Estoup-Verteilung in Betracht gezogen.

268 Emmerich Kelih um den Faktor Texthomogenität angemessen zu berücksichtigen wurden Texte aus unterschiedlichen Funktionalstilen Textausschnitte Textkumulierungen und ein (sich aus diesen Texten zusammensetzendes) Gesamtkorpus als Datenbasis gewählt. Dabei wird von einem Inventarumfang von 32 russischen Graphemen 2 ausgegangen. Im Ergebnis zeigte sich u.a. dass in der quantitativen Linguistik bekannte Rangverteilungen wie etwa die Zeta- Verteilung die Zipf-Mandelbrot-Verteilung die geometrische Verteilung und die Good-Verteilung die russischen Graphemhäufigkeiten nicht zufriedenstellend modellieren. Als zwei geeignete Modelle erwiesen sich hingegen die negative hypergeometrische Verteilung (NHG) und die Whitworth-Verteilung (ein Spezialfall der partial summierten negativen hypergeometrischen Verteilung vgl. dazu Grzybek Kelih & Altmann (2004: 37). Im Anschluss an diese Befunde wurden weitere slawische Sprachen untersucht und zwar jeweils 30 unterschiedlich lange Texte aus je sechs Textsorten. In Grzybek Kelih & Altmann (2005ab) stellte sich für slowakische Graphemhäufigkeiten als einziges Modell die (NHG) als geeignet heraus; dieser Befund ist vor allem deshalb bemerkenswert da dieses Modell sowohl bei Annahme eines Inventarsystems von 43 als auch von 46 Graphemen (wobei die Graphemkombinationen dz dž und ch als selbstständige Grapheme gezählt werden) Gültigkeit hat. In weiteren Untersuchungen zum Ukrainischen und Slowenischen (vgl. Grzybek & Kelih 2003b 2005a) stellte sich ebenfalls die NHG als einzig valides Modell heraus. Damit können bislang die Graphemhäufigkeiten in vier slawischen Sprachen durch ein gemeinsames Modell erfasst werden. 3 Gegenwärtig wird neben der Ausweitung auf weitere slawische Sprachen vor allem die Frage diskutiert inwiefern die Parameter der NHG einer Interpretation zugeführt werden können: In einer explorativen Studie (vgl. Grzybek & Kelih 2006) konnte für die Parameter K und M für den Parameter K eine direkte Abhängigkeit vom Inventarumfang N festgestellt werden und für den Parameter K eine indirekte Abhängigkeit (gegeben durch eine direkte Abhängigkeit des Parameters K von M). In der vorliegenden Untersuchung werden weitere russische Daten untersucht. Über die oben angesprochenen Fragen hinausgehend sollen dabei allerdings neben den Graphem- auch die Lauthäufigkeiten aus ein und denselben 2. Dieses Grapheminventar ergibt sich wenn das Graphem ё wie in der derzeitigen Praxis nicht unüblich nicht als eigenständige Einheit aufgefasst sondern als e notiert wird. Zu systematischen Untersuchungen dieser Frage s. Grzybek & Kelih (2005d). 3. Für die slawischen Sprachen ist mit dem Slowenischen (N = 25) und Slowakischen (N = 43 bzw. N = 46) minimales und maximales Grapheminventar abgedeckt.

Grapheme und Laute des Russischen 269 Text-Stichproben analysiert werden. Eine Leitfrage ist es dabei ob und inwiefern sich im Russischen bei der Modellierung von Lauthäufigkeiten Konvergenzen und Divergenzen im Vergleich zu den Graphemen ergeben. Anlass zu der Vermutung von modelltheoretischen Konvergenzen gibt eine Re- Analyse von Graphem- und Phonem-Daten aus Altmann & Lehfeldt (1980) die Grzybek & Kelih (2005b) durchgeführt haben. Dort konnte gezeigt werden dass die für die 63 Sprachen berechneten Entropien und Wiederholungsraten von Graphem- und Phonemhäufigkeiten in Abhängigkeit vom Inventarumfang stehen. Dieser Zusammenhang kann mit einer nichtlinearen Funktion beschrieben werden wobei die Regressionskoeffizienten für Graphem- und Phonemhäufigkeiten keine statistisch signifikanten Unterschiede aufwiesen. 2 Re-Analyse der Daten von A.M. Peškovskij Ausgangspunkt der vorliegenden Studie bildet die Arbeit des russischen Linguisten A.M. Peškovskij (1878 1933) mit dem Titel Десять тысяч звуков [= Zehntausend Laute] (Peškovskij 1925). Den Hintergrund dieser Studie bildete die Fragestellung inwiefern auf der Lautebene ein linguistisch nachweisbarer Unterschied zwischen Vers- und Prosatexten 4 festzustellen ist. Möglicherweise vorhandene Unterschiede versuchte Peškovskij auf eine objektive Basis zu stellen wobei er zu diesem Zwecke die Häufigkeit von Lauten in der russischen mündlichen Umgangssprache bestimmte. Für die Auswertung wurden phonetisch transkribierte Phrasen von öffentlichen Gesprächen (Unterhaltungen in Bahnhöfen Zügen u.ä.) und einzelne Übungsbeispiele aus einem Lehrbuch zur russischen Syntax herangezogen. Dabei ging er von einem Inventar von 28 Lauten aus dessen geringer Umfang sich wohl durch das von Peškovskij verfolgte Prinzip der absichtlichen Annäherung bzw. Einfachheit der phonetischen Transkription erklären lässt. Der Stichprobenumfang dieser Phrasen beträgt insgesamt 10 000 Laute wobei Peškovskij diese Gesamtstichprobe für die weitere Untersuchung in Teilstichproben von je 1000 Lauten untergegliederte die somit im Grunde genommen als Zufallsstichproben aufgefasst werden können. 4. A.M. Peškovskij selbst war ein Vertreter der Moskauer Fortunatov-Schule und stand später in einem Nahverhältnis zum Russischen Formalismus. Im Zusammenhang mit der Vers-Prosa-Diskussion der zwanziger Jahre (vgl. Peškovskij 1924) verweist dieser auf die Notwendigkeit einer phonetischen und syntaktischen Untersuchung dieses Problems.

270 Emmerich Kelih Die Häufigkeiten der Laute wurden von Peškovskij dahingehend interpretiert dass sich bei Gruppierung der Laute nach Vokalen und Konsonanten ein relativ stabiler Anteil ergibt. In diesem Befund sah er nicht nur den Nachweis der Gültigkeit des Gesetzes der Großen Zahlen sondern auch die Bestätigung für einen zufriedenstellenden Stichprobenumfang. Abgesehen von einer detaillierten linguistischen Kommentierung der Ergebnisse höhere Frequenz von Vokalen im Vergleich zu Konsonanten Unterschiede bei betonten und betonten Vokalen u.ä. verwies Peškovskij (1925: 177) in einer Randbemerkung darauf dass die ihrer Häufigkeit nach geordneten Vorkommnisse eine konstant abfallende Reihe darstellten in der jede Häufigkeit von der jeweils vorangehenden nur geringfügig unterscheidet. Damit erkannte Peškovskij der allerdings diese Frage nicht weiter verfolgte die Bedeutung von Rangverteilungen für linguistische Untersuchungen. An dieser Stelle setzt die vorliegende Re-Analyse der Studie von Peškovskij ein: Zum einen sind die Daten zur Lauthäufigkeit (prozentueller Anteil) für die zehn Teilstichproben angeführt zum anderen finden sich die jeweiligen Texte in der für das Russische üblichen Orthographie. Damit lassen sich für diese Texte nachträglich auch die Graphemhäufigkeiten bestimmen. Die von Peškovskij selbst erhobenen Lauthäufigkeiten und die von uns nachträglich berechneten Graphem-Häufigkeiten sind Ausgangspunkt für die Diskussion folgender Fragen: 1. Eignen sich die Gesamtstichprobe und Teilstichproben gleichermaßen für die statistische Modellierung? 2. Gelten für Zufallsstichproben die gleichen Gesetzmäßigkeiten (Rangverteilungs-Modelle) wie für abgeschlossene Texte und Textmischungen größeren Umfangs? (a) Gelten für Lauthäufigkeiten die gleichen Gesetzmäßigkeiten wie für Graphemhäufigkeiten? (b) Welche Bedeutung hat der Inventarumfang von 32 Graphemen vs. 28 Lauten? 2.1 Empirische Überprüfung von Graphemhäufigkeiten In einem ersten Schritt sollen die Graphemhäufigkeiten untersucht werden für die bereits konkrete Modelle in Betracht gezogen werden können: Ausgehend von einem Inventar von 32 Buchstaben wird in den bei Peškovskij

Grapheme und Laute des Russischen 271 (1925: 185ff.) abgedruckten 10 Texten die Graphemhäufigkeiten bestimmt. Des weiteren wird ein Gesamtkorpus aus allen 10 Texten gebildet (vgl. in den Tabellen 1 4 jeweils die Stichprobe #11) dessen Umfang 10 005 Grapheme beträgt (für die einzelnen Stichproben liegt er zwischen 943 und 1 020; vgl. Tabelle 3 S. 277). Nach einer Transformation der Rohdaten in eine Ranghäufigkeit werden die in der Einleitung angeführten Verteilungsmodelle darauf hin überprüft ob sie für die hier untersuchten Graphemhäufigkeiten in Frage kommen. Als Grad der Güte der Übereinstimmung von empirischen mit den theoretischen Werten wird der Diskrepanz-Koeffizient C = χ 2 /N verwendet wie dies bei größeren Stichproben 5 üblich ist. Werte von C 0.02 werden als gute Übereinstimmung zwischen Modell und empirischer Verteilung interpretiert. Erstes Ergebnis ist dass sowohl die Zeta-Verteilung als auch die Good- Verteilung für die hier untersuchten Daten gänzlich ungeeignet ist. In keiner einzigen Stichprobe kann ein C 0.02 festgestellt werden. 6 Demgegenüber ergibt sich für die Zipf-Mandelbrot-Verteilung die ja über 3 Parameter verfügt zumindest partiell eine annähernd akzeptable Anpassung: die Ergebnisse bewegen sich im Intervall von 0.0776 C 0.02420 wobei dabei in genau fünf Stichproben der C-Wert knapp etwas über C = 0.02 liegt. Ein ähnliches Ergebnis stellt sich für die geometrische Verteilung ein: bei einer Stichprobe (# 7) ist C 0.02 für alle anderen Stichproben liegt C knapp an der Signifikanzschwelle. Insgesamt ergibt sich damit für diese Verteilungen kein überzeugendes Resultat. Im Vergleich dazu zeigen die letzten beiden überprüften Modelle ein recht eindeutiges Ergebnis: für die NHG bewegt sich C im Intervall von 0.0258 C 0.0078; hier ergibt sich für acht Stichproben ein C 0.02 in den restlichen 3 Fällen liegt C knapp oberhalb dieser Grenze (vgl. Tabelle 2). Ebenfalls geeignet ist die Whitworth-Verteilung die in neun Stichproben (vgl. Tabelle 1) passend ist (C 0.02) und bei zwei Stichproben ebenfalls knapp an der Signifikanzschwelle ist. Damit sind beide Modelle als gleichermaßen gut für die Modellierung der untersuchten Stichproben wobei wie bereits erwähnt die Whitworth-Verteilung einen Spezialfall der partial summierten 5. Die Frage ab welchem Stichprobenumfang die Überschreitungswahrscheinlichkeit P des errechneten χ 2 -Wertes bzw. der C-Wert zu verwenden wäre ist nicht geklärt. Im vorliegenden Fall erweist sich die Interpretation der C-Werte als sinnvoll da eine direkte Vergleichbarkeit mit den Ergebnissen bisheriger Untersuchungen gewährleistet ist. 6. In Fällen wo keinerlei zufriedenstellende Anpassungen festgestellt werden können wird auf eine Präsentation der Parameter und der C-Werte aus Platzgründen verzichtet

272 Emmerich Kelih NHG darstellt; diese erwies sich bislang nur für das Russische bei einem Inventarumfang von 32 Graphemen als geeignet. Tabelle 1: Parameter und Anpassungsergebnisse für 10 Stichproben und Gesamtkorpus (Grapheme) Neg. Hypergeometrisch n = 31 Withworth R = 32 # K M χ 2 27 C χ 2 30 C 1 3.1364 0.8188 12.17 0.0122 16.97 0.0170 2 3.0647 0.7810 13.52 0.0134 12.95 0.0129 3 3.0252 0.7667 9.57 0.0095 8.97 0.0089 4 3.2059 0.7981 11.65 0.0117 15.05 0.0151 5 3.1666 0.7657 25.88 0.0258 22.46 0.0224 6 3.1884 0.8248 9.89 0.0098 15.98 0.0158 7 3.0058 0.7729 8.75 0.0093 9.82 0.0104 8 3.1545 0.8028 14.57 0.0143 15.30 0.015 9 3.1555 0.7862 20.90 0.0206 19.43 0.0192 10 3.0053 0.7592 24.22 0.0241 22.66 0.0225 11 3.1060 0.7917 78.33 0.0078 78.01 0.0078 Resümierend fügen sich die Ergebnisse zur NHG und zur Whitworth-Verteilung in das Bild bisheriger Untersuchungen russischer Graphemhäufigkeiten ein (vgl. Grzybek Kelih & Altmann 2004). Die teilweise Relevanz der Zipf-Mandelbrot-Verteilung und der geometrischen Verteilung bzw. die Tatsache dass in einzelnen Stichproben C 0.02 sollte hier nicht überinterpretiert werden. Insgesamt erweist sich somit die NHG als geeignet für die Modellierung der Graphemhäufigkeiten der Zufallsstichproben. Dabei ist auch in Erinnerung zu rufen dass die Gültigkeit dieses Modells bislang ja bereits für über 120 Texte in vier slawischen Sprachen nachgewiesen werden konnte. 2.2 Empirische Überprüfung von Lauthäufigkeiten Nach diesem ersten Ergebnis sind als nächstes analog zum obigen Vorgehen die Lauthäufigkeiten zu untersuchen. Zu diesem Zweck werden die in Peškovskij (1925) in Prozentzahlen angegeben Lauthäufigkeiten in absolute Häufigkeiten transformiert (vgl. Tabelle 4 S. 278). 7 7. Aufgrund der ungenaueren Prozentangaben ergibt sich bei der Transformation für Stichprobe #6 ein Umfang von 999 Lauten; entsprechend ist die Länge des Gesamtkorpus (Stichprobe #11) auf 9 999 Laute zu korrigieren.

Grapheme und Laute des Russischen 273 Das Ergebnis zur Modellierung der Lauthäufigkeiten stellt sich folgendermaßen dar: die gestutzte Zeta-Verteilung die Zipf-Mandelbrot-Verteilung die geometrische und die Good-Verteilung sind für die hier untersuchten Lauthäufigkeiten kein geeignetes Modell. In keinem einzigem Fall ist C 0.02. Demgegenüber erweist sich jedoch für die NHG ein recht eindeutiges Ergebnis: In 11 Stichproben ergibt sich C 0.02 (vgl. Tabelle 2) wobei dieses für fünf Stichproben sogar unter 0.01 liegt. Die Whitworth-Verteilung die ja bei der Untersuchung der Graphemhäufigkeiten durchaus gepasst hatte ist für die Modellierung von Lauthäufigkeiten gänzlich auszuschließen da in keinem Fall die Signifikanzschwelle unterschritten wird. Tabelle 2: Parameter und Anpassungsergebnisse der NHG (n = 29) an 10 Stichproben und Gesamtkorpus (Laute) # K M χ 2 25 C 1 2.4019 0.7735 9.78 0.0098 2 2.4821 0.7434 10.19 0.0102 3 2.5983 0.8037 13.35 0.0134 4 2.6377 0.7670 16.11 0.0161 5 2.4610 0.7430 9.20 0.0092 6 2.6633 0.8073 5.37 0.0054 7 2.5517 0.7572 8.22 0.0082 8 2.3959 0.7416 7.49 0.0075 9 2.5441 0.7646 9.39 0.0094 10 2.6605 0.8209 12.70 0.0127 11 2.4375 0.7551 99.65 0.0100 Hinsichtlich der Modellierung der hier untersuchten Lauthäufigkeiten ergibt sich nunmehr ein recht eindeutiges Ergebnis. Während bei der Anpassung der Graphemhäufigkeiten neben der NHG teilweise auch andere Modelle ins Spiel kamen kommt für die Lauthäufigkeiten nur ein einziges Modell in Frage: Es ist dies die NHG. Damit lassen sich die Ergebnisse der Anpassungen sowohl der Graphem- als auch Lauthäufigkeiten zusammenzuführen. Eine vergleichende Darstellung der jeweiligen C-Werte zeigt dass mit Ausnahme von drei Stichproben bei der Modellierung der Graphemhäufigkeiten die knapp an der Signifikanzschwelle liegen die NHG für beide Sprachebenen durchgehend als passend anzusehen ist (vgl. Abbildung 1). Damit ist für die Stichproben aus Peškovskij (1925) eine Konvergenz von Graphem- und Lauthäufigkeit hinsichtlich ihrer stochastischen Struktur festzustellen.

274 Emmerich Kelih 005 004 Grapheme - Laute C-Wert 003 002 - - - - - 001 - - - - - - 000 1 2 3 4 5 6 7 8 9 10 11 Stichprobennr. Abbildung 1: Diskrepanzkoeffizient C (NHG) für Graphem- und Lauthäufigkeiten 2.3 Perspektive: Parameter der negativen hypergeometrischen Verteilung Wie einleitend festgestellt wurde gibt es erste Hinweise auf eine Interpretation der Parameter K und M der NHG. Für diese wurde in Grzybek & Kelih (2006) eine Abhängigkeit vom jeweiligen Inventarumfang herausgearbeitet. Nunmehr kann für die hier untersuchten Graphem- und Lauthäufigkeiten für K und M folgende Tendenz angedeutet werden: während M sowohl für die Graphemhäufigkeiten ( x = 0.76) als auch für die Lauthäufigkeiten ( x = 0.77) praktisch gleich ist zeigt sich für K ein deutlicher Unterschied mit K = 3.1104 für die Graphem- und K = 2.5304 für die Lauthäufigkeiten. Der Parameter K ist somit bei den Graphemhäufigkeiten höher als bei den Lauthäufigkeiten wobei sich eine Abhängigkeit vom Inventarumfang (32 Grapheme vs. 28 Laute) vermuten lässt. Dieser Trend zeigt sich auch für alle einzelnen Stichproben (vgl. Abbildung 2). 4 4 3 Parameter K 2 & Parameter M 3 Parameter K 2 & Paramter M 1 & & & & & & & & & & & 1 & & & & & & & & & & & 0 1 2 3 4 5 6 7 8 9 10 11 (a) Grapheme 0 1 2 3 4 5 6 7 8 9 10 11 (b) Laute Abbildung 2: Parameter K und M der Graphem- und Lauthäufigkeiten für 11 Stichproben

Grapheme und Laute des Russischen 275 Damit lässt sich der Befund eines gemeinsamen Modells für Graphemund Lauthäufigkeiten untermauern: die statistische Häufigkeitsstruktur kann durch ein gemeinsames Modell beschrieben werden wobei die Parameterwerte offensichtlich durch den zugrunde liegenden Inventarumfang gesteuert werden. 3 Zusammenfassung Die Analysen der Graphem- und Lauthäufigkeiten aus Peškovskij (1925) lassen folgende Schlussfolgerungen zu: 1. Zufallstichproben im Umfang von ca. 1000 Einheiten sind für eine statistische Modellierung von Lauthäufigkeiten geeignet. 2. Die Zufallstichproben zeigen ein ähnliches Verhalten wie abgeschlossene Texte und Textmischungen. (a) Sowohl Graphem- als auch Lauthäufigkeiten lassen sich durch ein gemeinsames theoretisches Verteilungsmodell adäquat beschreiben was auf eine ähnliche stochastische Struktur der Häufigkeiten dieser Sprachebenen hindeutet. (b) Die Parameter zeigen ein systematisches Verhalten welches sich in der Abhängigkeit zum Inventarumfang der untersuchten Sprachebenen befindet. Inwiefern sich nun diese Befunde bei weiteren Untersuchungen von russischen Laut- bzw. Phonemhäufigkeiten bestätigen lassen werden erst weitere empirische Analysen zeigen können. Literatur Altmann Gabriel; Lehfeldt Werner 1980 Einführung in die quantitative Phonologie. Bochum: Brockmeyer. Cherry Colin E.; Halle Morris; Jakobson Roman 1953 Toward the logical description of languages in their phonemic aspect. In: Language 29(1); 34 46. Grzybek Peter; Kelih Emmerich 2003a Graphemhäufigkeiten (am Beispiel des Russischen). Teil I: Methodologische Vor-Bemerkungen und Anmerkungen zur Geschichte der

276 Emmerich Kelih 2005c Erforschung von Graphemhäufigkeiten im Russischen. In: Anzeiger für slavische Philologie 31; 131 162. 2003b Grapheme Frequencies in Slovene. In: Slovko (2003). Bratislava. [In print] 2005a Häufigkeiten von Buchstaben / Graphemen / Phonemen: Konvergenzen des Rangierungsverhaltens. In: Glottometrics 9; 62 73. 2005b Graphemhäufigkeiten im Ukrainischen Teil I: Ohne Apostroph ( ). In: Altmann Gabriel; Levickij Viktor; Perebijnis Valentina (Eds.) Problemi kvantitativnoï lingvistiki Problems of Quantitative Linguistics 2005. Černivci: Ruta 159 179. Graphemhäufigkeiten (am Beispiel des Russischen). Teil III: Untersuchungen zum Inventarumfang Ein Beitrag zur Diskussion um das ё. In: Anzeiger für slavische Philologie 33. [In print] 2006 Towards a General Model of Grapheme Frequencies for Slavic Languages. In: Slovko (2005). Bratislava. [In print] Grzybek Peter; Kelih Emmerich; Altmann Gabriel 2004 Graphemhäufigkeiten (Am Beispiel des Russischen). Teil II: Modelle der Häufigkeitsverteilungen. In: Anzeiger für slavische Philologie 25 45. 2005a 2005b Graphemhäufigkeiten im Slowakischen (Teil I: Ohne Digraphen). In: Nemcová Emilia (Ed.) Philologia actualis slovaca. Trnava: UCM. [In print] Graphemhäufigkeiten im Slowakischen (Teil II: Mit Digraphen). In: Sprache und Sprachen in Mitteleuropa. Trnava: GeSuS. [In print] Peškovskij Aleksandr M. 1924 Stichi i proza (s lingvističeskoj točki zrenija). In: Svitok 3; 197 223. 1925 Desjat tysjač zvukov. (Opyt zvukovoj charakteristiki russkogo jazyka kak osnovy dlja eufoničeskich issledovanij). In: Ibd. Metodika rodnogo jazyka lingvistika stilistika poėtika. Leningrad / Moskva: Gos. izdatel stvo; 167 191. Wimmer Gejza; Altmann Gabriel 2005 Unified derivation of some linguistic laws. In: Köhler Reinhard; Altmann Gabriel; Piotrowski Rajmund (Eds.) Handbook of Quantitative Linguistics. Berlin / New York: de Gruyter 791 807 Wimmer Gejza; Altmann Gabriel 2006 Towards a Unifed Derivation of Some Linguistic Laws. In: Grzybek Peter (Ed.) Contributions to the Science of Language. Word Length Studies and Related Issues. Dordrecht NL: Springer 329 335.

Grapheme und Laute des Russischen 277 Tabelle 3: Graphemhäufigkeiten für 10 Stichproben und Gesamtkorpus Graphem 1 2 3 4 5 6 7 8 9 10 ges. а 98 95 79 110 89 104 101 99 95 96 966 б 27 21 17 15 27 17 19 20 12 13 188 в 38 34 31 47 48 41 44 40 39 43 405 г 10 20 22 11 11 8 12 10 13 22 139 д 25 29 39 38 25 40 25 33 30 31 315 е 81 88 99 67 107 86 73 82 97 112 892 ж 16 9 9 3 10 10 3 12 9 16 97 з 18 12 8 18 18 16 15 25 12 12 154 и 73 64 67 57 47 61 47 67 50 54 587 й 13 14 10 11 3 19 9 15 17 7 118 к 38 40 32 37 30 25 26 42 28 32 330 л 35 32 36 42 29 42 45 46 40 32 379 м 37 25 40 20 27 26 26 25 26 22 274 н 63 56 62 69 73 60 63 62 61 54 623 о 92 105 113 111 103 90 91 104 109 100 1018 п 20 28 28 37 19 25 33 24 32 30 276 р 37 37 40 37 39 40 43 28 37 37 375 с 47 52 47 49 54 59 43 50 59 41 501 т 73 84 76 65 97 70 73 87 93 86 804 у 34 40 23 24 27 33 29 32 28 29 299 ф 3 3 2 0 3 0 4 3 0 1 19 х 10 8 14 11 9 6 8 11 10 11 98 ц 5 2 1 3 1 6 4 2 5 0 29 ч 30 22 24 23 26 20 12 23 28 29 237 ш 5 7 10 6 9 11 9 12 7 12 88 щ 4 9 2 6 5 1 4 1 3 3 38 ъ 0 0 1 0 0 0 0 0 1 0 2 ы 19 10 23 19 20 14 17 10 11 18 161 ь 18 21 19 23 18 36 19 23 32 31 240 э 2 4 7 6 6 3 6 8 4 6 52 ю 8 7 8 3 9 16 17 3 7 7 85 я 18 28 17 29 15 26 23 21 19 20 216 ges. 997 1 006 1 006 997 1 004 1 011 943 1 020 1 014 1007 10 005

278 Emmerich Kelih Tabelle 4: Lauthäufigkeiten für 10 Stichproben und Gesamtkorpus Laut 1 2 3 4 5 6 7 8 9 10 ges. а 98 113 103 109 109 112 119 108 110 98 1 079 ь 83 90 75 109 76 71 84 81 72 87 828 т 69 82 76 63 88 66 71 80 88 76 759 н 62 54 62 67 72 59 66 61 62 52 617 и 62 57 63 53 47 56 45 54 47 48 532 э и 40 45 53 41 53 40 42 42 57 54 467 с 44 44 44 46 48 52 40 46 53 39 456 й 42 44 38 42 28 59 38 38 39 44 412 у 41 46 31 27 39 48 52 35 37 36 392 о 36 30 40 47 32 42 27 44 39 48 385 л 34 31 35 42 28 43 47 45 38 32 375 р 35 36 39 37 38 39 45 28 37 36 370 в 29 35 27 40 44 32 40 32 34 48 361 э 31 33 34 19 39 36 35 37 39 40 343 к 39 37 32 37 30 25 29 39 27 31 326 д 25 24 33 34 24 34 24 32 28 37 295 п 21 27 30 38 21 26 37 26 33 30 289 м 35 25 39 20 27 24 30 25 25 22 272 ш 17 34 27 24 30 25 21 20 28 26 252 ы 29 15 31 17 23 21 20 17 13 23 209 б 25 21 15 14 24 16 16 18 11 13 173 ч 25 15 13 16 19 14 8 17 20 22 169 з 19 11 6 19 18 17 18 20 12 12 152 х 11 7 15 12 8 6 10 11 11 12 103 ц 9 15 7 8 7 14 13 10 16 4 103 г 7 15 14 6 8 5 10 9 10 12 96 ф 15 6 10 10 10 9 10 11 8 3 92 ж 17 8 8 3 8 7 3 13 6 15 88 0 0 0 0 2 1 0 1 0 0 4 1 000 1 000 1 000 1 000 1 000 999 1 000 1 000 1 000 1 000 9 999