Regelbasierte Generierung natürlich klingender Intonation des Amerikanischen Englisch

Transkript

1 Stuttgart, im Mai 1996 Magisterarbeit im Fach Linguistik vorgelegt im Sommersemester 1996 an der Universität Stuttgart Fakultät Philosophie Institut für Maschinelle Sprachverarbeitung Prüfer : Prof. Dr. Grzegorz Dogil Regelbasierte Generierung natürlich klingender Intonation des Amerikanischen Englisch Matthias Jilka Akazienweg Remseck 3 Tel / jilka@ims.uni-stuttgart.de

2 INHALTSVERZEICHNIS 1. Einleitung 3 2. Darstellung der Vorgehensweise ToBI - Toninventar Allgemeines zu ToBI Pitchakzente Grenztöne Final Initial Voraussetzungen für die Untersuchung Überblick über die Vorgehensweise Rahmenbedingungen der Untersuchung im Hinblick auf die Umsetzung in einen Regelsatz Untersuchung der ToBI - Äußerungen Pitchakzente Grenztöne Abstandsregeln Täler zwischen hohen Tönen Äußere Einflüsse auf die F0-Kontur Pitch Range Mikroprosodie 40

3 4. Umsetzung in einen Regelsatz Organisation des Regelsatzes Das Setzen von Target-Punkten Darstellung bitonaler Pitchakzente im Regelsatz Bewertung der generierten F0-Konturen Tunes als Hilfsmittel bei der Bewertung generierter F0-Konturen Direkter Vergleich von Originalkonturen und neu generierten Konturen Problemfälle und Verbesserungsvorschläge Weiterführende Verbesserungsmöglichkeiten Abschluß Anhang Zusammenfassung der Analyse der ToBI-Label Gesamter Regelsatz Bibliographie 74

4 1. Einleitung Wie schon im Titel zu erkennen, lautet die Zielsetzung dieser Arbeit, alle im Amerikanischen Englisch potentiell vorkommenden natürlichen Intonationsmuster durch Regeln zu beschreiben und mittels der gleichen Regeln auch künstlich zu erzeugen. Die Intonation beschreibt phonologische Eigenschaften, die die segmentierbaren Einzellaute überlagern und daher oft auch als suprasegmentale Eigenschaften bezeichnet werden. Zwei in ihrer Phonemstruktur (und damit natürlich auch Wortgliederung) völlig identische Äußerungen können aufgrund unterschiedlicher Intonation ganz verschieden interpretiert werden. Laut Bußmann (1990, p.352) spielen bei der Beschreibung von Intonationsphänomenen drei Aspekte ineinander : Akzent, Tonhöhenverlauf und Pausengliederung. Genau diese Teilaspekte kann man im Grundfrequenzverlauf, auch F0-Kontur genannt, einer Äußerung erkennen, da F0 das akustische Korrelat der Tonhöhe ist. Pausen manifestieren sich folglich im Fehlen einer zugeordneten Grundfrequenz, während Akzente durch lokale F0-Maxima bzw. Minima angezeigt werden. Mit Hilfe einer F0-Kontur ist es daher möglich, die für diese Untersuchung notwendigen Informationen zu erhalten, die lediglich darin bestehen zu wissen, unter welchen Umständen bestimmten Stellen einer Äußerung gewisse Frequenzmuster zugewiesen werden. Andere prosodische Eigenschaften wie zum Beispiel Lautstärke und Dauer treten dabei in den Hintergrund, obgleich letztere natürlich auf einer F0-Kontur abgelesen werden kann. Es wird sich aber im Verlauf dieser Arbeit zeigen, daß Dauer keine entscheidende Bedeutung bei der Hervorhebung eines akzentuierten Elements hat, außer im seltenen Fall spezieller Rufkonturen, die später noch angesprochen werden sollen. Die F0-Kontur einer Äußerung zeigt also ein bestimmtes Intonationmuster, welches durch die untergeordneten Faktoren Akzent, Pitch, Phrasierung, Tune und Pitch Range beschrieben und identifiziert werden kann. Der Akzent gibt dem Wort, auf das er fällt eine relative Prominenz innerhalb einer Äußerung und beeinflußt so deren Interpretation. Innerhalb des betonten Wortes fällt der Akzent auf die im Lexikon dafür vorgesehene Silbe. Wie bereits erwähnt, ist er immer in der Kontur erkennbar, da er sich in Gestalt eines lokalen F0-Maximums bzw. Minimums äußert. Accented words are usually identifiable in the fundamental frequency contour (f0) with local maxima or minima, aligned with the word s stressed syllable. (Hirschberg 1993, p. 307) Die Form des Akzents kann auch komplexer sein, mehr als einen hohen oder tiefen Ton beinhalten und sich somit über die akzentuierte Silbe hinaus ausdehnen. Da durch die verschiedenen Formen von Akzenten unterschiedliche Möglichkeiten der Interpretation entstehen, ist es sinnvoll, zwischen der einfachen Tatsache, daß eine Silbe innerhalb einer Äußerung betont ist (= Akzent, engl. auch stress), und den speziellen Akzenten, deren spezifische Form die Interpretation einer Äußerung nachhaltig beeinflußt, zu unterscheiden. Letztere werden Pitchakzente genannt. Mit dem Begriff Phrasierung (engl. phrasing) wird die Darstellung der internen Struktur einer Äußerung beschrieben. Eine komplexe Äußerung kann in separate intonatorische Einheiten unterteilt sein, was sich in der Kontur in Form von Pausen zwischen den abgetrennten Einheiten, aber vor allem durch die Existenz von sog. Grenztönen auswirkt, die durch ein charakteristisches Intonationsmuster das Ende einer solchen Einheit anzeigen. Innerhalb der Hierarchie der intonatorischen Einheiten trifft dies auf die Ebenen zwischen dem phonologischen Wort und der Äußerung selbst zu (die Existenz von sog. clitic groups ist umstritten). Welcher Art diese Ebenen der Phrasierung sind, hängt von der jeweiligen Sprache und der entsprechenden Theorie der Organisation einer Äußerung ab.

5 Unter dem Begriff Tune versteht man, wie es dieser englische Terminus bereits sagt, eine Art Melodie, eine komplexere F0-Kontur, die möglicherweise häufiger vorkommt, und der man eine bestimmte Interpretation zuordnen kann. Zuletzt ist für die genaue Beschreibung eines Intonationsmusters noch die Angabe der Pitch Range, das heißt der höchsten und tiefsten Frequenzen, zwischen denen die Kontur sich bewegt, notwendig, da sich zwei der Form nach identische Konturen sehr stark voneinander unterscheiden können, wenn sie in verschiedenen Tonhöhen geäußert werden. Dies ist natürlich sprecherabhängig, teilweise aber auch situationsabhängig und hat somit ebenfalls Einfluß auf die Interpretation. Dazu zählt ebenfalls, daß zum Beispiel fokussierte Elemente durch eine sehr hohe Frequenz hervorgehoben werden können und auf diese Weise den Abstand zwischen tiefstem und höchstem Ton erweitern. Wenn man also die gerade beschriebenen Faktoren genau definieren kann, kann man auch das Intonationsmuster der jeweiligen Äußerung exakt darstellen. Indem man die spezifische Form der Pitchakzente (und damit natürlich der Akzente schlechthin), der Phrasierung (mitsamt Grenztönen) und der Pitch Range im Rahmen einer Äußerung feststellt und künstlich nachahmt, erschafft man folglich ein identisches Intonationsmuster. Tunes sind dafür nicht notwendig, denn sie sind nicht mehr als die Zusammensetzung von Pitchakzenten und Grenztönen. Dies gilt nicht nur für das äußerliche Erscheinungsbild, sondern auch für ihre Interpretation. Hirschberg / Pierrehumbert (1990) bezeichnen dies als kompositionalen Ansatz (engl. compositional approach).... tune meaning is more usefully viewed as compositional. (Hirschberg / Pierrehumbert 1990, p. 285) Es existiert sehr viel Literatur, die bestimmten Tunes bestimmte Bedeutungen zuordnet, was auch für diese Arbeit als Kontrollmechanismus durchaus wichtig ist (siehe 5.1.), denn schließlich ist es ja das Ziel dieser Arbeit, auf künstliche Weise völlig natürlich klingende Intonationsmuster herzustellen, und zu Anfang ist es am sinnvollsten ein Original so genau wie möglich nachzuahmen, zu kopieren, so daß sich für den Hörer die gleiche Interpretation oder noch besser gar kein hörbarer Unterschied ergibt. Damit dies gelingt, müssen die Elemente, die die Form des Intonationsmusters (also Pitchakzente, Phrasierung und Pitch Range) bestimmen, sehr sorgfältig untersucht werden. Zweck einer solchen Untersuchung ist es, herauszufinden, zu welcher Zeit und mit welcher Frequenz bestimmte Einzelpunkte, mittels derer gemäß der in dieser Arbeit geltenden Sichtweise eine F0-Kontur beschrieben werden kann, vorkommen, wenn die Kontur, durch bestimmte Pitchakzente und Grenztöne, sowie die Pitch Range gesteuert, eine bestimmte Form annimmt, die mit einer entsprechenden akustischen Realisierung korreliert. Folglich braucht man ein Inventar von Pitchakzenten und Grenztönen (durch die die Äußerung strukturiert wird), um so für jeden Typ von Pitchakzent bzw. Grenzton Regeln erstellen zu können, die besagen an welcher Stelle und in welcher Tonhöhe innerhalb einer mit einem Pitchakzent und / oder Grenzton markierten bzw. gelabelten Silbe die F0-Kontur verläuft. Damit die jeweilige Tonhöhe korrekt ist, muß selbstverständlich auch die Pitch Range, innerhalb derer sich die F0-Kontur bewegt, angegeben sein. Mittels dieser Regeln müßte es also möglich sein, ein Intonationsmuster herzustellen bzw. zu generieren, das einem natürlichen sehr nahe kommt. Dies ist es, was die Formulierung regelbasierte Generierung von Intonationsmustern ausdrücken möchte. Das verwendete Toninventar und die interne Struktur von Äußerungen sind selbstverständlich sprachspezifisch. Diese Arbeit wird sich, wie bereits erwähnt, mit der amerikanischen Variante des Englischen befassen. Die Generierung erfolgt nach den Prinzipien des Tone-Sequence-Model (TSM), welches erstmals 1980 von Pierrehumbert vorgeschlagen wurde. Dabei werden die Ober- und Untergrenze der Pitch Range als Top- und Baseline dargestellt, die die F0- Kontur umhüllen. Durch Regeln wie die gerade beschriebenen werden nun durch den

6 Parameter der Position innerhalb der markierten Silbe und den Parameter der relativen Tonhöhe zwischen Base- und Topline (0-100%) Punkte, sogenannte target values, kurz auch nur targets genannt, gesetzt. Die Targets, im folgenden auch Target-Punkte genannt, sind entweder mit akzentuierten Silben oder mit den Phrasenrändern assoziiert. Im ersten Fall erzeugen sie dann Pitchakzente, im zweiten Fall Grenztöne. Im Prinzip besteht eine Kontur aus einer Sequenz von hohen (H) und tiefen (L) Tönen. Die Kontur wird synthetisiert, indem die gesetzten Punkte durch lineare Interpolation verbunden werden, denn,... the contour [ is ] a series of target values which are connected together by transitional functions. (Pierrehumbert 1981, p. 988) Logischerweise sieht eine so erzeugte Kontur nicht ganz genauso wie eine natürliche aus, doch Pierrehumbert erachtet dies für nebensächlich, da das Augenmerk auf den targets liegt, und die in der Kontur nicht sichtbaren Unterschiede sowieso kaum hörbar sind.... the ear seems to be relatively insensitive to the shape of the curve between targets. This is not surprising, since it is the target points which carry the important linguistic information. (Pierrehumbert 1981, p. 989) Mittels des TSM hat Pierrehumbert 1980 in ihrer Dissertation die Grundfrequenzkonturen des Amerikanischen Englisch beschrieben, durch Bruce (1977) existiert auch ein vergleichbares Modell für Schwedisch. Das TSM wurde mittlerweile von Féry (1993) auch auf das Deutsche übertragen. Mayers (1995) Erweiterung von Férys Arbeit ermöglicht die Generierung deutscher F0-Konturen auf der Grundlage von Labeln, deren Inventar den Prinzipien des TSM folgt. Das Ziel dieser Arbeit ist es nun, das Gleiche für das Amerikanische Englisch zu tun. Die Herangehensweise mittels eines Regelsatzes die Eigenschaften natürlicher Intonation zu beschreiben, zeigt das Thema aus rein wissenschaftlich-linguistischer Sicht. Die Generierung natürlich klingender Intonation, sog. natürlichsprachliche Generierung, ist nur möglich, wenn eine Äußerung entsprechend transkribiert wurde. In der praktischen Anwendung innerhalb soge-nannter Text-to-Speech-Systeme, die also einen geschriebenen, möglicherweise maschinell übersetzten Text in gesprochene Sprache umwandeln sollen, wäre sie nur unter dieser Voraussetzung denkbar. Es müssen zuerst Wege gefunden werden, vor-herzusagen, welche Silbe innerhalb einer Äußerung betont sein wird und mit welchem Pitchakzent, bevor man das entsprechende Intonationsmuster realisiert. Es gibt einige Theorien zur Vorhersage der Position von Akzenten innerhalb einer Äußerung (accent placement prediction), etwa Hirschberg (1993), die etwas komplexer sind als die bloße Unterscheidung offene (= betont) gegen geschlossene (= unbetont) Wortklasse, doch auch diese sehr komplizierten Techniken sind noch nicht vollkommen zuverlässig. Hirschberg benutzt sog. Classification and Regression Trees (CART), die wie Strukturbäume aufgebaut sind, bei denen an jedem Knoten eine Entscheidung über betont oder unbetont gefällt wird. Die Entscheidungskriterien sind sehr vielfältig. Sie beinhalten die einfache Unterscheidung zwischen neuer und alter Information, ein ausgebautes System von vier breit angelegten Wortklassen (offen, geschlossen_klitisiert, geschlossen_unbetont, geschlossen_betont), für die genau angegeben ist, welche Elemente sie beherbergen, und zu guter Letzt eine große Anzahl spezieller Konstruktionen und Phrasen, deren normale Betonungsmuster explizit angegeben werden. (Hirschberg 1993, pp ) Nicht vergessen sollte man auch rein syntaktische Ansätze wie Cinques A null theory of phrase and compound stress (1993), in denen immer das am tiefsten eingebettete Element einer Phrase einen Akzent erhält. Innerhalb eines Satzes erhält man so immerhin den Nuklearen Pitchakzent und Nebenakzente in untergeordneten Phrasen, vorausgesetzt der Satz wird normal betont, enthält also keine fokussierten Elemente. Auch wenn eine relativ zuverlässige automatische Zuweisung eines Akzents mit passendem

7 Akzenttyp innerhalb eines Text-to-Speech-Systems möglich sein sollte, wäre dies laut Pierrehumbert (1981, p. 986) der letzte Schritt innerhalb eines allumfassenden Programms, das selbst entscheidet, was zu sagen ist, einen Satz bildet, die entsprechenden Wörter aus dem Lexikon holt, sie transkribiert und in gesprochene Sprache umwandelt. Dies bedeutet aber nicht, daß die Untersuchung der prosodischen Eigenschaften von geringerer Priorität wäre. Im Gegenteil, die Prosodie ist zum großen Teil verantwortlich für die Variabilität von Sprachsignalen und hat neben der lexikalischen Bedeutung einen nicht zu vernachlässigenden Anteil an der Gesamtbedeutung einer Äußerung. Consequently an understanding of prosody - how it relates both to the acoustic speech signal and to text and discourse structure - is crucial as speech understanding and synthesis technologies progress towards the development of complete spoken language systems that accomplish real-world tasks. (Silverman et al. 1992, p. 867) Aufgrund der Größe und Komplexität der Aufgabe ist es vernünftig, die Strategie zu verfolgen, jeweils einzelne Teilbereiche zu erforschen, deren Untersuchung relativ erfolgversprechend ist. In the short run, however, we work on such a complete model one module at a time. (Pierrehumbert 1981, p. 986) Das Modul, das in dieser Arbeit untersucht wird, ist also die Beschreibung der Intonationsmuster des Amerikanischen Englisch. Ausgehend von einem Toninventar und einer gründlichen Untersuchung der Grundfrequenzverläufe in vielen Beispielen werden Regeln aufgestellt durch deren Umsetzung in einen entsprechenden Regelsatz mit Hilfe eines von G. Möhler an der Universität Stuttgart entwickelten Generierungsprogramms eine so natürlich wie mögliche F0-Kontur erzeugt wird. Durch das Resyntheseprogramm PSOLA (Pitch Synchroneous Overlap and Add), das an der Universität Stuttgart in xwaves-umgebung integriert wurde, kann man nachträglich die Qualität der erstellten Regeln und auch des Toninventars überprüfen, indem man der Sprachdatei der Originaläußerung eine neue F0-Kontur aufzwingt, welche ja mittels der erstellten Regeln, die durch die dem Toninventar entnommenen Label aus- gelöst werden, generiert wurde. Auf diese Weise ist ein akustischer Vergleich von Original und Fälschung möglich. Entsprechend dieser Vorgehensweise ist auch der Aufbau dieser Arbeit gestaltet. In dem der Einleitung folgenden Kapitel wird beschrieben wie und unter welchen Voraussetzungen die Regeln aus dem Beispielskorpus entwickelt werden. Der erste Abschnitt dieses Kapitels stellt das ToBI-System, welches den benutzten Korpus zur Verfügung stellt, im allgemeinen vor und beschreibt auch das ToBI-Toninventar, dessen prosodische Label benutzt werden, um die Intonationsmuster der enthaltenen Äußerungen zu transkribieren. Der zweite Abschnitt beginnt mit einer kurzen Übersicht über jeden Schritt der Untersuchung. Ebenfalls in diesem zweiten Unterkapitel werden gewisse Kriterien vorgegeben, die bestimmen unter welchen Gesichtspunkten die im dritten Abschnitt dieses Kapitels folgende Untersuchung der einzelnen Label des Toninventars und ihrer Entsprechungen in der F0-Kontur erfolgen soll. Die Anwendung des Ton- Sequenz - Modells erfordert nämlich zum Beispiel, die Tonhöhe in Prozent zwischen Top- und Baseline anzugeben. Genauso nehmen die Gegebenheiten des Regelsatzes Einfluß auf die Formulierung bestimmter Bedingungen und die Definition der Domänen, auf die letztere sich beziehen. Wie bereits angedeutet folgt dann im dritten Abschnitt dieses Kapitels die detaillierte Untersuchung jedes Labels und seiner Entsprechung in der Kontur. Es wird also für jeden Ton festgestellt, unter welchen Umständen die Target-Punkte an welche Stellen gesetzt werden. In Kapitel 3 finden diejenigen Einflüsse auf die Form der F0-Kontur Erwähnung, die nicht von den mittels der ToBI-Label gesetzten Punkten abhängen. Es wird gezeigt, wie sich Pitch Range und mikroprosodische Phänomene auswirken. Kapitel 4

8 demonstriert dann an wenigen ausgesuchten Beispielen die Übertragung der in 2.3. ermittelten Regeln, die dort noch mehr oder weniger konventionell beschrieben sind in die Organisationsstruktur und Sprache des Computerprogramms, durch welches die F0-Kontur generiert wird. Im letzten Kapitel dieser Arbeit soll die Qualität der erzeugten Konturen durch Vergleich mit dem jeweiligen Original beurteilt werden. Dies geschieht sowohl rein optisch als auch, was natürlich viel wichtiger ist, akustisch mit Hilfe der durch PSOLA ermöglichten Resynthese. Die Urteile von Testpersonen, deren Muttersprache Amerikanisches Englisch ist, sind besonders hilfreich, dabei zu unterscheiden, ob eine resynthetisierte Äußerung natürlich klingt, die gleiche Interpretation wie das Original fordert oder sich gar völlig identisch anhört. Dabei kann auch die Hilfe zahlreicher Veröffentlichungen in Anspruch genommen werden, in denen gewissen Tunes, also festen Kombinationen von Pitchakzenten und Grenztönen, bestimmte Bedeutungen zugeordnet werden. Auf die dabei entdeckten Fehlerquellen wird ausführlich eingegangen, und im dritten Teil des Kapitels werden diesbezügliche Verbesserungsvorschläge gemacht, die zusammen mit den im vierten Teil nachzulesenden, weiteren darüber hinausgehenden Möglichkeiten Erwähnung finden. Natürlich erfolgt zum Abschluß noch einmal eine kurze Zusammenfassung und Bewertung des Themas. Im Anhang folgen eine kompakte Zusammenfassung der Analyse der Label aus 2.3. und eine Abschrift des gesamten Regelsatzes. 2. Darstellung der Vorgehensweise 2.1. Das ToBI - Toninventar Allgemeines zu ToBI ToBI (steht für Tones and Breaks Indices) ist ein System für die Transkription von Intonationsmustern und auch anderer Aspekte der Prosodie des Englischen. Es wurde von einer Gruppe von Wissenschaft-lern aus den verschiedensten Disziplinen (z.b. Ingenieurwissenschaften, Psychologie und natürlich Linguistik) mit der Zielsetzung entwickelt, eine allgemeingültige Norm für die Transkription von prosodischen Elementen zu schaffen, die als Äquivalent zum IPA auf der Ebene der Phoneme fungiert. We propose this system as a standard for a prosodic transcription of large speech corpora. (Silverman et al. 1992, p. 867) Ein Korpus, der groß genug ist, die meisten prosodischen Phänomene des Englischen abzudecken, wurde von 20 voneinander unabhängigen Phonologen transkribiert, deren Übereinstimmungsrate bei über 80% lag. Über ftp kann der ToBI-Korpus von potentiellen Benutzern in das eigene System geholt werden und steht dann für Untersuchungen aller Art zur Verfügung. In den ToBI - Richtlinien in der Version von 1994 stellen die Autorinnen Mary E. Beckman und Gayle M. Ayers die Konventionen vor, mittels derer die 161 im Korpus enthaltenen Äußerungen beschrieben werden. Die einzelnen Beispielsäußerungen werden mit ihrem jeweiligen Namen identifiziert (z.b. << jam1>>). Jede ToBI - Äußerung besteht aus einer Aufnahme derselben, einer Darstellung ihrer Grundfrequenzkontur (auch eine Signaldarstellung sowie ein Spektrogramm sind einsehbar) und vier Ebenen ( engl. tiers ) von Labeln, die die Äußerung beschreiben. Dabei handelt es sich um die Tonebene (tone tier), die orthographische Ebene (orthographic tier), die

9 Pausenebene (break index tier) und die Kommentarebene (miscellaneous tier). Hier nun ein Beispiel, das diese Anordnung zusammen mit der F0-Kontur der Äußerung << argument >> zeigt. (1) Die Tonebene benutzt das bereits mehrfach erwähnte ToBI - Toninventar, um den Verlauf der Kontur zu beschreiben. Auf die einzelnen Elemente des Inventars wird in den beiden folgenden Abschnitten sehr genau eingegangen werden. Die Orthographische Ebene bedarf wohl keiner weiteren Erklärung, außer der, daß das Label immer das Ende eines Wortes markiert. Auf der Kommentarebene können verschiedenste Ereignisse notiert werden, die in irgendeiner Weise auffallen, aber eigentlich kein Teil der Prosodie an sich sind. Dazu gehören Nebengeräusche wie Gelächter, lautes Atmen ( wie in (1) ) oder die Stimmen anderer Sprecher. Ebenfalls vermerkt werden können Selbstkorrekturen (repairs). Phänomene, die die Algorithmen, welche die Form der F0- Kontur berechnen, verwirren, sog. pitch-tracking errors, werden gleichfalls hier vermerkt. Dazu gehören auch Kommentare wie breathy voice oder auch creaky voice. Aber auch bei normaler Stimmlage können Fehler aufgrund von Fluktuationen der Amplitude oder der Resonanzeigenschaften eines Vokals auftreten. Im ersten Fall handelt es sich dabei um eine Pitchhalbierung (pitch-halving), im zweiten um eine Pitchverdopplung (pitch-doubling). Zu guter Letzt können natürlich auch ganz einfach Stellen, an denen Besonderheiten aller Art zu finden sind, hervorgehoben werden. Zum Beispiel wird in einigen Beispielen (<< flap >>, << voiced-h>>) die Auswirkung eben dieser Laute (Flap, stimmhaftes H) auf die Mikroprosodie demonstriert. Genau genommen beschreiben also nur Ton- und Pausenebene tatsächlich prosodische Vorgänge. Das Akronym ToBI steht ja auch für Tones and Break Indices. Das mit Pausenebene möglicherweise etwas unelegant übersetzte Break Index Tier verdient daher eine etwas detailliertere Beschreibung, obwohl es für die Zwecke dieser Arbeit keine entscheidenden Informationen liefert. Der Pausenindex stellt die prosodischen Gruppierungen innerhalb einer Äußerung dar, indem der Grad der Verbindung zwischen zwei aufeinanderfolgenden Wörtern, man könnte umgekehrt auch sagen, die Dauer der Stille zwischen ihnen, angegeben wird. Die Skala der unterschiedlichen Grade reicht von 0 bis 4.

10 0 beschreibt eine so starke Verbindung zwischen zwei Wörtern, daß keine wirkliche Wortgrenze mehr erkennbar ist. Derartige Verbindungen entstehen bei sog. Connected- Speech-Prozessen und werden als clitic groups bezeichnet. In der Äußerung << kinds-v >> beispielsweise wird in der Frage What kinds of planes...? der Vokal von of, ein Schwa, nicht ausgesprochen, so daß das eigentlich unerlaubte Konsonantencluster /ndzv/ am Ende von kinds entsteht. Bei Assimilationen mit Flaps werden die Wortgrenzen ebenfalls aufgehoben, zum Beispiel gotta statt got to oder gonna statt going to (nasaler Flap). 1 setzt man für eine ganz normale Wortgrenze. 2 zeichnet sich vor allem dadurch aus, weder 0 noch 1 noch 3 noch 4 zu sein. Dieser Grad des Break Index kommt dann zur Anwendung, wenn sich Widersprüche in der Form der anderen Breaks ergeben. Der Verlauf der Kontur kann zum Beispiel eine Phrasengrenze suggerieren (etwa durch Längung des letzten Vokals, sogenanntes preboundary lengthening), ohne daß eine entsprechende längere Pause erkennbar ist. Umgekehrt kann auch eine Pause völlig unmotiviert durch Kontur und Informationsstruktur der Äußerung vorkommen. 3 bezeichnet die Grenze einer Intermediären Phrase (ip). 4 zeigt die Grenze einer Intonationsphrase (IP) an. Die Grade 3 und 4, sowie andeutungsweise auch 2 weisen bereits auf die im ToBI-System bestehende Strukturierung von Äußerungen in ip s und IP s hin. Wie die Phrasierung genau organisiert ist, soll aber erst im Zusammenhang mit der Vorstellung der Grenztöne innerhalb des ToBI-Toninventars dargelegt werden. Kern des ToBI - Systems ist aber die Tonebene, denn durch die auf ihr notierten Tonlabel wird die jeweilige F0-Kontur beschrieben. Die Gesamtheit aller Tonlabel, also das Toninventar, sollte also jedes in Amerikanischem Englisch vorkommende Intonationsmuster darstellen können. Der wichtigste Teil von ToBI ist somit rein sprachspezifisch ausgerichtet. Darüber hinaus kann die Grobstruktur von ToBI zusammen mit den allgemeinen Labelkonventionen aber für die Untersuchung jeder beliebigen Sprache benutzt werden. Man benötigt lediglich ein dieser Sprache angepaßtes Toninventar, daß, falls notwendig, auch Unterschiede in der Phrasierung berücksichtigt. Wie schon in der Einleitung erwähnt, existiert durch Féry (1993) bereits ein entsprechendes Toninventar für das Deutsche, das denselben im TSM etablierten Prinzipien (Darstellung der Intonationsmuster als Sequenzen von hohen (H) und tiefen (L) Tönen) folgt wie ToBI. Mayer (1995) verbindet Férys Analyse der deutschen Intonationsstruktur mit den ToBI-Konventionen, was wiederum die regelbasierte Erzeugung der Grundfrequenzverläufe deutscher Äußerungen durch das bereits erwähnte Generierungsprogramm (Möhler 1995) ermöglicht. In einem kurzen Exkurs soll das so entwickelte deutsche Toninventar an dieser Stelle vorgestellt werden. Es enthält fünf Typen von Pitchakzenten : (2) H*L; L*H; HH*L; L*HL; H*M Gemäß der ToBI-Konventionen zeigt ein nachfolgender Asterisk den jeweiligen Target-Ton an, also den Ton, der in der akzentuierten Silbe verankert ist und nicht mit dem weiter oben eingeführten Target-Punkt verwechselt werden sollte. Bei L*HL folgen also nach dem tiefen Target-Ton noch ein Anstieg und ein Fall, während bei HH*L bereits vor der akzentuierten Silbe ein hoher Ton erscheint und nach dem Target-Ton ein Fall folgt. Der hervorzuhebende hohe Ton ist also schon verfrüht auf einer schwachen Silbe zu hören (early peak). H*M fällt aufgrund des weder als hoch noch tief markierten M etwas aus dem Rahmen. Damit wird ein geringer Fall vom hohen Target-Ton in die Mitte der Pitch Range angezeigt. Diese Kontur ist recht selten und beschränkt sich auf Vokative. Sehr häufig sind dagegen die Akzente H*L und L*H, die von Féry (1993, p. 82 und p.85) als simple falling tone und simple rising tone bezeichnet werden. H*L, von dem auch eine downgesteppte Version!H*L vor-

11 kommt, wird in Deklarativsätzen benutzt, während L*H vor allem mit Fragen oder dem Signal, daß ein Thema noch nicht beendet ist, assoziiert wird. Bei entsprechendem Sprechstil und -tempo können die Pitchakzente, sofern sie nicht nuklear sind, durch sogenannte Linking Rules beeinflußt werden. Dabei kann sich der dem Target-Ton folgende Ton (trail tone) von diesem abspalten und sich mit der Silbe vor der nächsten betonten Silbe verbinden (partielles Linking) oder völlig wegfallen (komplettes Linking). (3) Partielles Linking : H*L...H*L H*...LH*L Komplettes Linking : H*L...H*L H*...H*L Linking hat aber keinen Einfluß auf die Bedeutung eines Intonationsmusters. Die Label berücksichtigen dieses Phänomen, um so keine zu großen Unterschiede zur tatsächlichen Form der Kontur zuzulassen. (Mayer 1995, p. 6) Auch im Deutschen sind Äußerungen in Intermediäre Phrasen und Intonationsphrasen unterteilt. Eine Intonationsphrase (IP) enthält mindestens eine Intermediäre Phrase (ip), in welcher sich wiederum mindestens ein Pitchakzent befindet. Wenn die Grenze einer ip mit der einer IP zusammenfällt, wird erstere nicht angezeigt. Es gibt aber sowieso keine verschiedenen ip-grenzen im Deutschen, so daß das Inventar der Grenztöne mit einem Default-Label ( - ) für ip-grenzen auskommt. Bei IP-Grenzen gibt es H% (klarer Anstieg auf der letzten Silbe), L% (klarer Fall auf der letzten Silbe) und wiederum einen Default-Grenzton %, der lediglich die Tonhöhe des letzten gelabelten Trail-Ton, bis zum Ende der IP hält, was ein sogenanntes Plateau ergibt. Schließlich gibt es mit %H auch noch einen initialen Grenzton, der aber relativ selten vorkommt, nämlich nur, wenn kein Pitchakzent als Ursache für einen hohen Ton am Beginn der Intonationsphrase in Frage kommt. Ansonsten beginnt eine IP per Default, also wenn nichts anderes explizit angegeben ist, im unteren Teil der Pitch Range eines Sprechers, was nicht als initialer Grenzton angesehen und deshalb auch nicht gelabelt wird. Ähnlich dem hier kurz vorgestellten deutschen Toninventar werden in den ToBI- Richtlinien, die ja schließlich das Vorbild für erstere sind, lediglich die Label für Pitchakzente und Grenztöne genannt. Die Form der jeweiligen Kontur, mit der sie korrelieren, wird in Bezug auf akzentuierte Silben und die Pitch Range beschrieben. Durch die beiden unterschiedlichen Typen von finalen Grenztönen wird auch die Aufteilung einer Äußerung in bestimmte Intonationseinheiten deutlich gemacht. Es handelt sich also um eine rein äußerliche Vorstellung des Werkzeugs, mit dem die Intonationsmuster des Amerikanischen Englisch dargestellt werden können. Andeutungen über die Interpretation gewisser Label werden zwar auch in den ToBI- Richtlinien gemacht, sie sind aber nicht essentiell für den Zweck der bloßen Beschreibung einer F0-Kontur. Bedeutungen werden ohnehin besser mit ganzen Tunes assoziiert. Es folgt nun eine Zusammenfassung des ToBI-Toninventars, für dessen einzelne Elemente Regeln erstellt werden, die als Grundlage zur Generierung der Intonationsmuster des Amerikanischen Englisch dienen sollen.

12 Pitchakzente Das ToBI - Toninventar enthält insgesamt fünf Pitchakzente, die in diesem Abschnitt vorgestellt werden. Ein Asterisk zeigt an, daß das vorangehende Label den Target-Ton auf der akzentuierten Silbe angibt. Das Label wird immer in den Nukleus der Silbe plaziert, auch wenn sich das entsprechende F0-Minimum oder -Maximum im Onset, der Coda oder gar einer anderen Silbe befindet. In letzterem Fall kann ein verzögerter (<) oder verfrühter (>) Akzent angezeigt werden Bei den beiden monotonalen Pitchakzenten des Inventars, H* und L*, hat die Kennzeichnung des Target-Tons natürlich keine entscheidende Bedeutung. H* (peak accent) stellt ganz einfach einen Target-Ton auf der akzentuierten Silbe im obersten Teil der Pitch Range eines Sprechers dar, während L* (low accent), das Gleiche für den untersten Teil der Pitch Range bedeutet. Die Beispiele in (4 ) und (4 ) verdeutlichen den klaren Gegensatz. (4 ) H* (4 ) L* Die Beschreibung der bitonalen Pitchakzente ist nur wenig problematischer. L+H* und L*+H scheinen einander recht ähnlich zu sein, unterscheiden sich aber durch die verschiedenen Target-Töne. L*+H (scooped accent) zeigt einen tiefen Target-Ton in der akzentuierten Silbe, die dann von einem scharfen Anstieg gefolgt wird. Im Gegensatz dazu hat L+H* (rising peak accent) einen hohen Target-Ton mit einem scharfen Anstieg vor der akzentuierten Silbe. Die beiden Akzente sind also nur in Relation zur akzentuierten Silbe zu unterscheiden wie man in (5 ) und (5 ) erkennen kann. (5 ) L+(!)H* (5 ) L*+(!)H

13 Allerdings vermerken die ToBI-Richtlinien, daß bei vielen amerikanischen Sprechern L nicht so tief liegt wie L*. (Beckman / Ayers 1994, p. 23) Dies hat sich auch bei der in dieser Arbeit vorgenommen Untersuchung bestätigt (siehe , p.27). Vor allem L+H* kann leicht mit einem monotonalen H* verwechselt werden, denn in beiden Fällen geht einem hohen Target-Ton ein Anstieg voraus. Der Unterschied liegt nur darin, daß bei L+H* ein Anstieg aus dem unteren Teil der Pitch Range stattfindet, der nicht durch ein L* in der vorhergehenden, in diesem Fall akzentuierten, Silbe oder den tiefen Grenzton einer vorhergehenden ip / IP verursacht worden sein kann. Wenn dem so wäre, würde das Labeln eines H* genügen. Abgesehen davon wäre der Anstieg vor monotonalem H* auch nur so steil wie bei den beiden bitonalen Pitchakzenten, wenn der tiefe Akzent unmittelbar vorangehen würde, andernfalls ergibt sich ein schwächerer Anstieg von der Mitte der Pitch Range aus. Der dritte bitonale Pitchakzent ist H+!H* (6 ). Er zeichnet sich durch einen Fall aus dem obersten Bereich der Pitch Range auf eine etwas tiefere Tonhöhe auf der akzentuierten Silbe aus. H+!H* entspricht H+L* aus Pierrehumberts (1980) ursprünglichem Toninventar, ist aber nun viel besser bezeichnet, da der Target-Ton immer noch in der oberen Hälfte der Pitch Range zu finden ist, also niemals so tief wie ein mit L(*) gelabelter Ton wird. Statt dessen wird er als Downstep (angezeigt durch vorangestelltes! ) gelabelt. Downstep ist eine phonologisch ausgelöste Kompression der Pitch Range, die, nachdem sie ausgelöst wurde, die Tonhöhe aller in der gleichen Intermediären Phrase nachfolgenden mit H gelabelten Töne verringert. (Beckman / Ayers 1994, p.24-25) Von den bereits vorgestellten Pitchakzenten H*, L+H* und L*+H existieren folglich die downgesteppten Versionen!H*, L+!H* und L*+!H. Das Labeln eines H*- Pitchakzents gefolgt von einem unabhängigen!h* ersetzt den sechsten Pitchakzent aus Pierrehumbert (1980). Auch hier ist dies angemessen, da der Fall nicht bis in die untere Hälfte der Pitch Range geht wie in (6 ) demonstriert. (6 ) H+!H* (6 ) H*...!H* ( Downstep ) Die ToBI - Richtlinien beschreiben Tonhöhe und Position der Pitchakzente (und, bei bitonalen Akzenten, ihrer untergeordneten Elemente) nur insoweit, als es nötig ist, um sie eindeutig voneinander zu unterscheiden. Es werden zwar einige tiefergehende Beobachtungen gemacht, doch diese brauchen hier nicht erwähnt zu werden, da die genaue Untersuchung der einzelnen Bestandteile des ToBI-Toninventars mit Abschnitt 2.3. sowieso einen großen Raum in dieser Arbeit einnimmt.

14 Grenztöne Final Finale Grenztöne kennzeichnen das Ende von der Gesamtäußerung untergeordneten Intonationeinheiten. Wie schon mehrfach angedeutet sind dies im Amerikanischen Englisch Intermediäre (ip) und Intonationsphrasen (IP). Eine Äußerung enthält mindestens eine IP, und IP enthält mindestens eine ip. Als untergeordnete Einheiten schaffen ip s schwächere Grenzen untereinander als IP s, was ja auch schon durch die unterschiedlichen Pausenindexe verdeutlicht wurde. Dennoch sind sie aufgrund von Phrasenakzenten (phrase accents) klar markiert. Ihre Label zeichnen sich durch ein - aus. In ToBI gibt es einen hohen (H-) und einen tiefen (L-) Phrasenakzent, wobei der hohe Phrasenakzent auch in downgesteppter Version (!H-) vorkommen kann. Der Phrasenakzent beeinflußt die Form der Kontur vom letzten, dem nuklearen Pitchakzent bis zum Ende der ip. Er breitet sich bis zu diesem Ton aus (spreading) und bestimmt so den Übergang von Pitchakzent zu Grenze. (7 ) (!)H- (7 ) L- Das von ToBI angenommene Modell der Phrasierung englischer Äußerungen entstammt Beckman / Pierrehumbert (1986), die zeigen konnten, daß Phrasenakzente, und damit ip s medial vorkommen können, ohne daß unmittelbar eine Intonationsphrasengrenze folgt. Andernfalls wäre ihre Existenz schließlich überflüssig. Es ist allerdings schwierig, zu bestimmen, wann ip s gebildet werden, denn ein Sprecher kann eine ip bilden, wann immer er will. Phrasing in English is highly facultative. (Beckman / Pierrehumbert 1986, p.288) Je nach Sprechstil und -geschwindigkeit könnten ip s durch IP s ersetzt werden oder andererseits ganz wegfallen. Auch können fokussierte Elemente durch Voranstellen einer Intonationsgrenze hervorgehoben werden, und natürlich kann theoretisch jedes Element eines Satzes fokussiert werden. Beckman und Pierrehumbert fanden aber auch spezielle Fälle, für die die Bildung von Intermediären Phrasen typisch ist. In Sätzen, die etwas definieren, ist beispielsweise das zu erklärende Element (Definiendum) in einer anderen ip als die Erklärung (Definiens). (8) [ [Use hint ] ip [ if you need help ] ip ] IP In aufzählenden Ja/Nein - Fragen stellten sie ebenfalls typischerweise ip s fest. (9) [ [They gave orange marmelade,] ip [lemon-oil marmalade,] ip [and water-melon-rind marmalade?] ip ] IP

15 Intermediäre Phrasen steuern auch die Interpretation von attributiven Adjektiven und haben so disambiguierende Funktion. In (10 ) bezieht sich sublime (dt. erhaben, elegant ) nur auf mnemonic rhyme (dt. Eselsbrücke ), nicht aber auf free meter (dt. freies Versmaß ), da dies sich nicht in der gleichen ip befindet wie mnemonic rhyme. In 10 ) modifiziert sublime dann beide NP s. (10 ) [ [Sublime mnemonic rhyme] ip [and free meter] ip ] IP (10 )[ [Sublime] ip [mnemonic rhyme and free meter] ip ] IP Die im Englischen sehr häufigen Tags, an den eigentlichen Satz angehängte Zusätze in Form von vergewissernden Fragen (questions tags) oder Vokativen (vocative tags), sind ebenfalls durch eine ip-grenze vom Rest der IP abgetrennt. (11 ) [ [Mary will marry,] ip [Manny!] ip ] IP (11 )[ [Mary will win,] ip [won t she?] ip ] IP (Alle Beispiele aus Beckman / Pierrehumbert 1986, pp ) Auf dieser Basis haben die in ToBI enthaltenen Phrasenakzente ihre Berechtigung. Intonationsphrasen entsprechen dagegen meistens normalen Sätzen. Wenn dem nicht so ist, sind sie durch relativ lange Pausen (Pausenindex 4) von ca. 0,6s bis 0,8s und die typische Form der Grenztöne leicht identifizierbar. Diese Grenztöne (boundary tones) kommen ebenfalls in hoher (H%) und tiefer (L%) Ausprägung vor. Da eine IP-Grenze aber immer mit einer ip-grenze zusammenfällt und in diesem Fall der Unterschied zwischen Phrasenakzent und Grenzton nicht erkennbar ist, werden beide Grenztöne zusammen notiert. Es gibt also vier Kombinationsmöglichkeiten : L-L%, L-H%, H-H% und H-L% (!H-L%). Die Art und Weise, in der sie gebraucht werden, soll erst in 5.1. bei der Vorstellung spezifischer Tunes beschrieben werden. Für den Zweck der späteren Generierung ist vorerst nur das rein äußerliche Erscheinungsbild wichtig und dabei ist lediglich zu sagen, daß eine L-L%-Grenze auf extrem tiefen und eine H-H%-Grenze auf extrem hohem Niveau endet. (12 ) L-L% (12 ) H-H% Bei L-L% ist der Grund dafür ganz einfach, daß unter bestimmten Umständen der untere Rand der Pitch Range am Ende einer IP besonders weit absinkt, ein von der Diskursstruktur abhängiges Phänomen, das als Final Lowering bezeichnet wird. (Beckman / Ayers 1994, p.18) Dieses Thema wird in 3.1, das sich mit der Pitch Range befaßt, noch ausführlicher behandelt werden.

16 Im Falle von H-H% ist der extrem hohe Endton durch den H- Phrasenakzent verursacht, der einen sogenannten Upstep, eine lokal begrenzte Erhöhung der Pitch Range am Ende der Phrase auslöst. (Beckman / Ayers 1994, p. 17) Das Gleiche trifft natürlich auch auf H-L% und seine downgesteppte Version!H-L% zu. Hier wird L%, das eigentlich einen Fall zur Folge haben müßte, ebenfalls upgesteppt, so daß auf dem Niveau von H- eine Ebene (plateau contour) entsteht. (13 ) (!)H-L% (13 ) L-H% H-L% und besonders L-H% verändern ihre Form abhängig davon welcher Pitchakzent in welchem Abstand ihnen vorangeht. In den ToBI - Richtlinien wird darauf allerdings nicht eingegangen. Da diese Tatsache für die Generierung der Kontur aber durchaus wichtig ist, wird die genaue Untersuchung der Grenztöne in auch auf diese Nuancen eingehen. Wie man in (13 ) erkennen kann, ist L-H% der einzige Grenzton, bei dem man Phrasenakzent und Boundary Tone unterscheiden kann, vorausgesetzt, ein hoher Pitchakzent geht voran. Damit ist das ToBI - Inventar finaler Grenztöne komplett Initial Auch der Beginn einer IP kann durch einen Grenzton markiert sein. Es handelt sich dabei um einen hohen initialen Grenzton (%H). Dieses Label kommt nur zur Anwendung, wenn ein hoher Ton mit der ersten Silbe einer IP assoziiert ist, der nicht durch einen hohen Pitchakzent (H*) erklärbar ist, da die erste Silbe des betroffenen Wortes nicht akzentuiert ist. (14 ) %H (14 ) Default (50% der Pitch Range)

17 Dies geschieht aber nur sehr selten. Im Normalfall ist der Beginn einer IP nicht markiert. Der Sprecher beginnt in der Mitte der Pitch Range wie in (14 ) demonstriert. (Beckman / Ayers 1994, p. 20) Allerdings ergeben sich auch hier Schwankungen, abhängig davon in welchem Abstand ein hoher oder tiefer Pitchakzent folgt. Dies ist aber wiederum ein Thema für die detaillierte Untersuchung der Grenztöne in Der Beginn einer IP ist immer auch der Beginn einer untergeordneten ip. Andererseits kann der Beginn einer ip auch nicht auf eine IP-Grenze folgen, sondern nur auf eine andere ip. In diesem Fall wird einfach der Phrasenakzent der vorangehenden ip übernommen und zum Anfangston der folgenden IP. Dies geschieht in mehreren ToBI- Beispielsäußerungen auch nach IP-Grenzen, die mit Boundary Tones markiert sind (<< capote >>, << fail >>, << noodle1 >>, << names >>, << environ2 >> und viele andere mehr), was natürlich den ToBI-Konventionen widerspricht und auch nicht durch ständige Labelfehler (Boundary tones (= IP) statt besser Phrasenakzente (= ip)) erklärbar ist. Der entscheidende Unterschied liegt wohl darin, ob es sich um den Beginn einer völlig neuen Äußerung handelt oder ob die IP integrierter Teil einer größeren Äußerung ist. Auf den absoluten Beginn einer Äußerung treffen also %H und die Default-Regel zu, ansonsten kommt es auch bei IP-Grenzen zur Übernahme des Grenztons. Innerhalb einer größeren Aufnahme müßten also separate Äußerungen unterschieden werden. Dies kann wohl nur mittels der jeweiligen Länge der dazwischenliegenden Pausen beurteilt werden, was natürlich ein unbefriedigendes Kriterium ist. In der Beispielsäußerung << onions >> etwa wird in der thematisch einheitlichen Rede der Sprecherin der Grenzton einer vorangehenden IP nicht übernommen, obwohl keine sehr lange Pause festzustellen ist. Die Situation ist also leider unklar und in dieser Arbeit wird ihr noch nicht Rechnung getragen werden : nach ip-grenzen wird der Phrasenakzent übernommen (15), nach IP-Grenzen nicht. (15) Übernahme des Phrasenakzents am ip-beginn Gelabelt wird bei Bedarf also nur %H. Ansonsten ergibt sich die Form des Beginns der F0-Kontur aus dem Status der vorangehenden Phrase. Die im ToBI-Toninventar enthaltenen Informationen, durch die alle möglichen Ausprägungen von F0-Konturen beschrieben werden können, wären somit in den Abschnitten und zusammengefaßt.

18 2.2. Voraussetzungen für die Untersuchung Übersicht über die Vorgehensweise In diesem Abschnitt sollen die einzelnen Arbeitsschritte zusammenfassend dargestellt werden, die auf der Grundlage des ToBI-Korpus und des ToBI-Toninventars durchgeführt werden, um so das Ziel der Generierung natürlich klingender Intonationsmuster des Amerikanischen Englisch zu erreichen. Da sich die erst noch zu erstellenden Regeln an kleineren Einheiten als den Wörtern auf der orthographischen Ebene orientieren, ist eine Beschreibung der Silben- und Phonemstruktur der einzelnen Wörter, aus denen die relevanten Beispielsäußerungen bestehen, unverzichtbar. Dies geschieht von Hand mittels der Analyse von Signaldarstellungen und Spektrogrammen. Die Phoneme wurden gemäß SAM-PA (Speech Assessment Methods - Phonetic Alphabet) gelabelt. Dabei fällt auf, daß viele den traditionellen phonologischen Regeln des Englischen zufolge stimmhafte Plosive und Frikative vor allem im Auslaut gar nicht auf der F0-Kontur erscheinen und auch in der Signaldarstellung nicht gerade durch schöne regelmäßige Perioden ihre Stimmhaftigkeit unter Beweis stellen. Trotzdem wurden nur besonders hervorstechende Fälle nicht der Theorie gemäß gelabelt. Das Gleiche gilt auch für Assimilationen (etwa /wo tsu/ statt /wot ju/). Dabei kommt es auch vor, daß die Silbengrenzen und die Wortgrenzen auf der Orthographischen Ebene nicht übereinstimmen. Dasselbe Phänomen tritt auch bei lässiger, umgangssprachlicher Ausdrucksweise und erhöhtem Sprechtempo auf. Allgemein ist in diesem Zusammenhang zu bemerken, daß auf der in ToBI vorgegebenen Orthographischen Ebene eine gewisse Anzahl von Wortgrenzen und damit implizit auch Silbengrenzen und Phoneme falsch gelabelt wurden. Für die Untersuchung der Beispielsäußerung sind Ton- und Orthographische Ebene, sowie, neu hinzugekommen, Phonem- und Silbenebene unverzichtbar. Pausenindex und Kommentarebene sind dagegen überflüssig. Die Struktur der ip s und IP s kann auch an den Grenztönen abgelesen werden. (16) zeigt die Darstellungsform, die eine effektive Untersuchung der ToBI- Beispielsäußerungen ermöglicht. (16)

19 Der auf das Labeln folgende Arbeitsschritt besteht in der genauen Untersuchung der den einzelnen Tonlabeln entsprechenden lokalen Ausprägungen der F0-Kontur. Auch Defaultregeln und andere nicht durch Label angezeigte Phänomene, die die Form der Kontur beeinflussen, werden analysiert, beschrieben und dann im dritten großen Arbeitsschritt in einen Regelsatz umgesetzt. Im Hinblick auf den Regelsatz geschieht die Untersuchung innerhalb bestimmter Parameter, auf die im folgenden Abschnitt eingegangen wird. Der so entwickelte Regelsatz wird dann in das bereits mehrfach erwähnte Generierungsprogamm von G. Möhler integriert, welches den Prinzipien des Ton-Sequenz-Modells folgt. In Möhler (1995, p.3) findet man eine grobe Darstellung des Ablaufs des Generierungsprogramms, die als Vorbild für das Diagramm in (17) dient. (17) Einlesen der Silben, Phoneme und Tonlabel der Beispielsäußerungen Ton - Sequenz - Modell Grammatik - Check Setzen der Target - Punkte gemäß dem Regelsatz Einbettung in Pitch Range ( unabhängiger Parameter ) Lineare Interpolation Ausgabe der F0-Kontur Das Programm beginnt also, indem es die Silben-, Phonem- und Tonstruktur der Äußerung aufnimmt. Durch den TSM Grammatik-Check wird laut Möhler (1995, p. 2) überprüft, ob die vorkommenden Tonlabel oder Kombinationen von Tonlabel auch zulässig sind, d. h. mit dem Toninventar übereinstimmen, ob alle Phoneme zulässig sind und ob in jeder Silbe ein Nukleus ist und nicht etwa zwei oder gar keiner. Wenn alles in Ordnung ist, erzeugt das Programm intern die Struktur einer

20 Intonationsphrase unter Berücksichtigung der eingelesenen Phoneme und Silben. Für jede gelabelte oder sonst markierte Silbe (z.b. Default-Anfangston) wird die entsprechende Regel angewandt und die Target-Punkte in den Dimensionen von Zeit und Tonhöhe gesetzt.im nächsten Schritt wird die relative Tonhöhe der gesetzten Punkte in eine konkrete Pitch Range eingebettet. Diese wird durch einen gesonderten Parameter angegeben, so daß ein und dieselbe Kontur in verschiedenen Pitch Ranges (hohe / tiefe Register, komprimiert etc.) abgebildet werden kann. Auch andere Optionen können durch derartige Parameter gewählt werden oder nicht. In dieser Arbeit kann zum Beispiel mittels des Parameters Tal ein charakteristischer Fall und Wiederanstieg, ein Tal eben, zwischen zwei hohen Tönen erzeugt werden. Dieser Extraparameter existiert aber nur aufgrund einer Kollision zwischen mehreren Regeln (eine genauere Erklärung siehe ) und wurde nicht aus linguistischen Erwägungen eingeführt. Im Falle der Pitch Range wird deren häufige Änderung erleichtert, wodurch es einfacher wird, den Einfluß der Pitch Range einer IP auf deren Bedeutung innerhalb des gesamten Diskurs einzuschätzen. Noch wichtiger ist aber, daß sich die Pitch Range im Verlauf einer IP verändert und dies sehr schwer mit Labeln anzugeben wäre. Der Benutzer des Generierungsprogramms kann dagegen die Pitch Range an Anfang und Ende einer IP bestimmen. Die Tatsache, daß dies wegen des Aufbaus vieler ToBI - Beispielsäußerungen auch noch keine optimale Lösung ist, ist wiederum ein Thema für ein anderes Kapitel, diesmal 5.1. Nachdem den Target-Punkten nun eine konkrete Frequenz zugewiesen wurde, werden sie durch lineare Interpolation miteinander verbunden. Da die geraden Linien zwischen den gesetzten Punkten nicht allzu natürlich wirken, wurde durch ein weiteres Programm von G. Möhler die Auswirkung mikroprosodischer Phänomene, die von den einzelnen Phonemen ausgelöst werden, auf die Form der F0-Kontur berücksichtigt, so daß diese im Vergleich zum Original nicht zu künstlich wirkt. Wie schon in der Einleitung bemerkt, hat dies aber keine große Wirkung auf die akustische Umsetzung der Kontur. Diese ist nicht mehr Teil des Generierungsprogramms, welches mit der Ausgabe der F0-Kontur abgeschlossen ist, sondern geschieht durch das ebenfalls bereits erwähnte Resyntheseprogramm PSOLA, das der Sprachdatei die neugeschaffene Kontur aufzwingt. Die Qualität der erstellten Regeln (und auch des Toninventars) kann dann sowohl auf visueller als auch auf akustischer Ebene beurteilt werden Rahmenbedingungen der Untersuchung im Hinblick auf die Umsetzung in einen Regelsatz Die gerade als zweiter und dritter Arbeitsschritt bezeichnete Beschreibung der den jeweiligen Labeln entsprechenden Konturen und ihre Umsetzung in einen Regelsatz, wird durch die Prinzipien des Ton-Sequenz-Modells bestimmt, was die unkomplizierte Integration in ein Generierungsprogramm ermöglicht. Daraus folgt, daß Tonhöhe und Position innerhalb der markierten Silbe die einzigen relevanten Untersuchungsparameter sind. Das TSM stellt die Label durch Target-Punkte dar, die in diesen beiden Dimensionen gesetzt werden. Im Regelsatz manifestieren sich beide Parameter in Form von Prozentwerten innerhalb bestimmter Domänen, denn absolute Frequenz- und Zeitwerte würden zu keinem allgemeingültigen Ergebnis führen. Im Falle der Tonhöhe zum Beispiel von H* hängt es natürlich von der Pitch Range eines bestimmten Sprechers in einer bestimmten Situation ab, welche Frequenz dieser Pitchakzent besitzt. Das Gleiche gilt für die Position eines solchen Akzents innerhalb einer betonten Silbe. Er hat keine fixe Position, etwa nach 0,2 Sekunden im Nukleus. Dies ist zwar nicht ganz so offensichtlich wie im Falle der Frequenz, wird aber bei der Betrachtung verschieden langer Silben, Codas, Nuklei etc. sofort klar. Zahlreiche

21 Untersuchungen, z.b. Prieto / van Santen / Hirschberg (1995) oder Rietveld / Gussenhoven (1995) sehen dies ebenfalls als gegeben an. The alignment point is not a fixed location in the syllable... (Rietveld / Gussenhoven 1995, p. 383) Die Tonhöhe wird folglich in Relation zu einer theoretischen Pitch Range angegeben. Deren untere Grenze wird als Baseline (= 0%), die obere Grenze (= 100%) als Topline bezeichnet. Dabei ist zu berücksichtigen, daß sich auch Base- und Topline innerhalb einer IP verändern können. Im Deutschen beispielsweise fallen sie beide gegen Ende der IP ab. Das TSM legt für die Position eines Target-Punkts nicht fest in Bezug worauf sie angegeben wird. Dies könnte potentiell von Sprache zu Sprache, sogar von Labeltyp zu Labeltyp verschieden sein. Der Nukleus, der Onset, die Coda, der Rhyme, die Stimmhaftigkeit und auch die gesamte Silbe sind mögliche Bereiche an denen sich die Position eines Target-Punktes orientieren könnte. Hinzu kommt, daß sekundäre Punkte wiederum von anderen Target-Punkten abhängig gesetzt werden, und daß manche Punkte nur unter gewissen Bedingungen gesetzt werden, die erst einmal definiert werden müssen. Der Regelsatz sollte also ein Instrumentarium bieten, das es erlaubt alle möglichen Bezugsbereiche zu erfassen. Welche Bezeichnungen im Regelsatz einer konventionelleren Beschreibung der Position der jeweiligen Target- Punkte entsprechen, ist erst bei der tatsächlichen Formulierung der Regeln von Belang. Vorerst ist es nur wichtig, zu wissen, daß der Bereich, in Bezug auf den die Position des Target-Punktes angegeben wird, schon bei einer solchen, noch keine spezielle Terminologie verwendenden, rein beschreibenden Untersuchung genau definiert sein muß. Wenn alle Bedingungen, unter denen ein Label bestimmten Target-Punkten entspricht, geklärt sind, ermöglicht eine Funktion im Regelsatz das Setzen dieser Punkte : set (Zeit, Frequenzwert). Zeit ist ein Prozentwert in Relation zu einem bestimmten Segment von der Silbe an abwärts. 0% (= Anfang) des Nukleus, 20% der Stimmhaftigkeit oder 100% (= Ende) der ganzen Silbe, alles ist theoretisch denkbar. Der Frequenzwert wird ebenfalls in einer Skala von 0% bis 100% angegeben, aber auch kleinere und größere Werte sind bei beiden Parametern erlaubt. Für möglicherweise häufige Frequenzwerte können vereinfachende Funktionen (base = 0%; top = 100%) benutzt werden, durch die die Darstellung etwas verkürzt werden kann (z.b base (Zeit )). In dieser Arbeit kommen noch weitere, komplexere Funktionen vor. Zweck dieses Abschnitts war es, zu verdeutlichen, daß das Ton-Sequenz-Modell und die Gegebenheiten des Regelsatzes einen bestimmten Rahmen für die Herangehensweise an die Untersuchung der Konturen schaffen. Diese manifestiert sich ja in den nun schon zur Genüge beschriebenen Parametern. Da im folgenden Abschnitt 2.3. streng genommen nur Untersuchungsergebnisse präsentiert werden, aber nicht gesagt wird, wie überhaupt die ihnen zugrunde liegende Sichtweise zustande kam, sollte zuvor verdeutlicht werden, daß die Untersuchung von vornherein unter der Prämisse, Frequenzwerte in Prozent zwischen Top- und Baseline und Positionen in Prozent innerhalb eines bestimmten Segments anzugeben, unternommen wurde Untersuchung der ToBI - Äußerungen In diesem Abschnitt werden die Ergebnisse der Untersuchung, die später in einen Regelsatz umgesetzt werden, vorgestellt. Sie werden also bereits in der Terminologie des Regelsatzes angegeben und sind so gewählt, daß sie alle Abweichungen so gut wie möglich miteinbeziehen. Es werden auch entsprechende Beispielsäußerungen genannt und in einigen Fällen sogar an Graphiken belegt. Außerdem werden die verschiedenen Varianten und Auswahlkriterien erläutert. Eine einfache Auflistung der bloßen Zahlen ist im Anhang 6.1. zu finden.

22 Pitchakzente Der häufigste und auch als Akzent schlechthin angesehene Pitchakzent ist H*. Seine Position innerhalb der betonten Silbe variiert abhängig von seiner Position in der ip. Es gibt vier mögliche Stellungen, die alle die Plazierung eines Pitchakzents beeinflussen. Dies gilt für alle fünf Pitchakzente des ToBI-Toninventars. Wenn sich also H*in der ersten Silbe der ip befindet, sollte der Target-Punkt bei 85% der stimmhaften Segmente gesetzt werden (Beispiele : << thought >>, << elephant3 >> oder << flap >>). Wenn in der letzten Silbe der ip, tritt H* im Durchschnitt bei 25% der Stimmhaftigkeit auf (z.b. << loan1 >>, << voice >>, << names >> etc.). Einen sehr seltenen Sonderfall stellt die Situation dar, daß eine ip aus einer einzigen Silbe besteht, diese also gleichzeitig erste und letzte Silbe der ip ist. In diesem durchaus hin und wieder vorkommenden Fall (z.b << insert >> : I means insert) setzt man H* bei 50% der Stimmhaftigkeit. In allen anderen, den normalen Fällen befindet sich der Pitchakzent H* bei durchschnittlich 60% der Stimmhaftigkeit. Offenbar wird der Akzent in der ersten Silbe der ip durch deren Grenze nach hinten, und in der letzten Silbe nach vorne geschoben. Da die vier eingeführten möglichen Varianten für alle Pitchakzente relevant sind, sollen sie hier am Beispiel von H* in der Form von F0- Konturen einmal vorgeführt werden. (18) H* in erster Silbe (spät) (19) H* in letzter Silbe (früh)

23 (20) H* in einsilbiger ip (bei 50%) (21) H* in normaler Stellung (bei 60%) Natürlich können immer nur repräsentative Durchschnittswerte angeben werden, die nicht für jedes einzelne Beispiel stimmen. Sie sind jedoch in der überwältigenden Mehrheit der Fälle nicht so weit entfernt, daß ein sicht- oder gar hörbarer Unterschied entstehen würde. Damit die große Menge an Zahlen, die jetzt folgen wird, um alle Arten von Konturen zu beschreiben, nicht zu anonym wirkt, sollte am Beispiel von H* gezeigt werden, an welchen konkreten Äußerungen diese Ergebnisse erzielt wurden, auch wenn der Leser dadurch selbstverständlich nicht deren Richtigkeit nachprüfen kann. Beispielsweise ist die Tatsache, das sich die Position aller Pitchakzente am Bereich der Stimmhaftigkeit, also Nukleus plus, wenn vorhanden, stimmhafter Onset und / oder stimmhafte Coda, der betroffenen Silbe orientiert und nicht etwa am Nukleus allein, dem Rhyme oder gar der ganzen Silbe, natürlich nicht durch die Vorführung von einigen wenigen Äußerungen belegbar. Es sprechen mehrere Argumente dafür, dem Kriterium der Stimmhaftigkeit den Vorrang vor dem Nukleus zu geben. Man kann zum Beispiel mehrere Silben entdecken, in denen der Pitchakzent eindeutig nicht in den Bereich des Nukleus fällt. In der Äußerung << word1 >> ist das H* zuzuordnende lokale F0-Maximum eindeutig im Onset /w/ des Wortes word zu

24 finden. In Relation zum Nukleus wäre der Gipfel bei -22% anzusetzen, in Relation zur Stimmhaftigkeit dagegen bei 22%, was dem Durchschnittswert von 25% (die betroffene Silbe ist die letzte der ip) sehr nahe kommt. Ebenso kann eine lange, stimmhafte Coda bei entsprechend kurzem Onset und Nukleus einen Akzent auf sich ziehen. In der Äußerung << names >> fällt H* auf /r/ in dem Wort yours (/jorz/). Dies wären 125% des Nukleus, aber nur 83% der Stimmhaftigkeit, was immernoch sehr weit vom Durschnittswert 60% entfernt ist. Der Akzent in diesem Wort kommt sicherlich extrem spät. Trotzdem ist der Wert beim Stimmhaftigkeitskriterium erheblich besser, zumal für den Nukleus als Meßbereich der Durchschnittswert für H* bei Wörtern in dieser Position bei 50% liegt. Fälle wie die gerade geschilderten sind zwar nicht übermäßig häufig, aber doch charakteristisch. Der Hauptgrund für die Entscheidung für Stimmhaftigkeit als relevanten Meßbereich liegt ganz einfach in der Betrachtung aller Ergebnisse. Für alle Positionsvarianten von H* gilt, daß die Einzelwerte der akzentuierten Silben vom jeweiligen Durchschnittswert viel weiter nach oben oder unten abweichen, wenn der Nukleus als Bemessungskriterium angenommen wird als dies bei der Stimmhaftigkeit der Fall ist. Der Durchschnittswert, der so für den Nukleus zustande kommt, ist also weniger repräsentativ. Allerdings sorgt auch das Kriterium der Stimmhaftigkeit nicht immer für eine korrekte Positionierung speziell von H*. Es gibt bei Stellung von H* in der letzten Silbe einer ip hin und wieder Fälle, bei denen der Akzent viel später gesetzt wird, da eine lange stimmhafte Coda (meistens ein Nasal) dies offenbar gestattet. Das betroffene Wort scheint dann fokussiert zu sein und die gesamte Äußerung eine spezielle, nur aus bestimmten Situationen heraus verständliche Bedeutung zu erhalten. Solche Fälle werden in Kapitel 5, das sich mit der Auswertung und Beurteilung der generierten und resynthetisierten Grundfrequenzkonturen im Vergleich zum Original beschäftigt, im Hinblick auf ihre Interpretation angesprochen werden. Auch Vorschläge zur Definition des Meßbereichs werden gemacht, die in Zukunft die Genauigkeit und Flexibilität des Generierungsprogramms noch verbessern könnten. Da aber im Moment keine entscheidenden Änderungen möglich sind, weil derartige Theorien erst untersucht werden müssen, wird die Position von H* in der letzten Silbe einer ip auf 35% erhöht, damit die angesprochenen Fälle nicht allzu sehr aus dem Rahmen fallen. Der ursprünglich angegebene Wert von 25% kommt zwar dem tatsächlichen Schnitt von 26,7% viel näher, der Unterschied ist aber auch bei früh gesetzten H* s nicht sehr kraß. 35% ist also ein Kompromißwert, der extrem falsche Vorhersagen des Programms verhindert. Wenn die späten Ausnahmefälle als Fokus markiert werden könnten, könnten die Normalfälle wieder zu 25% zurückkehren. Auch bei der Angabe einer charakteristischen Tonhöhe für H* sind einige Erläuterungen erforderlich. Man kann nicht uneingeschränkt sagen, daß H* immer auf die Topline, also 100%, gesetzt wird, denn es gibt Situationen, wo dies nicht der Fall ist. Wenn ein normaler H*-Pitchakzent nämlich einem downgesteppten!h* (oder auch!h oder!h-) folgt, wird er nicht auf die Topline gesetzt, sondern ist genauso hoch wie der vorangehende downgesteppte Akzent. Dabei spielt es keine Rolle, wieviele tiefe Töne zwischen den beiden gesetzt werden, solange sie sich in der gleichen ip befinden.die Funktion top wäre also unpassend für die Beschreibung des hohen Pitchakzents, stattdessen muß berücksichtigt werden, daß ein mit H gelabelter Ton immer so hoch wie der vorhergehende ist (top oder downstep), nur wenn er der erste Ton der ip ist, wird er ganz sicher auf die Topline gesetzt. In einer kleinen Vorschau auf die Umsetzung in einen Regelsatz kann hier bereits angekündigt werden, daß genau das durch die neugeschaffene Funktion high erreicht wird. Dies steht vollkommen in Einklang mit der Definition aus den ToBI-Richtlinien, die besagt, daß Downstep einer Kompression der Pitch Range gleichkommt, so daß alle folgenden hohen Töne herabgesetzt werden (siehe auch , p. 12).

25 Downstep is a phonologically triggered compression of the Pitch Range that lowers the f0 targets for any H tones subsequent to a downstep trigger. (Beckman / Ayers 1994, p. 24) Es gibt im ToBI-Korpus allerdings nur ein einziges Beispiel für dieses Phänomen, da einem downgesteppten Ton normalerweise entweder keine weiteren hohen Töne folgen oder nur solche, die ebenfalls downgesteppt sind und somit für eine weitere Kompression der Pitch Range sorgen. Das erwähnte einzige Beispiel findet sich in der Beispielsäußerung << weight >>. Hier folgt auf eine Serie von!h* s auf twelve und thousand ein normaler H*-Akzent auf pounds auf der gleichen Höhe wie der zweite downgesteppte!h*-akzent. (22) << weight >> H* nach!h* Die Tonhöhe ist das einzige Kriterium, durch das die downgesteppten Versionen von Pitchakzenten sich von ihren normalen Gegenübern unterscheiden. Das Verhalten von!h* und H*, was ihre Positionen in ip und Silbe angeht, ist identisch, abgesehen von der Tatsache, daß!h* natürlich nie in der ersten Silbe einer ip vorkommen kann, da es ja relativ zu einem normal hohen Ton downgesteppt sein muß. Nach den für diese Arbeit vorgenommen Berechnungen beträgt die Tonhöhe eines downgesteppten Akzents 80% der Frequenz des vorangehenden hohen Tons, nicht etwa 80% der Pitch Range. Die erstgenannte Methode hat klare Vorteile gegenüber der zweitgenannten. Bei einer Orientierung allein an der Grundfrequenz des vorangehenden hohen Tons, gleichbedeutend mit dem Wert der Topline liegen alle Werte der einzelnen Beispiele zwischen 70 und 90% bei einem exakten Durchschnittswert von 79,3%, was ein sehr gutes Ergebnis ist. Bei Orientierung an der Pitch Range schwanken sie dagegen zwischen 86% (<< legumes >>) und 20% (<< tree2house >>) bei einem Durchschnittswert von 55,1%. Dazu kommt, daß diese Messung nur für den ersten downgesteppten Ton innerhalb einer ip gelten würde. Wenn aber ein downgesteppter Ton einem anderen oder gar zwei downgesteppten Tönen folgt, müssen für diese ebenfalls Werte relativ zur Pitch Range angegeben werden, die jeweils natürlich deutlich tiefer angesetzt werden müßten. Die Äußerungen << anna2 >> und << sold1 >> enthalten beispielsweise zwei aufeinanderfolgende!h* s, << figureout >> sogar drei. Indem man einfach 80% der Tonhöhe des vorangehenden hohen Tons, egal ob downgesteppt oder nicht, zuweist, werden auch diese Fälle problemlos abgedeckt. Die 80%-Lösung ist also sowohl genauer als auch praktikabler als die Orientierung an der Pitch Range. Im Regelsatz wird dies durch die Funktion downstep umgesetzt, welche sich am zuletzt gesetzten hohen Ton orientiert und dessen Veränderung um einen bestimmten Faktor erlaubt. Im Falle des Downstep soll der Faktor eine Verkleinerung des Originalwertes auf 80% ausdrücken, was durch die Verwendung der Variablen dstep (= 0.8) deutlich gemacht wird. Natürlich sind auch Veränderungen um andere Faktoren denkbar falls nötig.

26 Der andere monotonale Pitchakzent, L*, ist H* sehr ähnlich, was die Plazierung innerhalb der Silbe angeht. Selbstverständlich sind die Durchschnittswerte in den vier Grundpositionen nicht völlig identisch, aber sie lassen doch die allgemeingültige Angabe der gleichen Werte zu. Der L*-Pitchakzent kommt im ToBI-Korpus erheblich seltener vor als H*, deshalb können die Einzelwerte nicht genauso repräsentativ sein. Dennoch kann man bei einer L* gelabelten Silbe, den Target-Punkt bei 85% der Stimmhaftigkeit setzen, wenn die Silbe die erste der ip ist (Beispiele : << mother4 >>, << names >>, << anna1 >>) und bei 25%, wenn sie die letzte der ip ist (Beispiele : << jam1 >>, << good2 >>, << eileen-leaving >>). Man muß den Durchschnittswert also nicht wegen außergewöhnlich später, weil besonders fokussierter L*-Pitchakzente in der letzten Silbe künstlich erhöhen. Dieses Phänomen beschränkt sich auf H*. Das gleiche gilt möglicherweise für die Sonderposition einer Silbe, die gleichzeitig erstes und letztes Element einer ip ist. Im ToBI-Korpus fällt kein anderer Pitchakzent jemals auf eine Silbe in dieser Situation, was natürlich die Vermutung nahelegt, daß allein H* derartige eine-silbe-ip s vorbehalten sind. Da das Nicht-Vorhandensein von Beispielen im ToBI-Korpus aber kein Beweis für deren Nicht-Existenz ist, werden die Werte für alle Pitchakzente geschätzt. Bei L* behält man konsequenterweise den Wert von H* (50%) bei. Auch in den restlichen, den Normalfällen, bei denen die mit L* gelabelte Silbe an keinerlei Grenzen stößt, ist die Position des Akzents mit 60% der Stimmhaftigkeit (Beispiele : << elephant3 >>, << voice >>, << made4 >>) gleich der bei H*. Der Unterschied zwischen beiden monotonalen Pitchakzenten liegt selbstverständlich in der Tonhöhe, denn L* setzt den Target-Punkt der jeweiligen Position auf die Baseline (base = 0%). Die Beschreibung der bitonalen Pitchakzente ist etwas komplizierter, da neben dem Target-Ton, der in der gelabelten Silbe verankert ist, ein weiterer Ton folgt oder vorangeht, dessen Position von eben diesem Target-Ton abhängt. Im Falle von L*+H ist der Target-Ton L* recht schnell beschrieben. Er liegt auf der Baseline und seine Stellung in den Grundpositionen ist im Vergleich zu den monotonalen Pitchakzenten etwas vorgeschoben, wohl um für den folgenden Ton H (trail tone) Platz zu schaffen. In der ersten Silbe einer ip erscheint er im Schnitt bei 55% der Stimmhaftigkeit ( Beispiel : << stein >> (2x)), im Normalfall ohne Grenznähe bei 40% (Beispiele : << eileen1 >>, << noodle1 >>, << bloomingdales >>). Für die beiden anderen Positionsvarianten gibt es keine Beispiele im ToBI-Korpus, was aber nicht heißen muß, daß sie überhaupt nie vorkommen. Entsprechend dem vorgezogenen Charakter der beiden belegten Beispiele wird die Position von L* in diesen Fällen ebenfalls als weiter vorne liegend eingeschätzt als bei den monotonalen Pitchakzenten, vor allem um den von L* abhängigen Trail-Ton nicht zu nah an die Grenztöne kommen zu lassen. Für L*+H in der letzten Silbe liegt L* schätzungsweise bei 15% der Stimmhaftigkeit, im Sonderfall der Mini-ip bei etwa 35% (wegen der initialen Grenze). Man muß aber wohl annehmen, daß der Trail-Ton H ersatzlos wegfällt, wenn sich L*+H in der letzten Silbe befindet und der Grenzton sowieso hoch endet (H-, H- H%, L-H%, H-L%). In so einem Fall ist es wirklich kaum vorstellbar, daß eine Silbe L*+H gelabelt würde, wenn das Ergebnis mit L* genau gleich wäre. Gefolgt von einem tiefen Grenzton (L-, L-L%) erscheint L*+H in der letzten Silbe aber durchaus nicht unmöglich. Etwas aufwendiger ist die Umsetzung des nachfolgenden H in einen Target-Punkt. Die Tonhöhe ist zwar einfach anzugeben (high für H, downstep für die Variante!H), doch die Angabe der Position in Relation zu L* erfordert die Unterscheidung mehrerer Fälle. Die ToBI-Richtlinien stellen bereits fest, daß sich der Abstand zwischen L* und H nicht nach Silben bemessen läßt, sondern daß H vielmehr nach einer bestimmten Zeitspanne

27 folgt. Diese Informationen entstammen aus Beckman / Pierrehumbert (1986), die sich explizit auf L*+H beziehen. The peak for the trailing H of a L*+H pitch accent [...] can occur on the same syllable as the starred tone [...] or it can occur two syllables later... (Beckman / Pierrehumbert 1986, p.280) Beckman / Pierrehumbert geben dafür das Beispiel << stein >>, das auch im ToBI- Korpus zu finden ist. Es zeigt einen L*+H-Pitchakzent in der ersten Silbe einmal des Wortes Stein s und einmal des Wortes rigamarole. Im ersten Fall ist H ebenfalls noch in der ersten Silbe zu finden, im zweiten erst in der Silbe -ma-. (23) Teil 1 : HiF0 auf /z/ von Stein s Teil2 : HiF0 auf /@/ von rigamarole Stattdessen bestimmt laut Beckman / Pierrehumbert ein fixer zeitlicher Abstand das Verhältnis des Target-Tons zum nachfolgenden oder vorangehenden, von ihm abhängigen Ton. Die Silbenstruktur ist dabei nicht von Belang....the unstarred tones are realized at some fixed time in relation to the the starred tones regardless of the number of potential tone bearing units covered by that time. (Beckman / Pierrehumbert 1986, p. 280) Wie lange dieser fixe zeitliche Abstand aber nun ist, wird nicht angegeben. Die im Zuge dieser Arbeit erfolgte Untersuchung des bitonalen Pitchakzents L*+H hat ergeben, daß H im Durchschnitt 0,2 Sekunden nach L* folgt (Beispiel : << bloomingdales >>). Beeinflußt werden kann diese Zeitspanne durch zwei Faktoren. Der wichtigere von beiden ergibt sich durch die Notwendigkeit, daß ein Target-Punkt natürlich nur in einem stimmhaften Bereich gesetzt werden kann. Wenn also 0,2 s nach L* ein stimmloser Laut folgt, muß der Abstand zwischen L* und H verändert werden. Wenn später als 0,2 s ein stimmhafter Bereich folgt, wird bei 20% dieses Bereichs ein Target- Punkt gesetzt. Der Abstand zwischen L* und H ist in so einem Fall sehr flexibel (Beispiel : << millionaire >> Abstand 0,32 s). Wenn aber auch nach 0,2 s kein stimmhafter Bereich mehr folgt, weil die ip-grenze erreicht ist, muß der Abstand verkürzt werden und zwar bis 90% der letzten stimmhaften Region vor dem 0,2- Sekunden-Abstand. Dies kann nur geschehen, wenn L* sich entweder in der letzten Silbe einer ip befindet oder in der vorletzten, wobei der Nukleus der letzten Silbe sehr kurz ist. Für letzteren Fall gibt es tatsächlich ein Beispiel, nämlich die Beispielsäußerung << flap >>. L* fällt auf den Diphthong /OU/ des Namens Joey und das in der nächsten Silbe folgende /I/ ist relativ kurz und wird am Ende so

28 creaky, daß keine Stimmhaftigkeit mehr wahrgenommen werden kann. In diesem Fall folgt H schon nach 0,13 s. Der andere mögliche Einfluß auf den Abstand zwischen L* und H ist theoretischer Natur, da im ToBI-Korpus kein Beispiel dafür vorhanden ist. Es ist aber durchaus denkbar, daß ein durch die gerade eben beschriebenen Umstände erzeugter Abstand verkürzt werden muß, weil sich der so gesetzte Target-Punkt sonst mit einem bereits vom nächsten Label gesetzten Punkt überschneidet. Leider ist das Generierungsprogramm nur in der Lage, vorherzusehen, in welcher Silbe das nächste Label folgt und welcher Art das Label ist. Es kann aber nicht erkennen, zu welcher Zeit der am nächsten liegende Punkt des folgenden Labels gesetzt werden wird, so daß eine solche Sicherung im Moment nicht Teil des Generierungsprogramms ist. Damit wären alle möglichen Formen die eine L*+H entsprechende Kontur annehmen kann so gut wie möglich abgedeckt. Sehr ähnlich ist die Beschreibung der beiden anderen bitonalen Pitchakzente. Der einzige Unterschied liegt in der Tatsache, daß der vom Target-Ton abhängige Ton vorangeht. Die Untersuchung von L+H* sollte also von den Ausführungen zu L*+H profitieren. Der Target-Ton dieses bitonalen Pitchakzents kann in der Tonhöhe high (L+H*) oder downstep (L+!H*) vorkommen. Die Plazierung innerhalb der betroffenen Silbe ist dadurch selbstverständlich nicht betroffen. Da der abhängige Ton diesmal vorangeht, wird der Target-Ton H* etwas zurückgeschoben. In der ersten Silbe der ip wird er beispielsweise erst bei 90% der Stimmhaftigkeit gesetzt (Beispiele : << democrat >>, << blond-baby1 >>, << for-marianna >>). In normaler Mittelstellung findet man ihn im Durchschnitt bei 75% der Stimmhaftigkeit (Beispiele : << noone >>, << mother4 >>, << memphis2 >>). In der letzten Silbe der ip hält H* dagegen Abstand von der finalen Grenzen und wird überraschend früh bei 25% der Stimmhaftigkeit gesetzt (Beispiele : << heavy-rain >>, << fail1 >>, << legumes >>). Für die Sonderstellung in einer aus einer einzigen Silbe bestehenden ip muß ein weiteres Mal eine Schätzung angegeben werden. Auch hier wird angenommen, daß der Target-Ton wegen des vorangehenden L etwas nach hinten gedrückt wird. Daher werden im Regelsatz 70% der Stimmhaftigkeit für H* in dieser Stellung vermerkt. Der von H* abhängige Ton L ist zwar ein tiefer Ton, kommt aber nie so tief vor wie ein L*-Target-Ton. Dies wird schon in den ToBI-Richtlinien (p.23) angedeutet, aber dort als möglicherweise nicht allgemeingültig eingestuft. Im Großteil der ToBI- Beispielsäußerungen trifft diese Einschätzung aber zu. Deshalb wird L in L+H* nicht auf der Baseline, sondern bei 20% gesetzt. Besonders deutlich zeigen die beiden IP s der Äußerung << bloomingdales >> den Unterschied zwischen L und L* (in L*+H). (24) L* (base) L (20%)

29 Der Abstand zwischen Target-Ton und abhängigem Ton wird bei L+H* durch die gleichen Kriterien gesteuert mit dem einzigen Unterschied, daß L diesmal um 0,2 s vorangeht und nicht folgt. Da der L+H*-Pitchakzent relativ häufig ist, gibt es viele Beispiele für die drei möglichen Abstände von 0,2 s, < 0,2 s und > 0,2 s. Deshalb sollen diese drei Möglichkeiten wenigstens bei einem der bitonalen Pitchakzente durch Graphiken demonstriert werden. Normalerweise fällt L also in ein stimmhaftes Gebiet durchschnittlich 0,2 s vor H* (Beispiele : << made2 >>, << trafficlight >>, << formarianna >>). (25) L 0,2 s vor H* Wenn L nach 0,2 s in ein stimmloses Gebiet fallen würde, wird die Distanz bis 90% der nächsten davorliegenden stimmhaften Region vergrößert. In der Äußerung << spoon2 >> (26 ) beträgt der Abstand zwischen L und H* zum Beispiel 0,45 s. Wenn aber nach 0,2 s wegen der initialen ip-grenze kein stimmhafter Bereich mehr vorangeht, muß der Abstand auf 20% der Stimmhaftigkeit des folgenden Bereichs verkürzt werden. Ein Beispiel dafür liefert die Äußerung << pigs >> (26 ), in der L nur 0,1 s vor H* gesetzt wird. (26 ) L 0,45 s H* (26 ) L 0,1 s H* Wie man sieht, können die so erstellten Regeln die tatsächlichen Verhältnisse recht gut widerspiegeln.

30 Nicht zu vergessen ist auch der schon bei L*+H erwähnte Schutzmechanismus gegen die Überschneidung von zwei Punkten. L darf nicht so weit nach vorne gesetzt werden, daß es früher erscheint als der Target-Punkt einer vorher gelabelten Silbe. Dieses Prinzip sollte vor der Anwendung der Positionsregeln für L befolgt werden, da es nicht darauf achtet, ob der entsprechende Punkt 0,2 oder 0,5 Sekunden vor dem Target-Ton gesetzt würde. Er darf ganz einfach nicht vor einen bereits gesetzten Punkt plaziert werden. Glücklicherweise ist die Umsetzung dieses Prinzips in eine Regel möglich, da das Generierungsprogramm diesmal in der Lage ist, festzustellen, zu welchem Zeitpunkt der letzte Punkt des vorhergehenden Labels gesetzt wurde. Falls sich bei Anwendung einer der Varianten der 0.2-Sekunden-Regel eine solche Überschneidung ergibt, wird der Target-Punkt auf die Position des früher gesetzten Punkts plaziert. Der letzte zu untersuchende Pitchakzent ist H+!H*. Target-Ton ist!h*, dessen Tonhöhe mit der Funktion downstep beschrieben wird.!h* ist downgesteppt in Relation zum von ihm abhängigen, vorangehenden H. Es gibt also eine gegenseitige Abhängigkeit der beiden Elemente dieses Pitchakzents. Die Positionen des Target-Tons in der akzentuierten Silbe sind folgende : in der letzten Silbe relativ früh bei 20% (Beispiele : << mile >>, << sublime1 >>, << onions >>), in der Mittelstellung bei im Schnitt 60% (Beispiele : << sublime2 >>, << romanelli >>, << argument >>). Für H+!H* in der ersten Silbe oder einer ein-silben-ip gibt es keine Beispiele. In letzterem Fall sind sich die ToBI-Transkribierer bei der Äußerung << nose >> allerdings nicht ganz sicher, welches Label gesetzt werden soll. Den für diese Arbeit angestellten Untersuchungen zufolge ist H+!H* mit!h* bei 60% die passende Transkription an dieser Stelle. Die Position von!h* in der ersten Silbe einer ip muß dagegen frei geschätzt werden und zwar auf 90% der Stimmhaftigkeit. Es ist anzunehmen, daß die initiale Grenze den Target-Ton des bitonalen Pitchakzent genauso, wenn auch etwas weniger, nach hinten drückt wie bei L+H*. In den anderen Stellungen wirkt der vorangehende Ton H offenbar nicht verzögernd auf die Position von!h*. Ein Grund dafür ist wohl, daß der Abstand zwischen beiden Tönen im Normalfall durchschnittlich nur 0,15 s beträgt (Beispiele : << sublime2 >>, << romanelli >>). Genau wie bei L+H* vergrößert sich diese Distanz, wenn 0,15 s vor!h* wegen Stimmlosigkeit kein Punkt gesetzt werden kann aber ein stimmhafter Bereich vorangeht. In diesem Fall wird H bei 90% der Stimmhaftigkeit dieses Bereiches gesetzt (Beispiele : << sublime1 >> (0,24 s), << capote >> (0,24 s)). Verkürzt wird die Distanz dagegen, wenn auch keine stimmhafte Region vorangeht (Beispiele : << theresa >> (0,09 s), << onions >> (0,1 und 0,11 s - zwei Fälle)). Wie bei L+H* gilt natürlich auch für H+!H* das Prinzip, daß der vorangestellte Ton, in diesem Fall H nicht weiter vorne gesetzt werden darf als ein Target-Punkt ein früher gelabelten Silbe. Es ist noch hinzuzufügen, daß H, an dessen Tonhöhe sich der downgesteppte Target- Ton orientiert, nur etwa 90% eines normalen hohen Tons erreicht. Die Funktion high ist daher nicht korrekt für H. Stattdessen wird die Funktion downstep angewandt, obwohl H nicht das typische Downstep-Phänomen auslöst, daß die Komprimierung der Pitch Range von diesem Punkt an zur Folge hat. In diesem Fall wird die Tonhöhe aber um den Faktor 0,9 verringert. Wenn H der erste hohe Ton der ip sein sollte, wofür es im ToBI-Korpus außer möglicherweise << nose >> keine Beispiele gibt, würde es bei 90% der Pitch Range gesetzt werden.!h* ist also in Relation zu einem Ton, dessen Tonhöhe bereits verringert ist, downgesteppt. Durch die in diesem Abschnitt vorgenommenen Beschreibungen können die verschiedenen möglichen Ausprägungen der F0-Kontur, die mit den jeweiligen Pitchakzenten verbunden sind, sehr gut von einem entsprechendem Generierungsprogramm nachempfunden werden.

31 Grenztöne Grenztöne markieren Anfang und Ende von ip s bzw. IP s. Es ist daher nicht verwunderlich, daß zum Zwecke ihrer Darstellung jeweils ein Punkt an der äußersten Grenze der Stimmhaftigkeit gesetzt werden muß. Bei finalen Grenztönen wäre dies folglich bei 100% der Stimmhaftigkeit der letzten Silbe einer ip/ip, bei initialen Grenztönen bei 0% der Stimmhaftigkeit der ersten Silbe der ip/ip. Nur unter speziellen Umständen und bei gewissen, etwas komplexeren Boundary-Töne müssen noch zusätzliche Punkte gesetzt werden. Es variiert also vor allem die Tonhöhe der verschiedenen Grenztöne. Die meisten finalen Grenztöne können daher recht schnell analysiert und beschrieben werden. Intermediäre Phrasen, die von anderen intermediären Phrasen gefolgt werden, signalisieren ihr Ende, wie mittlerweile bekannt, durch Phrasenakzente. H- setzt einen hohen Ton ( high ) am Ende der Stimmhaftigkeit der letzten Silbe (Beispiele : << jam1 >>, << lazy >>, << made4 >>). Bei!H- ist der Ton downgesteppt (Beispiele : << heavy-rain >>, << tree2house >>). Bei L- schließlich wird der Target-Punkt auf die Baseline ( base ) gesetzt (Beispiele : << insert >>, << for-marianna >>, << vocative1 >>). Wenn das Ende einer ip mit dem Ende einer IP zusammenfällt, folgt ein spezieller IP- Grenzton auf den Phrasenakzent. Trotzdem ist es nicht immer notwendig, zwei Targetpunkte für den zusammengesetzten Boundary-Ton zu setzen. Für H-H% genügt ein Punkt 20% überhalb der Topline, also bei 120%, am Ende der Stimmhaftigkeit der letzten Silbe der IP. Durch den bereits hohen H- Phrasenakzent wird das bereits in (p. 16) angesprochene Phänomen des Upstep, einer lokal begrenzten Erhöhung der Pitch Range am Ende der IP, ausgelöst, so daß der Target- Punkt überhalb der normalen Pitch Range gesetzt werden muß (Beispiele : << names >>, << eileen-leaving >>, << jam1 >>). L-L% verhält sich sehr ähnlich mit dem Unterschied, daß aufgrund von Final Lowering (siehe , p. 14) diesmal ein Punkt 20% unterhalb der Baseline, bei -20%, gesetzt werden muß (Beispiele : << made1 >>, << thought >>, << word >>). Das Upstep-Phänomen ist auch bei H-L% festzustellen. Aus diesem Grund ist trotz des L% kein Abfall der Kontur zu bemerken. Der Target-Punkt wird bei 100% der Stimmhaftigkeit der letzten Silbe auf die Topline ( top ) gesetzt. Das Setzen eines einzigen Punktes reicht aber nur aus, wenn der letzte vor dem Grenzton gesetzte Punkt ebenfalls hoch war (Beispiele : << mile >>, << flour2 >>, << money >>). Um die für H-L% charakteristische hochliegende Ebene ( plateau contour ) auch nach tiefgesetzten Punkten (L) zu erzeugen, muß zuvor ein Punkt bei 0% der Stimmhaftigkeit der letzten Silbe der IP auf die Topline gesetzt werden (Beispiel : << cheapest >>). Wenn sich ein tiefer Ton in der letzten Silbe befinden sollte, müßte dieser Punkt auf 50% der Stimmhaftigkeit dieser Silbe zurückgeschoben werden, um eine Überschneidung der beiden Regeln zu verhindern (keine entsprechenden Fälle bekannt). Wie bereits erwähnt, ist es kein Problem für das Generierungsprogramm, zurückzuschauen, in welcher Silbe, zu welchem Zeitpunkt und in welcher Höhe der letzte gesetzte Target-Punkt plaziert wurde. Die Erzeugung von!h-l%, der downgesteppten Variante von H-L% erfordert in jedem Fall das Setzen von zwei Punkten. Zuerst wird ein downgesteppter hoher Target-Punkt bei 20% der Stimmhaftigkeit der letzten Silbe der IP plaziert, dann folgt ein ebenso hoher Punkt ( high ) bei 100% der Stimmhaftigkeit (Beispiel : << calling >>, << calling2 >>, << calling3 >>). Dieser Grenzton ist typisch für sogenannte Rufkonturen (calling contours). Wenn sich allerdings ein Target-Punkt egal welcher Höhe in der letzten Silbe befindet, muß der zuerst gesetzte Punkt auf 50% der

32 Stimmhaftigkeit zurückgeschoben werden (Beispiel : << spoon2 >>). Trotz des Setzens von zwei Target-Punkten können weder bei H-L% noch bei!h-l% Phrasenakzent und IP-Grenzton unterschieden werden. Dies ist aber beim letzten Boundary-Ton des ToBI-Toninventars L-H% zumindest dann möglich, wenn ein hochgesetzter Target-Ton dem Grenzton unmittelbar vorangeht (hoch ist alles, was nicht L* oder L gelabelt ist). In so einem Fall müssen zwei Varianten unterschieden werden. Wenn ein solcher hoher Ton weiter als zwei Silben von der letzten Silbe der IP entfernt ist, wird ein Punkt bei 0% der Stimmhaftigkeit dieser Silbe auf die Baseline gesetzt und ein zweiter bei 100% der Stimmhaftigkeit bei 80% der Pitch Range (Beispiele : << names >>, << good-aft >>, << eileen-leaving >>). Ist dem nicht so, wird der erste Punkt erst bei 50% der Stimmhaftigkeit der letzten Silbe plaziert, der zweite bleibt unverändert (Beispiele : << cream >>, << anna1 >>, << millionaire >>). Wenn der letzte Ton vor L-H% tief ist, tritt wiederum eine andere Regel in Kraft, die ebenfalls zwei Fälle unterscheidet. Sollte der tiefe Ton L-H% um mehr als zwei Silben vorangehen, wird der dem Phrasenakzent L- entsprechende erste Target-Punkt bei 0% der Stimmhaftigkeit der letzten Silbe bei 25%, also nicht auf die Baseline, gesetzt, um so einen leichten Anstieg zu erzeugen. Der zweite Punkt folgt wie gewohnt am Ende der Stimmhaftigkeit bei 80% der Pitch Range (Beispiele : << nose >>, << drive >>). Falls der tiefe Ton aber nicht so weit von der letzten Silbe entfernt ist, kann auf den ersten, für L- intendierten, Target-Punkt verzichtet werden. Es genügt dann der zweite Punkt am Ende der Stimmhaftigkeit (Beispiele : << pigs >>, << tags >>, << bananas >>). Dieser Punkt ist die einzige Konstante in allen vier möglichen Varianten von L-H%. Er ist nicht ganz so hoch (80%) wie ein normaler hoher Ton, möglicherweise aufgrund des vorangehenden tiefen Phrasenakzents. Die Form der F0-Kontur zu Beginn einer ip/ip wird von den ToBI-Labeln nicht beschrieben. Einzige Ausnahme ist %H, das aber recht selten vorkommt, nämlich nur, wenn ein hoher Ton auf der ersten Silbe einer IP nicht durch einen Pitchakzent erklärbar ist, weil kein Wortakzent auf diese Silbe fällt. Dieser initiale Grenzton wird als erster Punkt der IP bei 0% der Stimmhaftigkeit der ersten Silbe auf die Topline ( top ) gesetzt (Beispiele : << bananas >>, << voice >>, << mother2 >>). Die anderen möglichen Ausprägungen der Kontur am Beginn einer ip oder IP müssen nicht durch explizite Label dargestellt werden, da sie sich aus der Umgebung, die von anderen Labeln beschrieben wird, ergeben. Wenn beispielsweise eine ip-grenze nicht von einer IP-Grenze gefolgt wird, also zwei ip s direkt aufeinander folgen, wird einfach der Phrasenakzent der vorhergehenden ip als Anfangspunkt der folgenden übernommen. In einem solchen Fall wird also ein Punkt bei 0% der Stimmhaftigkeit der ersten Silbe dieser ip entweder auf die Top- oder Baseline gesetzt, je nachdem, ob der Phrasenakzent H- oder L- war. Auch ein Punkt auf downgesteppter Tonhöhe (nach!h-) ist denkbar. Beispiele für Übernahme von L- sind << insert >>, << nose >> oder << knock-stuff >>, H- wurde in << jam1 >>, << lazy >> oder << heavy-rain >> auf die folgende ip übertragen. In einigen der ToBI-Beispielsäußerungen werden auch IP- Grenztöne als Anfangstöne übernommen, was zu den schon in (p. 16) erwähnten Schwierigkeiten der Unterscheidung von ip s und IP s in den ToBI- Beispielsäußerungen führt. Für die Zwecke des Generierungsprogramm wurde entschieden, daß die Übernahme nur bei medialen ip-grenzen stattfindet, während die Kontur am Beginn einer IP durch eine andere Regel geformt wird. Gemäß den ToBI-Richtlinien startet die F0-Kontur in der Position des Beginns einer IP (Absoluter Beginn) bei Mangel an Zuweisungen durch Label, also per default, in der Mitte der Pitch Range eines Sprechers. Übertragen in die Sprache des Regelsatzes wäre das bei circa 50%. Bei genauerer Untersuchung ergibt sich, daß dies nur stimmt, wenn

33 erst frühestens in der vierten Silbe der IP ein Pitchakzent gelabelt ist. In einem derartigen Fall muß dann aber noch ein Zwischenpunkt zwischen dem Default- Anfangspunkt und dem ersten Target-Punkt des Pitchakzents bei 100% der Stimmhaftigkeit der ersten Silbe der Äußerung gesetzt werden. Wenn der folgende Target-Ton hoch ist, geschieht dies bei 75% (Beispiele : << voiced-h >>, << name1 >>), wenn er tief ist bei 25% (Beispiel : << jam1 >>). Wenn sich der erste zu einem Pitchakzent gehörige Target-Punkt aber in der ersten, zweiten oder dritten Silbe der IP befindet, wird der absolut erste Punkt der IP nicht in der Mitte der Pitch Range gesetzt, sondern richtet sich sofort nach der Höhe des unmittelbar folgenden Target- Punkts. Wenn dieser tief ist, wird der Anfangspunkt bei 30% gesetzt ( Beispiele : << stalin >>, << eileen-leaving >>, << made4 >>), wenn nicht bei 70% (Beispiele : << flap >>, << flap2 >>, << made3 >>). Mit dieser recht komplexen Darstellung der initialen Grenztöne ist die Untersuchung aller möglichen Ausprägungen der F0-Kontur wie sie durch Label oder im Falle der gerade genannten initialen Grenztöne zumindest durch eine bestimmte Position beschrieben werden können, abgeschlossen. Es existieren aber noch einige Phänomene, die nicht der Auswahl eines bestimmten Bausteins, symbolisiert durch ein Label, unterliegen, sondern sich zwangsläufig aus bestimmten Konstellationen gewisser Töne zueinander ergeben Abstandsregeln Bei der Untersuchung des absoluten Beginns von IP s hat sich bereits angedeutet, daß das Setzen von Zwischenpunkten, die direkt nichts mit den gelabelten Tönen, zwischen denen sie auftauchen, zu tun haben, notwendig wird, sobald zwei Target-Punkte, die nicht auf gleicher Höhe sind, einen gewissen Abstand zueinander haben. Eine direkte Verbindung der beiden Punkte durch Interpolation würde an manchen Stellen der generierten Kontur zu hohe bzw. zu tiefe Passagen erzeugen, was auch bei der Resynthese deutlich zu hören wäre. Der Grundfrequenzverlauf zwischen einem tiefen Target-Ton und einem weit entfernten hohen Ton gestaltet sich so,daß die Kontur bis zum Ende der auf die tief gelabelte Silbe folgenden Silbe stark ansteigt, danach bis zum Beginn der hoch gelabelten aber nur noch wenig zunimmt. In der Region ein bis zwei Silben nach der Ausgangssilbe verliefe die Kontur bei einer direkten Verbindung der beiden Punkte also viel zu tief. Dementsprechend wäre sie bei der Verbindung von hoch zu tief über eine größere Distanz teilweise zu hoch. Dieses Phänomen trifft auf das Verhältnis aller Arten von Tönen zueinander zu, egal ob Pitchakzente oder Grenztöne. Eine Regel, die die passenden Zwischenpunkte setzen soll, muß also nach jedem gesetzten Punkt feststellen, ob der der nächste zu setzende Punkt die entgegengesetzte Tonhöhe (L vs. H; H vs. L) besitzt und weiter als drei Silben entfernt ist. Erst nach dieser Distanz ist die Abstandsregel nämlich von Bedeutung. Der Abstand wird also festgelegt, indem die Silben bis zur nächsten Silbe mit Target-Ton gezählt werden. Diese Zählmethode kommt auch bei der Default-Regel des initialen Grenztons zur Anwendung und soll hier kurz dargestellt werden. Die Silbe, von der die Zählung ausgeht, ist Silbe 0, es folgen Silbe 1 (Abstand = 1), Silbe 2 (Abstand = 2), und Silbe 3 (Abstand = 3). Erst wenn ein Label in Silbe 4 oder später erscheint, würde die Abstandsregel angewandt werden. (27) L* (H+)!H* %

34 Die Abstandsregel stellt die Distanz zum nächsten Target-Ton fest. Dieser muß aber nicht dem nächsten gesetzten Target-Punkt entsprechen. Bei L+H* oder H+!H* wäre dies der abhängige, vorangehende Ton. Da das Programm Tonhöhe und Abstand unabhängig voneinander determiniert, würde es in (27) also feststellen, daß ein hoher Ton (H) im Abstand von vier Silben (!H*) folgt. Die Abstandsregel würde also fälschlicherweise zur Anwendung kommen. Um dies zu verhindern, wird bei bitonalen Pitchakzenten wie L+H* und H+!H*, wenn von links nach rechts gezählt wird, wieder eine Silbe abgezogen, so daß in unserem Beispiel der Abstand nur drei Silben betragen würde. Genau das Gleiche geschieht mit L*+H, wenn von hinten nach vorne geschaut, also von rechts nach links gezählt wird. Dies ist zum Beispiel bei den Grenztönen H-L%,!H-L% und L-H% notwendig. Diese Label haben nur für sie gültige, kleine Abstandsregeln eingebaut. Die in diesem Abschnitt beschriebene Regel kann aber potentiell nach jedem Target-Punkt zur Anwendung kommen, der weit genug von einem ihm folgenden und in der Tonhöhe verschiedenen Punkt entfernt ist. Wenn dies der Fall ist, werden an bestimmten Positionen Zwischenpunkte gesetzt, die die natürliche Form des Grundfrequenzverlaufs nachahmen. Wird ein tiefer Target-Punkt in einem Abstand von mehr als drei Silben von einem hohen Target-Punkt unmittelbar gefolgt, so muß bei 100% der Stimmhaftigkeit der auf den tiefen Punkt folgenden Silbe ein Punkt bei 75% gesetzt werden, um einen recht steilen Anstieg zu erzeugen. Bei 0% der Stimmhaftigkeit der Silbe, die den hohen Target-Punkt enthält, wird bei 90% ein zweiter Zwischenpunkt gesetzt, um so eine schwach ansteigende Ebene, gefolgt von einem kurzen Anstieg zu generieren. Die Höhe des zweiten Zwischenpunktes wird mit downstep (Faktor 0,9) angegeben. Dessen Höhe richtet sich natürlich nicht nach dem ersten Zwischenpunkt bei 75%, da dieser ja nicht gelabelt ist. Das Setzen dieser beiden Zwischenpunkte wird im Regelsatz als LH_change bezeichnet. Ein gutes Beispiel dafür liefert die Beispielsäußerung << manitowoc >>. (28) LH_change (L* zu H-H%) Zur Darstellung des Übergangs von einem hohen Target-Ton zu einem weit entfernten tiefen Target-Ton (HL_change) genügt dagegen ein einziger Zwischenpunkt am Ende der Stimmhaftigkeit der auf den hohen Ton folgenden Silbe bei 25% zwischen Topund Baseline (Beispiel : << flap >>).

35 (29) HL_change (H* zu L*+!H) Die beiden Abstandsregeln kommen erst zum Einsatz, wenn die Regeln für Pitchakzente und Grenztöne bereits angewandt wurden. Aus diesem Grund kollidieren sie nicht mit anderen Regeln. Die spezifischen Abstandsregeln des Default-Anfangston wurden beispielsweise schon angewandt, so daß keine Gegensätze in der Tonhöhe mehr existieren. Die Abstandsregel komplettiert sogar noch andere Regeln. In (p.31) wird beispielsweise die Regel vorgestellt, daß der Grenzton L-H% einen ersten Punkt bei 0% der Stimmhaftigkeit der letzten Silbe auf die Baseline setzt, wenn ein hoher Ton um mehr als zwei Silben vorangeht. Nun kann diese Regel dahingehend ergänzt werden, daß wenn der hohe Target-Punkt mehr als drei Silben entfernt, den Regeln des HL_change gemäß ein weiterer Punkt am Ende der Stimmhaftigkeit der folgenden Silbe bei 25% gesetzt wird. Das einzige zumindest theoretische Problem ergibt sich bei H-L% und!h-l%. Wenn der letzte gesetzte Punkt vor diesen beiden Grenztönen tief und weiter als drei Silben entfernt wäre, dann entstünden einige ungewollte Verwicklungen. Im Falle von H-L% würde der zweite Zwischenpunkt der Abstandsregel am Beginn der Stimmhaftigkeit der letzten Silbe bei 90% gesetzt werden, der erste Punkt von H-L% in der gleichen Position aber bei 100% ( top ). Dies ist aber nicht so schlimm, da sich keine Überschneidung ergibt und zudem der plötzlich Sprung von 90% auf 100% kaum sichtbar geschweige denn hörbar ist. Beispiele gibt es dafür im ToBI-Korpus ohnehin keine. Bei!H-L% ist das Problem zumindest in der Theorie etwas größer. Hier wird in derselben Situation der erste Punkt erst bei 20% der Stimmhaftigkeit auf Downstep- Level gesetzt, so daß durchaus ein Unterschied zwischen diesem Punkt und dem zweiten Zwischenpunkt des LH_change erkennbar ist. Glücklicherweise dürfte dies in der Praxis aber nie vorkommen, da!h-l% nur innerhalb von sogenannten Rufkonturen vorkommt. In allen Fällen in denen ein Name auf diese Weise ausgerufen wird, ist der dabei vorkommende Pitchakzent L+H* oder H*. Ein tiefer Target-Ton scheint!h-l% also nie voranzugehen und auch die für die Abstandsregel notwendige Distanz dürfte bei einem Vokativ nie zustande kommen. Zweck der Abstandsregel ist es also, den natürlichen Verlauf der F0-Kontur zwischen weit auseinanderliegenden Tönen nachzubilden, wobei diese spezielle Form der Kontur nicht explizit durch Label beschrieben wird.

36 Täler zwischen hohen Tönen Auch zwischen zwei hohen Tönen verläuft die F0-Kontur zumeist nicht so, daß eine direkte Verbindung der beiden Target-Punkte eine adäquate Darstellung der Form der Kontur gewährleisten würde. Pierrehumbert (1981, p. 989) spricht stattdessen von sagging transition (durchhängendem Übergang). In anderen Worten, es entsteht zwischen zwei aufeinanderfolgenden hohen Tönen, sozusagen zwei Gipfeln, ein Tal. (30) Tal zwischen zwei hohen Pitchakzenten Wovon die Tiefe eines solchen Tals abhängt und wie es durch Regeln beschrieben werden kann, ist sehr schwer zu sagen. Pierrehumbert (1981, p. 990) entwickelt eine sehr komplexe Funktion, die die Frequenzwerte der hohen Töne, den tieferen Baseline- Wert an dieser Position und den Abstand der beiden Gipfel zueinander in Abhängigkeit stellt. Es wäre müßig, diese Funktion genauer zu erläutern. Pierrehumbert gibt zum Beispiel an, das unter bestimmten Umständen der tiefste Punkt eines so erzeugten Tals bis auf die Baseline herunterfällt. Die Untersuchung der ToBI-Beispielsäußerungen zeigt aber, daß die entstehenden Täler nie sehr tief sind, selbst wenn die beiden hohen Target-Punkte weit voneinander entfernt sind. Für den Regelsatz dieser Arbeit wurde eine simplere Form der Zuweisung von Target-Punkten, die ein Tal erzeugen, gewählt. Sie erzeugt relativ flache Täler, die den Originalen recht gut nachempfunden sind. Nach dem Vorbild von Pierrehumbert beeinflußt der Abstand der beiden Gipfel die Art und Weise der Erzeugung des Tals. Die entsprechenden Werte sind allerdings verschieden. Wenn der Abstand der beiden hohen Target-Punkte 0,25 s oder weniger beträgt, wird überhaupt kein Tal generiert. Bewegt er sich zwischen 0,25 s und 0,5 s, wird in der Mitte der jeweiligen Distanz ein Talpunkt gesetzt, ist der Abstand größer als 0,5 s werden zwei Punkte jeweils 0,25 s von den Gipfeln entfernt gesetzt. Eigene statistische Untersuchungen haben ergeben, daß wohl vor allem das Verhältnis der Tonhöhen der beiden Gipfel entscheidend für die Tiefe des Tales ist. Es ist ohnehin zu bemerken, daß das Ohr den Unterschied zwischen verschieden tiefen Tälern sowieso kaum bemerkt, es sei denn, es wird entweder ein unverhältnismäßig tiefes oder überhaupt kein Tal erzeugt. Insgesamt muß man sagen, daß in diesem Gebiet sicherlich noch weitere Untersuchungen vonnöten sind. Da diese aber sehr zeitaufwendig sind und zudem mit groberen Methoden zufriedenstellende Ergebnisse erreichbar sind, genügt die hier kurz beschriebene Verfahrensweise vollauf. Die Erzeugung von Tälern ist nicht automatischer Teil des Regelsatzes, sondern ein ein- und ausschaltbarer Parameter. Der Grund dafür ist, daß die Talgenerierungsregel im Moment noch so formuliert ist, daß sie zwischen allen aufeinanderfolgenden hohen

37 Target-Punkten Täler erzeugt. Leider sind davon auch die beiden hoch gesetzten Target-Punkte in den Grenztönen H-L% und!h-l%, sowie hohe Zwischenpunkte innerhalb der allgemeinen Abstandsregel und der Defaultbeginn-Abstandsregel betroffen. Tatsächlich kommen Täler nur zwischen Pitchakzenten, Pitchakzenten und Grenztönen, sowie hohen übernommenen initialen Grenztönen und Pitchakzenten vor. Wenn also zum Beispiel H-L% oder eine Abstandsregel in einer Äußerung vorkommen, deren F0-Kontur generiert werden soll, kann man die in diesem Fall störende Erzeugung von Tälern abschalten. Mit der Darstellung von Tälern zwischen hohen Target-Punkten sind nunmehr alle direkt oder indirekt durch Label symbolisierten Bausteine, die die Form einer Grundfrequenzkurve des Amerikanischen Englisch prägen können, beschrieben. 3. Äußere Einflüsse auf die Form der F0-Kontur In diesem Kapitel sollen die Einflüsse auf die Form der F0-Kontur Erwähnung finden, die nicht als identifizierbare Einheiten im Aufbau der Kontur empfunden werden können. Dennoch sind sie auf jeden Fall zu berücksichtigen, sollen Generierungs- und Resyntheseprogramm natürlich klingende, dem jeweiligen Original angemessene Ergebnisse hervorbringen Pitch Range Die Pitch Range bezeichnet die Distanz zwischen dem höchsten Punkt in der F0-Kontur und dem tiefsten Punkt, den ein Sprecher über alle Äußerungen hinweg erreicht (Hirschberg / Pierrehumbert 1986, p. 137). In ToBI wird das F0-Maximum in den meisten Beispielsäußerungen mit dem Label HiF0 gekennzeichnet, wohl auch, um anzuzeigen, daß der durch Upstep künstlich erzeugte extrem hohe Ton im Grenzton H-H% nicht als solches anzusehen ist. Genaugenommen kann die Pitch Range also nicht an jeder beliebigen Stelle einer Äußerung festgestellt werden, sondern nur dort, wo die entsprechenden Informationen, sprich ein hoher Target-Punkt und der tiefste Frequenzwert, zugänglich sind. Die Pitch Range wird daher nur für größere Bereiche wie den Beginn oder das Ende einer ip bzw. die gesamte ip angegeben. Die F0-Kontur ist in eine bestimmte Pitch Range eingebettet, die ihre Form beeinflußt. Ist die Pitch Range relativ groß, die Abstände zwischen hohen und tiefen Tönen also recht weit, wird diese Form auseinander gezogen. Ist sie eher klein, wird die Form zusammengepreßt, die einzelnen Konturen heben sich viel weniger voneinander ab und sind entsprechend schwieriger zu erkennen. Diese Tatsache charakterisiert auch den Unterschied zwischen normalen weiblichen und männlichen Stimmen. Die F0-Kontur der Äußerung einer Sprecherin ist in aller Regel viel leichter zu analysieren und interpretieren als die ihres männlichen Gegenübers. Der Grund dafür liegt ganz einfach darin, daß durch die deutlich höheren hohen Töne die Pitch Range entsprechend größer ist. Auf der Grundlage des ToBI-Korpus kann für die normale Pitch Range einer Sprecherin ein grober Durchschnittswert von etwas über 200 Hz ( Hz Hz) angenommen werden. Bei den männlichen Sprechern liegt der entsprechende Wert bei ungefähr der Hälfte, oft sogar noch bei weniger. Ihre Pitch Range bewegt sich meistens von Werten knapp unter 100 Hz bis zu knapp unter 200 Hz. Die Erweiterung oder Reduzierung der Pitch Range wird von Sprechern auch absichtsvoll gebraucht, um einer Äußerung auf der pragmatischen Ebene zusätzliche Bedeutung zu verleihen. Durch eine im Vergleich zu anderen Äußerungen des Diskurs erweiterte Pitch Range kann ein Sprecher beispielsweise Aufregung, Überraschung,

38 Interesse oder sonstige Formen emotionaler Anteilnahme zum Ausdruck bringen. Die Erweiterung wird in solchen Fällen mittels extrem hoher Töne verwirklicht und geht oft mit der Fokussierung bestimmter Silben bzw. Wörter einher. Bei den durchaus als repräsentativ anzusehenden Frauenstimmen im ToBI-Korpus kann die F0-Kontur an solchen Stellen eine Frequenz von bis zu 450 Hz erreichen. Die Pitch Range einzelner Äußerungen trägt auch dazu bei, die thematische Struktur des Diskurs zu ordnen. Ein neues Thema wird unter anderem durch die erweiterte Pitch Range signalisiert. Wenn es sich um einen sehr großen Themenkomplex bestehend aus mehreren Intonationsphrasen handelt, kommt es vor, daß jede sukzessive Phrase eine etwas komprimierterer Pitch Range aufzuweisen hat, so daß das Thema in einer Intonationsphrase mit sehr geringer Pitch Range beendet wird. Dieses Phänomen wird als Paragraphenintonation bezeichnet. (Beckman / Ayers 1994, p. 25) Die Paragraphenintonation stellt eine Ausweitung des Downsteps über die Intonationsphrase hinaus dar (siehe , p. 12). Die ToBI-Richtlinien weisen auf die Äußerungen << park1 >> bis << park5 >> als gute Beispiele hin. Sie enthalten eine zusammenhängende Beschreibung des Weges, den der Sprecher normalerweise nimmt, um in den Park zu gelangen. Der Abschluß seiner Erzählung in << park5 >> zeichnet sich durch eine stark komprimierte Pitch Range aus. (31) Paragraphenintonation in << park5 >> Auch in einzelnen Intonationsphrasen kann die Pitch Range gegen Ende stark komprimiert werden und auf sehr tiefem Niveau enden. Dieses Phänomen wird als Final Lowering bezeichnet (siehe auch , p. 14 und , p. 30). Es signalisiert sowohl das Ende einer Äußerung als auch die Beendigung eines Themas. Aus diesem Grund ist es typisch für Deklarativsätze....the pitch range in declaratives is lowered and compressed in anticipation of the end of the utterance [... ] the more final lowering, the more the sense that an utterance completes a topic is conveyed. (Hirschberg / Pierrehumbert 1986, p. 138) Es gibt noch weitere Fälle, in denen die Diskursstruktur durch die Pitch Range angezeigt wird, etwa Parenthesen (parentheticals), die als dem übrigen Diskurs untergeordnete Einschübe anzusehen sind. Sie zeichnen sich ebenfalls durch eine komprimierte Pitch Range aus (Beispiel : << tree1house >>). Die Pitch Range spielt also durchaus eine Rolle in Diskursrepräsentationstheorien, doch nicht nur sie alleine, sondern auch bestimmmte Tunes können auf die Interpretation von Äußerungen und ihre Bedeutung im Diskurs Einfluß nehmen. Dies kann beim akustischen Vergleich resynthetisierter Konturen mit ihren Originalen hilfreich sein.

39 Den ToBI-Richtlinien zufolge kann nach Ende jeder ip vom Sprecher eine neue Pitch Range angesetzt werden (sog. Pitch Range Reset). Dies widerspricht allerdings der Tatsache, daß, wie in und erwähnt, Phrasenakzente als Anfangstöne direkt folgender ip s übernommen werden können, während nur nach IP-Grenzen wirklich mit einem neuen initialen Grenzton begonnen wird. In Einklang mit dieser für den vorliegenden Regelsatz getroffenen Entscheidung sollte die Pitch Range also lediglich pro IP angegeben werden, damit so durch Definition der Umgebung, in die die F0-Kontur eingebettet ist, deren spezifische Form beeinflußt werden kann. Allerdings ist es bisher leider nur möglich die Pitch Range im Bezug auf eine gesamte ToBI- Beispielsäußerung vorzugeben. Wenn eine Beispielsäußerung also aus mehreren IP s, kann auf diese nicht individuell eingegangen werden. Die Angabe der Pitch Range erfolgt nicht in der Form eines Labels und ist auch nicht Teil des Regelsatzes. Stattdessen wird sie als unabhängiger Parameter für jede Beispielsäußerung separat eingegeben. Auf diese Weise können auch Veränderungen im Verlauf der Äußerung berücksichtigt werden. Dies geschieht, indem die Ober- und Untergrenze der Pitch Range, also Top- und Baseline, in Form von Frequenzwerten für sowohl Anfang als auch Ende einer IP ( streng genommen leider Äußerung ) explizit angegeben werden. Dabei ist festzustellen, daß im Amerikanischen Englisch die Baseline über den Verlauf einer hinweg abfällt, was in den Frequenzwerten der tiefen Label (L, L*, L-) deutlich wird. Aus der Untersuchung der Frauenstimmen des ToBI-Korpus lassen sich folgende Durchschnittswerte ermitteln : c.a 165 Hz am Beginn, um 140 Hz in der Mitte und ungefähr 130 Hz am Ende einer IP. Die Äußerung << good2 >> zeigt eine typische fallende Baseline. (32) Fallende Baseline (L* zu L*) Bei der Angabe der Baseline im Zuge des Generierungsprogramms sollte der Anfangswert also immer höher sein als der Endwert. In Sequenzen bitonaler Pitchakzente (vor allem L+H* und L*+H) ist die fallende Baseline sehr oft mit dem Downstepping der jeweiligen hohen Töne verbunden (Beispiele : << yellow2 >> - 3 mal L+!H*, << bloomingdales >> - 2 mal L+!H*). Man könnte daher versucht sein, zu sagen, die gesamte Pitch Range würde gegen Ende der IP auf ein tieferes Niveau fallen, ein Effekt, der gemeinhin als Deklination bezeichnet. Im Großen und Ganzen wird aber angenommen, daß Deklination im Englischen keine Rolle spielt. Beckman / Pierrehumbert (1986) zweifeln jedenfalls an der Existenz dieses Effekts.

40 ...the declination effect would be very small if it exists in English. (Beckman / Pierrehumbert 1986, p. 302) Anderson et al. (1984, p.2) geben ihn mit lediglich 10 Hz pro Satz für männliche Stimmen an. Es weist vieles darauf hin, daß die Topline gegen Ende einer IP nicht ebenfalls abfällt. Zum Beispiel gibt es auch Sequenzen von bitonalen Pitchakzenten, in denen der hohe Ton nicht downgesteppt ist (Beispiel : << older-aircraft >> 2 mal L+H*). Überhaupt ist ja die bloße Existenz von downgesteppten Tönen Beweis genug, daß die Pitch Range im Normalfall nicht komprimiert ist. Erst nachdem das Downstep- Phänomen eingetreten ist, sind auch normale hohe Töne auf tieferem Niveau zu finden (siehe auch 2.3.1, p.24 ; Beispiel : << weight >>). Im Gegensatz zu tiefen Tönen fallen hohe Töne (H, H*) im Verlauf einer IP nicht ab. Wenn der letzte Pitchakzent einer Intonationsphrase, der sog. Nukleare Pitchakzent, einen hohen Target-Punkt setzt, ist dieser niemals tiefer als ein vorher in derselben Phrase gesetzter hoher Punkt. In den meisten Fällen ist er mindestens ebenso hoch (Beispiele : << theresa >>, << mile >>, << experience1 >>, << connections >>). (33) H* H* [ << mile >> (gleich bleibend) ] In einigen Fällen stellt H*, gelabelt mit HiF0, als Nuklearer Pitchakzent sogar deutlich das F0-Maximum, der IP dar - trotz hoher Pitchakzente am Beginn der Phrase (Beispiele : << pigs >>, << word1 >>, << vocative >>, << mole1 >>). (34) H* H* [ << mole1 >> (steigend) ]

41 Die Topline ist im Amerikanischen Englisch also unter keinen Umständen fallend. Bei der Generierung einer F0-Kontur ist es vernünftig, für Anfang und Ende der Topline den gleichen Wert einzugeben und eine gerade Topline zu erzeugen. Es gibt auch Alternativen zu dieser Art der Umsetzung der Pitch Range. Anderson et al. (1984, p.3) kritisieren beispielsweise die Definition der Topline, da eine Intonationsphrase meist mehrere hohe Punkte enthält, und diese natürlich so gut wie nie die exakt gleiche Tonhöhe besitzen, sondern ständig variieren. Aus diesem Grund kann man ihrer Meinung nach nicht wirklich feststellen,ob die Topline gerade, fallend oder steigend verläuft. Ihre Alternative besteht in der Einführung einer Referenzlinie (reference line), die durch die Mitte der Pitch Range läuft, und an der sich hohe und tiefe Töne nach oben oder unten orientieren. Dieser Vorschlag ist Teil eines etwas anderen Ansatzes zur Generierung von F0-Konturen, der in 5.4. als potentielle zukünftige Verbesserungsmöglichkeit noch etwas genauer beschrieben wird Mikroprosodie Da mikroprosodische Phänomene ebenfalls Einfluß auf die Form der Kontur nehmen, sollen sie in diesem Abschnitt der Arbeit Erwähnung finden. Auf den Punkt gebracht ist Mikroprosodie nichts anderes als die Abhängigkeit zwischen Konsonanten und Ton (Dogil 1990, p. 2). Ein spezifischer Konsonant kann also Einfluß auf die Form der F0- Kontur nehmen. Die offensichtlichste Auswirkung ist dabei, daß stimmlose Konsonanten auf der F0-Kontur selbstverständlich nicht abgebildet werden. Aber auch sie können einen Effekt auf einen nachfolgenden oder vorangehenden Vokal haben. Es ist die herrschende Meinung, daß der Einfluß mikroprosodischer Phänomene sehr gering ist, daß Sprecher sich ihrer nicht bewußt sind und sie sie folglich auch nicht kontrollieren können. Vielmehr ergeben sie sich automatisch aus den Eigenschaften der jeweiligen Phoneme. (Willems 1982, p. 16) Unglücklicherweise besteht schon über diese Definition Uneinigkeit. Silverman (1987, 2.5) ist zum Beispiel der Ansicht, daß Sprecher mikroprosodische Phänomene durchaus nicht ignorieren und sogar aktiv steuern. Auch ihre Bedeutung für die Form der F0- Kontur schätzt er viel höher ein. Bei der Analyse der Wirkung bestimmter Klassen von Konsonanten in bestimmten Positionen auf den Grundfrequenzverlauf herrscht ebenso wenig Konsens. Die etablierteste Tatsache im Zusammenhang mit mikroprosodischen Phänomenen ist beispielsweise, daß F0 in einem Vokal nach einem stimmlosen Plosiv kurz steigt und nach einem stimmhaften fällt. (35 ) prävokalischer stimmloser Plosiv /p/ (35 ) prävokalischer stimmhafter Plosiv /b/

42 Silverman (1987, 2.7) hält jedoch andere Forschungsergebnisse dagegen (etwa Ohde 1984 oder Haycock / Haggard 1970), die stattdessen besagen, daß F0 nach einem stimmlosen Plosiv fällt und nach einem stimmhaften eben bleibt. Bei der Beschreibung postvokalischer Plosive gibt es sogar drei Meinungen (Silverman 1987, 2.7). Lea (1973) stellt fest, daß postvokalische Plosive, egal ob stimmhaft oder stimmlos, die Frequenz des vorangehenden Vokals absinken lassen. Bei Kohler (1982) liest man von einem Anstieg vor stimmlosem Plosiv und einem Abfall vor stimmhaftem Plosiv. Lehiste / Peterson (1961) und Petersen (1983) entdeckten dagegen überhaupt keinen Effekt. Sonoranten haben gemäß Ewan (1979) und Emerit (1983) ebenfalls keinen Einfluß auf die Form der F0-Kontur. Kim (1968) und Hombert (1978) stellten dagegen einen starken Anstieg bei Nasalen fest. Die zur Verfügung stehende Literatur ist also nicht unbedingt eindeutig. In manchen Bereichen, wie z.b. Frikativen, gibt es auch noch große Lücken. Silverman (1987, 2.23) erklärt sich diese auffälligen Unstimmigkeiten einerseits durch methodologische Probleme, vor allem aber durch eine falsche Sichtweise von F0. Er ist der Meinung, daß F0 aus mehreren Schichten besteht, so daß mikroprosodische Phänomene unabhängig sind und der zugrundeliegenden Kontur erst nachträglich aufgezwungen werden....f0 perturbations are separate from and imposed upon an independently determined underlying intonation contour... (Silverman 1987, 2.23) Silvermans Organisation von F0 in mehreren Schichten fließt auch in sein eigenes Modell zur Generierung von F0-Konturen ein, daß in 5.4. wie das von Anderson et al. kurz beschrieben wird. Insgesamt zeigt sich also, daß es noch keine unumstrittenen einheitlichen Regeln gibt, mit Hilfe derer mikroprosodische Phänomene eindeutig in die Generierung einer F0- Kontur mit eingebaut werden könnten. Wenn in diese Arbeit also trotzdem Regeln inkorporiert sind, die dafür sorgen, daß F0 nach stimmhaftem Onset kurz fällt und nach stimmlosem Onset kurz steigt, dann geschieht dies nicht aus einem Anspruch auf Vollständigkeit, sondern vor allem um die aufgrund linearer Interpolation doch etwas eckige Kontur etwas natürlicher erscheinen zu lassen. Der Hörer nimmt deswegen aber keinen entscheidenden Unterschied war. Dennoch sind selbst solch beschränkte mikroprosodische Regeln von Vorteil. Sie ermöglichen durchaus die verbesserte Nachahmung bestimmter Phänomene wie den Abfall in der F0-Kontur während eines stimmhaften /h/ in dem Wort hand der Beispielsäußerung << voiced-h >>. (36) /h/ Leichter Abfall von F0 wegen stimmhaftem /h/

43 4. Umsetzung in einen Regelsatz Unter dem Begriff Regelsatz ist nichts anderes zu verstehen als die Gesamtheit aller Regeln mittels derer das Generierungsprogramm die Target-Punkte setzt, durch deren Verbindung in einem zweiten Schritt eine F0-Kontur erzeugt wird. Die Regeln sind wie der Rest des Programms in der Programmiersprache C++ geschrieben. Die Beschreibung der Syntax dieser Sprache und des exakten Aufbaus des Generierungsprogramms ist jedoch nicht entscheidend für das Verständnis der Struktur des Regelsatzes. Dieses Kapitel hat daher lediglich eine grobe Darstellung der Organisationsform des Regelsatzes sowie einiger spezifischer Probleme bei der Setzung von Target-Punkten zum Ziel Organisation des Regelsatzes Die ultimative Aufgabe jeder hier enthaltenen Regel ist es, die einer bestimmten Situation angemessenen Target-Punkte zu setzen. Die Punkte werden also erst dann gesetzt, wenn eine Bedingung, welche die jeweils notwendigen Umstände umschreibt, erfüllt ist. Alle Regeln haben daher die Form : if (Beschreibung bestimmter Bedingung) - then (Setzen der Punkte). Die Bedingung kann auch eine etwas komplexere Form annehmen und aus einer Verknüpfung mehrerer Bedingungen bestehen (&& = und; = oder). Der Aufbau des Regelsatzes orientiert sich zuallererst an den Labeln, mit denen akzentuierte oder an Phrasengrenzen befindliche Silben markiert sind, denn schließlich ist es ja die ursprüngliche Aufgabe dieser Arbeit, die in ToBI vorgegebenen Label in Target-Punkte umzusetzen. Als erster Schritt wird daher festgestellt, mit welchem Label (wenn überhaupt) eine Silbe versehen ist. Dies geschieht durch die Funktion accsyl.pattern (Beispiele : accsyl.pattern( H* ); accsyl.pattern( L-L% )). Wenn also eine Silbe tatsächlich gelabelt ist, dann ist die entsprechende Benennungsbedingung erfüllt und es folgt die für dieses bestimmte Label anzuwendende Anweisung zum Setzen von Target-Punkten. Auf diese Weise wird jede Silbe einer ToBI- Beispielsäußerung der Reihe nach überprüft. Nach einer Silbe, die mit % gelabelt ist und somit das Ende einer IP anzeigt, findet ein Pitch Range Reset statt, das heißt, die Pitch Range wird wieder neu eingestellt mit der Folge, daß zum Beispiel die Baseline nicht weiter fällt, sondern in der folgenden IP auf einem anderen Niveau beginnt. Allerdings kann - wie schon in 3.1 bemerkt - die Pitch Range nur für eine gesamte Äußerung angegeben werden, so daß alle IP s einer solchen Äußerung die gleiche Pitch Range haben. In einigen Fällen (%H, L-, H-, L-L% H-H%) ist es tatsächlich so, daß allein die Identifizierung des Labels ausreicht, um Target-Punkte zu setzen. Für die Pitchakzente genügt dies jedoch nicht. Hier müssen unter jedem Label die in ausführlich geschilderten Positionsvarianten berücksichtigt werden. Zu diesem Zweck werden den die Label abfragenden Bedingungen andere Bedingungen untergeordnet, die feststellen, in welcher Position in der ip sich das entsprechende Label befindet. Es wird geprüft, ob das betroffene Label (hier als Beispiel L*) die erste Silbe der ip markiert. Die Funktion accsyl.pattern fragt nun also nach einem eingeschränkteren Bereich. In diesem Fall geht es darum, ob L* die nächste (= erste) Silbe rechts von der Grenze ist. (37) if ( accsyl.pattern( %% $^ L* )) { %% steht also für eine Grenze, $^ wird der akzentuierten Silbe zur Hervorhebung als Anker vorangestellt.

44 Wenn sich das Label tatsächlich in dieser Position befindet, können Target-Punkte gesetzt werden. Wenn die Bedingung aber nicht erfüllt ist, werden die anderen möglichen Positionen abgefragt. Dazu gehört L* in der letzten Silbe der ip. (38) else if (accsyl.pattern( $^ L* %% )) { Eine weitere Positionsvariante ist zwar recht seltene aber nicht unmögliche ein-silbenip, in der die akzentuierte Silbe gleichzeitig erste und letzte Silbe der ip ist. Ihre Darstellung ist daher eine Kombination der beiden bereits vorgestellten Positionsvarianten. (39) if (accsyl.pattern( %% $^ L* %% )) { Im Regelsatz sollte diese Möglichkeit als erste abgefragt werden. Wäre dem nicht so, ergäben sich einige fehlerhafte Zuordnungen. Ein Label in einer ein-silben-ip befindet sich ja schließlich sowohl in der ersten als auch der letzten Silbe der ip und würde deshalb die Bedingungen in (37) und (38) ebenfalls erfüllen. Es würde also bereits auf die erste abgefragte Bedingung reagieren, die entsprechenden Target-Punkte setzen und die anderen Positionsvarianten nicht mehr beachten. Umgekehrt aber, besteht diese Gefahr nicht, wenn ein Label, das (37) oder (38) erfüllt, zuerst (39) abfragt. Wenn all diese Bedingungen nicht erfüllt sind, bleibt für das Label zwangsläufig nur noch die Normalposition übrig, die aus diesem Grund nicht näher definiert werden muß. (40) Das Prinzip von verschachtelten Bedingungen, durch die alle vorkommenden Situationen, die das Setzen spezifischer Target-Punkte erfordern, ist damit zur Genüge beschrieben. Kommentare (markiert durch //) und sog. Messages (Beispiel : msg( H* late ) sind ebenfalls Teil des Regelsatzes. Durch erstere kann man im Regelsatz selbst, durch letztere während der Generierung, mitverfolgen, welche Regeln angewandt werden. Es sind im Zusammenhang mit den bitonalen Pitchakzenten noch einige komplexere Bedingungen zum Zwecke der Fallunterscheidung notwendig. Über diese wird in 4.3. berichtet Das Setzen von Target-Punkten Das Setzen von Target-Punkten erfolgt dann, wenn alle Bedingungen, die notwendig sind, um eine bestimmte Situation zu charakterisieren, erfüllt sind. Durch die Funktion set (Zeitpunkt, Frequenzwert) wird ein Punkt zu einem gewissen Zeitpunkt auf einen gewissen Frequenzwert gesetzt. Der Frequenzwert wird natürlich nicht in Hz angegeben, sondern relativ zu Base- (0%) und Topline (100%). set kann durch andere Funktionen ersetzt werden, die die gesonderte Angabe eines Frequenzwerts überflüssig machen. (41) base : Punkt auf die Baseline top high : Punkt auf die Topline : Punkt auf Höhe des letzten vorangegangenen hohen Tons. Falls keiner vorhanden wird Punkt auf Topline gesetzt. downstep : Multiplikation des Frequenzwertes des letzten vorangegangen hohen Tons mit dem Downstep-Faktor. Im normalen Fall von downstep ist dieser gleich 0,8 (Variable : dstep), aber auch andere Faktoren sind möglich ( 0,9 bei H in H+!H*). Im Sonderfall der Übernahme eines Phrasenakzents als erstem Ton einer ip, kommt set zwar zur Anwendung, trotzdem wird auch hier kein direkter Frequenzwert angegeben, sondern mittels der Funktion prev_point( ) derjenige des vorausgehenden Phrasenakzents (H-,!H-, L-) gesetzt. Die Angabe des Zeitpunkts, zu dem ein Target-Punkt gesetzt wird, erfolgt ebenfalls in Prozent, also relativ zum gewählten Bezugsbereich. In fast allen Fällen ist dies ein Gebiet innerhalb der gelabelten, akzentuierten Silbe. In (pp. 22 / 23) wurde

45 bereits dargelegt, warum für die Beschreibung des Toninventars des Amerikanischen Englisch das Kriterium der Stimmhaftigkeit einer akzentuierten Silbe gewählt wurde. Beispiel : (42) accsyl.voicing (60) Theoretisch wären natürlich auch der Nukleus, der Rhyme oder die gesamte Silbe als Bemessungszeitraum denkbar. In einigen wenigen Fällen ist die Miteinbeziehung anderer Silben als der markierten (accsyl.) beim Setzen der Target-Punkte notwendig. Im Regelsatz stehen deswegen auch die der akzentuierten Silbe vorangehende (presyl.), die auf sie folgende (folsyl.) und die nach zwei Silben folgende (fol2syl.) Silbe zur Verfügung. Zudem kann von der akzentuierten Silbe aus auch ein Punkt auf die nächste gelabelte Silbe gesetzt werden, was bei der Abstandsregel LH_change der Fall ist. Für diesen Zweck wurde eigens tmpsyl. definiert, das wie gesagt die nächste gelabelte Silbe, die der akzentuierten Ausgangssilbe folgt, bezeichnet. Übrigens werden die Silben sowohl bei den Abstandsregeln als auch bei manchen Grenztönen (L-H%) durch diese Funktionen gezählt und damit der Abstand gemessen : (43) accsyl.dist_to_next_tone ( ) (nach rechts zählen Abstandsregeln) accsyl.dist_to_prev_tone ( ) (nach links zählen L-H%) Die anderen genannten Möglichkeiten der Silbenbezeichnung kommen bei der Beschreibung des ToBI-Toninventars nicht zum Einsatz. Einzige Ausnahme ist H+!H*. Bei diesem bitonalen Pitchakzent soll verhindert werden, daß der vorangehende, abhängige Ton H mehr als eine Silbe von!h* entfernt ist. Wenn dies wegen der 0,15 s -Regel (siehe , p. 29) der Fall wäre, würde der Target-Punkt auf 20% der Stimmhaftigkeit der vorhergehenden Silbe zurückgesetzt werden. Beispiel : (44) downstep (presyl.voicing (20), 0.9) Aufgrund der durch die fixen Zeitabstände zwischen den einzelnen Elementen bitonaler Pitchakzente enstehenden Komplikationen stellt deren Umsetzung in den Regelsatz den komplexesten Teil desselben dar Darstellung bitonaler Pitchakzente im Regelsatz Die Darstellung der bitonalen Pitchakzente nimmt im Regelsatz den weitaus größten Raum ein. Der Grund dafür liegt in dem vom jeweiligen Target-Ton abhängigen Ton, der ersterem entweder vorausgeht (L+H*, H+!H*) oder nachfolgt (L*+H). Der Abstand zwischen beiden Tönen wird von mehreren Faktoren beeinflußt, was zur Folge hat, daß es relativ viele Variationen gibt, was die zeitliche Position des abhängigen Tons anlangt. Entsprechend viele untergeordnete Bedingungen müssen daher vom Programm abgefragt werden. Im Falle von L+H* geht L normalerweise um 0,2 s voran. Um diesen Punkt zu beschreiben, wird die Variable h_timepoint eingeführt. Sie drückt aus, daß der Zeitpunkt, zu dem L gesetzt wird um 0,2 s kleiner ist als der, zu dem H* gesetzt wird (wann H* gesetzt wird, hängt natürlich wiederum von der Position des Pitchakzents in der Phrase ab). In normaler Position würde mittels h_timepoint der entsprechende Punkt so bezeichnet werden : (45) h_timepoint = accsyl.voicing (75) - 0,2 s Bei den anderen bitonalen Pitchakzenten H+!H* und L*+H werden entsprechend 0,15 s vom Target-Punkt subtrahiert bzw. 0,2 s zu ihm addiert. Die Definition von h_timepoint ist Voraussetzung für die nun folgende Überprüfung der Stimmhaftigkeit in dem Bereich, in den h-timepoint fällt.

46 (46) if (iphrase_is_voiced (h_timepoint) ) { Ist die Bedingung erfüllt, kann der abhängige Punkt, im Beispiel = L, zum Zeitpunkt h_timepoint gesetzt werden. Falls dem jedoch nicht so ist, muß der Abstand bis zu 90% der nächsten stimmhaften Region erweitert werden. Bei L+H* wäre dies links von h_timepoint, bei L*+H rechts (der Abstand müßte in diesem Fall bis 20% der rechts liegenden Region erweitert werden). Im Beispiel von L+H* wird die Bedingung auf diese Weise formuliert : (47) if (iphrase.is_left_voicing (h_timepoint) ) { Wäre diese Bedingung erfüllt, könnte h_timepoint (L) jetzt auf die weiter vom Target- Ton entfernte Position gesetzt werden. (48) set (iphrase.left_voicing (h_timepoint, 90), 20); Wenn aber diese Bedingung auch nicht erfüllt werden kann, muß der Abstand bis 20% der rechts liegenden (bei L*+H 90% der links liegenden) Stimmhaftigkeit verkürzt werden. Dies erfolgt entsprechend der in (46) und (47) beschriebenen Bedingungen bzw. Anweisungen. Erst jetzt wird auch der Target-Ton H* gesetzt. Im Falle von L*+H wird der Target- Ton L* selbstverständlich zuerst plaziert, da alle Target-Punkte in streng linearer Reihenfolge gesetzt werden. Bevor der gesamte Abschnitt des Regelsatzes, der sich mit dem zeitlich festgesetzten Abstand zwischen Target-Ton und abhängigem Ton befaßt, abgefragt wird, muß bei L+H* und H+!H* dafür gesorgt werden, daß sich der abhängige Ton nicht mit einem von einem vorangehenden Label gesetzten Punkt überschneidet. Dieser letzte gesetzte Punkt wird mit prev_point_time ( ) bezeichnet. Es wird dann überprüft, ob h_timepoint vor prev_point_time ( ) plaziert würde. (49) if (h_timepoint < prev_point_time ( )) { Wenn dies tatsächlich so sein sollte, würde h_timepoint zum Zeitpunkt prev_point_time zurückversetzt werden. Durch das gleiche Prinzip soll bei H+!H* verhindert werden, daß H früher als in der der akzentuierten Silbe vorangehenden Silbe gesetzt wird. (50) if (h_timepoint < presyl.voicing ( )) { All diese zu beachtenden Einzelfälle sind verantwortlich dafür, daß sich die Regeln für bitonale Pitchakzente durch eine besonders komplexe Verschachtelung der notwendigen Bedingungen auszeichnen. Es sei noch einmal darauf hingewiesen, daß der komplette Regelsatz in Anhang 6.2. nachzulesen ist. 5. Bewertung der generierten F0-Konturen Im abschließenden Kapitel dieser Arbeit soll nun das Ergebnis der in den vorangegangenen Kapiteln geschilderten einzelnen Arbeitsschritte vorgestellt werden. Die Qualität der generierten Konturen sollte allerdings nicht vornehmlich auf der Grundlage ihrer sichtbaren Form beurteilt werden, diese wirkt wie erwartet etwas eckig und wenig natürlich, sondern vor allem anhand der resynthetisierten Version, dessen, was tatsächlich zu hören ist. Wie schon öfter bemerkt (siehe 1., p. 5), sind beim Betrachten der Kontur viel mehr Ungenauigkeiten zu erkennen, als das Ohr wahrnehmen kann. Grundsätzliches Ziel muß es zuerst einmal sein, ein natürlich klingendes Intonationsmuster zu erzeugen, durch welches eine beabsichtigte Interpretation ausgedrückt wird. Ein kurzer Bericht darüber, ob dieses Ziel erreicht wurde ist der ersten Sektion (5.1.) dieses Kapitels zu entnehmen. Basis dafür sind die festen Bedeutungen, die bestimmten Tunes zugewiesen werden können. Ist eine Äußerung mit

47 einem gewissen Tune gelabelt, müßte die Phrase die entsprechende Interpretation erhalten. Weitergehendes Ziel und optimales Ergebnis der regelbasierten Generierung ist es natürlich, wenn beim Vergleich von Original und resynthetisierter Version keine Unterschiede hörbar sind. Einige Beispiele für den direkten Vergleich von Original und Fälschung sind im zweiten Abschnitt zu finden Tunes als Hilfsmittel bei der Bewertung generierter F0-Konturen Tunes, auch Melodien genannt, sind feste Kombinationen von Pitchakzenten und Grenztönen. Einzelne Tunes sind mit spezifischen Bedeutungen verbunden. Durch diese natürlich nicht lexikalischen, sondern eher pragmatischen Bedeutungen verleihen sie der Intonationsphrase, in der sie sich befinden, einen bestimmten Status im Diskurs. Dogil et al. (1990) beschreiben beispielsweise einen Fall von Wernicke-Aphasie, bei dem der Patient die rhythmische Organisation, will heißen die prosodischen Regeln seiner Muttersprache noch vollständig beherrschte. Allein durch dieses Mittel konnte der Patient durchaus nachvollziehbar anzeigen, ob er zum Beispiel das Thema wechselte, eine Frage stellte oder Widerspruch ausdrücken wollte, obwohl die von ihm aneinandergereihten Worte in ihrer Gesamtheit keinerlei Sinn ergaben. Mittels einer bestimmten Tonmelodie ist es also möglich, diese und noch weitere Zusammenhänge im Diskurs auszudrücken. Man kann daher eine ToBI-Beispielsäußerung mit einem entsprechenden Tune labeln und dann überprüfen ob die erwartete Wirkung eintritt. Als Orientierung diente dabei die Beschreibung und Charakterisierung einzelner Tunes in Pierrehumbert / Hirschberg (1990). Diese vertreten in ihrem Aufsatz die Meinung, daß die Bedeutung von Tunes kompositional ist, was heißen soll, daß bereits die einzelnen Bestandteile (Pitchakzent, Phrasenakzent, Boundary-Ton), aus denen sich ein Tune zusammensetzt, ihre eigene wenn auch sehr abstrakte Bedeutung haben. Es würde aber zu weit führen, in diesem Rahmen darauf einzugehen, da es zur Beurteilung der resynthetisierten F0-Konturen nur sinnvoll ist, klar erkennbare Einflüsse auf die Diskursstruktur zum Vergleich heranzuziehen. Die Vorgehensweise gestaltet sich derart, daß einer ToBI-Beispielsäußerung ein neuer Tune aufgezwungen wird und so eine neue F0-Kontur generiert und resynthetisiert wird. Danach wird ganz einfach überprüft, ob die Äußerung die in Pierrehumbert / Hirschberg (1990) vorhergesagte Bedeutung tatsächlich erhalten hat. An dieser Stelle folgt nun eine Kurzdarstellung der wichtigsten Tunes, natürlich basierend auf Pierrehumbert / Hirschberg. Der H* L-L% ist am häufigsten und kommt in Aussagesätzen (mit L-L% wird ja ein Thema beendet) und Wh-Fragen vor (p ). Typisch für Ja/Nein-Fragen ist der Tune L* H-H% ( Do prunes have feet? ), wird er auf Phrasen angewandt, die syntaktisch die Form eines normalen Aussagesatzes haben, können diese zu sogenannten incredulous questions werden, die Ungläubigkeit über den ausgedrückten Sachverhalt vermitteln ( I was wrong? ) (p. 292). Fragen können auch mit dem Tune H* H-H% (high-rise question) gestellt werden. Syntaktische Ja/Nein-Fragen bekommen dann eine zusätzliche Bedeutungsnuance, welche besagt, daß der Sprecher eine bejahende, eine bestätigende Antwort erwartet (confirmation question). Im normalen Aussagesatz entsteht durch H* H-H% eine Frage, die neben der Information, die die Aussage an sich ausmacht, zusätzlich die Relevanz dieser Aussage in Frage zu stellen scheint, so daß der Hörer aufgefordert ist, zu folgern, daß eine den Umständen, in denen sie geäußert wurde, angepaßte Frage

48 impliziert ist. Das Beispiel My name is Mark Liberman, geäußert an einer Hotelrezeption, impliziert beispielsweise die Frage Bin ich hier richtig?. In einem anderen Fall wird eine Frau nach Ende eines Films gefragt, ob ihr dieser gefallen hat. Ihre Antwort darauf ist : I thought it was good. Der H* H-H%-Tune bringt in dieser Situation die Frage Aber finden Sie das auch? mit sich (p.290). Ein weiterer relativ häufiger Tune ist H* H-L% (plateau contour), womit man einer vorhergehenden Aussage weitere Informationen hinzufügt (p. 291). Ein schönes Beispiel dafür im ToBI-Korpus ist die Beispielsäußerung << knock-stuff >>. Durch den Gebrauch von L* L-H% kann der Sprecher dagegen zum Ausdruck bringen, daß er davon ausgeht, daß der Inhalt seiner Aussage seinem Gesprächspartner schon bekannt ist (p. 292). Dies sind also einige der möglichen feststehenden Tonmelodien, denen ein gewisser Einfluß auf den Diskurs zugesprochen wird. Die resynthetisierten Intonationsmuster erlauben die vorhergesagten Interpretationen durchaus, wenn auch Syntax und Wortschatz der betroffenen Äußerungen sowie der mangelnde Kontext das Verständnis etwas erschweren. Die graphische Darstellung einer neu generierten F0-Kontur ist im Rahmen dieses Bewertungsversuch von deren Qualität natürlich von keinerlei Nutzen. Dies ist beim direkten Vergleich einer Originalkontur und einer nachgemachten schon eher der Fall Direkter Vergleich von Originalkonturen und neu generierten Konturen Ein direkter Vergleich zwischen einer echten ToBI-Beispielsäußerung und einer auf der Grundlage von deren Labeln mittels des Regelsatzes generierten und resynthetisierten Version ist unzweifelhaft die effektivste Methode der Beurteilung der künstlich erzeugten Intonationsmuster. Dabei zeigt sich erfreulicherweise, daß bei einem Großteil der neuen F0-Konturen keine bzw. nur äußerst geringe Unterschiede zum jeweiligen Original zu hören sind. Dies wurde nicht nur vom Autor festgestellt, sondern auch von zwei Amerikanern, die sich bereit erklärt hatten, sich (fast) alle Beispielsäußerungen anzuhören und die Qualität der erzeugten Konturen im Vergleich zu den Originalen auf einer Skala von 0 bis 5 zu bewerten. Die große Mehrheit von resynthetisierten Konturen erhielt dabei Bewertungen von 5, manchmal auch 4,5. Hinzu kommt, daß bei den schlechter benoteten Fällen meistens nicht der Regelsatz für diese Tatsache verantwortlich gemacht werden kann. Auf die Problemfälle aller Art soll aber erst im nächsten Abschnitt eingegangen werden. Im Rahmen dieser Arbeit bleibt zur Veranschaulichung der Ergebnisse nur die Verwendung entsprechender Grafiken, wobei natürlich immer noch gilt, daß dabei weitaus mehr Unterschiede zu sehen sind als hörbar sind. Die Grafiken zeigen oben die Originalkontur, darunter die mittels des Regelsatzes generierte Kontur und ganz unten die ToBI-Label. (51) zeigt die Äußerung << cream >>, (52) die Äußerung << mile >>. In beiden Fällen ist die Qualität der resynthetisierten Version mit passend eingestellter Pitch Range hervorragend (Bewertung = 5).

49 (51) << cream >> (Original generierte Version Labels) (52) << mile >> (Original generierte Version Labels)

50 5.3. Problemfälle und Verbesserungsvorschläge Wenn die resynthetisierte Version einer ToBI-Beispielsäußerung klar erkennbare Unterschiede zum Original aufweist und stellenweise sogar unnatürlich klingt, so liegt dies in der überwältigenden Mehrheit der Fälle an einer unzureichend eingestellten Pitch Range. Wie schon erwähnt, kann die Pitch Range nur einmal pro Äußerung angegeben werden. Da größere Äußerungen aber in den Regel aus mehreren Intonationsphrasen bestehen, die verschiedene Pitch Ranges haben, ist die unweigerliche Folge, daß Teile der Äußerung mit viel zu hoher bzw. zu niedriger Frequenz generiert werden. Aus diesem Grund ist die Qualität der resynthetisierten Version in solchen Fällen unbefriedigend. Immerhin ist aber anzumerken, daß dies kein durch die erstellten Regeln verursachtes Problem ist. Als Beispiel soll hier die Äußerung << blond-baby1 >> dienen. Sie besteht aus vier IP s. In der ersten IP bewegt sich die Pitch Range zwischen Hz, in der zweiten zwischen Hz, in der dritten zwischen Hz und in der letzten zwischen Hz. Man hat also nur zwei Möglichkeiten. Einerseits kann man die Pitch Range für eine der IP s passend einstellen, dann ist die Qualität der restlichen IP s allerdings völlig indiskutabel. Andererseits kann man versuchen, eine Kompromiß-Pitch Range anzugeben, so daß zwar keine der IP s optimal klingt, aber auch keine völlig mißlingt. Diese Verfahrensweise wird in (53) demonstriert. (53) << blond-baby1 >> Original oben - neu generierte Version unten Als Kompromiß-Pitch Range wurden eine Topline von 150 Hz und eine von 100 auf 80 Hz fallende Baseline gewählt. Wie man sieht, sind dabei die hohen Töne der ersten IP um mindestens 40 Hz zu tief, der L+H* Pitchakzent der zweiten IP ist dagegen an