8 Akustische Phonetik Die Quelle eines Lautes ist ein Klangkörper, z.b. die Holzstäbe eines Xylofons, das Fell einer Trommel, die Lippen beim Spielen einer Trompete, das Rohrblatt einer Klarinette, das Labium einer Blockflöte, die Saiten einer Geige, die Stimmlippen im Kehlkopf eines Menschen. Der Klangkörper wird durch äußere Einwirkung in Bewegungen versetzt und diese Bewegungen werden als Schwingungen auf die Luft übertragen. Luft ist also das Medium zwischen dem Klangkörper und dem Hörer. Die auf die Luft übertragenen Schwingungen können auf einer Zeitachse grafisch als Wellen, die so genannten Schallwellen, dargestellt werden. Die Übertragung der Vibration der Stimmbänder auf die Luft kann man sich so vorstellen: Bei der ersten Schwingung entsteht ein geringfügiger Überdruck (Kompression), durch den die Luftmoleküle zusammengedrängt werden. Beim nachfolgenden Unterdruck (Depression) wird der Abstand zwischen den Luftmolekülen wieder größer. Es lassen sich also im Aufbau einer Schallwelle zwei Phasen unterscheiden: Ruheposition = Kompression Depression normaler Luftdruck Figur 41: Aufbau einer Periode Die Luftmoleküle, die sich dem Klangkörper am nächsten befinden, setzen die benachbarten Moleküle in Bewegung und diese Bewegung wird ständig weitergegeben. Der Ton bewegt sich in dieser Weise mit der beachtlichen Geschwindigkeit von 340 m/s fort. Allerdings lässt bei zunehmender Distanz die Energie nach: Nach einer gewissen Entfernung hört man nichts mehr. 1 Tonhöhe, Vokale und Konsonanten 1. ZYKLUS Die Experimentalphonetik verfügt über ein Arsenal von Apparaten, mit denen das Sprachsignal untersucht wird. Mit einem dieser Apparate, dem Oszillografen, können Schallwellen als Oszillogramm auf einem Bildschirm ( Oszilloskop ) sichtbar gemacht oder auf Papier abgedruckt werden. Figur 42 auf Seite 108 zeigt schematisch das Oszillogramm einer einfachen Schallwelle: 107
108 Kapitel 8 Figur 42: Beispiel einer periodischen Schallwelle Die Achse A B in Figur 42 ist die Zeitachse, zwischen A und B spielt sich ein vollständiger Zyklus (oder eine Periode ) aus Kompression und Depression ab. Die Zahl der Zyklen pro Sekunde ( s ) wird mit der Einheit Hertz (Hz) angegeben. Wenn A B = 0,002 s, dann klingt ein Ton von 500 Hz, denn in eine Sekunde passen 500 mal 0,002 s. Wenn in 0,002 s zwei Zyklen vorkommen, gibt es einen Zyklus in 0,001 s und liegt ein Ton von 1000 Hz (= 1 khz) vor. Die Distanz x y ist der maximale Schwingungsausschlag, die Amplitude. Je größer der Ausschlag, umso stärker der Ton. Das Ohr übersetzt die Schwingung der Luft in Nervenimpulse, die im Gehirn des Hörers verarbeitet werden. Diese Verarbeitung führt aber nicht zu einer für alle Menschen gleichen Lautvorstellung. Die Empfindlichkeit des Hörorgans variiert nämlich, sie ist u.a. altersbedingt. So ist das Hörorgan eines Jugendlichen empfindlich für einen Bereich von 20 bis 20.000 Hz. Bei älteren Menschen nimmt die Empfindlichkeit für hohe Frequenzen ab: Im Alter von 60 Jahren beträgt die Höchstgrenze etwa 12.000 Hz (12 khz). Hunde sind empfindlich für Frequenzen bis 40.000 Hz (40 khz)! Beim Sprechen liegt der wichtige Frequenzbereich zwischen 100 und 8000 Hz und die Grundfrequenz beträgt etwa 100 Hz. Im Telefon wird die Stimme modifiziert, denn der Frequenzbereich des Telefons liegt zwischen 300 und 3400 Hz: Niedrigere und höhere Frequenzen werden nicht übermittelt, freilich ohne dass die Verständlichkeit wesentlich beeinträchtigt würde! 2. KLÄNGE UND TÖNE Die in Figur 42 abgebildete einfache Schwingung nennt man eine harmonische Schwingung (eine Sinuskurve ). Wenn man einen solchen Laut isoliert hört, spricht man von einem Ton. Normalerweise ist ein Klang aus mehreren Schwingungen aufgebaut, d.h. Klänge setzen sich aus mehreren Tönen (aus mehreren Sinuskurven) zusammen, die alle unterschiedliche Frequenzen und unterschiedliche Amplituden aufweisen. Zusammen ergeben die Töne ein komplexes Signal, das trotzdem vom menschlichen Ohr als eine Einheit, nämlich als Klang empfunden wird. Im Oszillogramm zeigt sich dies dadurch, dass die einzelnen Sinuskurven zu einer Komplexkurve zusammengefasst werden, die die Eigenschaften der einzelnen Sinuskurven kombiniert. Figur 43 veranschaulicht diesen Vorgang: In dieser Figur ist D eine komplexe Welle, die sich aus den
Akustische Phonetik 109 einfachen Sinuswellen A, B und C zusammensetzt. Für jeden Punkt auf der Zeitachse gilt: D = A + B + C (siehe als Beispiele die Zeitpunkte x und y). Figur 43: Komplexe Welle und zusammensetzende, einfache Wellen A ist die Grundfrequenz, also die Tonhöhe, mit der man den Klang hört. Die Grundfrequenz bedingt die periodische Schwingung, deshalb hat die Komplexkurve D die gleiche periodische Struktur wie die Sinuswelle A. B und C sind harmonische Obertöne. Bei Klängen wird also die tiefste Frequenz die Grundfrequenz genannt. Die höheren Frequenzen sind die Teiltöne, Oberschwingungen, bzw. Obertöne, die in ganzzahligem Verhältnis zu der Grundfrequenz stehen. Bei einer Grundfrequenz von 100 Hz entsteht also folgende Reihe von Teiltönen:
110 Kapitel 8 Hz 100 200 300 400 usw. Faktor 1 2 3 4 usw. Bei einer Grundfrequenz von 150 Hz entsteht die Reihe Hz 150 300 450 600 750 900 usw. Faktor 1 2 3 4 5 6 usw. Eine Verdoppelung (in der Musik eine Oktav -Distanz) entsteht immer nur bei Verdoppelung der Frequenz, bei 100 Hz also: bei 150 Hz: Hz 100 200 400 800 1600 3200 usw. Hz 150 300 600 1200 2400 4800 usw. Bei höheren Frequenzen ist die Entfernung (in Hertzeinheiten) zwischen den zwei Polen einer Oktave wesentlich größer als bei niedrigeren Frequenzwerten. Das Hörorgan funktioniert nämlich logarithmisch: Der Tonhöhenabstand bleibt gleich, wenn F mit dem gleichen Faktor multipliziert wird. 3. FORMANTEN Beim Sprechen eines Lautes werden also neben der Grundfrequenz eine beachtliche Reihe von Teiltönen produziert, die bis zu einer Frequenz von ± 8000 Hz von Belang sind. In Wirklichkeit aber wird die Mehrzahl dieser Teiltöne gedämpft und werden einige verstärkt. Dies wird durch die Filterfunktion des Ansatzrohrs bewirkt. Die Filterfunktion beruht auf Änderungen in der Form des Ansatzrohrs, die bei jedem Sprechlaut anders ist. Deshalb wird jeder Vokal durch ein festes Muster solcher Verstärkungen und Dämpfungen gekennzeichnet. Die Obertöne, die verstärkt werden, heißen Formanten ; die, welche gedämpft werden, nennt man auch wohl Antiformanten. Obwohl die Zahl der Formanten ziemlich groß ist, sind für die Identifizierung eines gesprochenen Vokales vor allem die ersten zwei oder drei Formanten von Belang. Für die Eckvokale [], [] und [] des Vokaldreiecks gelten ungefähr folgende Frequenzwerte: F1 F2 F3 [] 300 2300 3500 [] 750 1200 2650 [] 300 600 2200 F1 ( 1. Formant ), F2 und F3 sind dabei weitgehend von der Grundfrequenz unabhängig. Bei einer Grundfrequenz von 100 Hz ist F1 beim [] der 2. Oberton (100 + (2 x 100) = 300), F2 der 22. (100 + (22 x 100) = 2300) und F3 der 34. Oberton (100 + (34 x 100) = 3500). Bei einer Grundfrequenz von 150 Hz ist F1 der 1. Oberton (150 + (1 x 150) = 300), F2 der 14. (150 + (14 x 150) = 2250) und F3 der 22. Oberton (150 + (22 x 150) = 3450). Der Formantenaufbau eines Sprechlauts kann mit Hilfe eines Sonografen in einem Sonogramm sichtbar gemacht werden. Der Sonograf zeichnet das so genannte
Akustische Phonetik 111 Spektrum eines Sprechlauts, d.h. eine Wiedergabe der Energiekonzentrationen (der Formanten) im Frequenzbereich von etwa 0 bis 3000 Hz. In Figur 44 werden F1 und F2 der deutschen Vokale in schematischen, vereinfachten Sonogrammen wiedergegeben: 3000 Hz 2000 Hz 1000 Hz Figur 44: Sonogramme (schematisch) der deutschen Vokale Die Werte für die Formanten erhöhen sich bei Frauen um etwa 20%, bei Kinderstimmen liegen sie noch einmal um 20% höher! Die absolute Höhe der Formanten ist nämlich von der Gesamtlänge des Ansatzrohrs abhängig und zwar ist diese Abhängigkeit invers proportional: Vgl. Figur 45. 0 Hz Figur 45: Formantenstruktur bei Variation der Ansatzrohrlänge
112 Kapitel 8 Die Grundfrequenz variiert bei Männern zwischen 100 und 220 Hz und bei Frauen zwischen 200 und 450 Hz. Beim Singen sind die Bereiche größer, wodurch Überlappungen entstehen: Bass: 80 320 Tenor: 120 480 Alt: 160 640 Sopran: 240 960 Der Stimmumfang eines Sängers oder einer Sängerin beträgt demnach etwa 2 Oktaven ( Verdoppelungen ). Während die Formanten bei den einzelnen Vokalen weitgehend konstant sind, variiert die Tonhöhe durch Änderungen in der Grundfrequenz. Dadurch erklärt sich, weshalb beim Singen ein Laut trotz Veränderung der Tonhöhe qualitativ konstant bleiben kann. Beim Singen kann es sogar vorkommen, dass ein Formant (unter Umständen sogar zwei!) nicht realisiert wird, wenn die Grundfrequenz Werte erreicht, die über dem des 1. Formanten liegen: Dieser Formant wird dann neutralisiert. Bei [] und [ ] können sogar beide Formanten neutralisiert werden, denn bei diesen Vokalen liegen F1 und F2 beide unter 1000 Hz. Der für das Singen geeignetste Vokal ist [a], weil F1 bei diesem Vokal den höchsten Wert hat. Höhere Formanten (F4, F5, usw.) bringen sprecherindividuelle Merkmale zum Ausdruck (Johann und Peter sind beide Bässe, trotzdem unterscheidet man sie an den Formanten F4). 3. GERÄUSCH Ein besonderes Problem, auf das hier nicht sehr ausführlich eingegangen werden soll, bilden die Konsonanten. Nur wenige Konsonanten (nämlich die Sonoranten [], [], []) kennen periodische Schwingungen und eine Formantenstruktur. Die meisten Konsonanten werden durch aperiodische Schwingungen gekennzeichnet und akustisch als Geräusch eingeordnet. Auf einem Sonogramm ergeben sich bei ihnen keine deutlichen Verdichtungen, die als Formanten betrachtet werden könnten. Figur 46 auf Seite 113 zeigt die Oszillogramme einer einfachen periodischen Welle und einer aperiodischen Schwingung: 2 Lautstärke Für die Festlegung der Lautstärke verwendet man die Einheit Dezibel (db), ein Maß für den Druck, der auf das Trommelfell im Innenohr ausgeübt wird: Je größer der Druck, desto stärker der Laut. Ein Laut von 1000 Hz mit einer Lautstärke von 0 db ist mit einem normierten Hörorgan (nämlich dem Messgerät) gerade hörbar: 0 db ist die Hörschwelle. Geflüstert wird mit etwa 20 db, mit 60 db klingt der Laut von 1000 Hz mit normaler Gesprächsstärke. Bei einem lauten Gespräch werden Werte von ± 80 db gemessen, ein Heldentenor
Akustische Phonetik 113 Figur 46: periodische (oben) und aperiodische Schwingung (unten) (Zeit in Sekunden) produziert im Fortissimo Werte bis 100 db, ebenso stark wie das Geräusch eines Presslufthammers). Über 120 db nähert man sich einer Grenze, wo einem die Ohren wehtun. Wenn ein Laut mit 0 db gerade noch hörbar ist, so führt eine Verzehnfachung der Lautstärke zu einem Wert von 10 db, das Hundertfache ist 20 db, das Tausendfache ist 30 db. Ein Laut klingt mit 60 db also eine Million Mal stärker als mit 0 db. Die Schallempfindlichkeit des Ohrs ist allerdings stark frequenzabhängig. Sie ist am größten zwischen 200 und 5000 Hz und nimmt dann bei tieferen und höheren Frequenzen ab. Während also ein 1000-Hz-Ton mit 0 db wahrgenommen wird, ist ein 250-Hz-Ton erst bei einem Energieeinsatz wahrnehmbar, der einem Lautstärkeniveau von 20 db entspricht, ein 90-Hz-Ton erst mit 40 db und ein 35-Hz- Ton sogar erst mit 60 db! (Die untere Linie in Figur 47 auf Seite 114 verzeichnet für alle Frequenzen die Hörschwelle.) Wenn die Schallintensität eines Lautes konstant bleibt, d.h. wenn ein Sprechlaut mit gleichbleibender Energie produziert wird, wird er mit abnehmender Frequenz als leiser, mit zunehmender Frequenz aber als lauter empfunden. Anders gesagt: Wenn ein Sprechlaut auf verschiedenen Tonhöhen gleich stark klingen soll, muss er mit einem variablen Energieaufwand gesprochen werden. So verbindet etwa die in Figur 47 mit 60 markierte Linie alle Punkte, die einen für das Hörorgan gleich starken reinen Ton wiedergeben: Der 100-Hz-Ton auf dieser Linie wird demnach vom Hörorgan leiser wahrgenommen als nach der Schallintensität zu erwarten wäre (nämlich mit 60 Phon: Phon ist die Maßeinheit für die subjektiv empfundene Lautstärke). Man kann so erklären, weshalb der Franzose die Ausdrücke parler haut und parler bas für laut und leise sprechen verwendet: Bei gleichem Energieaufwand klingt ein höherer Ton stärker als ein niedriger. Im Schwedischen bedeuten högt und lagt
114 Kapitel 8 auch nicht nur hoch und tief, sondern auch laut und leise, der englische Ausdruck Speak up! ist eine Mahnung etwas lauter zu sprechen, und schließlich kann man auch mit gesenkter Stimme Deutsch reden. Figur 47: Schallintensität (db) und Lautstärke (Phon)