Programm zur Extraktion musikalischer Informationen aus akustischen Signalen

Transkript

1 Programm zur Extraktion musikalischer Informationen aus akustischen Signalen Diplomarbeit zur Erlangung des akademischen Grades Diplominformatiker eingereicht am Institut für Informatik der Humboldt-Universität zu Berlin von Roland Stigge geb. am in Berlin Betreuer: Prof. Dr.-Ing. Beate Meffert Dr.-Ing. Olaf Hochmuth Registrier-Nr.: eingereicht am:

2

3 Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen Musikalische Grundlagen Mathematische Grundlagen Fensterfunktionen Zeit-Frequenz-Transformationen Kurzzeittransformationen Signalverarbeitung Signalverarbeitungskette in der AMT Aufbereitung für Zeit-Frequenz-Darstellung Bekannte Effizienzverbesserungen der CQT Neuartige Verbesserungen der CQT Tonhöhenerkennung Tonanfangs- und -endeerkennung Notenerkennung Tonart Tatum Noten Notenschlüssel Taktart und Beginn im ersten Takt Notenblattgenerierung Design und Implementation Entwicklungsumgebung

4 Inhaltsverzeichnis iv Paketformat Sprachen Dateiformate Design AMT-Signalverarbeitungskette Transformationen Notenbildmodell Grafische Benutzeroberfläche Implementierung Grafische Oberfläche Kommandozeilenversion Beispiel Zusammenfassung und Ausblick 54 Literaturverzeichnis 55 A Elektronische Anlage 57 A.1 JWS A.2 Quelltextdokumentation A.3 Debian-Paket A.4 Diplomarbeit B Werkzeuge 58 B.1 Entwicklungsumgebung C Glossar 60

5 1 Einleitung Das Thema dieser Diplomarbeit hängt eng mit dem breiten Gebiet der Automatischen Musiktranskription (AMT) zusammen, wofür viele theoretische Ansätze [15, 19], jedoch noch relativ wenige praktische Realisierungen [13] existieren. Die AMT soll ermöglichen, ein Eingangssignal (z.b. Musikstück aus diskreten Samples von CD) maschinell in ein musikalisches Notenbild zu überführen. Hierfür gibt es unterschiedliche Ansätze und Verfahren, die das Problem jedoch nicht vollständig lösen, sondern in der Praxis eher dem Musiker, Archivar etc. eine Hilfestellung bei der Transkription geben. Es sind viele Parallelen zur maschinellen Spracherkennung erkennbar, wobei die AMT eher in deren Schatten steht und die praktische Anwendung noch weniger verbreitet ist. Dies hat verschiedene Gründe: 1. wirtschaftliche 2. soziale bzw. kulturelle 3. technische Im folgenden sollen nur die technischen Gründe diskutiert und Lösungen erarbeitet werden. Aufgrund einiger Schwierigkeiten bei der Integration von Modellierung der menschlichen Wahrnehmung von Musik und effizienter Implementierung entsprechender Verfahren entstanden während der letzten drei Jahrzehnte einige Verfahren, die viele Heuristiken verbinden und damit versuchen, die Qualität der Algorithmen zu verbessern. So entstanden einige Arbeiten, die vorhandene Ergebnisse aus anderen Bereichen der Signalverarbeitung integrierten und Lösungen für spezielle Probleme bereit stellten (z.b. Harmonieerkennung [6]). Mit einem anderen Ansatz versucht die vorliegende Arbeit, mit neuen Algorithmen effiziente Implementierungen von bekannten Ideen (z.b. CQT, [2]) bereitzustellen, die anerkannt und allgemeingültig sind, bisher jedoch wenig praktische Relevanz hatten.

6 Einleitung 2 Der Schwerpunkt dieser Arbeit liegt auf der Signalaufbereitung in Zeit-Frequenz- Darstellung in den frühen Stufen der Verarbeitung. Bisherige exakt rechnende Verfahren waren wegen Ineffizienz bisher nicht praktikabel, wodurch immer gleich auf eine ganze Reihe von Alternativen gleichzeitig zurückgegriffen werden musste, die nicht immer auf das Problem zugeschnitten waren und damit wiederum die logische Komplexität der Problemlösungsstrategie erhöhten. Nach einer näheren Ausarbeitung der Theorie wird ein interaktives Programm in Design, Implementation und Benutzeroberfläche vorgestellt, welches die einzelnen logischen Schritte bei der Lösung der vorhandenen Probleme darstellt und die Ausgabe aufbereitet. Das Ziel ist eine Ausgabe in ein freies Notendateiformat, wobei hier exemplarisch das noch recht junge, aber zukunftsweisende, MusicXML gewählt wurde [18]. Die vorliegende Arbeit verknüpft viele Aspekte der digitalen Signalverarbeitung und Musiktheorie, weshalb auch auf eine einheitliche Begriffsbildung Wert gelegt werden musste. Schließlich sind übliche Nomenklaturen in Mathematik und Musik teils recht widersprüchlich.

7 2 Grundlagen Zuerst werden einige wichtige Grundlagen dargelegt, die allerdings nur im hier benötigten Umfang erklärt werden können. Hierfür werden sowohl musikalische als auch mathematische Definitionen und Verfahren aufgeführt, die in späteren Abschnitten auch vermischt vorkommen und daher einer exakten Einführung bedürfen. 2.1 Musikalische Grundlagen Für ein sinnvolles Betreiben von Musikerkennung muss ein Minimum an musikalischen Grundkenntnissen vorausgesetzt werden. Musikalische Vorbildung ist von Vorteil, allerdings werden die wichtigsten Definitionen hier einmal komprimiert aus der eher physikalischen Sicht der AMT dargelegt. Als weiterführende musikalische Literatur seien [5, 16] empfohlen. Hinzu kommt, dass einige Begriffe in der Musik verwirrend anders definiert sind als in der Mathematik und Physik. Im folgenden werden teilweise komplizierte und traditionelle musikalische Sachverhalte stark vereinfacht. Daher ist dieser Abschnitt nicht als musikwissenschaftliche Referenz, sondern als musikalische Einführung für Informatiker gedacht. Grundsätzlich hängt die Automatische Musiktranskription mit der Analyse von Tönen zusammen: Definition 1 (Ton, Grundfrequenz, Grundschwingung, Oberschwingung) Ein Ton ist ein mit einem Musikinstrument erzeugter Klang bestehend aus Überlagerung von sinusförmigen Schwingungen: f(t) = c n sin(2πnf 0 t + ϕ n ) (2.1) n=1 wobei c n die Koeffizienten der Amplituden der einzelnen Teilschwingungen und ϕ n die Phasenverschiebungen sind. Die erste Teilschwingung heißt Grundschwingung (mit der Grundfrequenz f 0 ), und alle weiteren heißen Oberschwingungen.

8 Grundlagen 4 Die Phasenverschiebungen sind für die menschliche musikalische Wahrnehmung relativ unbedeutend und werden daher in der AMT und in der vorliegenden Arbeit nicht im Detail betrachtet. Ein Ton wird über seine Frequenz ( Tonhöhe ), Dauer, Klangfarbe und subjektive Lautstärke wahrgenommen. Definition 2 (Oberton) Töne mit einer Grundfrequenz, die ein ganzzahliges Vielfaches der Grundfrequenz eines Tones beträgt, heißen Obertöne. Obertöne entstehen insbesondere dann, wenn man alle außer jedem m-ten Amplitudenkoeffizienten c n in Gleichung (2.1) auf Null setzt, wobei m N ein fester Faktor ist. Definition 3 (Intervall) Ein musikalisches Intervall ist der (Grund-)Frequenzabstand zwischen zwei Tönen. Definition 4 (Oktave) Die Oktave ist das musikalische Intervall, bei dem ein Ton die doppelte Grundfrequenz des anderen hat. Definition 5 (Obertonreihe) Die Menge aller Obertöne (mit dem Grundton) eines Tones. Mathematisch gesehen handelt es sich hierbei keineswegs um eine Reihe, sondern vielmehr um eine Folge. Die Bezeichnung Reihe ist in der Musiknomenklatur üblich. Obertöne sind ein für Musiker beliebtes Übungsprogramm, da hiermit einem Instrument Töne entlockt werden können, die sonst nicht spielbar wären. Einige Instrumente kommen gar überhaupt nicht ohne sie aus, um ganze Tonleitern anbieten zu können. Definition 6 (Halbton, chromatische Tonleiter) In der abendländischen Musik gibt es vom Grundton bis zur Oktave 12 Halbtonschritte, unabhängig vom Grundton. Sie bilden die chromatische Tonleiter. Unter dem Grundton und über der Oktave wiederholen sich die Bezeichnungen der Töne, wodurch trotz noch größerer Tonhöhenunterschiede oft nur die 12 verschiedenen Halbtöne betrachtet werden. (Siehe Tabelle 2.1.) Definition 7 (temperierte Stimmung) Definition der Grundfrequenzen der chromatischen Tonleiter durch sukzessive Multiplikation mit einem konstanten Faktor, um den nächst höheren Halbton zu erhalten

9 Grundlagen 5 Stufe Intervall Notenname 0 reine Prime C 1 kleine Sekunde C, D 2 große Sekunde D 3 kleine Terz D, E 4 große Terz E 5 reine Quarte F 6 übermäßige Quarte F, G 7 reine Quinte G 8 kleine Sexte G, A 9 große Sexte A 10 kleine Septime A, B 11 große Septime B 12 reine Oktave C Tabelle 2.1: Chromatische Tonleiter mit Noten- a und Intervallnamen. Die Intervalle beziehen sich auf den Grundton. Es wurden alternative Notennamen angegeben. b a Es wurden internationale (z.b. B ) statt deutsche Bezeichnungen (z.b. H ) gewählt. Diese sind logischer und in modernen Notationen vorrangig anzutreffen. b Je nach Definition (natürlich, temperiert) sind C und D ggf. nicht exakt gleich. Da es hier jedoch vorrangig um temperierte Stimmung gehen soll, wurde diese sinnvolle Vereinfachung getroffen. Diese nennt man auch enharmonische Verwechslung. Mit der Frequenzverdoppelung bei Oktavierung und 12 Halbtonschritten pro Oktave ergibt sich der Faktor Als Grundton der chromatischen Tonleiter kann ein beliebiger Ton daraus herangezogen werden. Definition 8 (natürliche Stimmung) Definition der Grundfrequenzen der chromatischen Tonleiter durch Obertonbildung. Die natürliche Stimmung hängt mit dem physikalischen Aufbau bzw. Stimmung vieler Instrumente, z.b. Streich- und Blechblasinstrumente, zusammen. Diese Instrumente erzeugen bzw. justieren Tonhöhen durch Obertonbildung. Dies hat leider einige Nachteile:

10 Grundlagen 6 1. Die Stimmung hängt streng genommen mit einem bestimmten Grundton zusammen und klingt falsch, wenn man einen anderen verwendet. 2. Die Grundfrequenzen der Töne der Tonleiter sind anders als die der chromatischen Tonleiter. Z.B. beträgt der relative Frequenzfaktor vom Grundton zur Quinte bei der natürlichen Stimmung 3/2 = 1, 5 (dreifache Frequenz, normiert in die gleiche Oktave), bei chromatischer Stimmung allerdings nur 2 7/12 1, 498. Dieser Fehler vervielfacht sich, wenn man im Quintabstand fortschreitet, um die Töne einer Tonleiter zu bilden. Definition 9 (diatonische Tonleiter, Durtonleiter, Molltonleiter) Übliche Tonleitern kommen in der Regel mit weniger Tönen aus als die chromatische Tonleiter. Die diatonische Tonleiter besteht aus 8 Tönen (inkl. Oktave), zwischen denen folgende Anzahlen an Halbtonschritten liegen: 2, 2, 1, 2, 2, 2, 1. Diese Liste kann beliebig rotiert werden. Für die Durtonleiter wird sie ab dem ersten Schritt (2, 2, 1, 2, 2, 2, 1), für die Molltonleiter ab dem 6. (2, 1, 2, 2, 1, 2, 2) gelesen. Definition 10 (Tonart, Dreiklang, Vierklang) Festlegung der Freiheitsgrade Grundton der Tonleiter und konkrete (diatonische) Tonleiter. Damit werden auch implizit Dreiklang (1., 3. und 5. Stufe der Tonleiter) und Vierklang (1., 3., 5. und 7. Stufe der Tonleiter) festgelegt. Definition 11 (Tatum) (das) Abk. von Time Quantum. Kleinste zeitliche Einheit, die in einem musikalischen Stück auftritt. Entspricht der kürzesten klingenden Notenlänge, z.b. Sechzehntelnote. Definition 12 (Schlag, Beat) Zeitliche Unterteilung eines Musikstückes in einen Grundpuls äquidistanter Zeitpunkte, meist ein ganzzahliges Vielfaches des Tatum. Dimension: Frequenz, Einheit: Schläge pro Minute. Eine typische Veranschaulichung des Schlages ist die Geschwindigkeit, mit der man Musikstücke mit dem Fuß mitwippt. Übliche Geschwindigkeiten bewegen sich im Bereich von 40 bis 216 Schlägen pro Minute. Definition 13 (Takt) Zeitliche Unterteilung eines Musikstückes (oder eines Teiles davon) durch jeweilige Zusammenfassung einer konstanten Zahl aufeinanderfolgender Schläge.

11 Grundlagen 7 Typische Taktarten sind der 3/4- und der 4/4-Takt, bei dem 3 bzw. 4 aufeinanderfolgende Schläge zusammengefasst werden. Definition 14 (Notenzeile) Zeile in der musikalischen Notation: G bestehend aus fünf parallelen Linien je Stimme bzw. Instrument oder Gruppen von Stimmen oder Instrumenten. Musik für mehrere Instrumente kann also wahlweise zusammen auf einer Zeile bestehend aus fünf Linien notiert werden, oder es werden für jedes Instrument jeweils fünf Linien reserviert. Diese beiden Konzepte können auch gemischt werden. Für unsere Zwecke reicht ein einfaches System aus. In der ersten Zeile wird oben links der Notenschlüssel (hier ein stilisiertes G für den G- oder Violin-Schlüssel) notiert. Darauf folgt die Angabe der Tonart: Die Anzahl der oder gibt vor, wo auf der chromatischen Tonleiter sich das tonale Zentrum (Grundton) befindet. Kreuze verschieben das Zentrum von C um die jeweilige Anzahl von Quinten nach oben, B s verschieben es entsprechend nach unten. Darauf folgt die Taktartangabe. Hier im Beispiel handelt es sich um den 4/4-Takt. Die Taktartangabe kann als ganzrationaler Bruch betrachtet werden, bei dem der Nenner die Notenlänge des Schlages und der Zähler die Anzahl solcher Schläge pro Takt angibt. Wie so oft in der Musik gibt es hier allerdings Ausnahmen. In diesem Zusammenhang reichen jedoch der 2/4-, 3/4- und 4/4-Takt vorerst aus. Takte werden durch senkrechte Striche voneinander abgetrennt. Definition 15 (Note) Repräsentation eines Tons in der musikalischen Notation. Wird durch Tonhöhe (Zeile bzw. Zwischenraum auf der Notenzeile) und Länge (Art des Kopfes und ggf. des Halses) geschrieben. Es folgt ein Beispiel mit 7 Noten der gleichen Tonhöhe ( A ), jedoch mit unterschiedlichen Längen: Ganze Note, halbe Note, Viertelnote,..., Vierundsechzigstelnote, von denen jede die halbe Dauer des jeweiligen Vorgängers repräsentiert. G ˇ ˇ ( ˇ ) ˇ * ˇ + Die chromatische Tonleiter ab C (notiert in ganzen Noten) sieht folgendermaßen aus:

12 Grundlagen 8 G C 4 C D 4 D E F 4 F Definition 16 (Pause) Musikalischer Effekt der Stille in einer Stimme für bestimmte Dauer. Bezeichnung sowohl für physikalisches Nichterklingen eines Tones als auch für das Notationssymbol. Für jede Note gibt es eine korrespondierende Pause gleicher Länge. Beispiele (Ganze Pause, halbe Pause, Viertelpause,..., Vierundsechzigstelpause): G = < G 4 G A 2 B A B 6 B C Definition 17 (Bindung) Zwischen dem Verklingen einer Note und dem Erklingen der nächsten liegt normalerweise eine sehr kurze, nicht notierte Pause. Geht die Länge dieser Pause gegen Null, wird von Bindung gesprochen und ein Bogen zwischen die Noten gesetzt. Beispiel: G 3 4» ˇ ` In diesem kurzen Stück mit zwei Takten im 3/4-Takt, das mit einem Schlussstrich endet, sieht man im ersten Takt eine Bindung vom B zum D. Im zweiten Takt steht eine punktierte halbe Note (C). Ein Punkt hinter einer Note oder einer Pause verlängert diese zeitlich um die Hälfte. Somit liegt in beiden Takten die jeweilige Gesamtlänge von drei Vierteln vor. 2.2 Mathematische Grundlagen Im Gegensatz zu den musikalischen Grundlagen, die aus eher mathematisch-physikalischer Sicht aufgeführt werden mussten, handelt es sich bei den folgenden mathematischen Grundlagen um im Spezialgebiet der AMT bekannte Definitionen und Verfahren, die hier zur Vollständigkeit dargelegt werden sollen Fensterfunktionen Bei der Verarbeitung von quasi unendlichen Signalen interessieren oft nur kurze Ausschnitte. Um diese zu erhalten, wird das Eingangssignalsignal f(x) direkt mit einer sog.

13 Grundlagen 9 Fensterfunktion ω(x) multipliziert, um das Ausgangssignal f (x) zu erzeugen (x 0 gibt die Position des Fensters an): f (x) = ω(x x 0 )f(x) Für eine sinnvolle Weiterverarbeitung und Vergleichbarkeit mit anderen Fensterfunktionen muss die Fensterfunktion ω(x) hierfür geeignet normiert werden, sodass z.b. x= ω(x) = 1 Auch muss das Zentrum und die Breite der Fensterfunktionen festgelegt werden. Im Folgenden seien alle Fensterfunktionen an der Stelle x = 0 zentriert und haben obda die Breite 1. Rechteck Die wohl einfachste Fensterfunktion ist die Rechteckfunktion (siehe auch Abbildung 2.1): ω(x) = { 1, x 1 2 0, sonst Rechteck-Fenster 1 Amplitude Definitionsbereich Abbildung 2.1: Rechteck-Fensterfunktion Dass die Rechteckfunktion das Eingangssignal abrupt bei x = 1 abschneidet und dabei 2 Stetigkeitssprünge entstehen läßt, ist ein entscheidender Nachteil. Bei einer Weiterverarbeitung, bei der z.b. im Signal auftretende Frequenzanteile wichtig sind, werden hierdurch die Ergebnisse stark verfälscht.

14 Grundlagen 10 Hann Eine Verbesserung hierfür ist das Hann-Fenster. Es gehört zu den kosinusförmigen Fensterfunktionen und stellt deren einfachste Form dar (siehe auch Abbildung 2.2): ω(x) = { cos(2πx) + 1, x 1 2 0, sonst Hann-Fenster 2 Amplitude Definitionsbereich Abbildung 2.2: Hann-Fensterfunktion Der Vorteil der stetigen Übergänge an den Rändern wird mit dem Nachteil erkauft, dass bei nachfolgenden Frequenzanalysen des Ergebnisses die Unschärfe bei der Frequenzauflösung zunimmt. Dies folgt aus dem tendenziellen Informationverlust relativ zum Eingangssignal, der für x 1 maximal wird. 2 Gauß Die Normalverteilungsfunktion ist eine mathematisch korrekte Lösung für dieses Problem (siehe auch Abbildung 2.3): ω(x) = 1 σ 2π e Diese Fensterfunktion erzeugt bei Zeit-Frequenz-Transformationen keine der o.g. Fehler und erzeugt Lokalität an der betrachteten Stelle. Allerdings ist diese Fensterfunktion nicht lokal, d.h. sie ist nicht gleich Null außerhalb eines endlichen Intervalls. x 2 2σ 2

15 Grundlagen 11 Gauss-Fenster Amplitude Definitionsbereich Abbildung 2.3: Gauß-Fensterfunktion für σ = 1 4 Hamming In der Praxis der AMT wird daher die sog. Hamming-Funktion verwendet (siehe auch Abbildung 2.4): ω(x) = { (1 1 α x 1 2 0, sonst Hamming-Fenster 2 Amplitude Definitionsbereich Abbildung 2.4: Hamming-Fensterfunktion wobei α = 0, 54. Diese Funktion erzeugt einen lokalen Ausschnitt aus dem Eingangssi-

16 Grundlagen 12 gnal wie die Rechteckfunktion und die Hann-Funktion und approximiert gleichzeitig die Normalverteilungsfunktion, womit der Effekt der Unschärfe nach weiterverarbeitender Frequenztransformation (s.u.) abgeschwächt wird. Außerdem kann sie schnell berechnet und angewendet werden. Die Hamming-Funktion wird in späteren Abschnitten als die primäre Fensterfunktion verwendet, falls nicht anders angegeben Zeit-Frequenz-Transformationen Für die Analyse von Frequenzanteilen in einem Zeitsignal ist eine Transformation vom Zeitbereich in den Frequenzbereich notwendig. Hierfür gibt es einige Verfahren, die bereits gut erforscht sind und von denen einige der für die Automatische Musiktranskription relevanten im Folgenden vorgestellt werden sollen. Da es sich in der digitalen Signalverarbeitung um diskretisierte Definitionsbereiche handelt und einige effiziente Verfahren auf dieser Voraussetzung aufbauen, werden hier nur die diskreten Versionen der jeweiligen Verfahren für ein Eingangssignal f n mit n = 0,..., N 1 diskutiert. Auch wenn angegebene Verfahren Allgemeingültigkeit hinsichtlich der betrachteten Dimensionen (z.b. wäre statt des Zeitbereiches natürlich auch der Ortsbereich zulässig) besitzen, ist hier eine Beschränkung auf die hier besprochene Problemdomäne (Zeitsignale) sinnvoll. Diskrete Fourier-Transformation (DFT) Das wohl bekannteste Verfahren ist hierbei die Diskrete Fourier-Transformation, die einen Eingangsvektor im Zeitbereich in ein ebenso großes Ergebnis im Frequenzbereich transformiert: F k = 1 N N 1 n=0 f n e i2πkn N Die Normierung 1 wird hier bereits bei der Hin-Transformation vorgenommen, um die N Vergleichbarkeit mit anderen Transformationen zu ermöglichen. Es gelten folgende wichtige Eigenschaften: Die DFT ist eine Orthogonaltransformation, insbesondere ist sie (ohne Informati-

17 Grundlagen 13 onsverlust) umkehrbar: f n = N 1 k=0 F k e i2πkn N Ist der Eingangsvektor reell, ergibt sich eine Redundanz im Ausgangsvektor, wobei nur N/2 + 1 komplexe Werte betrachtet werden müssen. Wenn das Zeitsignal auf einer linearen Skala vorliegt, ist auch die Frequenz im Ausgangsvektor linear verteilt, d.h. den diskreten Werten im Ergebnisvektor sind äquidistant verteilte Frequenzen zugeordnet. Die Zeitkomplexität der Berechnung beträgt O(N 2 ). Schnelle Fourier-Transformation (FFT) Wenn man die diskrete Fourier-Transformation nach der obigen Formel berechnet, ist sie recht ineffizient. Besonders bei Eingangsvektorgrößen aus Zweierpotenzen kann man durch Optimierungen (Umordnung der Multiplikationen und Vermeidung von Redundanz) viel Zeit sparen. Dies findet bereits seit langer Zeit in der digitalen Signalverarbeitung statt und ist gut erforscht. Daher muss die FFT hier nicht näher erläutert werden. Es genügt die Tatsache, dass sie die gleichen Eigenschaften wie die DFT besitzt, jedoch beträgt die Zeitkomplexität der Berechnung nur O(N log N). Transformation mit konstantem Q (Constant-Q-Transform, CQT) Musikalische Tonhöhen werden im Gegensatz zur Darstellung nach DFT/FFT nicht auf einer linearen, sondern auf einer logarithmischen Skala wahrgenommen. Dies hängt mit der Frequenzverdoppelung für jede Oktave zusammen, was wiederum dem physikalischen Aufbau unserer Ohren Rechnung trägt und nicht etwa nur Traditionen in der westlichen Musik widerspiegelt. Das Ergebnis der FFT läßt sich schwer direkt in der Musiktranskription zur Tonhöhenerkennung verwenden. Es gibt verschiedene Ansätze, die allerlei Heuristiken wie neuronale Netze, Markov-Modelle usw. auf FFT-Ergebnisse anwenden. Alle leiden jedoch unter der schlechten Modellierung des menschlichen Gehörs durch die DFT. Anfang der neunziger Jahre wurde folgende Modifikation der DFT vorgeschlagen [2]: F k = 1 N k N k /2 1 n= N k /2 ω k,n f n e i2πqn N k (2.2)

18 Grundlagen 14 1 Skylark3.wav (downmix) 0.07 STFFT: Skylark3.wav (downmix): Amplitude 0 Amplitude Time [sec] Coefficient Abbildung 2.5: Links: Audiosignal mit Instrumentalsolo, einzelne Töne sind gut durch unterschiedliche Lautstärken und kurze Pausen erkennbar, rechts: Betragsspektrum im Ergebnis der FFT eines kurzen Ausschnittes davon (während eines einzigen Tones), es sind einzelne Vielfache der Grundschwingung zu erkennen, die langsam abklingen und bei höheren Frequenzen nicht mehr erkennbar sind Hierbei ist Q = f/δf ein Quotient (hier: f=frequenz), der die Frequenz pro Bandbreite angibt. Man kann ihn sehr anschaulich als die konstante Anzahl der Schwingungen betrachten, die für jeden berechneten Koeffizienten innerhalb des jeweiligen Fensters betrachtet wird. Daher wird dieser Algorithmus als Transformation mit konstantem Q (engl. Constant Q Transform, CQT ) bezeichnet. Variabel ist hier im Gegensatz zur DFT die Fensterbreite N k, weshalb in diese Formel auch eine Fensterfunktion eingearbeitet ist, die bei der DFT nach Belieben vor der Berechnung fakultativ angewendet werden kann. ω k,n definiert für jeden Ergebniskoeffizienten F k eine komplette Fensterfunktion, separat normiert wegen der variablen Fensterbreite N k = Nmax 2 k/12m, wobei N max = N 0 die maximale Fensterbreite ist, d.h. die Fensterbreite des ersten zu betrachtenden Koeffizienten. Die Zahl m gibt die Anzahl der Koeffizienten pro Halbton an, damit 12m die Anzahl der betrachteten Koeffizienten pro Oktave ist, wo eine Frequenzverdoppelung stattfindet. Hierbei wird m günstigerweise auf 2 oder 4 gesetzt, um eine günstige Frequenzauflösung für höhere Oberschwingungen in musikalischen Signalen zu erhalten. Q ersetzt das k bei der DFT, was widerspiegelt, dass hier die Anzahl der Schwingungen im Fenster konstant bleibt und nicht ganzzahlig wächst. Es kann wie folgt berechnet

19 Grundlagen 15 werden: 1 Q = m 1 Die CQT weist folgende wichtige Eigenschaften auf: Die CQT ist mathematisch keine Orthogonaltransformation wie sie von diskreten Orthogonaltransformationen wie DFT her bekannt ist. Zwar sind die einzelnen Wavelets für die betrachteten Koeffizienten orthogonal, jedoch kann kein vollständiges Orthogonalsystem aus Vektoren im Transformationskern angegeben werden. Insbesondere ist die CQT nicht umkehrbar, d.h., es gehen Informationen verloren, wie unten noch deutlich wird. Die einzelnen berechneten Koeffizienten (bzw. konstant große Gruppen aus je m Koeffizienten) repräsentieren jeweils die Amplituden einer musikalischen Halbtonhöhe. Die Oberschwingungen eines Tones erscheinen nicht äquidistant verteilt, sondern logarithmisch. Insbesondere ergibt sich für jeden Halbtonschritt das gleiche Grundmuster, nur zur jeweiligen Position des Halbtones verschoben. Es entsteht Informationsverlust durch nicht betrachtete Bereiche im oberen Frequenzspektrum (s.u.). Prinzipien des menschlichen Gehörs und der Akustik allgemein werden gut repräsentiert. Während die Unschärfe der Frequenz für höhere Koeffizienten zunimmt (schließlich sind die Frequenzabstände der hohen Töne auch größer), nimmt die Unschärfe der zeitlichen Genauigkeit bei den unteren Koeffizienten zu (d.h. größere Fensterbreiten). Anders ausgedrückt werden tiefe Töne schlechter zeitlich lokalisiert, was plausibel ist, da sie auch länger klingen müssen, damit ein Mensch sie wahrnimmt. Hohe Töne dagegen werden zeitlich scharf lokalisiert, brauchen dafür jedoch im Frequenzbereich keine so gute Auflösung, denn hier ist der Abstand zum nächsten Ton auch größer. Es gibt keinen ersten und keinen letzten Koeffizienten. Die Skala der Koeffizienten kann beliebig nach unten (durch Vergrößerung des Grundfensters mit N max ) und nach oben erweitert werden (was musikalisch jedoch nur in Grenzen sinnvoll ist). Die CQT kann als eine Art unvollständige Wavelet-Transformation betrachtet werden. Für hohe Frequenzen werden kurze (komplexwertige) Wellchen im Transformationskern generiert, für niedrige Frequenzen lange. Allerdings gelten die eben

20 Grundlagen 16 genannten Einschränkungen, wodurch die CQT nicht den mathematischen Stellenwert vollwertiger Orthogonaltransformationen einnehmen wird. Die Zeitkomplexität der Berechnung beträgt O(N 2 ). STCQT: Skylark3.wav (downmix): Amplitude Coefficient Abbildung 2.6: Betragsspektrum im Ergebnis der CQT (fast) des gleichen kurzen Ausschnittes wie in Abbildung 2.5 In Abbildung 2.6 sieht man (fast) den gleichen Ausschnitt wie in Abbildung 2.5, jedoch mit CQT transformiert. Man kann gut erkennen, wie die Abstände der Oberschwingungsanteile mit zunehmender Koeffizientennummer (bzw. Halbton / Frequenz) geringer werden. Abbildung 2.7 zeigt die Zeit- und Frequenz(un-)schärfe für einzelne Koeffizienten einer Oktave bei der Darstellung auf einer linearen Frequenzskala. Eine höhere Frequenz bedeutet höhere Abstände der einzelnen Koeffizienten, jedoch eine bessere zeitliche Lokalisierung im Gesamtfenster (Breite des untersten Kastens). Für die tiefen Töne muss die längste Zeit betrachtet werden, jedoch sind hier auch die Frequenzbandbreiten am geringsten. Analog zur Heisenbergschen Unschärferelation ist für jeden Kasten das Produkt aus Frequenz- und Zeitbreite konstant. Wie man leicht sieht, entstehen in den oberen Frequenzbereichen große nicht betrachtete Flächen. Dies wird umso wichtiger, je mehr Oktaven betrachtet werden sollen. Einen Ansatz, dieses Problem zu lösen, zeigt das nächste Kapitel auf.

21 Grundlagen 17 CQT CQT-Koeffizient Frequenz in Hz Zeit CQT-Koeffizienten-Unschaerfe Abbildung 2.7: Schematische Darstellung der Unschärfebereiche für eine Oktave bei der CQT Durch die zeitlich symmetrische Darstellung wird auch deutlich, warum bei der CQT in der Berechnungsformel die ursprungssymmetrische Indexbetrachtung n = N k /2,..., N k /2 1 steht. Es muss immer relativ zur Mitte des größten Fensters zentriert werden, damit die erkannten Koeffizienten (einer oder mehrere für jeden Halbton) auch zeitlich möglichst gut zusammen passen. Hätte man beispielsweise alle Kästen in Abbildung 2.7 am Fensteranfang ausgerichtet, würden sehr hohe Töne für einen Zeitpunkt erkannt werden, an dem Basstöne noch gar nicht erklingen. Dies ist für die Betrachtung eines breiteren Kontextes, z.b. bei Kurzzeittransformationen, wichtig Kurzzeittransformationen Will man wie auf einem Notenblatt gleichzeitig einen zeitlichen Verlauf und Tonhöhen (und damit Frequenzen) darstellen, benötigt man eine Transformation, die beides bietet. D.h. aus dem diskreten Eingangssignal (Vektor, z.b. Samples von CD) soll eine Matrix hervorgehen, deren Zeilen verschiedene Frequenzen und deren Spalten diskrete Zeitpunkte repräsentieren. Dies wird durch Kurzzeittransformationen bereit gestellt: Das Eingangssignal wird mit wiederholter Anwendung einer Fensterfunktion in handliche (ursprünglich aufeinander fol-

22 Grundlagen 18 gende) Stücke zerlegt, die daraufhin mit einer Zeit-Frequenz-Transformation transformiert werden. Die Einzelergebnisse werden als Vektoren zu einer Matrix zusammen gefügt. Wichtig ist hierbei der Kompromiss zwischen der gewünschten zeitlichen Auflösung und der Anzahl der Koeffizienten im Frequenzbereich STFFT: Skylark3.wav (downmix) Frequency [Hz] Time [sec] Abbildung 2.8: Betragsspektrum im Ergebnis der Kurzzeit-FFT Abbildung 2.8 zeigt das Beispiel aus Abbildung 2.5 nach einer Kurzzeit-FFT (engl.: Short Term Fourier Transform, STFT). Analog ist in Abbildung 2.9 das gleiche nach einer Kurzzeit-CQT (STCQT) zu sehen. Schon mit bloßem Auge erkennt man hier bei der STCQT einzelne Tonhöhen (über die vertikalen Positionen im Diagramm) deutlich besser als bei der STFT in Abbildung 2.8, wo man dies nur undeutlich über die Obertonabstände versuchen kann.

23 Grundlagen STCQT: Skylark3.wav (downmix) 0.12 Frequency [Hz] Time [sec] Abbildung 2.9: Betragsspektrum im Ergebnis der Kurzzeit-CQT

24 3 Signalverarbeitung Dieses Kapitel gibt zunächst einen Überblick über die gesamte Signalverarbeitungskette innerhalb der AMT, die im Rahmen dieser Diplomarbeit theoretisch ausgearbeitet (und implementiert) wird. Danach geht es auf die einzelnen Schritte ein. 3.1 Signalverarbeitungskette in der AMT Die AMT ist ein recht umfangreiches Gebiet, welches viele Möglichkeiten bei der Zusammenstellung geeigneter Algorithmen zu ganzen Systemen gibt. An dieser Stelle soll der Signalflussgraph aufgeführt werden (Abbildung 3.1), der das in der vorliegenden Arbeit entworfene System zur AMT beschreibt. Da der Schwerpunkt auf einzelnen Komponenten des Systems liegt, ist eine einfache Kette im Signalflussdiagramm ausreichend. Das diskrete Eingangssignal wird in einem Aufbereitungsschritt in eine Zeit-Frequenzdarstellung mit einer geeigneten Kurzzeittransformation derart umgeformt, dass eine musikalisch geeignete Weiterverarbeitung sowohl im zeitlichen Verlauf als auch im Frequenzbereich möglich ist. Anschließend wird eine Tonhöhenerkennung vorgenommen, die eine beliebige Anzahl der prominentesten Tonhöhenkandidaten für jeden Zeitpunkt ermittelt. Bis hierhin ist die Kette noch offen für Spezialisierungen wie monophone (einstimmige) oder polyphone (mehrstimmige) Notenerkennung, was die Leistungsfähigkeit der noch näher zu erläuternden Aufbereitungsschritte zeigt. Ab der Tonanfangs- und -endeerkennung wird im Folgenden beschrieben, wie für das im Rahmen dieser Diplomarbeit entstandene Programm (JWS, siehe Kapitel 4 ab Seite 45) eine monophone Analyse erarbeitet wurde, wichtige Ansätze für polyphone Analysen findet man in [17, 15]. Mit Hilfe des Ergebnisses der Notenanfangs- und -endeerkennung können lokal Noten erkannt werden, wofür Zeitintervalle in größerem Umfang (im Noten- und nicht mehr im beliebigen Sekundenbruchteilbereich) neu diskretisiert werden.

25 Signalverarbeitung 21 Eingangssignal Aufbereitung zur Zeit-Frequenz-Darstellung (Kurzzeittransformation) Tonhoehenerkennung Tonanfangs- und -endeerkennung Notenerkennung Notenblattgenerierung Ausgangssignal Abbildung 3.1: Flussdiagramm mit den einzelnen Verarbeitungsstufen Übrig bleibt die Notenblattgenerierung, die mit einigen wenigen von Hand zu justierenden Parametern ein Notenblatt in einem geeigneten Format erzeugt. Die hier vorgestellten Verfahren eignen sich genau für die Erarbeitung eines geeigneten Systemes im Rahmen dieser Diplomarbeit. Weiterführende interessante Literatur zum Thema, die jedoch nicht direkt in diese Arbeit einfloss, findet man unter [1, 8, 9, 10, 12]. 3.2 Aufbereitung für Zeit-Frequenz-Darstellung Wie in den Abschnitten und beschrieben, eignet sich die CQT bzw. STCQT prinzipiell gut für die Aufbereitung des Eingangssignales in den Zeit-Frequenzbereich. Die Abbildungen 3.2 und 3.3 zeigen die Zeit- und Frequenzunschärfen für Kurzzeit-FFT und

26 Signalverarbeitung Kurzzeit-FFT FFT-Koeffizient Frequenz in Hz Zeit FFT-Koeffizienten-Unschaerfe FFT-Berechnungen Abbildung 3.2: Schematische Darstellung der Unschärfebereiche für die (schnelle) Kurzzeit-Fouriertransformation: Die umschließenden Kästen zeigen die Ausschnitte, die mit einer einzigen FFT berechnet werden können. -CQT. Während die FFT alle Zeiten und Frequenzen betrachtet, wird bei der CQT entweder viel Raum verschenkt (große freie weiße Flächen) oder es wird viel redundant berechnet, etwa bei starker Überlappung bei Verringerung der betrachteten Zeitabstände und gleich bleibenden Fensterbreiten, die zwar die unteren Bereiche übereinander schiebt, jedoch ab einer bestimmten Frequenz wieder unbeachtete Bereiche im Zeit-Frequenzbereich (d.h. zwischen den Vektoren der Matrix) entstehen läßt. Im Extremfall entspricht die Fensterbreite für die höchste betrachtete Frequenz der Fenstermittendistanz. Dann ist die Überlappung bei tiefen Frequenzen/Tönen vor allem bei vielen betrachteten Oktaven sehr groß. Jedoch nur so können akzeptable Zeitauflösungen wie in Abbildung 2.9 entstehen, wo allerdings die tieferen Frequenzen/Töne durch sehr breite überlappte Fenster verschwommen erscheinen. Musikalisch und physikalisch sinnvoll ist die Berechnung der Koeffizienten nur ab einem bestimmten tiefen, noch hörbaren Ton (z.b. A bei 110 Hz) bis zur Nyquistfrequenz (die Hälfte der Samplingfrequenz des Eingangssignales). Leider entstehen große Effizienzprobleme, wenn man bedenkt, dass heute gebräuchliche Rechner (z.b. der eines Musikers) allein die CQT-Berechnung bei weitem nicht in Echtzeit bewältigen, was sich auch in der mittelfristigen Zukunft nicht so schnell ändern wird.

27 Signalverarbeitung Kurzzeit-CQT CQT-Koeffizient Frequenz in Hz Zeit CQT-Koeffizienten-Unschaerfe FFT-Berechnungen Abbildung 3.3: Schematische Darstellung der Unschärfebereiche für die STCQT Schließlich müssen für eine hinreichend gute Genauigkeit mehrere Bänder pro Halbton berechnet werden. Dabei wurden noch nicht die weiteren Verarbeitungsschritte berücksichtigt, neben denen die Zeit-Frequenz-Aufbereitung relativ lange dauert. Daher gilt es, letztere zu optimieren Bekannte Effizienzverbesserungen der CQT Ein erster Ansatz, die Berechnung der CQT drastisch zu beschleunigen, wird in [4] beschrieben: Eine Variante der Parseval schen Gleichung: N/2 1 n= N/2 f n g n = N N/2 1 k= N/2 F k G k wobei G und F die Fourier-Transformierten der ursprungszentrierten Vektoren f und g sind, kann mit gk,n = ω k,ne i2πqn N k in die Gleichung (2.2) eingesetzt werden: F k = 1 N k /2 1 N k n= N k /2 f n g k,n (3.1)

28 Signalverarbeitung 24 = 1 N max/2 1 N k N max N k = N max N k n= N max/2 N max/2 1 n= N max/2 N max/2 1 n= N max/2 f n g k,n (3.2) F n G k,n (3.3) F n G k,n (3.4) Für Gleichung (3.2) wurde lediglich der betrachtete Gesamtbereich vergrößert, wobei die Fensterfunktion jedoch immer noch den gleichen (kürzeren) Bereich ausschneidet. Gleichung (3.4) gilt, da g k,n = gk, n (ursprungszentrierte enthaltene Exponentialfunktion). Der entscheidende Schritt ist jedoch Gleichung (3.3), wo auf Lokalität kein Wert gelegt wird und einfach über die gesamte Breite N max eine Fourier-Transformation des Transformationskernes g vorgenommen wird. Der große Vorteil dieses Verfahrens ist nun, dass eine (schnelle) Fourier-Transformation verwendet werden kann, um den Großteil der Berechnung zu beschleunigen. Der fouriertransformierte CQT-Transformationskern G kann in einem Zwischenspeicher (Look-Up- Table) gehalten werden und muss daher für Kurzzeittransformationen nur einmal berechnet werden. Die hohe Effizienz der DFT/FFT wird durch die zu berechnende Summe für jeden Koeffizienten nicht beeinträchtigt, da in G k,n für jedes k nur sehr wenige Faktoren vorhanden sind, die signifikant von Null verschieden sind. Abbildung 3.3 zeigt mit den umschließenden großen Kästen, wie mit einzelnen FFTs pro Zeitabschnitt viele Koeffizienten in Gruppen berechnet werden können. Nachteilig wirkt sich vor allem aus, dass die Zeitunschärfe für alle Koeffizienten gleich groß wird: Auch die auf der Frequenzachse höheren Kästen in Abbildung 3.3 werden so breit wie der jeweils unterste. Auch im Vergleich zur grafischen Darstellung des Beispiels der STCQT (Abbildung 2.9) zeigt die Kurzzeit-CQT mit FFT-Beschleunigung ein durch die erhöhte Zeitunschärfe verschwommenes Bild (Abbildung 3.4). Dieses kommt dadurch zustande, dass die diskreten Zeitpunkte bei der Forderung nach hinreichend vielen Koeffizienten auf der Zeitachse bei der Kurzzeittransformation recht dicht liegen, womit sich eine sehr große Fensterüberlappung und damit sogar eine resultierende enorme Verlangsamung des Algorithmus ergibt. Die Alternative wäre gewesen, einfach weniger Koeffizienten auf der Zeitachse zu berechnen, was musikalisch auf der Zeitachse jedoch auch nicht als sinnvoll erscheint, sollen doch nach Möglichkeit auch schnellere musikalische Passagen erkannt werden, was mit 1 oder 2 diskreten Zeitpunkten

29 Signalverarbeitung STFCQT: Skylark3.wav (downmix) Frequency [Hz] Time [sec] Abbildung 3.4: Betragsspektrum im Ergebnis der Kurzzeit-CQT mit schnellem Algorithmus nach Brown pro Sekunde nicht möglich ist. Ein anderer Weg zur Optimierung wird von [14] beschritten. Hier werden einfach weniger (auf der Frequenzachse), dafür jedoch korrekte Koeffizienten berechnet. Stellt sich heraus, dass in bestimmten Frequenzbereichen etwas passiert, kann genauer nachgerechnet werden. Leider ist dieses Verfahren nicht allgemeingültig. Im ungünstigsten Fall muss sogar mehr berechnet werden als bei der Standard-CQT Neuartige Verbesserungen der CQT Will man die diskutierten Nachteile der CQT (Ungenauigkeit und Ineffizienz) verbessern, ist eine Umordnung der Positionen und Anzahl (relativ zur betrachteten Frequenz) der Wellchen nötig, wenn man die CQT als eine (wenn auch nicht mathematisch korrekte) Variante der Wavelet-Transformation betrachtet. Hierbei sollte darauf geachtet werden, dass sowohl die weißen Flächen als auch Überlappung der Fenster und damit redundante Berechnung minimiert werden. Abbildung 3.5 zeigt, wie im Optimalfall für jedes Band die betrachteten Fenster direkt nebeneinander gelegt werden. Durch die teilerfremden Fensterbreiten innerhalb einer Oktave gibt es hier jedoch leider keinen Ansatz, im allgemeinen Fall gemeinsame umschließende Fenster zu nutzen, z.b. für den CQT-über-FFT-Ansatz aus dem vorigen Abschnitt. Auch ist das Ergebnis (mit grundlegend verschiedenen Zeitpunkten korrespondierende Ko-

30 Signalverarbeitung Kurzzeit-Transformation mit Variante der CQT CQT-Koeffizient Frequenz in Hz Zeit Koeffizienten-Unschaerfe Abbildung 3.5: Schematische Darstellung der Unschärfebereiche für eine modifizierte STCQT effizienten für die einzelnen Frequenzbänder) nicht leicht mit einfachen Datenstrukturen darzustellen und vor allem weiterzuverarbeiten. Ein im Rahmen dieser Diplomarbeit entstandenes Verfahren (Adaptive CQT, ACQT) verbindet nun die Vorteile höherer Packungdichte und Nutzung der Effizienzvorteile einer eingearbeiteten FFT, indem die Tatsache ausgenutzt wird, dass wenigstens bei Oktaven ein einheitliches Frequenz- und damit Fensterbreitenverhältnis bei der CQT herrscht: Bei jedem Oktavsprung verdoppelt sich die Frequenz, während die Fensterbreite halbiert wird. Legt man nun im klassischen Sinne die CQT-Fenster einer Oktave übereinander, kann dieser Bereich separat mit Hilfe einer FFT beschleunigt werden. Ab der nächsten Oktave geschieht das gleiche, nur diesmal mit zwei nebeneinander liegenden FFT-Fensterbreiten, schließlich sind diese nur jeweils halb so breit. Abbildung 3.6 illustriert dieses Prinzip, das rekursiv über die einzelnen Oktaven angewendet werden kann. Die Verwendung der FFT zur Beschleunigung zahlt sich besonders dann aus, wenn nicht nur 12 Bänder (Halbtonabstände) sondern 24, 48 oder mehr berechnet werden. Redundante Berechnung hinsichtlich Fensterüberlappung wird hierbei nun völlig vermieden und der Anteil der weißen Bereiche bleibt unabhängig von Schachtelungstiefe bzw. Anzahl der Oktaven konstant: für die Anzahl der Bänder pro Halbton m be-

31 Signalverarbeitung Kurzzeit-ACQT ACQT-Koeffizient Frequenz in Hz Zeit ACQT-Koeffizienten-Unschaerfe FFT-Berechnungen Abbildung 3.6: Schematische Darstellung der Unschärfebereiche für die STACQT (Kurzzeit-ACQT) trägt er rund 28%, bezogen auf die musikalisch sinnvolle Darstellung mit logarithmischer Frequenzachse. Genau genommen entsprechen die am tiefsten geschachtelten Fenster am oberen Ende der Frequenzskala dem neu entstehenden zeitlichen Raster der diskreten betrachteten Zeitpunkte. Um Missverständnissen vorzubeugen, sollen hier jedoch die (größten) nebeneinander liegenden Fenster der tiefsten Frequenzen die diskreten Basiszeitpunkte definieren und alles andere als weitere Unterteilungen betrachtet werden. Natürlich kann man das Ergebnis der ACQT auch als Matrix betrachten, wo von oben aus betrachtet bei jeder Zusammenfassung der Fenster die zwei, vier, acht usw. gesuchten Koeffizienten, die für das jeweilige Fenster gesucht werden, auf den gleichen Wert gesetzt werden. Optimierungen Folgende Optimierungen sind weiterhin möglich: Da Oberschwingungen von musikalischen Tönen vor allem in oberen Frequenzregionen auftreten und sich höhere Oberschwingungen hier viel dichter drängen, sind gerade an diesem Ende der Frequenzskala viele (z.b. 4) Bänder pro Halbton sinnvoll. Für die unteren Oktaven ist dies nicht nötig. Statt der rekursiven Schachtelung

32 Signalverarbeitung 28 nach unten, d.h. Zusammenfassung zweier Fenster zu einem, kann auch alternativ die Fensterbreite beibehalten werden, jedoch die Anzahl der berechneten Bänder pro Halbton halbiert werden. Hierbei wird ausgenutzt, dass für breitere Frequenzbandtrennung weniger entsprechende Schwingungsdurchgänge und damit schmalere Fenster betrachtet werden können. Ab einer gewissen Schachtelungstiefe in den oberen Frequenzregionen ist keine weitere Halbierung der Fensterbreite mehr nötig, schließlich kann der Mensch, gleichzeitig Musikproduzent und -konsument, auch kaum genauer als Töne der Länge 1 oder 50 Sekunden differenzieren. (Diese Frequenz (100 Hz) entspricht selbst schon gar wieder einem Ton im hörbaren Bereich.) Diese beiden Tatsachen können genutzt werden, um am oberen und unteren Ende des betrachteten Frequenzbereiches jeweils nur eine einzige FFT zu verwenden, was zu einer zusätzlichen Effizienzsteigerung führt. Abbildung 3.7 verdeutlicht dieses Prinzip. Die umschließenden Kästen fassen jeweils eine Menge von zu berechnenden Koeffizienten zusammen, um jeweils mit nur einer einzigen FFT, aus der anschließend die gewünschten Werte wie oben beschrieben herausgerechnet werden, den Großteil der Berechnung vorzunehmen. Man beachte die (hinsichtlich der Frequenzachse) vergrößerten FFT-Kästen am oberen und unteren Rand. Das dargestellte Schema kann das Prinzip aus Platzgründen jedoch nur skizzieren. Sinnvoll ist es z.b., letztendlich am unteren Ende des betrachteten Frequenzbereiches mit der größtmöglichen Frequenzauflösung (musikalisch: 12 Bänder pro Oktave) zu beginnen und diese bei jeder folgenden Oktave zu halbieren, bis die gewünschte minimale Auflösung erreicht ist (z.b. 4 Bänder pro Halbton, d.h. 48 Bänder pro Oktave). Für diesen gesamten unteren Bereich reicht (für jeden zu betrachteten diskreten Zeitpunkt der Kurzzeittransformation) nun eine FFT aus, ebenso wie auch für die Anzahl an Oktaven, für die am oberen Ende des Frequenzspektrums nicht mehr zeitlich geschachtelt wird. In Abbildung 3.8 ist analog zum ursprünglichen CQT-Beispiel (Abbildung 2.9) ein Beispielergebnis dargestellt, welches im Gegensatz zu [4] (Abbildung 3.4) schon deutlich näher am Original ist. Vor allem musste hier nicht mit großer Fensterüberlappung wie beim obigen [4]-Beispiel gearbeitet werden, um hinreichend viele Koeffizienten auf der Zeitachse zu erhalten. Wie nicht anders zu erwarten, ist hier die Zeitauflösung für untere Oktaven größer, was an den breiten Balken zu erkennen ist, die die Grundfrequenzen der einzelnen gespielten Töne markieren. Durch weniger Koeffizienten auf der Frequenzachse pro Halbton ist auch

33 Signalverarbeitung Kurzzeit-ACQT mit Optimierungen ACQT-Koeffizient 30 Frequenz in Hz Zeit ACQT-Koeffizienten-Unschaerfe FFT-Berechnungen Abbildung 3.7: Schematische Darstellung der Unschärfebereiche für die optimierte STACQT auf dieser Achse eine höhere Auflösung im unteren Frequenzbereich vorhanden. Interessanterweise schadet beides nicht der späteren Analyse, wenn höhere Oberschwingungen der Töne in die Kalkulation mit einbezogen werden.

34 Signalverarbeitung STACQT: Skylark3.wav (downmix) 0.06 Frequency [Hz] Time [sec] Abbildung 3.8: Betragsspektrum im Ergebnis der Kurzzeit-ACQT STACQT: Skylark3.wav (downmix): 56 STCQT: Skylark3.wav (downmix): Amplitude 0.02 Amplitude Coefficient Coefficient Abbildung 3.9: ACQT im Detail (links): Weitgehende Identität mit normaler CQT (rechts: zum Vergleich noch einmal die Darstellung von Seite 16) für das Ergebnis für einen diskreten Zeitpunkt. Man beachte die unterschiedliche Normierung beider Achsen in beiden Diagrammen. Für die Anwendung der FFT in der ACQT musste die Fenstergröße und damit auch das Eingangssignal angepasst werden.

35 Signalverarbeitung 31 In Abbildung 3.9 ist noch einmal der vom CQT-Beispiel her bekannte diskrete Zeitpunkt genau dargestellt. Wie man sieht, fällt hier die Abweichung von der ursprünglichen CQT- Version kaum auf. Komplexitätsbetrachtung Analog zur DFT, FFT und CQT kann die Zeitkomplexität der ACQT für einen diskreten Zeitpunkt angegeben werden. Sie beträgt O(N log N) wie bei der FFT, wobei N die Länge des Eingangsvektors ist. Allerdings liegt der konstante Faktor hier eine Größenordnung über dem der FFT, weil intern mehrere FFTs und Umrechnungen zur CQT-Darstellung vorgenommen werden. Varianten Eine Variante des hier vorgestellten schnellen Algorithmus führt die eigentlich eliminierte Überlappung der Fenster aufeinanderfolgender diskreter Zeitpunkte der Kurzzeittransformation doch wieder ein. Da durch die im Grundlagenteil beschriebenen Fensterfunktionen durch abgeschwächte Signale zu den Fensterrändern hin Informationsverlust auftritt, kann dieser theoretisch mit entsprechend verbreiterten und damit leicht überlappenden Fenstern zumindest teilweise kompensiert werden. Hierbei wird sowohl das Grundfenster für einen diskreten Zeitpunkt der Kurzzeittransformation erweitert als auch die Fenster bei höherer Schachtelungstiefe. Da die eingebetteten FFTs entsprechend auch für leicht erweiterte (und damit überlappte) Fenster berechnet werden, hat dies keine deutlich negativen Auswirkungen. Im Praxistest ist dieses Verfahren jedoch kaum gewinnbringend. 3.3 Tonhöhenerkennung Das Ziel dieses Abschnittes ist es, anhand des Ergebnisses der Zeit-Frequenz-Aufbereitung für jeden der bei der Kurzzeittransformation betrachteten diskreten Zeitpunkte zu bestimmen, welche Töne gerade erklingen. Dazu kann eine der wichtigsten Eigenschaften der CQT und davon abgeleiteten Verfahren ausgenutzt werden: Erklingt ein Ton, entsteht, wie im Grundlagenkapitel beschrieben, ein bestimmtes Muster, egal auf welcher Grundschwingung der Ton basiert. Natürlich ist das entsprechende Muster in gewissen Grenzen abhängig vom Instrument, Tonlage und nicht zuletzt dem Musiker, jedoch ist das erwähnte Prinzip allgemeingültig und sehr nützlich. Wie in Abbildung 3.10 dargestellt, ist es sinnvoll, künstlich ein Ideal-

36 Signalverarbeitung STCQT: Instrument Test Signal (downmix): Amplitude Coefficient Abbildung 3.10: Modellierung eines Instrumentes in der CQT-Ansicht muster zu konstruieren, welches zu Mustererkennungszwecken verwendet werden kann. Dazu kann mit einem einfachen Generator ein Ton (beliebiger Tonhöhe) synthetisiert werden. Die wichtigen Parameter sind hier: Anzahl der Oberschwingungen. Es haben sich 10 bis 20 Oberschwingungen als ausreichend erwiesen. Wirkliche Instrumente besitzen ebenfalls in der Praxis eine endliche Anzahl an Oberschwingungen. Einerseits wegen der Nyquistfrequenz, der höchsten reproduzierbaren in diskreten Signalen auftretenden Frequenz, und andererseits wegen des Charakters vieler Instrumente, in einem bestimmten Frequenzbereich oberhalb der Grundschwingung mitzuschwingen (Resonanzbereich) und darüber einen starken Frequenzabfall aufzuweisen. Die Art des Abklingens der einzelnen Oberschwingungen (als math. Zahlenfolge). Als eine gute Wahl stellt sich statt linearem ein exponentielles Abklingen (im Frequenzbereich) heraus. Damit werden die Grundschwingung und die ersten Oberschwingungen stark betont, spätere jedoch auf einen Bruchteil reduziert. Die relative Amplitude der höchsten generierten Oberschwingung. Hierbei ist 20% der Amplitude der Grundschwingung eine akzeptable Wahl. Aus einem kurzen Ausschnitt des generierten Zeitsignales (Audio) kann nun mit Hilfe einer CQT das gewünschte Grundmuster wie in Abbildung 3.10 berechnet werden. Man

37 Signalverarbeitung 33 beachte, dass durch ein exponentielles Abklingen der Oberschwingungen in der obigen Darstellung mit einer logarithmischen Frequenzskala das Abklingen linear erscheint (bis auf leichte Rundungsfehler und Aufteilung der Werte von einzelnen Oberschwingungen auf mehrere Koeffizienten, wodurch das korrekte Bild etwas ungenau erscheint). Um nun für jeden Zeitpunkt des Ergebnisses des vorigen Abschnittes die Tonhöhen zu erkennen, muss das gerade generierte Vergleichsmuster h n im jeweiligen Frequenzbereich f n gesucht werden. Dies kann prinzipiell über das Faltungstheorem und damit F{f n h n } = F{f n } F{h n } f n h n = F 1 {F{f n } F{h n }} geschehen, wobei F die diskrete Fourier-Transformation, F 1 deren Umkehrung und der Faltungsoperator ist. Natürlich muss darauf geachtet werden, dass das Vergleichsmuster für die Faltung horizontal gespiegelt wird. Im Ergebnis gibt es dann an den relevanten Stellen Maxima, wo Kandidaten für Töne anzutreffen sind. Ein entsprechendes Ergebnis erhält man jedoch auch durch Korrelation, was hier sogar einfacher zu berechnen ist. Hierbei wird die Tatsache ausgenutzt, dass im Vergleichsmuster sehr wenige Werte auftreten, die signifikant größer als Null sind (siehe [3]). Somit kann alles unterhalb eines (kleinen) Schwellwertes auf Null gesetzt werden. Dadurch werden nur relativ wenige Multiplikationen gebraucht, wodurch auf die mehrfache Fourier-Transformation (mit FFT möglich) verzichtet werden kann. Für kompliziertere Modellierungen sollte jedoch auf die Faltung zurückgegriffen werden. Das Resultat hiervon ist ein Vektor, der die Wahrscheinlichkeitsdichte angibt, dass an der jeweiligen Stelle der entsprechende Ton erklingt. An dieser Stelle wird auch der Übergang von CQT-Koeffizienten (durchaus mehrere pro Halbtonschritt) zu diskreten Tonhöhen vollzogen. Die Indizes hiervon werden nach den zugeordneten Werten absteigend sortiert, was sehr effizient möglich ist. Im Ergebnis entsteht also für jeden betrachteten diskreten Zeitpunkt eine Liste, die die wahrscheinlichsten Kandidaten für Töne, zusammen mit ihren relativen Amplituden (aus dem Faltungs- bzw. Korrelationsergebnis), repräsentiert. Zu erwähnen ist hierbei, dass die typischen Fehler Oktavfehler sind. Das folgt aus der Tatsache, dass das Vergleichsmuster immer auch zu der Oberschwingungsreihe ab dem ersten Oberton passt (und dann jede zweite Oberschwingung des echten Tones nicht beach-

38 Signalverarbeitung 34 tet), und auch eine Oktave tiefer zumindest mit jedem zweiten ihrer eigenen künstlichen Oberschwingungsmodelle ein Maximum im echten Ton aufspüren kann. Im Normalfall muss das Verfahren darauf justiert werden, dass immer der echte Ton das Maximum im Ergebnis liefert. Wenn Wert auf polyphone Analyse gelegt wird, muss in nachfolgenden Verarbeitungsstufen darauf geachtet werden, dass Oktaven direkt über und unter einem prominenten Ton verworfen werden, auch wenn sie lauter als andere Töne erscheinen. Es resultieren sonst höchstwahrscheinlich Oktavfehler in der zweiten Stimme. Falls wirklich zwei Instrumente im Oktavabstand spielen, ist dies zum gegenwärtigen Stand schwer zu erkennen. Sogar ein geschultes menschliches Gehör hat Schwierigkeiten damit, solche Fälle eindeutig zu klassifizieren. 3.4 Tonanfangs- und -endeerkennung Sobald herausgefunden wurde, welche Tonhöhen zu welcher Zeit aktiv sind, kann die Analyse der Tonanfänge und -enden geschehen. Hierfür gibt es nicht all zu viel Spielraum bei der Auswahl der grundlegenden Verfahren, jedoch sollte man sich spätestens ab dieser Stelle in der AMT-Verarbeitungskette festlegen, ob monophon oder polyphon analysiert werden soll. Um die Ausarbeitungen im Rahmen zu halten, wird hier die monophone Analyse verfolgt. Eine moderne und gute Einführung in polyphone Analyse gibt [11]. Eine erste Richtung, die im Rahmen dieser Diplomarbeit verfolgt wurde, betrachtete direkt das Ergebnis der STCQT und durchsuchte die gesamte Matrix nach Kandidaten für Anfänge einzelner Oberschwingungen, egal zu welcher Grundschwingung diese gehörten. Da zu einer Grundschwingung in der Regel viele Obertöne gehören, läßt sich das Ergebnis statistisch auswerten, indem für jeden diskreten Zeitpunkt die Anzahl der gefundenen Tonanfangskandidaten gezählt wurden. Nach einer leichten Glättung des resultierenden Vektors (schließlich ist er nicht sehr logisch kontinuierlich) kann nun nach Maxima gesucht werden, die auf Tonanfänge schließen lassen. Diese Idee klingt gut und funktioniert auch in Grenzen. Leider hat sie einige entscheidende Nachteile: Das Ergebnis einer Kurzzeit-CQT, wie sie hier vorgestellt wurde, tendiert dazu, Tonanfänge im unteren Frequenzbereich früher erscheinen zu lassen als in den oberen Frequenzbereichen, was den breiteren, notwendigerweise früher erkennenden Zeitfenstern zuzuschreiben ist. Dies kann bei einer normalen CQT durch entsprechende

39 Signalverarbeitung 35 zeitliche Verschiebung der unteren Bänder bei dieser Analyse kompensiert werden, jedoch sind die entsprechenden tiefen Grund-/Oberschwingungsanfänge immer noch verschwommener und damit schwächer. Bei der ACQT verhält es sich noch schwieriger, da tieffrequente Koeffizienten in zweierpotenzgroßen Gruppen fälschlicherweise gleich groß sind und allein betrachtet die wirklichen Tonanfänge verschleiern. Die resultierenden Tonanfänge sind erst einmal unabhängig vom Ergebnis der im vorigen Abschnitt besprochenen erkannten Tonhöhen. Das bedeutet, dass sie nachträglich verknüpft werden müssen, was eine weitere Fehlerquelle mit sich bringt. Es ist ein stark heuristisch geprägtes Verfahren, welches keine Allgemeingültigkeit für alle Musikarten hat. Daher wurde im Rahmen dieser Diplomarbeit ein recht einfaches, aber leistungsfähiges Verfahren entwickelt, welches die ersten beiden Probleme ausräumt und das letzte zumindest mildert: Es gibt zwei Zustände, in denen linear die diskreten Zeitpunkte durchlaufen werden: 1. Suche nach einem Tonanfang 2. Suche nach einem Tonende zwischen denen entsprechend umgeschaltet wird. Als Eingabe für den Algorithmus wird der jeweils prominenteste Tonhöhenkandidat mit seiner zugeordneten Amplitude für jeden diskreten Zeitpunkt aus dem Ergebnis des im vorigen Abschnitt beschriebenen Verfahrens verwendet. Bei der Suche nach einem Tonanfang werden sukzessive diskrete Zeitpunkte betrachtet, bis folgende Bedingungen gleichzeitig zutreffen: Die relative Amplitude (bezogen auf die maximale Amplitude im Stück) überschreitet einen Schwellwert (z.b. 15%) Die relative Amplitude schwillt gerade an Die Tonhöhe hat gerade gewechselt Die Tonhöhe bleibt erst einmal gleich (ändert sich nicht sofort wieder) Letzteres verhindert zufällig auftretende Töne, die nicht wirklich gespielt wurden. Bei der Suche nach dem Ende eines Tones wird nach folgenden auftretenden Kriterien gesucht, von denen nur eines auftreten muss:

40 Signalverarbeitung 36 Die Tonhöhe hat sich gerade geändert (gehört nicht mehr zum Ton, den es gerade zu verfolgen gilt) und springt auch nicht gleich wieder zurück zum gerade verfolgten Ton. Die relative Amplitude (bezogen auf das Amplitudenmaximum des gerade betrachteten Tones) unterschreitet dauerhaft (nicht nur für einen Koeffizienten) einen Schwellwert (z.b. 30%). Jeder so gefundene Ton wird mit seiner Startzeit, Länge, Amplitude und MIDI-Tonhöhe in eine Liste aufgenommen, die zur Weiterverarbeitung in nachfolgenden Stufen im AMT- System zur Verfügung steht AMT: Skylark3.wav (downmix) Frequency [Hz] Time [sec] Abbildung 3.11: Ergebnis der Tonhöhen-, Tonanfangs- und -endeerkennung nach Kurzzeit-ACQT; die hellsten Rechtecke zeigen die erkannten Töne auf, die leicht dunkleren die Fehler (falsche Negative rechts unten) und zu kurze und damit nicht wirkliche Töne Abbildung 3.11 zeigt das Ergebnis dieser Verarbeitungsstufe grafisch. Als relativ dunkler Hintergrund ist das Ergebnis der Tonhöhenerkennung zu sehen, die sowohl über als auch unter den tatsächlich gespielten Tönen Tonhöhenkandidaten findet. Die hellsten Rechtecke repräsentieren die tatsächlich gefundenen Töne, die etwas dunkleren die prominentesten

41 Signalverarbeitung 37 Kandidaten aus der Tonhöhenanalyse, die jedoch vom gerade beschriebenen Algorithmus verworfen wurden. 3.5 Notenerkennung Dieser Abschnitt befasst sich mit der Verarbeitung der Liste erkannter Töne in eine Notenrepräsentation mit einigen musikalischen Merkmalen. Nur die letztendliche Taktunterteilung wird hinausgezögert, was in einer späteren Verarbeitungsstufe bei der Notenblattgenerierung vollzogen werden kann. Die einzelnen Teilaufgaben des vorliegenden Problemes lassen sich zu einem gewissen Grade unabhängig voneinander bearbeiten Tonart Für die Tonarterkennung werden globale Eigenschaften des zu analysierenden Musikstückes ausgenutzt, um durch ein statistisches Verfahren zur Anzahl der globalen (musikalischen) Vorzeichen, und damit zum Grundton, zu kommen. Der zu minimierende Wert ist die Anzahl der lokalen Vorzeichen, die letztendlich im Notenblatt vorkommen, d.h., es sollten möglichst viele Töne zu der diatonischen Skala gehören, die bereits durch die globalen Vorzeichen definiert ist Absolutes Auftreten Halbton Abbildung 3.12: Unnormiertes Histogramm über das Auftreten bestimmter Halbtöne in einer musikalischen Passage, von C bis B

42 Signalverarbeitung 38 Wenn davon ausgegangen wird, dass kein Tonartwechsel mitten im Stück geschieht, kann ein Histogramm des Auftretens einzelner Halbtonschritte bei separaten Tonhöhen gebildet werden. Hierfür ist die Oktavhöhe nebensächlich, sodass z.b. nur die Gesamtanzahl der B s aus allen Oktaven ermittelt wird. Das Histogramm umfasst also 12 Halbtöne, wie im Beispiel in Abbildung 3.12 sichtbar wird. Statt der Anzahlen ist es möglich, Gewichtungen nach relativen Lautstärken oder Längen der Töne einzuarbeiten, was jedoch nicht immer musikalisch sinnvoll ist. Schließlich werden tonarteigene Töne nicht grundsätzlich lauter oder insgesamt öfter und länger gespielt. Um mit Hilfe dieses Histogramms die Tonart zu ermitteln, wird zunächst eine diatonische Tonleiter modelliert: Der Vektor (1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1) T hat an genau jenen Stellen der chromatischen Tonleiter eine 1, wo in der Durtonleiter mit dem gleichen Grundton der entsprechende Halbtonschritt vorkommt. Dieses Idealmuster kann nun nun als ein Modell eines Histogrammes eines Stückes betrachtet werden, in dem keine tonartfremden Töne vorkommen. Es liegt also eine Korrelation des realen Histogrammes mit diesem Muster nahe. Das damit gefundene Maximum läßt auf den Grundton der Durtonart schließen, die für das Stück die wenigsten Vorzeichen benötigt. Nun könnte man noch versuchen, zwischen Dur- und paralleler Molltonart zu differenzieren. Jedoch ist dies ein schwieriges Unterfangen, wenn das Stück nicht als Ganzes vorliegt. Glücklicherweise ist es für die gesuchte Vorzeichenwahl im Notenbild gar nicht nötig, zwischen Dur und Moll zu unterscheiden, weshalb an dieser Stelle auch darauf verzichtet werden kann. Die Ermittlung der Anzahl der Vorzeichen aus dem Dur-Grundton ist musikalisch trivial: Es werden solange oder hinzugefügt, bis man, ausgehend vom C (vorzeichenfreie Durtonart), über Quintsprünge aufwärts oder abwärts zum ermittelten Grundton kommt Tatum Bei der Tatum-Analyse (siehe Grundlagenkapitel) werden die einzelnen bereits erkannten Töne betrachtet, um den kleinsten wirklich im Stück vorkommenden Notenwert zu ermitteln. Dies ist nicht trivial, da das Eingangssignal fehlerbehaftet ist und wahrscheinlich einige Töne als deutlich zu kurz erkannt wurden (leise und unterbrochene Töne). Desweiteren kann nicht direkt die Länge jedes einzelnen gespielten Tones verwendet werden, da wiederum jede gespielte Note nur zu rund 3/4 der angegebenen Zeit klingt und bis zum nächsten Ton eine implizite Pause entsteht, die je nach Stilistik und verschiedenen näheren Angaben im Notenblatt sehr unterschiedlich ausfallen kann.

43 Signalverarbeitung Absolutes Auftreten Zeit [s] Abbildung 3.13: Unnormiertes Histogramm der Notenanfangszeitdifferenzen Viel zuverlässiger ist hier die jeweilige Differenz der Anfangszeiten aufeinanderfolgender Töne. In einem Histogramm h n mit der Intervallbreite l = 0, 01 s erscheint unser Beispiel wie in Abbildung Man beachte, dass die Intervallmitten auf ganzzahligen Vielfachen der Intervallbreiten liegen. Dem globalen Maximum bei 0, 19 s geht ein lokales Maximum bei 0, 09 s voraus, was ungefähr der halben Dauer entspricht. Auffallend sind noch die lokalen Maxima bei 3, 7 s und 5, 6 s, die der doppelten und dreifachen Dauer der Töne des globalen Maximum entsprechen. Alles andere ist offenbar Rauschen. Leider sind nicht einmal die richtigen Werte genau positioniert, d.h. im Diagramm aufgeschlüsselt (was nicht an der Intervallauflösung des Histogrammes liegt; auch genauere Auflösungen zeigen das gleiche Problem). Daher berechnet der hier entworfene Algorithmus die gesuchten Maxima wie folgt: Da von einer Normalverteilung der Tönlängen um die jeweils ganzzahligen Vielfachen des Tatums ausgegangen wird, wird ein Muster wie in Abbildung 3.14 generiert. Gleich hohe Normalverteilungen werden um die Vielfachen der natürlichen Zahlen ( 1) gelegt: g(x) = 1 σ 2π 1 σ 2π (x 1) 2 e 2σ 2, x 1, 5 (x x 0.5 ) 2 e 2σ 2, sonst Die jeweilige Standardabweichung von σ = 0.1 erweist sich hier als günstig. Um

44 Signalverarbeitung relative Amplitude Vielfache des Tatum-Kandidaten Abbildung 3.14: Vergleichsmuster für Histogramme der Notenanfangszeitdifferenzen nun die richtige Skalierung für das Tatum t 0 zu finden, muss das Maximum folgender Funktion ermittelt werden, welches praktisch alle Größen innerhalb bestimmter Grenzen (t min,..., t max ) in Schritten von t step durchprobiert: φ(t) = t max/t step n=t min /t step m=0 ( ) ml g h m nt step Die Darstellung des Ergebnisses für das Beispiel ist in Abbildung 3.15 zu sehen. Obwohl das erwartete Maximum bei rund 0, 1 s liegt, gibt es ein fast gleich großes Maximum bei etwa der Hälfte. Ein ähnliches Phänomen tritt bei der Tonhöhenerkennung mit den typischen Oktavfehlern auf. Bei doppelt so hoher Frequenz (auf der Zeitachse) der Tatum-Vielfachen findet nun das 2n-te Maximum in unserem Modell (Abbildung 3.14) das Maximum im Histogramm, welches normalerweise vom 2-ten gefunden würde. Man hat nun mehrere Möglichkeiten, auf dieses (potenzielle) Problem zu reagieren: Das halbe Tatum des normalerweise erwarteten Wertes akzeptieren. Die meisten Töne, die mit dem somit ermittelten Tatum zu Noten quantisiert werden, sollten immer noch den richtigen Notenwert erhalten. Erst ab einem bestimmten höheren Wert (z.b. 0, 07 s) wird nach Tatum-Kandidaten gesucht. Damit verschiebt man jedoch das Problem nur, wenn bei langsameren Musikstücken das Tatum in einem viel größeren Bereich zu suchen ist, wobei schon die Hälfte davon weit über der neuen Toleranzgrenze liegt.

45 Signalverarbeitung Unnormierte Wahrscheinlichkeitsdichte Tatum [s] Abbildung 3.15: Bewertete Tatum-Kandidaten Noten In diesem Schritt können nun endlich aus der Liste der Tonanfänge und -enden Noten generiert werden. Hierfür wird zunächst das Tatum [s] benötigt, womit ermittelt werden kann, welcher Notenwert (Dauer) zur kleinsten betrachteten Zeiteinheit im Stück gehört. Entsprechend skaliert mit dem vorgegebenen Schlag [Schläge pro Minute] kann aus einer Tabelle ermittelt werden, welche Notenwerte als kürzestes Maß überhaupt zulässig sind. Hierfür gibt es natürlich im Notfall immer angenommene Minima und Maxima, weil es nicht beliebig kurze oder lange Notenwerte geben soll (z.b. ganze bis Zweiunddreißigstelnote). Steht der Notenwert für das Tatum fest, kann relativ direkt aus jedem Ton eine entsprechende Note ermittelt werden: Die vorgefundene Länge wird auf ganzzahlige Vielfache des Tatums gerundet und in einen Notenwert umgewandelt. Die Aufteilung in mehrere gebundene Teilnoten, entsprechend nötige Punktierungen und Verteilung über mehrere Takte geschieht erst im Abschnitt 3.6. An dieser Stelle sollen jedoch sehr dichte (fast ohne Pausen) und weiter auseinander liegende Noten (große zeitliche Abstände) analysiert und in den Notenstrom mit eingearbeitet werden: Legato und Pausen. Die Ermittlung beider kann über Schwellwerte erfolgen: Falls der klingende Anteil einer Note:

46 Signalverarbeitung 42 r i = l i t i+1 t i mit der klingenden Länge l i des Tones i N und seinem Startzeitpunkt t i größer als 0, 9 ist, wird Legato angenommen und eine entsprechende Markierung in der Notenliste eingetragen (falls irgendwann die Bindung vorbei ist, wird dies analog festgehalten); bei r i < 0, 5 wird der Ton in einen neuen, kürzeren, Ton und eine Pause aufgeteilt. Für die erkannten Noten werden die jeweiligen Längen und Tonhöhen gespeichert, für die Pausen nur die Längen Notenschlüssel Bei der Erkennung des gesuchten Notenschlüssels geht es um die Unterscheidung zwischen verschiedenen Arten von Instrumenten, Präferenzen in verschiedenen Stilrichtungen und allgemeine Stimmlagen der musikalischen Passagen, die im Stück gespielt werden. Da sich die vorliegende Arbeit nicht direkt mit der Instrumentenerkennung beschäftigt (hier sei nur auf [7] verwiesen) und auch keine Stilistikerkennung betreibt, bleibt hier nur die Unterscheidung der Stimmlagen. Außer in älterer Musik sind heutzutage nur der Violinschlüssel und der Bassschlüssel üblich: G I ˇ ˇ Beide Auszüge stellen die gleiche Note dar, adressieren jedoch völlig verschiedene Tonlagen. Da sich der Violinschlüssel beispielsweise deutlich besser für hohe Lagen eignet, wird umgekehrt bei solchen auch ein Violinschlüssel vermutet. Analog verhält es sich beim Bassschlüssel und tiefen Tönen. Es bietet sich also an, den Mittelwert der Tonhöhen aller im Stück vorkommender Töne zu bestimmen und in Abhängigkeit eines Schwellwertes (in diesem Falle die Tonhöhe des C) zu ermitteln, ob es sich eher im unteren oder oberen Frequenzbereich abspielt. Damit fällt die Wahl relativ leicht. Unter Einbeziehung von zusätzlichen verwendeten Notenschlüssel ist der Algorithmus entsprechend um mehr Schwellwerte und mögliche Ergebnisse zu erweitern. Alternativ könnte jedoch der Notenschlüssel auch auf einen festen Wert gesetzt werden, wenn er dem Benutzer bekannt ist. Außerdem ist ein automatischer Wechsel des Schlüssels in den meisten Notationsprogrammen trivial, wodurch hier nicht näher darauf eingegangen

47 Signalverarbeitung 43 werden soll Taktart und Beginn im ersten Takt Die beiden Parameter Taktart (Zähler und Nenner) und die Angabe, an welcher Stelle im ersten Takt das Stück überhaupt beginnt, sind kontextabhängig und nicht trivial und überlassen auch dem geschulten menschlichen Gehör offene Rätsel. Es erscheint hier also sinnvoll, diese beiden Parameter als manuell zu justierende Größen in Programmen zu realisieren. 3.6 Notenblattgenerierung Dieser letzten Verarbeitungsstufe bleibt es überlassen, die mit den im vorigen Abschnitt beschriebenen Verfahren ermittelten Noten direkt in ein geeignetes Zielformat (z.b. MusicXML) zu transformieren. Hierbei müssen folgende Dinge beachtet werden: Parameter: Die zusätzlichen Parameter (Notenschlüssel, Taktart, Beginn im ersten Takt) aus dem vorigen Abschnitt müssen entsprechend im Notenblatt eingetragen werden Bindungen: Die im vorigen Abschnitt beschriebenen Markierungen müssen geeignet übertragen werden Haltebögen: Falls Noten über Grenzen von Takten hinweg stehen, müssen sie entsprechend aufgeteilt werden Punktierte Erweiterungen: Manche Vielfache des Tatums können nicht durch Notenlängen ausgedrückt werden, diese müssen dann geeignet aufgeteilt werden. Notenlängen können durch Punktierungen folgendermaßen dargestellt werden: l = n 1 n=n 0 2 n Ist eine solche Zerlegung nicht möglich, ist es nötig, rekursive Teilzerlegungen in jeweils eine möglichst lange gültige Notendauer und einen Rest vorzunehmen:

48 Signalverarbeitung 44 Gleiches gilt für Pausen. l i = l i+1 + n 1,i n=n 0,i 2 n

49 4 Design und Implementation In diesem Kapitel soll dargelegt werden, wie die Ergebnisse aus dem vorigen Kapitel in einem interaktiven Programm (JazzWorkshop, JWS) zur AMT realisiert wurden. Dazu soll zunächst der Kontext, d.h. die Entwicklungsumgebung erläutert werden, um spätere Designentscheidungen besser erklären zu können. 4.1 Entwicklungsumgebung Dieser Abschnitt geht auf die verschiedenen Aspekte des Entwicklungs- und Lebenszyklus des entstandenen Programmpaketes ein Paketformat Um Offenheit und Kompatibilität zu gewährleisten, sollte ein Programmpaket im GNU- Stil entstehen, wodurch direkt viele Hard- und Softwareplattformen unterstützt werden und einer späteren Veröffentlichung als Open-Source-Programm nichts im Wege steht Sprachen Bei der Entstehung des Programmes mussten zu verschiedenen Zwecken auch unterschiedliche, geeignete Sprachen gewählt werden. Analyse und Design Zur Modellierung der verschiedenen am System beteiligten Entitäten aus der Problemdomäne, der Signalverarbeitungskette und der grafischen Benutzeroberfläche wurde ausführlicher Gebrauch von UML-Klassendiagrammen gemacht.

50 Design und Implementation 46 Implementation Die Entscheidung für eine geeignete Implementationssprache ist eine schwierige Abwägung zwischen Effizienz und Einfachheit bei der Implementierung. Es muss zwischen maschinennahen und effizient kompilierten, aber umständlich zu formulierenden Sprachen auf der einen Seite und interpretierten und langsameren, dafür jedoch einfach zu entwickelnden Hochsprachen entschieden werden. Bei ersteren kommt aus der Liste von C, C++ und Fortran eigentlich nur C++ wegen vieler fortgeschrittener moderner Sprachmerkmale infrage. Aus der anderen Gruppe (Python, Java, Matlab 1 ) soll exemplarisch Python in die Erläuterung mit einbezogen werden. Im Folgenden sollen daher C++ und Python gegenüber gestellt werden. Während C++ Objektorientierung neben maschinennahen und sehr effizienten Merkmalen bietet und durch STL und umfangreiche zusätzliche Bibliotheksanbindungen (auch nach C) dem Programmierer viele Aufgaben abnimmt, ist es relativ aufwändig, hiermit zu implementieren. Für die gleiche Funktionalität sind deutlich mehr Quelltextzeilen zu schreiben, und der Code ist schwieriger zu handhaben und zu debuggen. Python dagegen ist leicht (und kompakt) zu schreiben und zu debuggen und bietet ebenfalls eine geeignete Bibliothek (intern und extern), wobei sogar Anbindung an C möglich ist. Der große Nachteil hierbei ist die Geschwindigkeit. Da ein Schwerpunkt dieser Diplomarbeit auf der Geschwindigkeitsoptimierung von Algorithmen liegt, wurde großer Wert auf Effizienz gelegt. Obwohl theoretisch eine Misch-Lösung denkbar wäre, fiel letztendlich die Wahl auf C++, was bei der Implementierung viel Zeit in Anspruch nahm, jedoch sehr gute Ergebnisse erzielte. Gestaltung der grafischen Oberfläche Die Elemente der grafischen Oberfläche wurden mit Glade erstellt, wobei die Strukturen im XML-Format abgelegt wurden und zur Laufzeit dynamisch generiert werden. 1 In dieser Liste tauchen Python und Java gleichzeitig auf, obwohl sie völlig unterschiedlich entworfen wurden. Trotzdem handelt es sich bei beiden in der Praxis um interpretierten Bytecode, Objektorientierung und eine Benutzergemeinde, die beide realistisch als Alternativen betrachtet

51 Design und Implementation Dateiformate Da als Eingangssignal beliebige diskrete Audiodateien möglich sein sollen, werden möglichst viele derartige Formate (z.b. WAV, AIFF, AU, VOC) mit Hilfe der Sndfile- Bibliothek unterstützt. Zur Ausgabe wird mit Hilfe von libxml++ das noch relativ junge aber zukunftsträchtige MusicXML-Format unterstützt. 4.2 Design Beim Entwurf sind verschiedene Aspekte wichtig, die hier einzeln anhand von UML- Diagrammen erläutert werden sollen AMT-Signalverarbeitungskette Besonders im interaktiven Teil des Programmes wird deutlich, dass viele Berechnungen im System ähnliche Eigenschaften haben. So sollen sie zeitlich (z.b. für Fortschrittsbalken) überwacht werden können, per Kurzzeitmessung miteinander verglichen werden können und polymorph austauschbar sein. Dafür wurden die einzelnen Elemente der Signalverarbeitungskette durch die Klasse Computation modelliert (siehe Abbildung 4.1) und implementiert. Die Klassen STTransform (div. Kurzzeittransformationen, siehe nächster Abschnitt), PitchDetector (Tonhöhenerkennung), OnsetDetector (Tonanfangs- und -endeerkennung), NoteDetector (Notenerkennung) und ScoreGenerator (Notenblattgenerierung) erfüllen die im Theoriekapitel näher beschriebenen Aufgaben und verarbeiten jeweils die Ausgabe des vorhergehenen Elementes in der Kette. Sie alle (bzw. ihre Instanzen) werden von einer Instanz der Klasse AMT verwaltet. Die einzelnen Modelle der Resultate von PitchDetector, OnsetDetector und NoteDetector werden hier nur kurz als Pitch, Onset und ScoreElement angedeutet und weiter unten teils noch näher erläutert Transformationen Abbildung 4.2 zeigt das Klassenmodell der implementierten (Kurzzeit-) Transformationen, die mit Hilfe der Fensterfunktionen (Window) zu kompletten Algorithmen zusammengesetzt werden. STFCQT ist hierbei die von [4] vorgeschlagene schnelle Variante der

52 Design und Implementation 48 Computation SoundSource AMT +source: SoundSource STTransform PitchDetector Pitch OnsetDetector Onset NoteDetector ScoreElement ScoreGenerator Abbildung 4.1: Design der Integration der einzelnen Verarbeitungsstufen Kurzzeit-CQT und STACQT die Kurzzeit-Variante der in dieser Arbeit entworfenen Adaptiven CQT Notenbildmodell Die einzelnen Elemente des Notenbildes (siehe Abbildung 4.3) können alle von der Klasse ScoreElement abgeleitet werden und entsprechen einfach den englischen Bezeichnungen der besprochenen im Notenbild vorkommenden Zeichen.

53 Design und Implementation 49 STTransform STFFT STCQT STFCQT STACQT FFT CQT Window CosWindow HammingWindow HannWindow Abbildung 4.2: Klassenmodellierung der Aufbereitung in Zeit-Frequenz-Darstellung ScoreElement TemporalScoreElement VoiceAttribute Accentuation Note Rest Clef KeySignature TimeSignature LegatoStart LegatoEnd Abbildung 4.3: Modellierung der Elemente des Notenbildes

54 Design und Implementation 50 SourceView Application 1 n View PseudoColorRGB View1D View2D BWColorRGB GeoColorRGB ComputationView STTransformView AMTView WaveformView SpectrumView STFFTView STCQTView STFCQTView STACQTView Abbildung 4.4: (Grobes) Klassendesign der grafischen Benutzeroberfläche Grafische Benutzeroberfläche In Abbildung 4.4 ist das Klassenmodell der Benutzeroberfläche dargestellt, wo im Grunde jedem zu visualisierenden Element des Problembereiches (z.b. Kurzzeittransformationen, Spektren) eine entsprechende Ansicht (View) zugeordnet ist, die sich um eine geeignete Darstellung kümmert. Ganz oben ist zu sehen, wie die Anwendung (Application) auf die Ansicht einer Audio- Quelle (SourceView) zurückgreift, in der wiederum mehrere Ansichten (Waveform, div. Kurzzeittransformationen, Berechnung und Ergebnis der AMT) der gleichen Audio-Quelle angeboten werden. 4.3 Implementierung Die Implementierung, die sich in elektronischer Form in Anhang A wiederfindet, realisiert die im Theoriekapitel im Detail besprochenen Algorithmen und ist ausführlich im Quelltext dokumentiert. Ein automatisch generiertes 300-seitiges Quelltextdokumentati-

55 Design und Implementation 51 onshandbuch (erstellt mit Doxgen) sowie eine HTML-Version davon ist dort ebenfalls zu finden. Daher sollen hier keine näheren Implementierungdetails aufgeführt werden. Der Umfang der Software beträgt über Quelltextzeilen, wovon über 8000 reiner Quellcode und der Rest größtenteils aus Dokumentation und Kommentaren besteht. 4.4 Grafische Oberfläche Abbildung 4.5: Ansicht des Eingangssignales, Auswahl möglicher Transformationen Das Programm JWS kann nach dem Start sowohl über das Menü Audio-Dateien öffnen (siehe Abbildung 4.5) als auch verschiedene Töne generieren (Abbildung 4.6). Für jede Audioquelle gibt es dabei verschiedene Ansichten zum direkten Vergleich: Waveform, STFFT, STCQT, STFCQT, STACQT, AMT. Bei letzterem sind in der üblichen Kurzzeittransformationsdarstellung gleich die erkannten Töne eingefärbt, wobei das XML-Ergebnis in einem separaten Fenster angezeigt werden kann (siehe Abbildung 4.7). Über Kontextmenüs (rechte Maustaste) sind im Programm auch viele weitere zusätzliche Informationen erreichbar. So kann für jede Kurzzeittransformation und jeden

56 Design und Implementation 52 Abbildung 4.6: STACQT-Ansicht: Ein generiertes (exponentiell auf der Frequenzskala, linear auf der Tonhöhenachse) Zirp-Signal wird als Tonleiter erkannt diskreten Zeitpunkt davon ein (eindimensionales) Betragsspektrum angezeigt werden. Diagramme können in das Gnuplot-Format exportiert werden (so entstanden beispielsweise viele der Diagramme in dieser Diplomarbeit). Für Kurzzeit-Transformationen ist weiterhin ein Informationsfenster verfügbar, welches globale und lokale Informationen (je nach Mauszeigerposition im Ansichts-Fenster) anbietet (Abbildung 4.7). 4.5 Kommandozeilenversion Das Programm wird durch Angabe von Kommandozeilenoptionen automatisch zum Kommandozeilenprogramm, das spezifizierte Audiodateien vollautomatisch in das MusicXML- Format umwandelt: jws [Optionen...] [Eingangssignal] Hierbei ist Eingangssignal eine Datei in einem der oben genannten Eingabeformate. Der Ausgabe-Dateiname wird automatisch ermittelt (*.xml), falls er nicht explizit mit -o oder --output angegeben wurde.

57 ˇ ˇ ˇ.. ˇ. ˇ. ˇ - ˇ K - ˇ - ˇ ˇ` ż ( ˇ l. ˇ ˇ. F ˇ Design und Implementation 53 Abbildung 4.7: Ergebnisansicht der AMT (Tonhöhenerkennung, Rohdaten der Notenanfänge, MusicXML-Ergebnis) 4.6 Beispiel Abschließend sei hier explizit das Endergebnis (MusicXML-Datei) im Notenbild für das für diese Diplomarbeit durchgängige Beispiel aufgeführt: G ˇ U.. - ˇ ˇ. ˇ «. ˇ? ^ 6 ) ( 2 ˇ ) ( 6 -ˇ ˇ. ˇ. ˇ Z Z.ˇ ^.ˇ Z ˇ ˇ ).ˇ. 6 -ˇ ˇ - ˇ. G ˇ ˇ ( ˇ ( -ˇ 2 ˇ ) 6 ˇ ( 6 ˇ ( ˇ 6ˇ 2ˇ -ˇ -ˇ 6ˇ 6 ˇ ( ( ö ń a > ` ( Da dieses Beispiel komplett von JWS generiert wurde, d.h. es fand keine manuelle Nachbearbeitung statt, ist dies ein durchaus gutes Ergebnis.