Kombinationen von Neuronalen Netzen und Hidden Markov Modellen in der Spracherkennung

Größe: px
Ab Seite anzeigen:

Download "Kombinationen von Neuronalen Netzen und Hidden Markov Modellen in der Spracherkennung"

Transkript

1 Kombinationen von Neuronalen Netzen und Hidden Markov Modellen in der Spracherkennung Christian Tomm Zusammenfassung In der Spracherkennung werden vornehmlich Hidden Markov Modelle verwendet. Neuronale Netze liefern nur unzureichende Ergebnisse. Als Alternative werden hybride Systeme aus neuronalen Netzen und Hidden Markov Modellen eingeführt. In dieser Arbeit werden Methoden vorgestellt, die die Erkennungsraten hybrider Systeme verbessern sollen. 12. Juli 2005

2 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen Neuronale Netze Hidden Markov Modelle Hybride Systeme 4 3 Das Gradientenverfahren in hybriden Systemen 5 4 Das Divergenzproblem 7 5 Verbesserte hybride Systeme Soft Weight Sharing Lernregel Bayes Training Maximum A Posteriori Kriterium 10 6 Ergebnisse 10 Literatur 13 2

3 1 Einleitung Die automatische Spracherkennung (ASR) ist ein Problem, dass schon längere Zeit untersucht wird. Das Erkennen von gesprochenen Worten ist für den Menschen ohne viel nachzudenken und auch unter erschwerten Bedingungen wie etwa Hintergrundrauschen leicht zu lösen. Für den Rechner ist dies etwas schwerer. Zunächst gibt es hier die akustische Merkmalsfolge Y, die aus Eingabe und Vorverarbeitung stammt. Weiterhin gibt es das, im Allgemeinen unbekannte, Wort W, welches es zu erkennen gilt. Gesucht ist nun also das Wort aus einem Wörterbuch, das die folgende Wahrscheinlichkeit maximiert: P r(w Y ) = P r(y W )P r(w ) P r(y ) Dazu ist noch zu sagen, dass P r(w ) normalerweise als Sprachmodell (language model) und P r(y W ) als akustisches Modell (accoustic model) bezeichnet werden. Die Maximierung von P r(w Y ) kann nun über verschiedenste Mechanismen erfolgen. Hier sollen nun zunächst die bekannten Ansätze dargelegt werden, dann werden neue hybride Systeme aus neuronalen Netzen und Hidden Markov Modellen vorgestellt, die schließlich mit einem Test auf echter, gesprochener Sprache bewertet werden. 2 Grundlagen Um gesprochene Wörter zu erkennen, können verschiedene Techniken verwendet werden. Im Folgenden wird zunächst auf künstliche Neuronale Netze zur Spracherkennung eingegangen, dann werden die Hidden Markov Modelle erläutert. Diese Hidden Markov Modelle sind im Moment am gebräuchlichsten in der Spracherkennung. Als letztes werden schließlich die bisherigen hybriden Systeme betrachtet. 2.1 Neuronale Netze Künstliche neuronale Netze (KNN) schienen anfangs eine gute Lösung zum Problem der Spracherkennung zu sein. Es ist möglich, sie als nicht parametrisierte Wahrscheinlichkeitsdichtefunktionen zu trainieren und sie haben außerdem gute Generalisierungsfähigkeiten. Der Ansatz hier ist, dem Netz eine akustische Beobachtung in geeigneter Form zu präsentieren, um mit der Ausgabe des Netzes eine Klassifikation auf dem Wörterbuch durchzuführen. Für Probleme, in denen kurze akustische Einheiten vorkamen, wie etwa Phoneme oder einzelne, kurze Wörter, erwiesen sich die neuronalen Netze als relativ gut [2]. In den Fällen allerdings, in denen lange Worte 3

4 oder Sätze erkannt werden sollten, stellten sich die neuronalen Netze als ungeeignet heraus [3]. Dies hängt anscheinend stark damit zusammen, dass man mit neuronalen Netzen längerdauernde Zeitabhängigkeiten nicht ausreichend gut modellieren kann. Dies gilt auch für rekurrente Netze [4]. Daher sind neuronale Netze alleine zur Lösung des Problems ungeeignet. 2.2 Hidden Markov Modelle Hidden Markov Modelle (HMM) sind ein anderer Ansatz, das Problem der automatischen Spracherkennung zu lösen. Hier wird versucht, das gesuchte Wort als eine Kette von Zuständen zu erkennen. Das Hidden Markov Modell wird also definiert durch eine Menge von Zuständen Q und den Wahrscheinlichkeiten a ij, mit denen das HMM von einem Zustand i in einen anderen Zustand j übergeht. Zusätzlich werden noch die Emissionswahrscheinlichkeiten b i,t benötigt. Sie geben an, mit welcher Wahrscheinlichkeit welches Zeichen in einem gegebenen Zustand i zum Zeitpunkt t emmitiert wird. Diese Werte sollen für unseren Zweck ausreichen um ein HMM zu beschreiben. Ein Problem der HMMs ist, dass einige Annahmen über statistische Eigenschaften gemacht werden müssen. Beispielsweise wird in Continuous-Density HMMs (CDHMMs) angenommen, dass die Emissionswahrscheinlichkeiten über eine parametrisierte Wahrscheinlichkeitsdichtefunktion dargestellt werden können. Dies stellt eine relativ starke Einschränkung an die Daten dar. Im Allgemeinen lässt sich jedoch sagen, dass HMM s aktuell sehr gerne zur Spracherkennung eingesetzt werden, und dort auch gute, wenn auch nicht perfekte, Ergebnisse liefern [5]. 2.3 Hybride Systeme Einen kombinierten Ansatz aus den beiden Vorherigen bilden die hybriden Systeme. Hier sollen vor allem der Ansatz von Bourlard und Morgan [6], sowie die Optimierung von Bengio [7] betrachtet werden. Im Ansatz von Bourlard und Morgan wird für jeden Zustand q l im Markov Modell M ein Ausgang aus einem Multilayer Perzeptron (MLP) trainiert, um die entsprechende conditional transition probability P r(q l y l k,..., y l+k, q l 1 ) zu schätzen, wobei die y l k,..., y l+k eine Menge von akkustischen Merkmalsvektoren sind. Hier bezeichnet k die so genannte Fenstergröße. Das MLP Training wird mit dem Backpropagation Algorithmus durchgeführt. Allerdings lieferte das System so keine brauchbaren Ergebnisse. Erst nachdem die Ausgaben des MLP mit den passenden a priori Wahrscheinlichkeiten normalisiert wurden, waren die Ergebnisse besser als die der einfachen HMMs. Ein grundlegendes Problem an diesem Ansatz blieb allerdings bestehen. Der Backpropagation Algorithmus ist ein überwachtes Lernverfahren, aber für akustische Signale ist im 4

5 Allgemeinen kein passendes Lehrersignal vorhanden. Bourlard und Morgan verwenden daher eine iterative Trainingsvorschrift: 1. Es wird eine Segmentierung der Daten geschätzt. 2. Der Backpropagation Algorithmus wird entsprechend der geschätzte Segmentierung angewendet. 3. Mit dem trainierten MLP werden neue Wahrscheinlichkeiten gefunden. Mit dem Viterbi Algorithmus wird eine neue (bessere) Segmentierung berechnet. 4. Mit Hilfe dieser Segmentierung wird so wieder der Backpropagation Algorithmus angewendet. Dies wird dann iterativ weitergeführt. Allerdings ist dieses Verfahren stark abhängig von der gewählten Startfolge. Unter Umständen konvergiert der Algorithmus noch nicht einmal. Bengios Modell verwendet ein KNN auf andere Art und Weise. Hier werden die hochdimensionalen Eingabedaten u L auf niedrigdimensionale Merkmalsvektoren x L abgebildet. Da das KNN die Wahrscheinlichkeit P (Y M) maximieren soll, kann auch hier wieder das Gradientenverfahren mit dem Backpropagation Algorithmus angewendet werden. Zum Training des HMM wird dann z.b. der Baum-Welch Algorithmus verwendet. Hier dient das KNN also lediglich als Merkmalsextraktor. Daher bleiben die Nachteile der HMMs bestehen und die Anzahl der zu lernenden Parameter vergrößert sich im Vergleich zum reinen HMM Ansatz. Die nun vorgestellten hybriden Systeme zielen darauf ab, diese beiden Ansätze zu verbinden, um ein System ohne die einzelnen, spezifischen Nachteile zu erhalten. Hier soll das KNN eingesetzt werden, um die Emissionswahrscheinlichkeiten zu schätzen. Dazu wird jedem Zustand in jedem HMM eine korrespondierende Ausgabe im KNN zugewiesen. Die restlichen Parameter des HMM werden dann weiterhin mit dem Baum-Welch Algorithmus trainiert. 3 Das Gradientenverfahren in hybriden Systemen Die vorgestellten hybriden Systeme basieren alle auf dem Gradientenverfahren, welches die folgende Wahrscheinlichkeit maximieren soll: C = P (Y M) = i F α i,t F ist die Menge der Endzustände im HMM. Die α i,t sind die forward Wahrscheinlichkeiten α i,t = P r(q i,t, y 1,..., y t ) mit der akustischen Beobachtung Y = y 1,..., y T. Analog kann man auch die sogenannten backward Wahrscheinlichkeiten definieren: β i,t = P r(y t+1,.., y T q i,t ). Zur Berechnung werden dann folgende 5

6 Rekursionsformeln verwendet: α i,t = b i,t a ji α j,t 1 j und β i,t = j b j,t+1 a ij β j,t+1 mit a i,t und b i,t wie oben definiert. Zur Maximierung des C wird nun der Gradient berechnet: w = η C Es gilt: α i,t = α i,t b i,t b i,t (Ableiten der Rekursionsformel für α i,t ) und C α i,t = β i,t (Beweis in [1]) Damit lässt sich der Gradient umformen: Nun muss noch b j,t Wobei gilt: C = i = i = i t t bestimmt werden: t C b i,t b i,t b j,t = f j(x j (t)) jk jk C α i,t b i,t α i,t b i,t α i,t b i,t β i,t b i,t = f j(x j (t)) i w ji o i (t) jk = f j(x j (t))o k (t) o k (t) = f k (x k (t)) f k (x) ist die Ausgabefunktion des k-ten Ausgangs des KNN. Man definiert ein δ i (j, t) wie folgt: f δ i (j, t) = j(x j (t)) falls i = j 0 sonst 6

7 So kann man die Gleichung b i,t vereinfachen: b i,t = δ i(j, t)o k (t) Damit ist die Lernregel vollständig beschreibbar: w jk = η T i=1 t=1 β i,t α i,t b i,t δ j (i, t)o k (t) (1) 4 Das Divergenzproblem Diese Gradientenlernregel kann nun also eine nicht parametrisierte Dichtefunktion annähern. Allerdings ist nicht sichergestellt, dass eine solche Dichtefunktion gelernt wird. Vielmehr ist es so, dass durch die Maximierung der Zielfunktion große Ausgabewerte im KNN bevorzugt werden. Also werden die Emissionswahrscheinlichkeiten über alle Muster sehr groß und das entstehende Modell sinnlos. Dies passiert natürlich nicht immer, da der Gradient auch in lokalen Maxima bleiben kann, und so nicht immer beliebig groß wird. In den nun vorgestellten Modellen wird versucht, das Divergenzproblem zu beheben. Wobei nun nicht zwingend eine Dichtefunktion gelernt werden muss, es reicht auch, einfach nur die Divergenz der Gewichte zu verhindern. 5 Verbesserte hybride Systeme In diesem Abschnitt werden nun drei verbesserte Hybride Systeme vorgestellt, die versuchen, das Divergenz Problem zu beheben. Die drei Systeme verwenden drei verschiedene Ansätze, die unterschiedlich effektiv sind. Die Ergebnisse aus einem Test auf gesprochener Sprache werden in Kapitel 6 besprochen. 5.1 Soft Weight Sharing Lernregel Die Idee der Soft Weight Sharing Lernregel ist, dass das Divergenzproblem umgangen werden kann, indem man Lösungen mit kleinen Gewichten bevorzugt. Man verändert also die zu maximierende Wahrscheinlichkeit entsprechend: C = P (Y M)P (W M) Wobei L = P (Y M) die Wahrscheinlichkeit der Beobachtung Y unter dem Modell M bezeichnet. W = (w 1,..., w s ) ist ein Zufallsvektor der Kopplungen im KNN. 7

8 Da C maximiert werden soll, wird der Gradient verwendet, um mittels Gradientenaufstieg ein Maximum zu finden. Dabei ist die Form der Verteilung P (W M) sehr wichtig. Falls hier die Gleichverteilung gewählt wird, werden keine Lösungen bevorzugt und das Divergenzproblem tritt weiterhin auf. Sinnvoller wäre also eine Normalverteilung mit Mittelwert 0, bei der kleine Werte bevorzugt werden. Also kann man schreiben: s s P (W M) = P (w j M) = N(w j ; 0, σj 2 ) j=1 j=1 N(w j ; 0, σ 2 j ) ist eine Gaussverteilung mit Mittelwert 0 und Varianz σ 2 j, ausgewertet am Punkt w j. Der Gradient, aus dem die Lernregel gewonnen werden soll, ist: C = P (Y M)P (W M) P (Y M) P (W M) = P (W M) + P (Y M) So kann man nun die Lernregel ausrechnen: T α i,t w jk = ηp (W M) β i,t δ j (i, t)o k (t) P (Y M)λ jk w jk b i,t (2) i=1 t=1 Wobei man die Wahrscheinlichkeit P (W M) wie oben beschrieben berechnet, und P (Y M) die Wahrscheinlichkeit C ist. λ jk ist die inverse Varianz der Gaussverteilung für w jk. Diese Lernregel wird Soft Weight Sharing ML Training (SWS-ML) genannt. 5.2 Bayes Training Hier ist die Idee, die Emissionswahrscheinlichkeiten durch das Bayes sche Theorem umzuschreiben: b j,t = P r(y t q j ) = P r(q j y t )p(y t ) Π j Π j = P r(q j ) ist die a priori Wahrscheinlichkeit des Zustands q j, und p(y t ) ist der Wert der Verteilungsfunktion der akustischen Beobachtungen im Merkmalsraum, ausgewertet über die Eingabe y t. Zum Errechnen der Lernregel müssen nun diese Werte geschätzt werden. p(y) kann als typisches Problem der Schätzung einer Dichtefunktion angesehen werden und mit entsprechenden statistisch parametrischen oder nicht parametrischen Methoden geschätzt werden. Diese Schätzung wird vor dem eigentlichen Lernen des Systems durchgeführt. Falls die Eingabedaten so normiert werden, dass p(y) gleichverteilt ist, kann sie sogar vernachlässigt werden. Die a priori Wahrscheinlichkeiten Π j können vor dem eigentlichen Training auf der gesamtem Trainingsmenge geschätzt werden, unter Berücksichtigung des 8

9 Einsatzfeldes, des Sprachmodells und der Topologie der HMMs. Sie basiert also auf Informationen einer höheren Ebene. Um P r(q j y t ) zu schätzen verwendet man ein KNN, das die Wahrscheinlichkeiten wie folgt berechnet: P r(q j y t ) = f j(x j (t)) Q i=1 f i (x i (t)) Hier ist Q die Anzahl aller Zustände in allen HMMs und f j (x j (t)) ist die j-te Ausgabe des KNN. Durch die Normierung der KNN Ausgaben wird sichergestellt, dass die gesuchten Wahrscheinlichkeiten summiert eins ergeben. Mit diesem Ansatz muss nun nicht mehr das KNN eingeschränkt werden, um die Divergenz zu vermeiden, sondern die Ausgaben des KNN werden nur anders interpretiert. Die Ableitung der neuen Emissionswahrscheinlichkeiten sieht dann so aus: b j,t = { } P r(qj y t )p(y t ) Π j = p(y t) P r(q j y t ) Π j = p(y { } t) fj (x j (t)) Π j Q i=1 f i (x i (t)) = p(y 2 t) f i (x i (t)) f Π j i (x i (t)) f j(x j (t)) i=1 i=1 f j (x j (t)) i=1 f j (x j (t)) Damit wird wieder die Lernregel zusammengesetzt: w jk = η T i=1 t=1 α i,t p(y t ) β i,t b i,t Π i 2 f m (x m (t)) (3) m=1 δ j(i, t)o k (t) f m (x m (t)) f i (x i (t)) δ j (m, t)o k (t) m=1 m=1 Diese Lernregel wird Bayes Training genannt. 9

10 5.3 Maximum A Posteriori Kriterium Der dritte Ansatz ist schließlich, nicht die Wahrscheinlichkeit der akustischen Beobachtung zu maximieren, sondern die a posteriori Wahrscheinlichkeit: C MAP = P (M Y ) = P (Y M)P (M) P (Y ) Hier ist nun P (M) die a priori Wahrscheinlichkeit des Modells und P (Y ) ist die allgemeine Wahrscheinlichkeit der akustischen Beobachtung. P (Y ) ist unabhängig von dem Modell M, und P (M) ist unabhängig von den Ausgaben des KNN. Somit kann P (M) separat berechnet werden. Falls die Wörter gleichverteilt sind, kann P (M) sogar komplett weggelassen werden. Für die Maximierung ergibt sich in jedem Fall folgende Wahrscheinlichkeit: C MAP = P (Y M) P (Y ) Nun muss noch der Gradient berechnet werden: w = η C MAP = η { } P (Y M) P (Y ) { } η P (Y M) P (Y ) = P (Y ) P (Y M) [P (Y )] 2 = η { } P (Y M) P (Y M) P (Y ) P (Y ) P (Y ) P (Y M) und die zugehörige Ableitung werden wie in Kapitel 3 beschrieben berechnet. P (Y ) und die Ableitung werden durch ein unabhängiges Modell auf die gleiche Art berechnet. Das unabhängige Modell ist das gleiche, das später für die Erkennung mit dem Viterbi Algorithmus eingesetzt wird. Also ein Modell, in dem kein äußeres Wissen (prior knowledge) über die Transkription der Audiodaten vorhanden ist. Da hier die a posteriori Wahrscheinlichkeit maximiert wird, bezeichnet man den Algorithmus als Maximum A Posteriori Algorithmus (MAP). 6 Ergebnisse Um die neuen Algorithmen zu testen wurde der cdigits Teil der SPK Datenbank verwendet. Dies sind Sprachsignale, die unter Laborbedingungen mit close-talk Mikrofonen aufgenommen wurden. Die Datenbank enthält 1000 Äußerungen von 8 zusammenhängenden, italienischen Ziffernfolgen. Gesprochen wurden diese von 40 10

11 Sprechern (21 männliche und 19 weibliche). Diese Datenbasis wurde in Trainingsund Testmenge aufgeteilt, jeweils 500 Äußerungen von jeweils 20 Sprechern. Diese Daten wurden mit 20ms Hammingfenstern mit 10ms Überlapp abgetastet. Auf jedem Frame wurden dann 8 Mel Frequency Scaled Cepstral Coefficients [8] extrahiert. Außerdem wurde jeweils die log-energie berechnet und die jetzt insgesamt 9 Features wurden normiert. Nun wurden mehrere, verschiedene Fehlerraten betrachtet. Das wichtigste Kriterium ist die Word Error Rate (WER) und das entsprechende Komplement, die Word Recognition Rate (WRR). und W ER = 100(Ins + Del + Sub)/N words % W RR = 100% W ER N words ist die Gesamtanzahl der Worte in den Äußerungen. Der Fehler bestimmt sich über die Insertionen(Ins), Deletionen (Del) und Substitutionen (Sub). Ein weiteres Fehlerkriterium ist Percent Correct (PC): P C = 100 N words (Sub + Del) N words % Außerdem sei noch die String Recognition Rate (SRR) definiert als die Rate der vollständig richtig erkannten Testsequenzen. Für jedes Wort in der Datenbank (italienische Zahlen von 0 bis 9) wurde ein HMM modelliert. Die Anzahl der Zustände variierte zwischen 3 und 6. Word Phonetic transcription Number of HMM 1 uno u n o 3 due d u e 3 tre t r e 3 quattro k w a tt r o 6 cinque ts i n k w e 6 sei s e i 3 sette s e tt e 4 otto o tt o 3 nove n o v e 4 zero ts e r o 4 Tabelle 1 Phonetische Umschreibungen der verwendeten Worte und die entsprechenden Anzahlen der HMM Zustände 11

12 Das HMM wurde mit 8 Gaussian Mixtures modelliert. Die Initialisierung wurde mit dem segmentellen k-means durchgeführt. Trainiert wurde mit dem Baum-Welch Algorithmus und der Test wurde mit dem Viterbi Algorithmus durchgeführt. Das MLP ist ein 2-Schicht Netz mit 93 sigmoiden Neuronen in der verdeckten Schicht und 40 sigmoiden Neuronen in der Ausgabeschicht. Diese Topologie wurde in vorherigen Tests experimentell so gefunden. Die Initialisierung des MLP geschieht folgendermaßen: 1. Eine initiale Segmentierung wird durch vorhandenes Wissen über das passende HMM und durch den Viterbi Algorithmus auf dem vortrainierten HMM geschätzt 2. Die Lehrersignale werden entsprechend der Segmentierung gesetzt. 3. Das MLP wird nun mit dem Backpropagation Algorithms trainiert. 4. Aus dem hybriden System werden mit dem Viterbi Algorithmus neue Lehrersignale gewonnen. 5. Die beiden letzten Schritte können mehrfach wiederholt werden. Die Ergebnisse auf den Testdaten sind geprägt durch: (a) die geringe Größe des Trainingsdatensatzes und (b) durch die starken Unterschiede zwischen den Sprechern in Test- und Trainingsmenge. Die Ergebnisse sind in Tabelle 2 angegeben. Zu beachten ist die Reduktion der WER um 46.34% gegenüber dem normalen HMM. Architecture/algorithm SRR(%) PC(%) WRR(%) HMM with 8-Gaussian mixtures Bourland and Morgans s hybrid ANN/HMM hybrid trained via SWS-ML ANN/HMM hybrid trained via Bayes ANN/HMM hybrid trained via MAP Tabelle 2 String recognition rate (SRR), percent correct (PC) und word recognition rate (WRR) im SPK Test. Das HMM hat 5869 freie Parameter, die hybriden Systeme haben alle 4823 freie Parameter Im Allgemeinen lässt sich also sagen, dass die drei neu vorgestellten Algorithmen alle die Erkennungsraten des alten Ansatzes und der einfachen HMMs weit übertreffen. Der MAP Ansatz ist der Beste der drei Algorithmen. 12

13 Literatur [1] E. Trentin, M. Gori, Robust Combination of Neural Networks and Hidden Markov Models for Speech Recognition, TNN B541. [2] R.P. Lippmann, Review of neural networks for speech recognition, Neural Computation, vol. 1, pp. 1-38, [3] E. Trentin, M. Gori, A survey of hybrid ANN/HMM models for automatic speech recognition, Neurocomputing, vol. 37, no. 1-4, pp , March [4] Y. Bengio, P. Simard and P. Frasconi, Learning long-term dependencies with gradient descent is difficult, IEEE Transactions on Neural Networks, vol. 5, no. 2, pp , 1994, Special Issue on Recurrent Neural Networks, March 94. [5] X. D. Huang, Y. Ariki and M. Jack, Hidden Markov Models for Speech Recognition, Edinburgh University Press, Edinburgh, [6] H. Bourlard and N. Morgan, Connectionist Speech Recognition. A Hybrid Approach, vol. 247 of the Kluwer international series in engineering and computer science, Kluwer Academic Publishers, Boston, [7] Y. Bengio, R. DeMori, G. Flammia and R. Kompe, Global optimization of a neural network-hidden Markov model hybrid, IEEE TRansactions on Neural Networks, vol. 3, no. 2, pp , [8] S. B. Davis und P. Mermelstein, Comparison of parametric representations of monosyllabic word recognition in continously spoken sentences, IEEE Trans. on Acoustics, Speech and Signal Processing, vol. 28, no. 4, pp ,

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Thema 3: Radiale Basisfunktionen und RBF- Netze

Thema 3: Radiale Basisfunktionen und RBF- Netze Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung

Mehr

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte

Mehr

Praktische Optimierung

Praktische Optimierung Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

5. Lernregeln für neuronale Netze

5. Lernregeln für neuronale Netze 5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

1 Part-of-Speech Tagging

1 Part-of-Speech Tagging 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Nikolas Dörfler 21.11.2003 1 Einleitung Hauptseminar Machine Learning Nicht alle Vorgänge laufen stehts in einer festen deterministischen Reihenfolge ab und sind somit relativ einfach

Mehr

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67 Kapitel 2.1: Die stochastische Sicht auf Signale 215 Georg Dorffner 67 Stochastische Prozesse Stochastische Prozesse sind von Zufall geprägte Zeitreihen x n f x, n 1 xn2,... n vorhersagbarer Teil, Signal

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

Diskriminatives Training, Neue Wort Problem. Sebastian Stüker

Diskriminatives Training, Neue Wort Problem. Sebastian Stüker Institut für Anthropomatik Diskriminatives Training, Neue Wort Problem Sebastian Stüker 03.02.2010 Interactive Systems Labs EM findet gute Modellparameter,indem es maximiert: X T P(X λ) T: Menge der Trainingsäußerungen

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Korbinian Schwinger 3. November 003 Inhaltsverzeichnis Inhaltsverzeichnis Exponential Family 3. Definition...............................

Mehr

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform. (hoffentlich kurze) Einführung: martin.loesch@kit.edu (0721) 608 45944 Überblick Einführung Perzeptron Multi-layer Feedforward Neural Network MLNN in der Anwendung 2 EINFÜHRUNG 3 Gehirn des Menschen Vorbild

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Künstliche neuronale Netze

Künstliche neuronale Netze Künstliche neuronale Netze Eigenschaften neuronaler Netze: hohe Arbeitsgeschwindigkeit durch Parallelität, Funktionsfähigkeit auch nach Ausfall von Teilen des Netzes, Lernfähigkeit, Möglichkeit zur Generalisierung

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Multiplizitätskorrektur bei Variablenselektion

Multiplizitätskorrektur bei Variablenselektion Multiplizitätskorrektur bei Variablenselektion Seminar: Multiples Testen Dozent: Prof. Dr. T. Dickhaus Referent: Maximilian Mönch - 22.11.2010 - Überblick 1) Einleitung 2) Multiplizitätskorrektur 3) Median

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 6. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Gaußdichte Gaußdichte der Normalverteilung: f ( x) = 1 2π σ x e 2 2 x ( x µ ) / 2σ x Gaußdichte der Standardnormalverteilung:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg

Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg Andreas Scherer Neuronale Netze Grundlagen und Anwendungen vieweg Inhaltsverzeichnis Vorwort 1 1 Einführung 3 1.1 Was ist ein neuronales Netz? 3 1.2 Eigenschaften neuronaler Netze 5 1.2.1 Allgemeine Merkmale

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Neuronale Netze mit mehreren Schichten

Neuronale Netze mit mehreren Schichten Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Grundlagen der Objektmodellierung

Grundlagen der Objektmodellierung Grundlagen der Objektmodellierung Daniel Göhring 30.10.2006 Gliederung Grundlagen der Wahrscheinlichkeitsrechnung Begriffe zur Umweltmodellierung Bayesfilter Zusammenfassung Grundlagen der Wahrscheinlichkeitsrechnung

Mehr

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig) ETWR Teil B 2 Ziele Bisher (eindimensionale, mehrdimensionale) Zufallsvariablen besprochen Lageparameter von Zufallsvariablen besprochen Übertragung des gelernten auf diskrete Verteilungen Ziel des Kapitels

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Rasch, Friese, Hofmann & Naumann (006). Quantitative Methoden. Band (. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung

Mehr

2 Aufgaben aus [Teschl, Band 2]

2 Aufgaben aus [Teschl, Band 2] 20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen

Mehr

1 Dichte- und Verteilungsfunktion

1 Dichte- und Verteilungsfunktion Tutorium Yannick Schrör Klausurvorbereitungsaufgaben Statistik Lösungen Yannick.Schroer@rub.de 9.2.26 ID /455 Dichte- und Verteilungsfunktion Ein tüchtiger Professor lässt jährlich 2 Bücher drucken. Die

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 2 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation Wintersemester 2007/2008 Klaus Kasper Praktikum Mittwochs: 10:15 13:30 (Y) Start: 24.10.2007 Ort: D15/202 Donnerstags: 14:15 17:30 (X) Start: 25.10.2007 Ort: D15/102 Zulassungsvoraussetzung

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Multivariate Verteilungen

Multivariate Verteilungen Multivariate Verteilungen Zufallsvektoren und Modellierung der Abhängigkeiten Ziel: Modellierung der Veränderungen der Risikofaktoren X n = (X n,1, X n,2,..., X n,d ) Annahme: X n,i und X n,j sind abhängig

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG E-Mail: Markus.Schumacher@physik.uni-freiburg.de

Mehr

7. Kritische Exponenten, Skalenhypothese

7. Kritische Exponenten, Skalenhypothese 7. Kritische Exponenten, Skalenhypothese 1 Kritische Exponenten, Universalitätsklassen 2 Beziehungen zwischen den kritischen Exponenten 3 Skalenhypothese für die thermodynamischen Potentiale G. Kahl (Institut

Mehr

Exkurs Modelle und Algorithmen

Exkurs Modelle und Algorithmen Exkurs Modelle und Algorithmen Ansatz künstlich neuronaler Netze (KNN) Versuch, die Wirkungsweise menschlicher Gehirnzellen nachzubilden dabei wird auf formale mathematische Beschreibungen und Algorithmen

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Neuronale Netze. Seminar aus Algorithmik Stefan Craß,

Neuronale Netze. Seminar aus Algorithmik Stefan Craß, Neuronale Netze Seminar aus Algorithmik Stefan Craß, 325656 Inhalt Theoretisches Modell Grundlagen Lernansätze Hopfield-Netze Kohonen-Netze Zusammenfassung 2 Inhalt Theoretisches Modell Grundlagen Lernansätze

Mehr

Spracherkennung und Sprachsynthese

Spracherkennung und Sprachsynthese Spracherkennung und Sprachsynthese Einführung in die Computerlinguistik Sommersemester 2012 Peter Kolb Spracherkennung / -synthese Spracherkennung (automatic speech recognition, ASR) Sprachsynthese (text-to-speech,

Mehr

Einführung in neuronale Netze

Einführung in neuronale Netze Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

Aufgaben zu Kapitel 5:

Aufgaben zu Kapitel 5: Aufgaben zu Kapitel 5: Aufgabe 1: Ein Wissenschaftler untersucht, in wie weit die Reaktionszeit auf bestimmte Stimuli durch finanzielle Belohnung zu steigern ist. Er möchte vier Bedingungen vergleichen:

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider Versuch: Training des XOR-Problems mit einem Künstlichen Neuronalen Netz (KNN) in JavaNNS 11.04.2011 2_CI2_Deckblatt_XORbinaer_JNNS_2

Mehr

Computer Vision: Kalman Filter

Computer Vision: Kalman Filter Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i

Mehr

Übungsaufgaben Lösungen

Übungsaufgaben Lösungen Übungsaufgaben Lösungen Stochastische Matrizen, Markov-Prozesse MV5.1 Eine N N-Matrix P heißt stochastisch, wenn ihre Matrixelemente nicht-negativ sind und alle Zeilensummen 1 ergeben. In Formeln: P ij

Mehr

Aufabe 7: Baum-Welch Algorithmus

Aufabe 7: Baum-Welch Algorithmus Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,

Mehr

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und Ausgaben Aktivierungsfunktionen: Schwellwertfunktion

Mehr

Differenzengleichungen. und Polynome

Differenzengleichungen. und Polynome Lineare Differenzengleichungen und Polynome Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-600 Innsbruck, Österreich franz.pauer@uibk.ac.at 1 Einleitung Mit linearen Differenzengleichungen

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Neuronale Netze Motivation Perzeptron Übersicht Multilayer Neural Networks Grundlagen

Mehr

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze. Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Wissensbasierte Systeme

Wissensbasierte Systeme Analytisch lösbare Optimierungsaufgaben Das Chaos-Spiel gründet auf der folgenden Vorschrift: Man startet von einem beliebigen Punkt aus geht auf einer Verbindung mit einem von drei zufällig gewählten

Mehr

Was sind Neuronale Netze?

Was sind Neuronale Netze? Neuronale Netze Universität zu Köln SS 2010 Seminar: Künstliche Intelligenz II Dozent: Stephan Schwiebert Referenten: Aida Moradi, Anne Fleischer Datum: 23. 06. 2010 Was sind Neuronale Netze? ein Netzwerk

Mehr

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität Volker Tresp 1 Einführung Bisher haben wir uns fast ausschließich mit überwachtem Lernen beschäftigt: Ziel war es, eine (oder mehr als eine)

Mehr

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11 Kapitel 1 Exakte Suche nach einem Wort R. Stiebe: Textalgorithmen, WS 2003/04 11 Überblick Aufgabenstellung Gegeben: Text T Σ, Suchwort Σ mit T = n, = m, Σ = σ Gesucht: alle Vorkommen von in T Es gibt

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Wärmebedarfsprognose für Einfamilienhaushalte auf Basis von Künstlichen Neuronalen Netzen

Wärmebedarfsprognose für Einfamilienhaushalte auf Basis von Künstlichen Neuronalen Netzen Wärmebedarfsprognose für Einfamilienhaushalte auf Basis von Künstlichen Neuronalen Netzen Internationale Energiewirtschaftstagung Wien - 12.02.2015 Maike Hasselmann, Simon Döing Einführung Wärmeversorgungsanlagen

Mehr

KNN-Methode zur Einschätzung von Veränderungen des Salzgehaltes in Ästuaren

KNN-Methode zur Einschätzung von Veränderungen des Salzgehaltes in Ästuaren KNN-Methode zur Einschätzung von Veränderungen des Salzgehaltes in Ästuaren Holger Rahlf; Reiner Schubert www.baw.de Künstlich Neuronales Netz Gliederung Einleitung Grundlagen Möglichkeit und Grenzen Anwendung

Mehr

3 Grundlagen statistischer Tests (Kap. 8 IS)

3 Grundlagen statistischer Tests (Kap. 8 IS) 3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung

Mehr

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2. Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

7.2 Moment und Varianz

7.2 Moment und Varianz 7.2 Moment und Varianz Def. 21 Es sei X eine zufällige Variable. Falls der Erwartungswert E( X p ) existiert, heißt der Erwartungswert EX p p tes Moment der zufälligen Variablen X. Es gilt dann: + x p

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen

Mehr

Statistische Methoden der Datenanalyse

Statistische Methoden der Datenanalyse Statistische Methoden der Datenanalyse Vorlesung im Sommersemester 2002 H. Kolanoski Humboldt-Universität zu Berlin Inhaltsverzeichnis Literaturverzeichnis iii 1 Grundlagen der Statistik 3 1.1 Wahrscheinlichkeit..................................

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Medienforensik - Manipulationserkennung. Multimedia Sicherheit, Martin Steinebach

Medienforensik - Manipulationserkennung. Multimedia Sicherheit, Martin Steinebach Medienforensik - Manipulationserkennung - Ballistik Image Forensics Forensische Anwendungen im Bildbereich sind mehrfach belegt Optimierung von Bildern, die z.b. mit Überwachungskameras aufgenommen wurden

Mehr

Die n-dimensionale Normalverteilung

Die n-dimensionale Normalverteilung U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Ernst Günter Schukat-Talamazzini Automatische Spracherkennung Grundlagen, statistische Modelle und effiziente Algorithmen Technische Universität Darmetadt FACHBEREICH INFORMATIK BIBLIOTHEK MH Invsntar-Nr.:

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

Dynamisches Routing in der Logistik

Dynamisches Routing in der Logistik Informatik, Angewandte Informatik, Technische Informationssysteme Dynamisches Routing in der Logistik Tobias Dimmel Dresden, 24.05.2012 Agenda 1. Begriffe 2. Traveling Salesman Problem 3. Ameisenalgorithmus

Mehr

Fehlerfortpflanzung. M. Schlup. 27. Mai 2011

Fehlerfortpflanzung. M. Schlup. 27. Mai 2011 Fehlerfortpflanzung M. Schlup 7. Mai 0 Wird eine nicht direkt messbare physikalische Grösse durch das Messen anderer Grössen ermittelt, so stellt sich die Frage, wie die Unsicherheitsschranke dieser nicht-messbaren

Mehr

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK) Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK) für Studierende des Maschinenbaus vom 7. Juli (Dauer: 8 Minuten) Übersicht über die

Mehr