Handout zum Vortrag: Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

Größe: px
Ab Seite anzeigen:

Download "Handout zum Vortrag: Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation"

Transkript

1 Handout zum Vortrag: Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Oliver Schmitz November 26, 2018 Contents 1 Einleitung 2 2 Statistical Machine Translation 2 3 Der BLEU Score 3 4 Modellarchitektur Rekurrente Neuronale Netze LSTM Modul Bi-directional Encoder Attention Modul Worttrennung 9 6 Trainingskriterien Minimum Likelihood Refined Likelihood Decoder 12 8 Experimente und Ergebnisse Datensätze Trainingsprozedur Ergebnisse Ausblick 14 1

2 1 Einleitung Das Paper Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation wurde im Oktober 2016 veröffentlicht. Schon einen Monat später wurde verkündet, dass Google Translate vollständig mit dem im Paper vorgestellten Modell arbeitet. In diesem Vortrag sollen folgende Ziele erreicht werden: Grundlegendes Verständnis wie Machine Translation und insbesondere Google Translate (in den letzten Jahren) funktioniert hat. Grundlegende Begriffe klären, die häufig im Kontext von neuronalen Netzen benutzt werden (insbesondere bei Machine Translation Problemen). Experimentelle Ergebnisse des Papers vorstellen. 2 Statistical Machine Translation Frage: Was ist Statistical Machine Translation (SMT) und wie funktionieren SMT-Modelle? Figure 1: Beispiel eines Wortverzeichnisses des Wortes Therefore und dessen französische Übersetzungen mit den zugehörigen Wahrscheinlichkeiten. Die Übersetzung eines Textes mit SMT kann vereinfacht in drei Schritten beschrieben werden: 2

3 1. Aufteilen des Quelltextes in einzelne Redewendungen ( locutions ). Dies können einzelne Wörter oder Wortpaare sein, z.b. voiture, ne [...] pas. 2. Nutzen eines Wortverzeichnisses und Kontext innerhalb des Textes um Übersetzung in der Zielsprache auszuwählen. 3. Neuordnung der übersetzten Wörter/ Phrasen in einen kompletten Satz. Probleme SMT: Figure 2: Beispielhaftes Vorgehen eines SMT Modells Unerwartete Resultate. Gute Lesbarkeit aber zweifelhafte Sinnhaftigkeit. Unterschiedliche Satzordnung zwischen westlichen und asiatischen Sprachen führt zu Problemen. Vorzüge häufig nur bei der Übersetzung von westlichen Sprachen. Warum blieben bisher Neural Machine Translation (NMT) Modelle ohne viel Erfolg? 1. Großer Aufwand an Rechenleistung und Zeit beim Anlernen des neuronalen Netzes. 2. Keine zuverlässige Übersetzung von seltenen Wörtern. 3. Die Übersetzung ist nicht vollständig, d.h. Wörter aus dem Quelltext werden vergessen. Googles Modell erhebt den Anspruch diese Probleme bewältigt zu haben. 3 Der BLEU Score BLEU ist eine Methode um maschinell übersetzte Texte zu evaluieren. Diese soll schnell, günstig und Sprachunabhängig sein und mit menschlich durchgeführten Evaluationen korrelieren. Zentrale Idee: Je näher eine maschinelle Übersetzung einer professionellen menschlichen Übersetzung ist, desto besser. Indizien einer guten Übersetzung für den BLEU Score sind 1. Übereinstimmung von N-Grammen, 2. Satzlänge, 3. Reihenfolge der Wörter. Einer Übersetzung wird ein Wert zwischen 0 und 1 zugesprochen, wobei 1 die perfekte Übersetzung ist. 3

4 4 Modellarchitektur Die von Google vorgeschlagene Modellarchitektur hat den folgenden Aufbau. Encoder und Decoder sind jeweils rekurrente neuronale Netze Encoder hat 9 Schichten (Layer), Decoder hat 8 Schichten. Encoder verwandelt jedes Wort in einen Vektor, welcher weiterverarbeitet wird. Zwischen Output des Encoders und Input des Decoders ist ein Attention Modul geschaltet Hinter dem Decoder ist ein Softmax Layer geschaltet welches den übersetzen Text ausgibt. 4.1 Rekurrente Neuronale Netze Das rekurrente neuronale Netz (RNN): Figure 3: Verschiedene Arten von Rückkopplungen: Die blaue Kante ist eine direkte, die grüne eine indirekte und die rote eine seitliche Rückkopplung. 4

5 Eine andere Darstellung eines RNNs kommt der Modellarchitektur von Googles Modell näher. Um die Schleifen eines RNN besser zu verstehen, kann man das Netz als Kette eigener Kopien interpretieren, welches seine Informationen an den Nachfolger weiter gibt. Diese Struktur lässt sich im Encoder und Decoder des Netzes wiederfinden. Wozu brauchen wir RNNs? Wir erhoffen uns, dass das NN zeitlich codierte Informationen in unseren Daten erlernen kann. Zum Beispiel stellen wir uns ein NN vor, welches das letzte Wort einer Textkette vorhersagen soll: Die Wolken sind im... Himmel. Aufgrund des Wortes Wolken soll unser Netz erkennen, dass Himmel ein guter Kandidat für eine Fortsetzung des Satzes ist. Was ist aber wenn die Informationen, die miteinander verknüpft werden sollen, weiter auseinander liegen? Ich bin in Frankreich geboren. Meine Mutter ist Ärztin. Mein Vater ist Gärtner. [...] Ich spreche fließend... französisch. RNNs schaffen es nicht von alleine die Informationen zu verknüpfen, wenn die Lücke größer wird. Einen Lösungsansatz bieten Long-Short-Term-Memory (LSTM) Netzwerke. Der Grund warum RNNs alte Informationen vergessen sind verschwindene bzw. explodierende Gradienten. Übliche Aktivierungsfunktionen wie der Tangens Hyperbolicus haben Gradienten zwischen 0 und 1. Vielfache Verkettung von tanh führt beim Differenzieren zu verschwindend geringen Werten. Einfaches RNN Modul: 5

6 4.2 LSTM Modul h t = tanh(w [h t 1, x t ] + b) Betrachten wir die Unterschiede eines einfachen RNN Moduls und eines LSTM Moduls. Figure 4: LSTM Modul Wichtigster Teil ist obere Verbindung die fast unverändert durch das Modul verläuft. Informationen können so mit nur leichten Modifikationen weiter geleitet werden. 6

7 Figure 5: Fokus auf dem forget gate des LSTM Moduls Die Funktion σ ist hier eine Sigmoid-Funktion, welche die Werte zwischen 0 und 1 bringt und so das Durchlassen von Informationen verhindern kann. 4.3 Bi-directional Encoder Je nach Sprachkombinationen können Informationen zu einer Übersetzung auch hinter dem Wort im Satz stehen. Um dem Netz zu ermöglichen auch solche Besonderheiten zu lernen, besteht das unterste Layer aus zwei Richtungen. Nachdem das Bi-directional Layer durchlaufen ist, werden die Outputs in einen Vektor vereint und in das nächste Layer weitergegeben. 7

8 4.4 Attention Modul Figure 6: Encoder / Decoder Struktur ohne Attention Modul Haben wir zwischen unserem Encoder und Decoder kein Attention Modul können Probleme auftreten. Der Decoder muss dann aus einem einzigen Vektor, also genau dem Output des Encoders, alle Wörter ablesen können. Hierbei kann es passieren, dass Wörter bei der Übersetzung verloren gehen, oder die Übersetzungen einfach nicht die gewünschte Qualität haben. Das Attention Modul erlaubt es dem Decoder nicht nur auf die letzte Zelle des Encoders zuzugreifen, sondern auch die Zwischenergebnisse, die das Netz zwischenzeitig produziert. Jedes LSTM Modul im Decoder hat unterschiedlich gewichteten Zugriff auf diese Zwischenergebnisse. Die Gewichte des Attention Moduls werden beim anlernen des Netzes mit trainiert. 8

9 Figure 7: Encoder / Decoder Struktur mit Attention Modul 5 Worttrennung Viele NMT-Modelle arbeiten mit festen Wörterbüchern, obwohl Übersetzungsprobleme häufig mit out-of-vocabulary (OOV) Wörtern zu tun haben (z.b. Namen, Daten, Zahlen usw.). Zwei mögliche Lösungsansätze für OOV Wörter sind: 1. Kopieren der OOV Wörter in die Übersetzung. 2. Nutzen von Sub-Wörtern (sub-word units), also Buchstaben, eine Mischung aus Buchstaben und Wörtern, oder intelligentere Sub-Wörter. Google nutzt ein eigens entwickeltes Word Piece Model (WPM), um das Problem der OOV zu lösen. Figure 8: Beispiel einer Zerlegung eines Satzes mit Googles WPM Sub-Wörter Wörterbuch wird mit einer gewünschten Anzahl an Einträgen angelernt. Übliche Größe des neuen Wörterbuchs sind 8 Tsd. bis 32 Tsd. Einträge. 9

10 Das WPM muss eigenständig aus einem gegebenen Quelltext angelernt werden. Das grobe Vorgehen kann folgendermaßen beschrieben werden: 1. Initialisiere das Wörterbuch mit allen grundlegenden Symbolen und Buchstaben (Westl. Sprachen ca. 500 Stk) 2. Bau eines Sprachmodells auf den Trainingsdaten mit dem Wörterbuch aus Schritt Generieren von neuen Worteinheiten. Dazu zwei vorhandene Worteinheiten miteinander kombinieren. Aus allen möglichen Kombinationen eine neue Worteinheit auswählen, die die Likelihood auf unseren Trainingsdaten verbessert. 4. Zurück zu Schritt 2 bis gewisse Anzahl an Symbolen im Wörterbuch erreicht sind oder die Likelihood sich nicht weiter verbessert. 6 Trainingskriterien 6.1 Minimum Likelihood Beispiel Maximum-Likelihood-Schätzer (MLE): Wir werfen eine Münze n mal. Die Münze zeigt x mal Kopf (Erfolg). Wie wählen wir p, damit die Wahrscheinlichkeit für unser Ereignis am Größten ist? Angenommen p sei der richtige Parameter. Dann ist die Wahrscheinlichkeit für unser Ereignis die Binomialverteilung, also B n,p (x) = ( ) n p x (1 p) n x. x Dies wollen wir in Abhängigkeit von p maximieren. Definiere also f(p) := p x (1 p) n x. Es folgt nach Ableiten f (x) = (x np)p x 1 (1 p) n x 1 f (x) = 0 x np = 0 p = x/n ˆp MLE (x) = x n Haben wir z.b. von n = 100 Würfen x = 70 mal Kopf geworfen erhalten wir ˆp MLE (70) = = 0.7. Wie können wir das Konzept auf das NN übertragen? Wir haben unsere Daten D = (X (i), Y (i) ) i=1,...,n gegeben. Für festes i ist die berechnete Wahrscheinlichkeit durch P θ (Y (i) X (i) ) gegeben. Dabei sind θ genau die Parameter des aktuellen Netzes. Natürlich wollen wir die Wahrscheinlichkeit aller Daten maximieren, wir erhalten somit max Õ(θ) = θ min θ N P θ (Y (i) X (i) ) i=1 O MLE (θ) = N log P θ (Y (i) X (i) ) In unseren einfachem Münzwurf-Beispiel haben wir nun differenziert. Da wir ebenfalls den Gradienten benötigen, (z.b. für das Gradientenverfahren) nutzen wir hier den sogenannten Backpropagation Algorithmus. i=1 10

11 Backpropagation ist ein Algorithmus, der die Kettenregel in einer sehr effizienten Weise berechnet. Betrachte z.b. eine Funktionenverkettung f(g(x)) = z mit y = g(x). Dann ist nach Kettenregel die partielle Ableitung gegeben durch f(y) x i = f y j j y j x i. Angenommen wir betrachten eine Funktion f : R R und möchten die Ableitung bzgl. x berechnen. Wir erhalten: Wir sehen: w x = w z y z y x = f (z)f (y)f (x) = f (f(f(x)))f (f(x))f (x) 1. Der Algorithmus kann Einsparungen machen, indem er Werte nur einmal berechnet und diese speichert. 2. Das Problem der verschwindenden Gradienten bei RNNs. 6.2 Refined Likelihood Bei der reinen MLE Minimierung ergibt sich jedoch ein Problem: Bei falschen Übersetzungen wird nicht unterschieden welche Übersetzung schlechter ist. Der BLEU Score macht jedoch ein solche Unterscheidung. Lösung: Nach Training mit dem MLE verbessern wir das Netz mit folgender Funktion: min θ O RL (θ) = N P θ (Y X (i) )r(y, Y (i) ) i=1 Y Y Die Reward-Funktion r(y, Y (i) ) ist eine Modifikation des BLEU Scores. BLEU-Score für ganze Textblöcke entwickelt. Bei isolierten Sätzen weniger Aussagekräftig. Nutzen des GLEU-Scores. GLEU-Score: Vergleich der übereinstimmenden N-Gramme für n = 1,...,4. r(y, Y (i) ) gibt einen Wert zwischen 0 (keine Übereinstimmung) und 1 (vollständige Übereinstimmung) aus. Um das Training zu stabilisieren, wird eine Mischung aus dem MLE-Funktion und RL- Funktion gewählt. O Mixed = α O MLE + O RL Typische Werte sind α =

12 7 Decoder Angenommen wir haben unser fertig gelerntes NN. Eine Übersetzung wird von unserem Netz als Liste von Vektoren ausgegeben. Jeder Vektor enthält die Wahrscheinlichkeit für eine Übersetzung an der Stelle im Satz. Um daraus die beste Kombination aus Satzteilen zu erstellen nutzt der Decoder ein modifiziertes Beam Search-Verfahren. Von jedem Vektor wird nicht das Wort mit der höchsten Wahrscheinlichkeit genommen und in den nächsten Vektor getragen, sondern die B wahrscheinlichsten (B = beam size). Beim nächsten Wort werden alle möglichen Wortkombination der B ersten Wörter mit dem Zweiten berechnet. Anschließend werden wieder alle Kombinationen, bis auf die B wahrscheinlichsten, verworfen. Des Weiteren wird die Wahrscheinlichkeit der Ausgabe über die Satzlänge normiert und Sätze favorisiert, die den gesamten Quelltext abdecken. Figure 9: Ein Greedy Decoder als Alternative zum Beam Search Verfahren 8 Experimente und Ergebnisse 8.1 Datensätze WMT EN-FR mit 36 Mio. Satzpaaren, WMT EN-DE mit 5 Mio. Satzpaaren. WMT = Workshop on Machine Translation. Stellt auch die Testdatensätze (newstest14). Interne Google Daten (Größenordnung je Sprachpaarung ca. 2-3 Dezimalstellen größer). In jedem LSTM Modul im Encoder/Decoder haben wir 1024 Nodes. 12

13 8.2 Trainingsprozedur Das Training: Bei MLE Training: 60 Tsd. Schritte Adam Verfahren, dann Stochastisches Gradientenabstiegsverfahren (SGD). Dauer: ca. 6 Tage bis Konvergenz (96 NVIDIA K80 GPUs) Anschließend Verbesserung mit RL Training mit SGD. Dauer ca. 3 Tage. Stochastisches Gradientenverfahren (SGD): Im Unterschied zum klassischen Gradientenverfahren wird nicht der gesamte Gradient der MLE Funktion berechnet, sondern nur in zufällige Richtung(-en). GD: θ = θ α O MLE (θ) = θ α N i=1 log P θ(y (i) X (i) ) SGD: θ = θ α O (i) MLE (θ) = θ α log P θ(y (i) X (i) ) Beim Anlernen des Netzes wurde z.b. in jedem Schritt der Gradient in 128 Richtungen berechnet. Adam Optimierungsverfahren: Die Schrittweite bei SGD ist für alle Parameter gleich. Bei Adam werden die Schrittweiten für unterschiedliche Parameter verschieden gewichtet. 8.3 Ergebnisse Ergebnisse nach MLE Training: Die Zahlen des BLEU Scores sind die Mittelwerte von 8 separat trainierten NN. Für das Wörter -Modell wurden die häufigsten 212 Tsd. Wörter aus dem Quelltext als Quellvokabular genutzt, die häufigsten 80 Tsd. Wörter aus der Übersetzung als Zielvokabular. OOV Wörter werden beim Encoder gekennzeichnet und beim Decoder kopiert. Buchstaben -Modell: Jedes Wort wird einfach in einzelne Symbole getrennt. Vokabular ist dann nur wenige hundert Symbole. Gemischtes Wort/Buchstaben -Modell: Ähnlich wie das Wörter -Modell. Nur OOV-Wörter werden als einzelne Buchstaben codiert. WPM: Die Zahl beschreibt die Größe des Wörterbuchs. 13

14 Übersetzung von Englisch/ Deutsch wird als schwieriger angesehen Unterschiedliche Datenbanken (36 Mio. vs. 5 Mio.) Ergebnisse nach RL Training: Auf dem Datensatz von Englisch/Französisch bringt das RL-Training noch eine Verbesserung von einem Punkt. Bei Englisch/Deutsch sehen wir hingegen eine minimale Verschlechterung. (Beim Training des Netzes wurde hingegen eine kleinere Verbesserung beobachtet) Experimente und Ergebnisse: Ergebnisse nach Vereinigung Figure 10: 8 angelernte Modelle werden kombiniert um den state-of-the-art Wert von zu erreichen (im Jahr 2016). Figure 11: Datensatz: 500 Satzpaare. Human Score ist auf einer Skala von 0 bis 6. 9 Ausblick Zero Shot Translation : Übersetzung zwischen Sprachen, welches das System in der Kombination noch nicht kennt. 14

15 Transformer-Modell statt RNN. Verbesserung der BLEU Scores bei weniger Trainingsaufwand (3,5 statt 9 Tage). References [1] [WU16] Yonghui Wu, Mike Schuster, Zhifen Chen, Quoc V. Le, Mohammad Norouzi Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation arxiv: [cs.cl], Oktober [2] [PAP02] Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computional Linguistics, Philadelphia, July 2002, pp [3] [BRO88] P. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. Mercer, P. Roossin A statistical approach to language translation. In Proceesings of the 12th Conference on Computational Linguistics - Volume 1, (Stroudsburg, PA, USA, 1988), COLING 88, Associations for Computational Linguistics, pp [4] [SCH12] M. Schuster Japanese and Korean Voice Search IEEE International Conference on Acoustics, Speech and Signal Processing (2012). [5] [ORT16] Marcel Ortgiese Mathematische Statistik. Vorlesungsmanuskript WiSe 2015/2016, WWU Münster, 4. Februar 2016 [6] [OLA15] Christopher Olah Understanding LSTM Networks August 2015 [7] [GOO16] Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning. MIT Press, 2016 [8] [OKP14] M. D. Okpor Machine Translation Approaches: Issues and Challenges. In International Journal of Computer Science Issues, Vol. 11, Issue 5, No 2, September 2014 [9] [GEN17] Guillaume Genthial Seq2Seq with Attention and Beam Search November

Rekurrente Neuronale Netze

Rekurrente Neuronale Netze Rekurrente Neuronale Netze Gregor Mitscha-Baude May 9, 2016 Motivation Standard neuronales Netz: Fixe Dimensionen von Input und Output! Motivation In viele Anwendungen variable Input/Output-Länge. Spracherkennung

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap

Mehr

Grundlagen zu neuronalen Netzen. Kristina Tesch

Grundlagen zu neuronalen Netzen. Kristina Tesch Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen

Mehr

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung Verbesserungen für Neuronale Übersetzungssysteme

Softwareprojektpraktikum Maschinelle Übersetzung Verbesserungen für Neuronale Übersetzungssysteme Softwareprojektpraktikum Maschinelle Übersetzung Verbesserungen für Neuronale Übersetzungssysteme Julian Schamper, Jan Rosendahl mtprak18@i6.informatik.rwth-aachen.de 04. Juli 2018 Human Language Technology

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 06 Julia Kreutzer 13. Dezember 2016 Institut für Computerlinguistik, Heidelberg 1 Abbildung 1: Droid-Life Artikel vom 15.11.16 2 Overview

Mehr

Neuronale Netze. Christian Böhm.

Neuronale Netze. Christian Böhm. Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch

Mehr

DEEP LEARNING MACHINE LEARNING WITH DEEP NEURAL NETWORKS 8. NOVEMBER 2016, SEBASTIAN LEMBCKE

DEEP LEARNING MACHINE LEARNING WITH DEEP NEURAL NETWORKS 8. NOVEMBER 2016, SEBASTIAN LEMBCKE DEEP LEARNING MACHINE LEARNING WITH DEEP NEURAL NETWORKS 8. NOVEMBER 2016, SEBASTIAN LEMBCKE INHALT Einführung Künstliche neuronale Netze Die Natur als Vorbild Mathematisches Modell Optimierung Deep Learning

Mehr

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt Corpus based Identification of Text Segments Thomas Ebert Betreuer: MSc. Martin Schmitt Übersicht 1. Motivation 2. Ziel der Arbeit 3. Vorgehen 4. Probleme 5. Evaluierung 6. Erkenntnisse und offene Fragen

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 00: Organisatorisches Julia Kreutzer & Julian Hitschler 25. Oktober 2016 Institut für Computerlinguistik, Heidelberg 1 Überblick 1. Vorstellung

Mehr

Seminar: Maschinelles Lernen und Deep Learning

Seminar: Maschinelles Lernen und Deep Learning Seminar: Maschinelles Lernen und Deep Learning Sommersemester 2018 Prof. Dr. Xiaoyi Jiang, Sören Klemm, Aaron Scherzinger Institut für Informatik, Arbeitsgruppe Pattern Recognition and Image Analysis (PRIA)

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 20.07.2017 1 von 11 Überblick Künstliche Neuronale Netze Motivation Formales Modell Aktivierungsfunktionen

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 05 Julia Kreutzer 29. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Recurrent Neural Networks 3. LSTM

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Rekurrente / rückgekoppelte neuronale Netzwerke

Rekurrente / rückgekoppelte neuronale Netzwerke Rekurrente / rückgekoppelte neuronale Netzwerke Forschungsseminar Deep Learning 2018 Universität Leipzig 12.01.2018 Vortragender: Andreas Haselhuhn Neuronale Netzwerke Neuron besteht aus: Eingängen Summenfunktion

Mehr

6.2 Feed-Forward Netze

6.2 Feed-Forward Netze 6.2 Feed-Forward Netze Wir haben gesehen, dass wir mit neuronalen Netzen bestehend aus einer oder mehreren Schichten von Perzeptren beispielsweise logische Funktionen darstellen können Nun betrachten wir

Mehr

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen Robust Named Entity Recognition (NER) in Idiosyncratic Domains Eine automatische Identifikation und Klassifikation von Eigennamen Gliederung 1 Einführung 2 Ein neues Neuronales Netzwerk 3 Datexis 4 Evaluation

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 01 Julia Kreutzer 25. Oktober 2016 Institut für Computerlinguistik, Heidelberg 1 Übersicht 1. Deep Learning 2. Neuronale Netze 3. Vom Perceptron

Mehr

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14. Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017 Übersicht Stand der Kunst: Bilderverstehen, Go spielen Was ist ein Bild in Rohform?

Mehr

Künstliche Neuronale Netze

Künstliche Neuronale Netze Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Künstliche Neuronale Netze Hauptseminar Martin Knöfel Dresden, 16.11.2017 Gliederung

Mehr

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke Der Sprung in die Zukunft! Einführung in neuronale Netzwerke Inhalt 1. Warum auf einmal doch? 2. Welche Einsatzgebiete gibt es? 3. Was sind neuronale Netze und wie funktionieren sie? 4. Wie lernen neuronale

Mehr

KALAHA. Erfahrungen bei der Implementation von neuronalen Netzen in APL. Dipl.Math. Ralf Herminghaus, April 2018

KALAHA. Erfahrungen bei der Implementation von neuronalen Netzen in APL. Dipl.Math. Ralf Herminghaus, April 2018 KALAHA Erfahrungen bei der Implementation von neuronalen Netzen in APL Dipl.Math. Ralf Herminghaus, April 2018 1. Die Schlagzeile 2. Die Idee APL ist eine Super-Sprache! Also: So schwierig kann das ja

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16

Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16 Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16 AGENDA Grundlegendes Sprache Anwendungsbeispiele Schwierigkeit Architektur Spracherkennungssystem Hidden Markov Modell Verbesserung durch Kombination mit

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Universität Leipzig. Fakultät für Mathematik und Informatik. Forschungsseminar Deep Learning. Prof. Dr. Erhard Rahm. Wintersemester 2017/18

Universität Leipzig. Fakultät für Mathematik und Informatik. Forschungsseminar Deep Learning. Prof. Dr. Erhard Rahm. Wintersemester 2017/18 Universität Leipzig Fakultät für Mathematik und Informatik Forschungsseminar Deep Learning Prof. Dr. Erhard Rahm Wintersemester 2017/18 Rekurrente / rückgekoppelte neuronale Netze Hausarbeit Vorgelegt

Mehr

Neuronale Netze. Automatische Hinderniserkennung Paul Fritsche

Neuronale Netze. Automatische Hinderniserkennung Paul Fritsche 1 Neuronale Netze Automatische Hinderniserkennung 2 Hintergrund Grundlagen Tensorflow Keras Fazit 3 TTBN 4 TTBN 5 TTBN 6 TTBN 7 Biological Neural Network By BruceBlaus - Own work, CC BY 3.0 8 Artificial

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Übungssitzung 1: Organisation und Orientierung Julian Hitschler ICL, Universität Heidelberg, WiSe 2016/17 27.10.2016 1 / 1 Inhalt Vorstellung Organisatorisches

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Technische Universität. Fakultät für Informatik

Technische Universität. Fakultät für Informatik Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik VI Neuronale Netze - Supervised Learning Probleme des Backpropagation-Algorithmus und Alternativen Seminar

Mehr

Neural Networks. mit. Tools für Computerlinguist/innen

Neural Networks. mit. Tools für Computerlinguist/innen Neural Networks mit Tools für Computerlinguist/innen WS 17 / 18 Anwendungsbeispiele Anwendungsbeispiele Anwendungsbeispiele Anwendungsbeispiele WaveNet ist ein Voice Synthesizer und ein Projekt von Google

Mehr

Einführung in NLP mit Deep Learning

Einführung in NLP mit Deep Learning Einführung in NLP mit Deep Learning Hans-Peter Zorn Minds mastering Machines, Köln, 26.4.2018 NLP ist auf einmal überall Zusammenfassung aggregated reviews Dokumentklassifikation Übersetzung Dialogsysteme

Mehr

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW) Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?

Mehr

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber Maschinelles Übersetzen natürlicher Sprachen 2 Praktikum SS 2012 Torsten Stüber Zielstellung Entwicklung eines einfachen Übersetzungssystems I saw her duck. Übersetzer Ich sah ihre Ente. SMT-System Statistical

Mehr

Statistical Learning

Statistical Learning Statistical Learning M. Gruber KW 42 Rev.1 1 Neuronale Netze Wir folgen [1], Lec 10. Beginnen wir mit einem Beispiel. Beispiel 1 Wir konstruieren einen Klassifikator auf der Menge, dessen Wirkung man in

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Natural language processing

Natural language processing Natural language processing Guangyu Ge Betreuer: Tobias 29.01.2018 GLIEDERUNG 1. Einführung 2. Anwendungsbereiche 3. Verfahren bei NLP 4. Zusammenfassung ZIELE VON KÜNSTLICHER INTELLIGENZ Quelle: https://cdn-images-1.medium.com/max/800/0*y707xutx3zmvjkxx.png

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Entwicklung einer KI für Skat. Hauptseminar Erwin Lang

Entwicklung einer KI für Skat. Hauptseminar Erwin Lang Entwicklung einer KI für Skat Hauptseminar Erwin Lang Inhalt Skat Forschung Eigene Arbeit Risikoanalyse Skat Entwickelte sich Anfang des 19. Jahrhunderts Kartenspiel mit Blatt aus 32 Karten 3 Spieler Trick-taking

Mehr

NLP-MACHINE TRANSLATION. Forschungsseminar Deep Learning LEARNING PHRASE REPRESENTATIONS USING RNN ENCODER DECODER FOR STATISTICAL MACHINE TRANSLATION

NLP-MACHINE TRANSLATION. Forschungsseminar Deep Learning LEARNING PHRASE REPRESENTATIONS USING RNN ENCODER DECODER FOR STATISTICAL MACHINE TRANSLATION Forschungsseminar Deep Learning WS 2017/2018 NLP-MACHINE TRANSLATION LEARNING PHRASE REPRESENTATIONS USING RNN ENCODER DECODER FOR STATISTICAL MACHINE TRANSLATION Yupeng Guo Betreuerin: Ying-Chi Lin INSTITUT

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017 Übersicht Stand der Kunst: Bilderverstehen, Go spielen Was ist ein Bild in Rohform?

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

10.5 Maximum-Likelihood Klassifikation (I)

10.5 Maximum-Likelihood Klassifikation (I) Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Künstliche Neuronale Netze

Künstliche Neuronale Netze Künstliche Neuronale Netze als Möglichkeit, einer Maschine das Lesen beizubringen Anja Bachmann 18.12.2008 Gliederung 1. Motivation 2. Grundlagen 2.1 Biologischer Hintergrund 2.2 Künstliche neuronale Netze

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction

Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Vorstellung AI-Studienprojekt für das SoSe 2019 Benedikt Tobias Bönninghoff 17.01.2019 Cognitive Signal Processing

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Einführung in die Wahrscheinlichkeitsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Wahrscheinlichkeitsrechnung

Mehr

Universität des Saarlandes

Universität des Saarlandes Universität des Saarlandes FR 6.2 Informatik Prof. Dr. Kurt Mehlhorn Dr. Antonios Antoniadis André Nusser WiSe 2017/18 Übungen zu Ideen der Informatik http://www.mpi-inf.mpg.de/departments/algorithms-complexity/teaching/winter17/ideen/

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017 10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Reinforcement learning

Reinforcement learning Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung Automatische Evaluation

Softwareprojektpraktikum Maschinelle Übersetzung Automatische Evaluation Softwareprojektpraktikum Maschinelle Übersetzung Automatische Evaluation Julian Schamper, Jan Rosendahl mtprak18@i6.informatik.rwth-aachen.de 11. April 2018 Human Language Technology and Pattern Recognition

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Leipziger Institut für Informatik. Wintersemester Seminararbeit. im Studiengang Informatik der Universität Leipzig

Leipziger Institut für Informatik. Wintersemester Seminararbeit. im Studiengang Informatik der Universität Leipzig Leipziger Institut für Informatik Wintersemester 2017 Seminararbeit im Studiengang Informatik der Universität Leipzig Forschungsseminar Deep Learning Begriffsbildung, Konzepte und Überblick Verfasser:

Mehr

Image: (CC-0) Künstliche Intelligenz & Bildung Nicht nur für ExpertInnen

Image:   (CC-0) Künstliche Intelligenz & Bildung Nicht nur für ExpertInnen Image: https://pixabay.com/de/netz-netzwerk-programmierung-3706562/ (CC-0) Künstliche Intelligenz & Bildung Nicht nur für ExpertInnen Künstliche Intelligenz Was ist das überhaupt? Was kann sie (nicht)?

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1 Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Neuronale Netze WS 2014/2015 Vera Demberg Neuronale Netze Was ist das? Einer der größten Fortschritte in der Sprachverarbeitung und Bildverarbeitung der letzten Jahre:

Mehr

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Outline Begriffe MÜS Maschinelles Übersetzungssystem MÜ Maschinelle Übersetzung MT Machine Translation SMT Statistical Machine

Mehr

Visuelle Bildsuche und Bildnavigation. Prof. Dr. Kai Uwe Barthel

Visuelle Bildsuche und Bildnavigation. Prof. Dr. Kai Uwe Barthel Visuelle Bildsuche und Bildnavigation Prof. Dr. Kai Uwe Barthel Übersicht Probleme der Bildsuche Textbasierte Bildsuche Visuelle (Low-Level-)Bildsuche Fusion der Suchprinzipien Automatisches Bildverstehen

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Deep Blue. Hendrik Baier

Deep Blue. Hendrik Baier Deep Blue Hendrik Baier Themen Matches Deep Blue Kasparov 1996/97 Faktoren von Deep Blues Erfolg Systemarchitektur Search Extensions Evaluationsfunktion Extended Book Vergleichstraining der Evaluationsfunktion

Mehr

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Maschinelle Sprachverarbeitung: N-Gramm-Modelle HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta Multivariate Lineare Regression Christian Herta Oktober, 2013 1 von 34 Christian Herta Multivariate Lineare Regression Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion

Mehr

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Ein Schwellenwertelement (Threshold Logic Unit, TLU) ist eine Verarbeitungseinheit für Zahlen mitneingängenx,...,x n und einem

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl {peter,guta,rosendahl}@i6.informatik.rwth-aachen.de Vorbesprechung 4. Aufgabe 2. Juni 2017 Human Language

Mehr

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 29. Oktober 2007 1. Statistik 1.1 Wahrscheinlichkeit Pragmatisch: p(e) = n(e) N für N sehr groß Kombination von Wahrscheinlichkeiten p(a oder B) =

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (32 Punkte) In einer medizinischen Studie werden zwei Tests zur Diagnose von Leberschäden verglichen. Dabei wurde folgendes festgestellt: Test 1 erkennt

Mehr

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Pfadgenerierung/Polygone/Polygonoffsetting

Pfadgenerierung/Polygone/Polygonoffsetting Pfadgenerierung/Polygone/Polygonoffsetting Jan Stenzel 17. Juni 2015 Proseminar: 3D-Druck-Verfahren 1 / 42 Gliederung I 1 Polygone Definition konkav, konvex und überschlagen 2 Clipping Was kann passieren?

Mehr

Musterlösung zur 6. Übung

Musterlösung zur 6. Übung Universität des Saarlandes FR 6.2 Informatik Prof. Dr. Hans-Peter Lenhof Dipl. Inform. Andreas Hildebrandt Programmierung II, SS 2003 Musterlösung zur 6. Übung Aufgabe 1: Faire Münzen (10 Punkte) Offensichtlich

Mehr

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Mustererkennung: Neuronale Netze D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Feed-Forward Netze y 1 y 2 y m...... x 1 x 2 x n Output Schicht i max... Zwischenschicht i... Zwischenschicht 1

Mehr

Künstliche Neuronale Netze

Künstliche Neuronale Netze Inhalt (Biologische) Neuronale Netze Schwellenwertelemente Allgemein Neuronale Netze Mehrschichtiges Perzeptron Weitere Arten Neuronaler Netze 2 Neuronale Netze Bestehend aus vielen Neuronen(menschliches

Mehr