Lernen in Bayes'schen Netzen. Übersicht. Beispiel: Restaurant-Daten. Lernen von Wahrscheinlichkeitstabellen. Vorteile versteckter Variablen

Größe: px
Ab Seite anzeigen:

Download "Lernen in Bayes'schen Netzen. Übersicht. Beispiel: Restaurant-Daten. Lernen von Wahrscheinlichkeitstabellen. Vorteile versteckter Variablen"

Transkript

1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische Lernmethoden 21. Verstärkungslernen VII Kommunizieren, Wahrnehmen und Handeln Lernen in Bayes'schen Netzen Lernen der Netzstruktur bzw. der Wahrscheinlichkeitstabellen: Bekannte Netzstruktur, beobachtbare Variablen: Update der Wahrscheinlichkeitstabellen Bekannte Netzstruktur, teilweise versteckte Variablen: EM-Algorithmus Unbekannte Netzstruktur, beobachtbare Variablen: Suchproblem durch mögliche Netzstrukturen Unbekannte Netzstruktur, teilweise versteckte Variablen: Offenes Forschungsproblem (z.b. strukturierter EM-Algo) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 1 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 2 Lernen von Wahrscheinlichkeitstabellen Beispiel: Restaurant-Daten Gegeben ist die Netztopologie und N Fälle: Apriori-Wahrscheinlichkeiten P(D): D / N bedingte Wahrscheinlichkeiten P(S D): S D / D Problem: Unbeobachtete Variablen (Null-Wahrscheinlichkeiten) Vereinfachung Bayesscher Netze zu naiven Bayes Modellen Unabhängigkeitsannahme in naiven Bayes Modellen Formel (Wdh): P (C x 1, x n ) = α P(C) Π i P(x i C) Verbesserung durch Boosting: Neue Hypothesen werden dadurch erzeugt, das falsch bewertete Fälle stärker gewichtet werden (äquivalent zur Vervielfachung dieser Fälle) Sehr effizientes Lernverfahren (keine Suche erforderlich) Eines der effektivsten allgemeinen Lernverfahren Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 3 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 4 Vorteile versteckter Variablen Wenn jede Variable 3 mögliche Werte hat, geben die Zahlen bei den Knoten die Größe der Wahrscheinlichkeitstabellen an. Man beobachtet eine starke Zunahme von (a) mit versteckter Variable nach (b) ohne versteckte Variable Expectation-Maximization (EM) Algorithmus Der EM-Algorithmus ist eine Familie von Algorithmen zur iterativen Approximation in Systemen mit versteckten Größen. Anwendbar u.a. für: für Gaussche Dichteverteilungen für Bayessche Netze für Hidden Markov Modelle EM berechnet Erwartungswerte für die versteckten Größen basierend auf den beobachteten Größen und der gemeinsamen Verteilung. EM konvergiert gegen ein lokales Maximum, die Qualität der Lösung ist nicht zwingend gut (abhängig vom Startwert). Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 5 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 6

2 Beispiel für Dichteverteilungen: Clustering Gegeben: Menge von Punkten Gesucht: k Cluster für Punkte Lösungsidee EM-Algorithmus: Initialisierung: Gib eine Gaussverteilung mit den Parametern Gewicht, Mittelwert und Covarianz (oder bei K-Means-Clustering vereinfacht einen Mittelpunkt) für jedes Cluster vor. E-Schritt (Expectation): Berechne die Wahrscheinlichkeit für jeden Punkt, dass er zu einem Cluster gehört M-Schritt (Maximation): Aktualisiere aus der berechneten Zugehörigkeit der Punkte für alle Cluster seine Parameter Terminierung: Wiederhole, bis nur noch geringe Änderungen Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 7 Beispiel für Bayessches Netz Aufgabe: Es gibt 2 Beutel (bags) mit Bonbons. Die Bonbons haben 3 Attribute: Geschmack: Kirsche, limone (flavor: cherry, lime); Verpackung: rot, grün (wrapper: red, green) & Löcher: mit, ohne (holes: yes, no). Die beiden Beutel haben jeweils verschiedene Wahrscheinlichkeiten für Bonbontypen. Aus beiden Beuteln sind unbekannt viele Bonbons entnommen (s. Tabelle mit 1000 Bonbons). Kann man daraus auf die Wahrscheinlichkeitsverteilung der Beutel schließen? Geschätzt werden soll: θ: P(Bag=1) θ F1 : P(F=cherry Bag1) θ F2 : P(F=cherry Bag2) θ W1 : P(W=red Bag1) Wenn wir wüssten, welche Bonbontypen aus welchen Beuteln kommen, bräuchten wir nur Häufigkeiten verrechnen (s.o.). Wir wissen es aber nicht! Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 8 EM Lösung für Bayes-Beispiel (1. Schritt) Ziel: Werte für die Apriori-Wahrscheinlichkeit der Beutel, d.h. θ = P(Bag1) und der bedingten Wahrscheinlichkeiten: θ F1 = P(Flavor = Cherry Bag1) θ W1 = P(Wrapper = Red Bag1) θ H1 = P(Hole = Yes Bag1) θ F2 = P(Flavor = Cherry Bag2) θ W2 = P(Wrapper = Red Bag2) θ H2 = P(Hole = Yes Bag2) Vorgehen (1. Iteration): Rate alle Parameter, z.b. θ = 0,5; θ F1 =θ W1 =θ H1 =0,8; θ F2 =θ W2 =θ H2 =0,3 Berechne für verborgene Variablen (z.b. Bag1) die erwartete Häufigkeit = = erwartete Häufigkeit von rotverpackten Kirsch-Bonbons mit Loch aus Beutel1 = 273 * = 228, analog für Rest: erwartete Häufigkeit von Bonbons aus Beutel1: = 612. Berechne daraus θ = P(Bag1) = / N = 612 / 1000 = 0,612 Das gleiche für übrige Häufigkeiten bzw. bedingte Wahrscheinlichkeiten Ergebnis: θ=0,61; θ F1 =0,67 θ W1 =0,65 θ H1 =0,66; θ F2 =0,39 θ W2 =0,38 θ H2 =0,38 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 9 EM Lösung für Bayes-Beispiel (Iteration) Die neuen Parameter θ, θ F1, θ W1, θ H1, θ F2, θ W2, θ H2 nach der ersten Iteration erhöhen die Passgenauigkeit von Modell und Daten (Logorithmus der Likelihood) beträchtlich (Faktor e 23 ) Iteriere solange, bis sich die "Loglikelihood" nicht mehr stark erhöht (lokales Maximum) durchgezogene Kurve zeigt Verbesserung nach Anzahl von Iterationen ab 10 Iterationen besser als Originaldaten, (gestrichelte Linie) danach kaum nach Anstieg Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 10 Beispiel für Hidden Markov-Modell HMM entsprechen Bayes-Netzen mit nur einer diskreten Zustandsvariablen Gegeben: endliche Beobachtungssequenzen (z.b. Schirme), Initialmodell Gesucht: Modell mit Zustandsübergangswahrscheinlichkeiten, Zustands- Beobachtungswahrscheinlichkeiten und Zustandsanfangswahrscheinlichk. Aktualisierungsfunktion für Zustandsübergangswahrscheinlichkeit (zeitunabhängig): wie oft wurde von einem bestimmten Zustand i Zustand j erreicht? Dabei werden Erwartungswerte mit HMM-Inferenz- Algorithmus berechnet. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 11 Allgemeine Form des EM Algorithmus Gegeben: Beobachtbare Variablen x, Anfangsmodell θ Expectation-Schritt: Berechnung der versteckten Variablen Z = z Maximization-Schritt: Berechnung der neuen Modellparameter θ Bei Gaussverteilungen: Mittelwert, Varianz, (Gewichte), usw. Bei Bayesschen Netzen: Wahrscheinlichkeitstabellen Bei HMM: Wahrscheinlichkeiten von einem Zustand zum nächsten und zu Beobachtungen (Zeitinvariant!), Anfangswahrscheinlichkeit für Zustand. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 12

3 Andere Darstellung für EM (Sem-Vortrag) Sequenz von Observablen X= x 1... x n Gesucht ist Modell Θ um X zu beschreiben Problem: versteckte Parameter Y = y 1...y m führen zu unvollständigen Daten - systematische Unvollständigkeit Y ist grundsätzlich nicht beobachtbar - zufällige Unvollständigkeit Y wird von dem verwendeten Sensor nicht erfasst Definition: Z = (X,Y) ist der vollständige Datensatz EM (andere Darstellung 2) Wahrscheinlichkeitsverteilung der vollständigen Daten: p(z Θ) = p(x,y Θ) = p(y X, Θ) * p(x Θ) Likelihood-Funktion der vollständigen Daten: L(Θ Z) = L(Θ X,Y) = P(X,Y Θ) EM-Prinzip: 1. Berechne Erwartungswert für die versteckten Variablen basierend auf Θ und X ( E-Schritt) 2. Maxmiere Erwartungswert bezüglich neuen Parametern Θ (M-Schritt) ( Wiederhole 1. und 2. ) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 13 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 14 EM (andere Darstellung 3) Spezifikation der Zielfunktion Q(Θ, Θ i-1 ) = E [ log p(x,y Θ) X, Θ i-1 ] Y ist Zufallsvariable mit Verteilung f( y X, Θ i-1 ), dann gilt E [ log P(X,Y Θ) X, Θ i-1 ] = log p( X,Y Θ) f( y X, Θ i-1 ) => Q(Θ, Θ i-1 ) ist nun eine analytisch berechenbare Funktion EM-Prinzip II: yy E-Schritt: Berechne Q(Θ, Θ i-1 ) M-Schritt: Berechne Θ = argmax Q(Θ, Θ i-1 ) Θ ( Iteration bis zur Konvergenz ) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 15 EM-Übersicht (andere Darstellung 4) Wahl des Anfangsparametersatzes hat hat Einfluß auf die Güte der Lösung. Auswertung von Q(Θ i+1, Θ i ) Auswertung von: Θ = argmax Q(Θ, Θ) Θ Abbruch der Iteration durch geeignetes Konvergenzkriterium Θ i+1 - Θ i < ε Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 16 Lernen unbekannter Bayesscher Netzstrukturen Untypische Situation, da die Struktur von Netzen, d.h. von Kausalitäten im allgemeinen gut Experten geschätzt werden kann. Strukturelle Lernalgorithmen noch nicht ausgereift Basisidee: Suche von Netzstrukturen Starte mit leerem Netz und füge schrittweise Variablen hinzu Starte mit fertigem Netz und modifiziere es Kernproblem: Qualitätsfunktion zur Bewertung von Netzen Test auf Unabhängigkeiten (Problem: Schwellwerte) Test auf Erklärungsfähigkeit der Daten (Problem: Overfitting) Bestrafung von Komplexität erforderlich Instanzen-basiertes Lernen Bisher: parametrisches Lernen: Aus den Beispielen werden die Parameter eines vorgegebenen Modells gelernt Komplexität der Hypothese vorgegeben Nicht-parametrisches Lernen: Komplexität der Hypothese kann mit Daten wachsen; Instanzen-basierte Lernmethoden: Nearest-Neighbor Modelle Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 17 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 18

4 Nearest-Neighbor Modelle (Fallbasiertes Schließen) Aufbau natürlicher & künstlicher Neurone Annahme: Ähnliche Fälle haben ähnliche Lösungen Problem: Wie definiert man Ähnlichkeit bzw. Distanz? kontinuierliche Werte: Euklidische Distanz: (Wurzel aus Summe der Quadrate der Einzeldifferenzen pro Attribut) Wenn Normalisierung erforderlich: Abstand zweier Werte in Vielfachen der Standardabweichung Differenz der Werte / Max-Differenz diskrete Werte Hamming-Distanz: Anzahl unterschiedlicher Attribute / alle Attribute gewichtete Hamming-Distanz mit partiellen Ähnlichkeiten Datenabstraktion nützlich Eigenschaften: keine Lernzeit aber bei großer Fallzahl langsam schnelles Fallretrieval notwendig (erfordert passende Datenstrukturen, die gelernt werden müssen) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 19 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 20 Verschiedene Aktivierungsfunktionen Simulation logischer Gatter (a) Stufenfunktion (nicht differentierbar) (b) Sigmoidfunktion (differentierbar) exakte bzw. ungefähre Schwelle (Defaultmäßig bei in i = 0) kann durch "Bias-Weight" W 0 verschoben werden Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 21 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 22 Beispiel für einfaches neuronales Netz vorwärtsgerichtetes, mehrschichtiges Netz Input: (x 1, x 2 ) = (a 1, a 2 ) Output a 5 ist Funktion des Inputs (g = Aktivierungsfunktion): Generische Lernprozedur in Neuronalen Netzen a 5 = g(w 3,5 * a 3 + W 4,5 * a 4 ) = g(w 3,5 * g(w 1,3 * a 1 + W 2,3 * a 2 ) + W 4,5 * g(w 1,4 * a 1 + W 2,4 * a 2 )) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 23 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 24

5 Typen von Neuronalen Netzstrukturen Perceptrons: Struktur vorwärtsgerichtete (feedforward) Netze - Perzeptrons: ohne versteckte Knoten - Mehrebenen-Netze: mit versteckten Knoten zirkuläre (recurrent) Netze (output input): schwierig zu verstehen, z.b.: - Hopfield-Netze: mit bidirektionalen Kanten und symmetrischen Gewichten, alle Knoten sind sowohl Ein- als auch Ausgabeknoten - Boltzmann Maschinen: mit bidirektionalen Kanten und symmetrischen Gewichten, mit inneren Knoten, stochastische Aktivierungsfunktion Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 25 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 26 Basis-Perzeptron-Lernalgorithmus (nach Rojas) Beispiele (Punkte): x 1 -x n, die positiv (P) oder negativ (N) bewertet sind. Zusammengefasst als Vektor x. Gewichte w 0 w n werden zum Anfang zufällig generiert und dann in jeder Iteration t für jedes Beispiel modifiziert. Zusammengefasst als Vektor w mit Index t: w t Perceptron-Lernformel (einfache Form) Aktivierung eines Output-Neurons O (g = Stufenfunktion) : O = g ( i w i x i ) Der Fehler eines Output-Neurons pro Beispiel ist der korrekte Output T minus dem tatsächlichen Output O: Fehler = T O = T - g ( i w i x i ) Er muss auf alle Inputs entsprechend ihrem Beitrag zu O verteilt werden. Der Beitrag des Inputsneurons j ist w j x j. Falls x j positiv, führt eine Erhöhung von w j zu einer Erhöhung des Gesamtoutputs, sonst zu einer Erniedrigung. Daraus folgt Aktualisierungsregel für jedes w j : w j w j + α * x j * Fehler Konstante α heißt Lernrate. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 27 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 28 Verbesserung der Perceptron-Lernformel Die einfache Aktualisierung der Gewichte konvergiert immer mit den korrekten Werten, wenn die zu lernende Funktion linear separierbar ist (s. nächste Folie). Allerdings kann es exponentiell lange dauern! Effizienzverbesserungen: Normierung aller Eingabedaten Delta-Regel: Die Gewichte werden nicht um das Produkt (Eingabewert * Fehler) sondern um den minimalen Betrag geändert, der erforderlich ist, um das Beispiel richtig zu klassifizieren Lineare Trennbarkeit in Perceptrons Während die "und" und die oder-funktion linear trennbar sind (a und b), ist die XOR-Funktion (c) nicht linear trennbar und kann daher von einem Perceptron nicht gelernt werden! Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 29 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 30

6 Lernkurven bei Percpetrons Mehrebenen - Netz (a): Mehrheitsfunktion mit 11 Inputs (b) Restaurant-Beispiel Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 31 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 32 Backpropagation-Lernen Unterschiede zu Perceptrons: - Es gibt mehrere Outputs, daher ist der Output ein Vektor h w (x), der mit dem Beispiel-Output-Vektor y verglichen wird: Fehler = y h w - Auch für hidden layers muss ein Fehler berechnet werden, deswegen muss Aktivierungsfunktion differenzierbar sein (Sigmoid- statt Stufen- Funktion) Gewichtsänderung der Output-Neuronen - W j,i W j,i + α * a j * i mit i = Fehler i * g'(in i ) Gewichtsänderung der versteckten Neuronen - Wir brauchen Äquivalent für Fehler der Output-Neuronen - Idee: der versteckte Knoten j ist für einen Teil des Fehlers bei i verantwortlich. Die i Werte werden entsprechen der Stärke ihrer Verbindungen zwischen versteckten Knoten und Output-Knoten aufgeteilt und rückwärts propagiert, um die j -Werte der versteckten Ebene zu liefern - j = g'(in j ) ( i W j,i i ) - Gewichtsänderungsregel: W k,j W k,j + α * a k * j Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 33 Restaurant-Beispiel: Lernkurve (a) langsame Reduktion der Fehler über verschiedene Epochen beim Backpropagation Lernen (b) Vergleich der Lernkurven beim Backpropagation und Entscheidungsbaumlernen Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 34 Optimale Netzwerkstrukturen Diskussion des Backpropagation-Lernen Bei Netzwerkstrukturen mit zu vielen Knoten kommt es zur Überanpassung bis zum Auswendiglernen, bei zu wenig Knoten kann das Netz unfähig sein, die gewünschte Funktion zu repräsentieren. Bisher gibt es keine guten Heuristiken, um die optimale Netzwerkgröße für ein gegebenen Problem abzuschätzen. Eine Idee besteht darin, daß man mit einem kleinen Netz startet und nach Bedarf Knoten hinzufügt. Ausdrucksstärke: Abhängig von Netztopologie Berechnungseffizienz: Langsame Lernrate, Lokale Minima Generalisierungsfähigkeit: Gut, wenn Output sich kontinuierlich mit dem Input verändert Sensitivität für Rauschen: Sehr tolerant Transparenz: Black Box Integrierbarkeit von Vorwissen: Schwierig Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 35 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 36

7 Kernel Machines (Support Vector Machines) Kernel machines kombinieren Vorteile von Perceptrons (einfacher und effizienter Lernalgorithmus) und Mehrebenennetze (Ausdrucksstärke) Zentrale Idee: Benutze lineare Separatoren, aber in einem veränderten (höherdimensionierten) Zustandsraum Neues Problem: Gefahr der Überanpassung, da in einem d- dimensionalen Raum d Parameter für linearen Separator erforderlich sind, wenn N (Anzahl der Datenpunkte) d. Lösung: Suche nach optimalen linearen Separatoren (mit größtem Abstand zwischen positiven auf der einen und negativen Beispielen auf der anderen Seite): Finde Parameter α i, die folgenden Ausdruck maximieren (Beispiele x i mit Klassifikation y i = ±1): i α i ½ i,j α i α j y i y j (x i * x j ) mit α i > 0 und i α i y i = 0 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 37 Beispiel für lineare Trennbarkeit nach Transformation (a) 2-dimensionale Daten (positive Beispiele im Kreis) (b) gleichen Daten nach Abbildung in 3-dimensionalen Raum (x 12,x 22, 2x 1 x 2 ) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 38 Beispiel für optimalen Separator Der optimale Separator aus der letzten Folie (nur 2 der 3 Dimensionen gezeigt) ist die dicke Linie, die den abstand zu den nächsten Punkten, den Stützvektoren (support vectors, markiert mit Kreisen) maximiert. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 39 Transformation in höherdimensionierten Raum i α i ½ i,j α i α j y i y j (x i * x j ) mit α i > 0 und i α i y i = 0 Eigenschaften: Der Ausdruck hat ein einziges globales Maximum, das effizient gefunden werden kann! Die Daten gehen nur als Punkt-Produkte benachbarter Punkte in die Gleichung ein! Die α i sind nur für die Stützvektoren 0, daher ist die effektive Anzahl von Parametern relativ klein (<< N)! Transformation Suche Separator in hochdimensionalen Merkmalsraum F(x) Ersetze dazu x i * x j durch F(x i )* F(x j ), wobei das Punktprodukt oft ausgerechnet werden kann, ohne F für jeden Punkt zu berechnen, z.b. F(x i )* F(x j ) = (x i * x j ) 2 (x i * x j ) 2 hießt Kernfunktion (kernel function): K (x i,x j ) allgemein: (x i * x j ) wird durch eine Kernfunktion K (x i,x j ) ersetzt viele Kernfunktionen (auch sehr hochdimensionale) möglich Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 40 Umgang mit verrauschen Daten Kernel machines eignen sich auch für Daten, die sich nicht fehlerfrei trennen lassen. Dazu muss ein Parameter vorgegeben werden, der die erwartete Fehlerspanne charakterisiert. Der Basisalgorithmus ändert sich nicht. Diskussion Kernel / Support Vector Machines Sehr mächtiges Lernverfahren Ähnlich wie, aber mit Vorteilen gegenüber Neuronalen Netzen Erfreut sich in letzter Zeit zunehmender Beliebtheit Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 41 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 42

8 Beispiel: Erkennen handgeschriebener Ziffern Standard-Benchmark-Problem mit Datenbank von markierten Ziffern in 20*20=400 Pixeln mit 8 Graustufen (oben leicht, unten schwer identifizierbare Beispiele) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 43 Getestete Lernverfahren Nearest Neighbor (ohne Anpassungen und Parametereinstellungen) Neuronales Netz mit einer versteckten Ebene: 400 Input Knoten (pro Pixel) 10 Output Knoten (pro Ziffer) 300 versteckte Knoten (mit Kreuzvalidierung optimiert) Gewichte Spezialisierte Neuronale Netze (LeNet): optimiert bezüglich der Struktur des Problems Neuronales Netz (LeNet) mit Boosting von 3 Hypothesen Support Vector Machine ohne Anpassungen und Parametereinstellungen Virtuelle Support Vector Machine Startet mit Ergebnis der Support Vector Machine Nachträgliche Optimierung mit Ausnutzen der Struktur des Problems Gestaltvergleich (shape match): Technik vom Computersehen mit Abgleich korrepondierender Punkte zwischen 2 Bildern Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 44 Testergebnisse Die Fehlerraten bewegen sich zwischen 2,4% (Nearest Neighbor) und 0,56% (Virtual Support Vector Machine). Neuronale Netze liegen dazwischen. Menschen haben angeblich eine Fehlerquote von 0,2% für dieses Problem (nach anderen Quellen aber 2,5%). Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 45

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14. Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Künstliche neuronale Netze

Künstliche neuronale Netze Künstliche neuronale Netze Eigenschaften neuronaler Netze: hohe Arbeitsgeschwindigkeit durch Parallelität, Funktionsfähigkeit auch nach Ausfall von Teilen des Netzes, Lernfähigkeit, Möglichkeit zur Generalisierung

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Neuronale Netze (Konnektionismus)

Neuronale Netze (Konnektionismus) Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134 Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer

Mehr

Klassifikation linear separierbarer Probleme

Klassifikation linear separierbarer Probleme Klassifikation linear separierbarer Probleme Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation linear

Mehr

Support Vector Machines, Kernels

Support Vector Machines, Kernels Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen

Mehr

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze. Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus

Mehr

Einführung in neuronale Netze

Einführung in neuronale Netze Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Hidden Markov Modelle

Hidden Markov Modelle Hidden Markov Modelle in der Sprachverarbeitung Paul Gabriel paul@pogo.franken.de Seminar Sprachdialogsysteme: Hidden Markov Modelle p.1/3 Überblick Merkmalsvektoren Stochastischer Prozess Markov-Ketten

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Neuronale Netze. Christian Böhm.

Neuronale Netze. Christian Böhm. Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch

Mehr

Semester-Fahrplan 1 / 17

Semester-Fahrplan 1 / 17 Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD

Mehr

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1 Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze 2.04.2006 Reinhard Eck Was reizt Informatiker an neuronalen Netzen? Wie funktionieren Gehirne höherer Lebewesen?

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Radiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120

Radiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120 Radiale-Basisfunktionen-Netze Rudolf Kruse Neuronale Netze 2 Radiale-Basisfunktionen-Netze Eigenschaften von Radiale-Basisfunktionen-Netzen (RBF-Netzen) RBF-Netze sind streng geschichtete, vorwärtsbetriebene

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

Wissensbasierte Systeme

Wissensbasierte Systeme Analytisch lösbare Optimierungsaufgaben Das Chaos-Spiel gründet auf der folgenden Vorschrift: Man startet von einem beliebigen Punkt aus geht auf einer Verbindung mit einem von drei zufällig gewählten

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für

Mehr

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen

Mehr

Modellierung mit künstlicher Intelligenz

Modellierung mit künstlicher Intelligenz Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.

Mehr

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading Kapitel V V. Ensemble Methods Einführung Bagging Boosting Cascading V-1 Ensemble Methods c Lettmann 2005 Einführung Bewertung der Generalisierungsfähigkeit von Klassifikatoren R (c) wahre Missklassifikationsrate

Mehr

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform. (hoffentlich kurze) Einführung: martin.loesch@kit.edu (0721) 608 45944 Überblick Einführung Perzeptron Multi-layer Feedforward Neural Network MLNN in der Anwendung 2 EINFÜHRUNG 3 Gehirn des Menschen Vorbild

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Neuronale Netze Motivation Perzeptron Übersicht Multilayer Neural Networks Grundlagen

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Berechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen

Berechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen Definition Berechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen Seminar über Algorithmen WS 2005/2006 Vorgetragen von Oliver Rieger und Patrick-Thomas Chmielewski basierend auf der Arbeit

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Aufgaben zum Üben. Schätzer Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch

Mehr

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Korbinian Schwinger 3. November 003 Inhaltsverzeichnis Inhaltsverzeichnis Exponential Family 3. Definition...............................

Mehr

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Neuronale Netze mit mehreren Schichten

Neuronale Netze mit mehreren Schichten Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Logistische Regression

Logistische Regression Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Ein selbstmodellierendes System für die Wasserwirtschaft

Ein selbstmodellierendes System für die Wasserwirtschaft Ein selbstmodellierendes System für die Wasserwirtschaft Dipl.-Ing. Dr. ANDRADE-LEAL Wien, im Juli 2001 1 Einleitung, Motivation und Voraussetzungen Künstliche Intelligenz Neuronale Netze Experte Systeme

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

Neuronale Netze. Seminar aus Algorithmik Stefan Craß,

Neuronale Netze. Seminar aus Algorithmik Stefan Craß, Neuronale Netze Seminar aus Algorithmik Stefan Craß, 325656 Inhalt Theoretisches Modell Grundlagen Lernansätze Hopfield-Netze Kohonen-Netze Zusammenfassung 2 Inhalt Theoretisches Modell Grundlagen Lernansätze

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98 Inhaltsverzeichnis 1 Datenbehandlung und Programmierung 11 1.1 Information 11 1.2 Codierung 13 1.3 Informationsübertragung 17 1.4 Analogsignale - Abtasttheorem 18 1.5 Repräsentation numerischer Daten 20

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany), Lernen mit Queries Hans Kleine Büning Institut für Informatik, Universität Paderborn 33095 Paderborn (Germany), E-mail: kbcsl @upb.de November 2007 1 Einführung In diesem Abschnitt beschreiben wir kurz,

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Thema 3: Radiale Basisfunktionen und RBF- Netze

Thema 3: Radiale Basisfunktionen und RBF- Netze Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung

Mehr

3. Analyse der Kamerabewegung Video - Inhaltsanalyse

3. Analyse der Kamerabewegung Video - Inhaltsanalyse 3. Analyse der Kamerabewegung Video - Inhaltsanalyse Stephan Kopf Bewegungen in Videos Objektbewegungen (object motion) Kameraoperationen bzw. Kamerabewegungen (camera motion) Semantische Informationen

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

7. Stochastische Prozesse und Zeitreihenmodelle

7. Stochastische Prozesse und Zeitreihenmodelle 7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse

Mehr

Grundlagen der Objektmodellierung

Grundlagen der Objektmodellierung Grundlagen der Objektmodellierung Daniel Göhring 30.10.2006 Gliederung Grundlagen der Wahrscheinlichkeitsrechnung Begriffe zur Umweltmodellierung Bayesfilter Zusammenfassung Grundlagen der Wahrscheinlichkeitsrechnung

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr