Lernen in Bayes'schen Netzen. Übersicht. Beispiel: Restaurant-Daten. Lernen von Wahrscheinlichkeitstabellen. Vorteile versteckter Variablen
|
|
- Käte Fuhrmann
- vor 7 Jahren
- Abrufe
Transkript
1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische Lernmethoden 21. Verstärkungslernen VII Kommunizieren, Wahrnehmen und Handeln Lernen in Bayes'schen Netzen Lernen der Netzstruktur bzw. der Wahrscheinlichkeitstabellen: Bekannte Netzstruktur, beobachtbare Variablen: Update der Wahrscheinlichkeitstabellen Bekannte Netzstruktur, teilweise versteckte Variablen: EM-Algorithmus Unbekannte Netzstruktur, beobachtbare Variablen: Suchproblem durch mögliche Netzstrukturen Unbekannte Netzstruktur, teilweise versteckte Variablen: Offenes Forschungsproblem (z.b. strukturierter EM-Algo) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 1 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 2 Lernen von Wahrscheinlichkeitstabellen Beispiel: Restaurant-Daten Gegeben ist die Netztopologie und N Fälle: Apriori-Wahrscheinlichkeiten P(D): D / N bedingte Wahrscheinlichkeiten P(S D): S D / D Problem: Unbeobachtete Variablen (Null-Wahrscheinlichkeiten) Vereinfachung Bayesscher Netze zu naiven Bayes Modellen Unabhängigkeitsannahme in naiven Bayes Modellen Formel (Wdh): P (C x 1, x n ) = α P(C) Π i P(x i C) Verbesserung durch Boosting: Neue Hypothesen werden dadurch erzeugt, das falsch bewertete Fälle stärker gewichtet werden (äquivalent zur Vervielfachung dieser Fälle) Sehr effizientes Lernverfahren (keine Suche erforderlich) Eines der effektivsten allgemeinen Lernverfahren Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 3 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 4 Vorteile versteckter Variablen Wenn jede Variable 3 mögliche Werte hat, geben die Zahlen bei den Knoten die Größe der Wahrscheinlichkeitstabellen an. Man beobachtet eine starke Zunahme von (a) mit versteckter Variable nach (b) ohne versteckte Variable Expectation-Maximization (EM) Algorithmus Der EM-Algorithmus ist eine Familie von Algorithmen zur iterativen Approximation in Systemen mit versteckten Größen. Anwendbar u.a. für: für Gaussche Dichteverteilungen für Bayessche Netze für Hidden Markov Modelle EM berechnet Erwartungswerte für die versteckten Größen basierend auf den beobachteten Größen und der gemeinsamen Verteilung. EM konvergiert gegen ein lokales Maximum, die Qualität der Lösung ist nicht zwingend gut (abhängig vom Startwert). Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 5 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 6
2 Beispiel für Dichteverteilungen: Clustering Gegeben: Menge von Punkten Gesucht: k Cluster für Punkte Lösungsidee EM-Algorithmus: Initialisierung: Gib eine Gaussverteilung mit den Parametern Gewicht, Mittelwert und Covarianz (oder bei K-Means-Clustering vereinfacht einen Mittelpunkt) für jedes Cluster vor. E-Schritt (Expectation): Berechne die Wahrscheinlichkeit für jeden Punkt, dass er zu einem Cluster gehört M-Schritt (Maximation): Aktualisiere aus der berechneten Zugehörigkeit der Punkte für alle Cluster seine Parameter Terminierung: Wiederhole, bis nur noch geringe Änderungen Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 7 Beispiel für Bayessches Netz Aufgabe: Es gibt 2 Beutel (bags) mit Bonbons. Die Bonbons haben 3 Attribute: Geschmack: Kirsche, limone (flavor: cherry, lime); Verpackung: rot, grün (wrapper: red, green) & Löcher: mit, ohne (holes: yes, no). Die beiden Beutel haben jeweils verschiedene Wahrscheinlichkeiten für Bonbontypen. Aus beiden Beuteln sind unbekannt viele Bonbons entnommen (s. Tabelle mit 1000 Bonbons). Kann man daraus auf die Wahrscheinlichkeitsverteilung der Beutel schließen? Geschätzt werden soll: θ: P(Bag=1) θ F1 : P(F=cherry Bag1) θ F2 : P(F=cherry Bag2) θ W1 : P(W=red Bag1) Wenn wir wüssten, welche Bonbontypen aus welchen Beuteln kommen, bräuchten wir nur Häufigkeiten verrechnen (s.o.). Wir wissen es aber nicht! Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 8 EM Lösung für Bayes-Beispiel (1. Schritt) Ziel: Werte für die Apriori-Wahrscheinlichkeit der Beutel, d.h. θ = P(Bag1) und der bedingten Wahrscheinlichkeiten: θ F1 = P(Flavor = Cherry Bag1) θ W1 = P(Wrapper = Red Bag1) θ H1 = P(Hole = Yes Bag1) θ F2 = P(Flavor = Cherry Bag2) θ W2 = P(Wrapper = Red Bag2) θ H2 = P(Hole = Yes Bag2) Vorgehen (1. Iteration): Rate alle Parameter, z.b. θ = 0,5; θ F1 =θ W1 =θ H1 =0,8; θ F2 =θ W2 =θ H2 =0,3 Berechne für verborgene Variablen (z.b. Bag1) die erwartete Häufigkeit = = erwartete Häufigkeit von rotverpackten Kirsch-Bonbons mit Loch aus Beutel1 = 273 * = 228, analog für Rest: erwartete Häufigkeit von Bonbons aus Beutel1: = 612. Berechne daraus θ = P(Bag1) = / N = 612 / 1000 = 0,612 Das gleiche für übrige Häufigkeiten bzw. bedingte Wahrscheinlichkeiten Ergebnis: θ=0,61; θ F1 =0,67 θ W1 =0,65 θ H1 =0,66; θ F2 =0,39 θ W2 =0,38 θ H2 =0,38 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 9 EM Lösung für Bayes-Beispiel (Iteration) Die neuen Parameter θ, θ F1, θ W1, θ H1, θ F2, θ W2, θ H2 nach der ersten Iteration erhöhen die Passgenauigkeit von Modell und Daten (Logorithmus der Likelihood) beträchtlich (Faktor e 23 ) Iteriere solange, bis sich die "Loglikelihood" nicht mehr stark erhöht (lokales Maximum) durchgezogene Kurve zeigt Verbesserung nach Anzahl von Iterationen ab 10 Iterationen besser als Originaldaten, (gestrichelte Linie) danach kaum nach Anstieg Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 10 Beispiel für Hidden Markov-Modell HMM entsprechen Bayes-Netzen mit nur einer diskreten Zustandsvariablen Gegeben: endliche Beobachtungssequenzen (z.b. Schirme), Initialmodell Gesucht: Modell mit Zustandsübergangswahrscheinlichkeiten, Zustands- Beobachtungswahrscheinlichkeiten und Zustandsanfangswahrscheinlichk. Aktualisierungsfunktion für Zustandsübergangswahrscheinlichkeit (zeitunabhängig): wie oft wurde von einem bestimmten Zustand i Zustand j erreicht? Dabei werden Erwartungswerte mit HMM-Inferenz- Algorithmus berechnet. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 11 Allgemeine Form des EM Algorithmus Gegeben: Beobachtbare Variablen x, Anfangsmodell θ Expectation-Schritt: Berechnung der versteckten Variablen Z = z Maximization-Schritt: Berechnung der neuen Modellparameter θ Bei Gaussverteilungen: Mittelwert, Varianz, (Gewichte), usw. Bei Bayesschen Netzen: Wahrscheinlichkeitstabellen Bei HMM: Wahrscheinlichkeiten von einem Zustand zum nächsten und zu Beobachtungen (Zeitinvariant!), Anfangswahrscheinlichkeit für Zustand. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 12
3 Andere Darstellung für EM (Sem-Vortrag) Sequenz von Observablen X= x 1... x n Gesucht ist Modell Θ um X zu beschreiben Problem: versteckte Parameter Y = y 1...y m führen zu unvollständigen Daten - systematische Unvollständigkeit Y ist grundsätzlich nicht beobachtbar - zufällige Unvollständigkeit Y wird von dem verwendeten Sensor nicht erfasst Definition: Z = (X,Y) ist der vollständige Datensatz EM (andere Darstellung 2) Wahrscheinlichkeitsverteilung der vollständigen Daten: p(z Θ) = p(x,y Θ) = p(y X, Θ) * p(x Θ) Likelihood-Funktion der vollständigen Daten: L(Θ Z) = L(Θ X,Y) = P(X,Y Θ) EM-Prinzip: 1. Berechne Erwartungswert für die versteckten Variablen basierend auf Θ und X ( E-Schritt) 2. Maxmiere Erwartungswert bezüglich neuen Parametern Θ (M-Schritt) ( Wiederhole 1. und 2. ) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 13 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 14 EM (andere Darstellung 3) Spezifikation der Zielfunktion Q(Θ, Θ i-1 ) = E [ log p(x,y Θ) X, Θ i-1 ] Y ist Zufallsvariable mit Verteilung f( y X, Θ i-1 ), dann gilt E [ log P(X,Y Θ) X, Θ i-1 ] = log p( X,Y Θ) f( y X, Θ i-1 ) => Q(Θ, Θ i-1 ) ist nun eine analytisch berechenbare Funktion EM-Prinzip II: yy E-Schritt: Berechne Q(Θ, Θ i-1 ) M-Schritt: Berechne Θ = argmax Q(Θ, Θ i-1 ) Θ ( Iteration bis zur Konvergenz ) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 15 EM-Übersicht (andere Darstellung 4) Wahl des Anfangsparametersatzes hat hat Einfluß auf die Güte der Lösung. Auswertung von Q(Θ i+1, Θ i ) Auswertung von: Θ = argmax Q(Θ, Θ) Θ Abbruch der Iteration durch geeignetes Konvergenzkriterium Θ i+1 - Θ i < ε Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 16 Lernen unbekannter Bayesscher Netzstrukturen Untypische Situation, da die Struktur von Netzen, d.h. von Kausalitäten im allgemeinen gut Experten geschätzt werden kann. Strukturelle Lernalgorithmen noch nicht ausgereift Basisidee: Suche von Netzstrukturen Starte mit leerem Netz und füge schrittweise Variablen hinzu Starte mit fertigem Netz und modifiziere es Kernproblem: Qualitätsfunktion zur Bewertung von Netzen Test auf Unabhängigkeiten (Problem: Schwellwerte) Test auf Erklärungsfähigkeit der Daten (Problem: Overfitting) Bestrafung von Komplexität erforderlich Instanzen-basiertes Lernen Bisher: parametrisches Lernen: Aus den Beispielen werden die Parameter eines vorgegebenen Modells gelernt Komplexität der Hypothese vorgegeben Nicht-parametrisches Lernen: Komplexität der Hypothese kann mit Daten wachsen; Instanzen-basierte Lernmethoden: Nearest-Neighbor Modelle Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 17 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 18
4 Nearest-Neighbor Modelle (Fallbasiertes Schließen) Aufbau natürlicher & künstlicher Neurone Annahme: Ähnliche Fälle haben ähnliche Lösungen Problem: Wie definiert man Ähnlichkeit bzw. Distanz? kontinuierliche Werte: Euklidische Distanz: (Wurzel aus Summe der Quadrate der Einzeldifferenzen pro Attribut) Wenn Normalisierung erforderlich: Abstand zweier Werte in Vielfachen der Standardabweichung Differenz der Werte / Max-Differenz diskrete Werte Hamming-Distanz: Anzahl unterschiedlicher Attribute / alle Attribute gewichtete Hamming-Distanz mit partiellen Ähnlichkeiten Datenabstraktion nützlich Eigenschaften: keine Lernzeit aber bei großer Fallzahl langsam schnelles Fallretrieval notwendig (erfordert passende Datenstrukturen, die gelernt werden müssen) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 19 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 20 Verschiedene Aktivierungsfunktionen Simulation logischer Gatter (a) Stufenfunktion (nicht differentierbar) (b) Sigmoidfunktion (differentierbar) exakte bzw. ungefähre Schwelle (Defaultmäßig bei in i = 0) kann durch "Bias-Weight" W 0 verschoben werden Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 21 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 22 Beispiel für einfaches neuronales Netz vorwärtsgerichtetes, mehrschichtiges Netz Input: (x 1, x 2 ) = (a 1, a 2 ) Output a 5 ist Funktion des Inputs (g = Aktivierungsfunktion): Generische Lernprozedur in Neuronalen Netzen a 5 = g(w 3,5 * a 3 + W 4,5 * a 4 ) = g(w 3,5 * g(w 1,3 * a 1 + W 2,3 * a 2 ) + W 4,5 * g(w 1,4 * a 1 + W 2,4 * a 2 )) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 23 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 24
5 Typen von Neuronalen Netzstrukturen Perceptrons: Struktur vorwärtsgerichtete (feedforward) Netze - Perzeptrons: ohne versteckte Knoten - Mehrebenen-Netze: mit versteckten Knoten zirkuläre (recurrent) Netze (output input): schwierig zu verstehen, z.b.: - Hopfield-Netze: mit bidirektionalen Kanten und symmetrischen Gewichten, alle Knoten sind sowohl Ein- als auch Ausgabeknoten - Boltzmann Maschinen: mit bidirektionalen Kanten und symmetrischen Gewichten, mit inneren Knoten, stochastische Aktivierungsfunktion Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 25 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 26 Basis-Perzeptron-Lernalgorithmus (nach Rojas) Beispiele (Punkte): x 1 -x n, die positiv (P) oder negativ (N) bewertet sind. Zusammengefasst als Vektor x. Gewichte w 0 w n werden zum Anfang zufällig generiert und dann in jeder Iteration t für jedes Beispiel modifiziert. Zusammengefasst als Vektor w mit Index t: w t Perceptron-Lernformel (einfache Form) Aktivierung eines Output-Neurons O (g = Stufenfunktion) : O = g ( i w i x i ) Der Fehler eines Output-Neurons pro Beispiel ist der korrekte Output T minus dem tatsächlichen Output O: Fehler = T O = T - g ( i w i x i ) Er muss auf alle Inputs entsprechend ihrem Beitrag zu O verteilt werden. Der Beitrag des Inputsneurons j ist w j x j. Falls x j positiv, führt eine Erhöhung von w j zu einer Erhöhung des Gesamtoutputs, sonst zu einer Erniedrigung. Daraus folgt Aktualisierungsregel für jedes w j : w j w j + α * x j * Fehler Konstante α heißt Lernrate. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 27 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 28 Verbesserung der Perceptron-Lernformel Die einfache Aktualisierung der Gewichte konvergiert immer mit den korrekten Werten, wenn die zu lernende Funktion linear separierbar ist (s. nächste Folie). Allerdings kann es exponentiell lange dauern! Effizienzverbesserungen: Normierung aller Eingabedaten Delta-Regel: Die Gewichte werden nicht um das Produkt (Eingabewert * Fehler) sondern um den minimalen Betrag geändert, der erforderlich ist, um das Beispiel richtig zu klassifizieren Lineare Trennbarkeit in Perceptrons Während die "und" und die oder-funktion linear trennbar sind (a und b), ist die XOR-Funktion (c) nicht linear trennbar und kann daher von einem Perceptron nicht gelernt werden! Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 29 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 30
6 Lernkurven bei Percpetrons Mehrebenen - Netz (a): Mehrheitsfunktion mit 11 Inputs (b) Restaurant-Beispiel Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 31 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 32 Backpropagation-Lernen Unterschiede zu Perceptrons: - Es gibt mehrere Outputs, daher ist der Output ein Vektor h w (x), der mit dem Beispiel-Output-Vektor y verglichen wird: Fehler = y h w - Auch für hidden layers muss ein Fehler berechnet werden, deswegen muss Aktivierungsfunktion differenzierbar sein (Sigmoid- statt Stufen- Funktion) Gewichtsänderung der Output-Neuronen - W j,i W j,i + α * a j * i mit i = Fehler i * g'(in i ) Gewichtsänderung der versteckten Neuronen - Wir brauchen Äquivalent für Fehler der Output-Neuronen - Idee: der versteckte Knoten j ist für einen Teil des Fehlers bei i verantwortlich. Die i Werte werden entsprechen der Stärke ihrer Verbindungen zwischen versteckten Knoten und Output-Knoten aufgeteilt und rückwärts propagiert, um die j -Werte der versteckten Ebene zu liefern - j = g'(in j ) ( i W j,i i ) - Gewichtsänderungsregel: W k,j W k,j + α * a k * j Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 33 Restaurant-Beispiel: Lernkurve (a) langsame Reduktion der Fehler über verschiedene Epochen beim Backpropagation Lernen (b) Vergleich der Lernkurven beim Backpropagation und Entscheidungsbaumlernen Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 34 Optimale Netzwerkstrukturen Diskussion des Backpropagation-Lernen Bei Netzwerkstrukturen mit zu vielen Knoten kommt es zur Überanpassung bis zum Auswendiglernen, bei zu wenig Knoten kann das Netz unfähig sein, die gewünschte Funktion zu repräsentieren. Bisher gibt es keine guten Heuristiken, um die optimale Netzwerkgröße für ein gegebenen Problem abzuschätzen. Eine Idee besteht darin, daß man mit einem kleinen Netz startet und nach Bedarf Knoten hinzufügt. Ausdrucksstärke: Abhängig von Netztopologie Berechnungseffizienz: Langsame Lernrate, Lokale Minima Generalisierungsfähigkeit: Gut, wenn Output sich kontinuierlich mit dem Input verändert Sensitivität für Rauschen: Sehr tolerant Transparenz: Black Box Integrierbarkeit von Vorwissen: Schwierig Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 35 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 36
7 Kernel Machines (Support Vector Machines) Kernel machines kombinieren Vorteile von Perceptrons (einfacher und effizienter Lernalgorithmus) und Mehrebenennetze (Ausdrucksstärke) Zentrale Idee: Benutze lineare Separatoren, aber in einem veränderten (höherdimensionierten) Zustandsraum Neues Problem: Gefahr der Überanpassung, da in einem d- dimensionalen Raum d Parameter für linearen Separator erforderlich sind, wenn N (Anzahl der Datenpunkte) d. Lösung: Suche nach optimalen linearen Separatoren (mit größtem Abstand zwischen positiven auf der einen und negativen Beispielen auf der anderen Seite): Finde Parameter α i, die folgenden Ausdruck maximieren (Beispiele x i mit Klassifikation y i = ±1): i α i ½ i,j α i α j y i y j (x i * x j ) mit α i > 0 und i α i y i = 0 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 37 Beispiel für lineare Trennbarkeit nach Transformation (a) 2-dimensionale Daten (positive Beispiele im Kreis) (b) gleichen Daten nach Abbildung in 3-dimensionalen Raum (x 12,x 22, 2x 1 x 2 ) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 38 Beispiel für optimalen Separator Der optimale Separator aus der letzten Folie (nur 2 der 3 Dimensionen gezeigt) ist die dicke Linie, die den abstand zu den nächsten Punkten, den Stützvektoren (support vectors, markiert mit Kreisen) maximiert. Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 39 Transformation in höherdimensionierten Raum i α i ½ i,j α i α j y i y j (x i * x j ) mit α i > 0 und i α i y i = 0 Eigenschaften: Der Ausdruck hat ein einziges globales Maximum, das effizient gefunden werden kann! Die Daten gehen nur als Punkt-Produkte benachbarter Punkte in die Gleichung ein! Die α i sind nur für die Stützvektoren 0, daher ist die effektive Anzahl von Parametern relativ klein (<< N)! Transformation Suche Separator in hochdimensionalen Merkmalsraum F(x) Ersetze dazu x i * x j durch F(x i )* F(x j ), wobei das Punktprodukt oft ausgerechnet werden kann, ohne F für jeden Punkt zu berechnen, z.b. F(x i )* F(x j ) = (x i * x j ) 2 (x i * x j ) 2 hießt Kernfunktion (kernel function): K (x i,x j ) allgemein: (x i * x j ) wird durch eine Kernfunktion K (x i,x j ) ersetzt viele Kernfunktionen (auch sehr hochdimensionale) möglich Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 40 Umgang mit verrauschen Daten Kernel machines eignen sich auch für Daten, die sich nicht fehlerfrei trennen lassen. Dazu muss ein Parameter vorgegeben werden, der die erwartete Fehlerspanne charakterisiert. Der Basisalgorithmus ändert sich nicht. Diskussion Kernel / Support Vector Machines Sehr mächtiges Lernverfahren Ähnlich wie, aber mit Vorteilen gegenüber Neuronalen Netzen Erfreut sich in letzter Zeit zunehmender Beliebtheit Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 41 Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 42
8 Beispiel: Erkennen handgeschriebener Ziffern Standard-Benchmark-Problem mit Datenbank von markierten Ziffern in 20*20=400 Pixeln mit 8 Graustufen (oben leicht, unten schwer identifizierbare Beispiele) Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 43 Getestete Lernverfahren Nearest Neighbor (ohne Anpassungen und Parametereinstellungen) Neuronales Netz mit einer versteckten Ebene: 400 Input Knoten (pro Pixel) 10 Output Knoten (pro Ziffer) 300 versteckte Knoten (mit Kreuzvalidierung optimiert) Gewichte Spezialisierte Neuronale Netze (LeNet): optimiert bezüglich der Struktur des Problems Neuronales Netz (LeNet) mit Boosting von 3 Hypothesen Support Vector Machine ohne Anpassungen und Parametereinstellungen Virtuelle Support Vector Machine Startet mit Ergebnis der Support Vector Machine Nachträgliche Optimierung mit Ausnutzen der Struktur des Problems Gestaltvergleich (shape match): Technik vom Computersehen mit Abgleich korrepondierender Punkte zwischen 2 Bildern Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 44 Testergebnisse Die Fehlerraten bewegen sich zwischen 2,4% (Nearest Neighbor) und 0,56% (Virtual Support Vector Machine). Neuronale Netze liegen dazwischen. Menschen haben angeblich eine Fehlerquote von 0,2% für dieses Problem (nach anderen Quellen aber 2,5%). Künstliche Intelligenz: 20. Statistische Lernmethoden Frank Puppe 45
Konzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrNeuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.
Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrKünstliche neuronale Netze
Künstliche neuronale Netze Eigenschaften neuronaler Netze: hohe Arbeitsgeschwindigkeit durch Parallelität, Funktionsfähigkeit auch nach Ausfall von Teilen des Netzes, Lernfähigkeit, Möglichkeit zur Generalisierung
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
MehrÜberblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrSyntaktische und Statistische Mustererkennung. Bernhard Jung
Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrNeuronale Netze (Konnektionismus)
Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung
MehrTraining von RBF-Netzen. Rudolf Kruse Neuronale Netze 134
Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
Mehrkurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer
MehrKlassifikation linear separierbarer Probleme
Klassifikation linear separierbarer Probleme Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation linear
MehrSupport Vector Machines, Kernels
Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen
MehrPerzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrNeuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.
Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrEinführung in neuronale Netze
Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrHidden Markov Modelle
Hidden Markov Modelle in der Sprachverarbeitung Paul Gabriel paul@pogo.franken.de Seminar Sprachdialogsysteme: Hidden Markov Modelle p.1/3 Überblick Merkmalsvektoren Stochastischer Prozess Markov-Ketten
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrNeuronale Netze. Christian Böhm.
Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch
MehrSemester-Fahrplan 1 / 17
Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD
MehrDer Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1
Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze 2.04.2006 Reinhard Eck Was reizt Informatiker an neuronalen Netzen? Wie funktionieren Gehirne höherer Lebewesen?
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrRadiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120
Radiale-Basisfunktionen-Netze Rudolf Kruse Neuronale Netze 2 Radiale-Basisfunktionen-Netze Eigenschaften von Radiale-Basisfunktionen-Netzen (RBF-Netzen) RBF-Netze sind streng geschichtete, vorwärtsbetriebene
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
MehrBayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrKlassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
MehrWissensbasierte Systeme
Analytisch lösbare Optimierungsaufgaben Das Chaos-Spiel gründet auf der folgenden Vorschrift: Man startet von einem beliebigen Punkt aus geht auf einer Verbindung mit einem von drei zufällig gewählten
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrDie Maximum-Likelihood-Methode
Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
MehrNeuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
MehrEinführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch
Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen
MehrModellierung mit künstlicher Intelligenz
Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.
MehrKapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading
Kapitel V V. Ensemble Methods Einführung Bagging Boosting Cascading V-1 Ensemble Methods c Lettmann 2005 Einführung Bewertung der Generalisierungsfähigkeit von Klassifikatoren R (c) wahre Missklassifikationsrate
Mehr(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.
(hoffentlich kurze) Einführung: martin.loesch@kit.edu (0721) 608 45944 Überblick Einführung Perzeptron Multi-layer Feedforward Neural Network MLNN in der Anwendung 2 EINFÜHRUNG 3 Gehirn des Menschen Vorbild
Mehrkurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Neuronale Netze Motivation Perzeptron Übersicht Multilayer Neural Networks Grundlagen
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrBerechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen
Definition Berechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen Seminar über Algorithmen WS 2005/2006 Vorgetragen von Oliver Rieger und Patrick-Thomas Chmielewski basierend auf der Arbeit
MehrVon schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrBildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17
Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen
MehrWahrscheinlichkeitstheorie 2
Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrMaschinelles Lernen: Neuronale Netze. Ideen der Informatik
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
Mehr13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
MehrExponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models
Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Korbinian Schwinger 3. November 003 Inhaltsverzeichnis Inhaltsverzeichnis Exponential Family 3. Definition...............................
MehrNeuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
MehrMathematische Werkzeuge R. Neubecker, WS 2016 / 2017
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrNeuronale Netze mit mehreren Schichten
Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrLogistische Regression
Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation
MehrDer Metropolis-Hastings Algorithmus
Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrEin selbstmodellierendes System für die Wasserwirtschaft
Ein selbstmodellierendes System für die Wasserwirtschaft Dipl.-Ing. Dr. ANDRADE-LEAL Wien, im Juli 2001 1 Einleitung, Motivation und Voraussetzungen Künstliche Intelligenz Neuronale Netze Experte Systeme
MehrMaschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische
MehrStatistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze
Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger
MehrClustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining
Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrBayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen
MehrNeuronale Netze. Seminar aus Algorithmik Stefan Craß,
Neuronale Netze Seminar aus Algorithmik Stefan Craß, 325656 Inhalt Theoretisches Modell Grundlagen Lernansätze Hopfield-Netze Kohonen-Netze Zusammenfassung 2 Inhalt Theoretisches Modell Grundlagen Lernansätze
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrÜbersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrInhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98
Inhaltsverzeichnis 1 Datenbehandlung und Programmierung 11 1.1 Information 11 1.2 Codierung 13 1.3 Informationsübertragung 17 1.4 Analogsignale - Abtasttheorem 18 1.5 Repräsentation numerischer Daten 20
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen
MehrLernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),
Lernen mit Queries Hans Kleine Büning Institut für Informatik, Universität Paderborn 33095 Paderborn (Germany), E-mail: kbcsl @upb.de November 2007 1 Einführung In diesem Abschnitt beschreiben wir kurz,
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrThema 3: Radiale Basisfunktionen und RBF- Netze
Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung
Mehr3. Analyse der Kamerabewegung Video - Inhaltsanalyse
3. Analyse der Kamerabewegung Video - Inhaltsanalyse Stephan Kopf Bewegungen in Videos Objektbewegungen (object motion) Kameraoperationen bzw. Kamerabewegungen (camera motion) Semantische Informationen
MehrWir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)
6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrGrundlagen der Objektmodellierung
Grundlagen der Objektmodellierung Daniel Göhring 30.10.2006 Gliederung Grundlagen der Wahrscheinlichkeitsrechnung Begriffe zur Umweltmodellierung Bayesfilter Zusammenfassung Grundlagen der Wahrscheinlichkeitsrechnung
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
Mehr