1. XOR: Mit folgender Architektur geht es. x 1. x n-dimensionale Lernprobleme mit einer n-2-1-architektur lösen ...

Ähnliche Dokumente
Hannah Wester Juan Jose Gonzalez

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Neuronale Netze mit mehreren Schichten

Praktische Optimierung

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF

Thema 3: Radiale Basisfunktionen und RBF- Netze

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Allgemeine (Künstliche) Neuronale Netze. Rudolf Kruse Neuronale Netze 40

1 Singulärwertzerlegung und Pseudoinverse

Grundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang

Kapitel 6. Neuronale Netze. 6.1 Verwendeter Netztyp

Implementationsaspekte

Wissensbasierte Systeme

Einführung in neuronale Netze

Computational Intelligence I Künstliche Neuronale Netze

Assoziation & Korrelation

Brückenkurs Mathematik. Mittwoch Freitag

Künstliche neuronale Netze

Fehlerfortpflanzung. M. Schlup. 27. Mai 2011

Selbstorganisierende Karten

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Vektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)

8. Elemente der linearen Algebra 8.5 Quadratische Matrizen und Determinanten

5. Lernregeln für neuronale Netze

Assoziation & Korrelation

3 Elementare Umformung von linearen Gleichungssystemen und Matrizen

Aufbau und Konformation von Polypeptiden

Vorlesung 8a. Kovarianz und Korrelation

Lineare Algebra: Determinanten und Eigenwerte

Summen, Indices und Multiindices

und Reinstruktur Die Sekundärstruktur ist die Anordnung der Aminosäurenkette, wobei man in zwei Arten unterscheidet: o Faltblatt- oder β- Struktur

Proseminar Machine Learning. Neuronale Netze: mehrschichtige Perzeptrone. Christina Schmiedl Betreuer: Christian Spieth, Andreas Dräger

$Id: linabb.tex,v /01/09 13:27:34 hk Exp hk $

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

8 Lineare Abbildungen und Matrizen

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Wirtschaftsmathematik Formelsammlung

Lineare Gleichungssysteme und Matrizen

Euklidische und unitäre Vektorräume

Neuronale Netze. Anna Wallner. 15. Mai 2007

Lineare Algebra I (WS 13/14)

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

1 (2π) m/2 det (Σ) exp 1 ]

Eine zweidimensionale Stichprobe

Theoretische Informatik SS 04 Übung 1

Lineare Algebra I. Prof. Dr. M. Rost. Übungen Blatt 6 (WS 2010/2011) Abgabetermin: Donnerstag, 27. November

Lösungen zu den Hausaufgaben zur Analysis II

Berechnung von W für die Elementarereignisse einer Zufallsgröße

Im Falle einer zweimal differenzierbaren Funktion lässt sich das Krümmungsverhalten anhand der zweiten Ableitung feststellen.

Lineare Differenzengleichungen

2 Aufgaben aus [Teschl, Band 2]

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen

Matrizen - I. Sei K ein Körper. Ein rechteckiges Schema A = wobei a ij K heißt Matrix bzw. eine m n Matrix (mit Elementen aus K).

Viele wichtige Operationen können als lineare Abbildungen interpretiert werden. Beispielsweise beschreibt die lineare Abbildung

In diesem Abschnitt betrachten wir nur quadratische Matrizen mit Komponenten aus einem Körper K, also A K n n für ein n N. Wenn (mit einem n > 1)

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Methode der kleinsten Quadrate

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Randomisierte Algorithmen 2. Erste Beispiele

Numerische Verfahren und Grundlagen der Analysis

Brückenkurs Statistik für Wirtschaftswissenschaften

Das Perzeptron. Künstliche neuronale Netze. Sebastian Otte. 1 Grundlegendes. 2 Perzeptron Modell

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen

Relative Atommassen. Stefan Pudritzki Göttingen. 8. September 2007

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

3.4 Der Gaußsche Algorithmus

5 Lineare Algebra (Teil 3): Skalarprodukt

Lineare Gleichungssysteme

Kapitel 2: Mathematische Grundlagen

Technische Universität. Fakultät für Informatik

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Quadratische Formen und Definitheit

7.1 Matrizen und Vektore

4 Lineare Abbildungen und Matrizen

7.2 Moment und Varianz

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Statistik I. Hinweise zur Bearbeitung. Aufgabe 1

3 Matrizenrechnung. 3. November

(A T ) T = A. Eigenschaft:

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Aufgabe 4 (Sekundärstruktur)

Inexakte Newton Verfahren

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

36 2 Lineare Algebra

4 Vorlesung: Matrix und Determinante

Lineare Algebra I. Lösung 9.2:

Aufbau und Beschreibung Neuronaler Netzwerke

MATRIZEN. Eine Matrix ist eine rechteckige Anordnung von Zahlen, als ein Schema betrachtet. a 11 a a 1n a 21. a a 2n A = a m1 a m2...

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. PROGNOSE II - Vertiefung Aufgaben und Lösungen Sommersemester 2004

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Lineare Algebra und analytische Geometrie I

MLAN1 1 MATRIZEN 1 0 = A T =

Vektorräume. Kapitel Definition und Beispiele

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Grundlagen und Aufbau von neuronalen Netzen

Algebraische Zahlentheorie. Teil II. Die Diskriminante.

Lineare Algebra und Numerische Mathematik für D-BAUG. Serie 6

1 Grundlagen der Numerik

Numerische Methoden und Algorithmen in der Physik

Transkript:

1. XOR: Mit folgender Architektur geht es x 1 x 2 2. n-dimensionale Lernprobleme mit einer n-2-1-architektur lösen x 1 x 2... x 2 Loading-Problem: Für eine endliche Liste binärer Trainingspaare (x(1),d(1)),l,(x(k)d(k)) mit x(1),l, x(k) " {,1} n,d(1),l,d(k) " {,1} soll entschieden werden, ob es ein n-2-1-mlp gibt, welches bei Eingabe von Vektor x(i) eine Ausgabe,99 für d(i) = 1, und für d(i) =, produziert. Dieses Problem ist NP-vollständig. Mit den Festlegungen Ausgabe,99 für d(i) = 1, und für d(i) = tragen wir der Tatsache Rechnung, dass wir Neuronen mit sigmoider Aktivierungsfunktion verwenden wollen, die, auch wenn die Eingaben nur binär sind, doch beliebige Werte zwischen und 1 abliefern (ja sogar gar nicht in der Lage sind, exakt oder 1 zu produzieren).

3. Encoder (Datenkompression) Es gibt n Eingabeneuronen und n Ausgabeneuronen. Dazwischen gibt es eine verborgene Schicht mit log(n) versteckten Neuronen (n sei eine Zweierpotenz). Bei Eingabe von genau einer 1 am i-ten Eingabeneuron und sonst lauter Nullen, soll am i-ten Ausgabeneuron ein Wert,99 und an allen anderen Ausgabeneuronen ein Wert ausgegeben werden. Dies soll für alle i von 1 bis n gelten. Die Idee ist, das Netz auf die (approximative) Reproduktion einer unären Zahleneingabe an der Ausgabeschicht zu trainieren. Da nur log(n) versteckte Neuronen erlaubt sind, die verborgene Schicht somit ein Nadelöhr für den Informationstransport darstellt, muss das Netz irgendeine Art der Datenkompression lernen. Eine Möglichkeit wäre der Binärcode an den versteckten Neuronen. Beispiel mit n = 8 und als einem der 8 möglichen Eingabevektoren die Zahl 5: unär 5 = 1 binär 5 = 11,99 1,99,99

4. Sekundärstruktur von Proteinen Ein Protein besteht, vereinfacht gesagt, aus einer linearen Verkettung von Aminosäuren. Es gibt, je nach Zählung, 2 verschiedene Aminosäuren. Proteine können aus einigen Dutzenden, aber auch aus vielen Tausenden von Aminosäuren bestehen. Für die biologische Wirkung eines Proteins ist seine 3-dimensionale Struktur, die sog. Tertiärstruktur, von essentieller Bedeutung. Diese ist nur in aufwändigen Laborprozessen (Röntgenkristallographie) zu bestimmen wenn überhaupt. Seit einiger Zeit versucht man, solche Strukturen eher rechnerisch zu bestimmen. Etwas weniger anspruchsvoll ist es, als Vorarbeit aus der Liste der Aminosäuren eines Proteins (diese Liste nennt man die Primärstruktur) zunächst die sog. Sekundärstruktur zu bestimmen, in der für jede Aminosäure codiert ist, ob sie Teil einer Helixstruktur (α-helix), einer Faltblattes (βsheet), oder einer eher lockeren Verbindung zwischen solchen Teilen (γ-coil) ist.

Man hat dabei das Gefühl, dass die Zugehörigkeit einer Aminosäure A i eines Proteins zu einer dieser 3 möglichen Strukturen in lokaler Weise durch seine Interaktionen mit benachbarten Aminosäuren festgelegt ist, beispielsweise durch die 5 Aminosäuren links und die 5 Aminosäuren rechts neben A i. Deshalb kommt man auf die Idee, aus der Kenntnis von 11 Aminosäuren die Klasse (α oder β oder γ) der mittleren (also 6-ten) Aminosäure zu prognostizieren. Diese 11 Aminosäuren sollen einem MLP als Eingaben präsentiert werden. Da es für die erste Aminosäure 2 Möglichkeiten gibt, verwenden wir (unär codierend) hierfür 2 Neuronen. Entsprechendes gilt für die zweite bis 11-te Aminosäure. Insgesamt verwenden wir also 22 Eingabeneuronen. An der Ausgabe verwenden wir 3 Ausgabeneuronen, die mit einem Wert,99 an einem der 3 Neuronen und zwei Werten an den anderen beiden codieren, welcher der 3 Klassen die mittlere, durch die Eingabeneuronen 11 12 repräsentierte Aminosäure angehört. Gebräuchlich sind 2 verborgene Schichten mit 2 3 Neuronen in der ersten und 5 1 Neuronen in der zweiten verborgenen Schicht. Als Trainingsdaten stehen alle Segmente aus 11 Aminosäuren von Proteinen bekannter Sekundärstruktur zur Verfügung. erste Amino- säure 1 2 1 1 α β 1 3 γ 22

5. Mühle Wohin soll Weiß seinen letzten Stein setzen? Erste Möglichkeit: Score einer Stellung berechnen Netzeingabe sind diverse Merkmale, die man einer Stellung entnimmt: Anzahl geschlossener Mühlen, Anzahl aller freien Positionen, wo man durch Setzen eines Steines eine neue Mühle bilden kann; etc. Daraus soll ein Score dieser Stellung berechnet werden (numerischer Wert normiert auf das Intervall von bis 1). Dann wird unter allen Folgestellungen diejenige gewählt, die den größten Score hat. Letzteres macht nicht das Netz, sondern ein sequentieller Durchlauf durch das trainierte Netz mit allen möglichen Stellungen. Problem: Man tut sich in Trainingsstellungen schwer, einen geeigneten Score zu definieren. Zweite Möglichkeit: Eingabe sind geeignete Merkmale zweier Vergleichsstellungen, die als Folgestellungen derselben Ausgangsstellung auftreten können. Das Netz soll entscheiden, ob die erste Stellung die bessere ist.

Eine solche Entscheidung ist in vielen Trainingssituationen (= 2 zu vergleichende Stellungen) leichter zu treffen. 6. Contact Map Wir betrachten, als Beispiel, eine größere Anzahl n von Hämoglobinproteinen bei unterschiedlichen Tieren. Wir unterstellen, dass sich all diese Hämoglobine aus einem gemeinsamen Ur-Hämoglobin entwickelt haben ( homologe Proteine ), wobei es in der Evolution gelegentlich Mutationen, Einfügen weitere Aminosäuren und Löschen vorhandener Aminosäuren gegeben hat, was dafür verantwortlich sind, dass die diversen Hämoglobine Variationen in der Aminosäurenreihenfolge aufweisen. Wir nehmen nun an, dass uns diese evolutionäre Historie bekannt ist. Dies drückt man durch ein sog. multiples Alignment aus, in dem die Mutationen, Einfügen, Löschen beispielsweise wie folgt ausgedrückt sein können (die Buchstaben M, G, V, etc. sind Kürzel für Aminosäuren):

Etwas abstrakter gesagt legen wir als multiples Alignment eine Tabelle folgender Art zugrunde: die Abfolge der Aminosäuren bzw. Leerstellen in den Proteinen 1 i j m P 1 a 11 a 1i a 1j a 1m P r a r1 a ri a rj a rm n homologe Proteine P s a s1 a si a sj a sm P n a n1 a ni a nj a nm

These 1: Wenn in einem der Proteine ein Kontakt zwischen Aminosäure i und Aminosäure j besteht, so ist dieser Kontakt vermutlich funktionsrelevant und sollte deshalb in allen anderen der homologen Proteine auch vorhanden sein. i j These 2: Wenn wir für je zwei Positionen i und j wüssten, ob hier ein Kontakt zwischen den Aminosäuren besteht, so könnten wir daraus die genaue räumlich Struktur der Proteine vorhersagen. (In Wahrheit reicht es für die Vorhersage der 3D-Struktur schon, wenn man ca. 5% der Kontakte kennt.) Nun konzentrieren wir uns im multiplen Alignment einmal auf die Spalten i und j. In Spalte i wird nicht überall dieselbe Aminosäure stehen (weil ja Mutationen zu Veränderungen geführt haben können). Ebenso wird in Spalte j nicht überall dieselbe Aminosäure stehen. Wir stellen uns vor, dass wir den Aminosäuren A eine Maßzahl µ(a) zuweisen können, welche diese Aminosäuren hinsichtlich gewisser chemischer Eigenschaften charakterisiert (wie beispielsweise mehr oder weniger hydrophob/hydrophil zu sein, oder Ähnliches). In Spalte i sei der Mittelwert der dort auftretenden solchen Maßzahlen gleich µ i und die Varianz (mittlere quadratische Abweichung vom Mittelwert) der Maßzahlen gleich " 2 i. These 3: Wenn in einem den betrachteten Proteinen des multiplen Alignments ein Kontakt zwischen Aminosäure i und Aminosäure j besteht, so sollten eine Mutationen in den Spalten i und j hinsichtlich der oben beschriebenen Maßzahl eine gewisse Korrelation aufweisen: Mutation in Spalte i zu einem

überdurchschnittlichen Maßzahlwert sollte durch Mutation in Spalte j zu einem ebenso überdurchschnittlichen Maßzahlwert begleitet sein, und mit unterdurchschnittlichen Werten ebenso. Dies alles, damit chemisch auch nach Mutationen ein Kontakt der Aminosäuren i und j möglich bleibt (Proteine, bei denen durch eine Mutation dieser Kontakt verloren gegangen ist, waren nicht lebensfähig und sind von der Evolution ausgesondert worden, kommen also in unserem multiplen Alignment gar nicht vor). Protein P r µ i i Protein P s µ i + 8 i µ i - 7 i j µ j j µ j + 6 Protein j P t µ j - 6 Eine solche Kovariabilität des Mutationsgeschehens in den Spalten numero i und j misst man in der Statistik durch die sog. Kovarianz: m " ij = 1 # 2 2 %(µ(a pi ) $ µ i )( µ(a pj ) $ µ j ) i # j p=1 These 4: Ein positiver (möglichst großer) Wert κ ij sollte also auf einen möglichen Kontakt dieser beiden Positionen hinweisen. Wir können noch einen Schritt weiter gehen. These 5: besteht ein Kontakt an den Positionen i und j, so erwarten wir auch entsprechende Kontakte an den beiden linken und den beiden rechten Nachbarpositionen.

Bei einem β-sheet würde man je nach Orientierung des Faltblattes zwei Möglichkeiten haben: i-2 i-1 i i+1 i+2 i-2 i-1 i i+1 i+2 j+2 j+1 j j-1 j-2 j-2 j-1 j j+1 j+2 anti-paralleler β-sheet paralleler β-sheet In der Matrix aller paarweisen Korrelationen würde man folgende Muster erwarten erwarten: j " 2 j "1 j j +1 j + 2 i " 2 > i "1 > i > i +1 > i + 2 > j " 2 j "1 j j +1 j + 2 i " 2 > i "1 > i > i +1 > i + 2 > Bei einem Kontakt in einer α-helix würde es wie in einem parallelen β-sheet aussehen; außerdem würde hier die Differenz j i nicht allzu groß sein dürfen. Da in diesen 25 Werten also starke Informationen enthalten zu sein scheinen bezüglich der Frage, ob zwischen Positionen i und j ein Kontakt besteht, sollte ein neuronales Netz diese 25 Werte zur Verfügung gestellt bekommen. Des Weiteren würde man ihm vielleicht auch noch die alle Prognosewerte bezüglich Sekundärstruktur an den Positionen i 2,..., i +2 und j 2,..., j +2 geben, sowie relevante chemische Charakteristika (what ever).

25 Neuronen mit Korrelations- koeffizienten 18 Neuronen mit Sekundärstrukturprognosen Weitere Neuronen mit chemischen Merkmalen und Abstand zwischen i und j i, j in Kontakt i, j nicht in Kontakt Anzahl der Gewichte bei ca. 6 Eingabeneuronen, 2 verborgenen Neuronen in der ersten hidden Schicht, 1 verborgenen Neuronen in der zweiten hidden Schicht, 2 Ausgabeneuronen: 6" 2 + 2 "1 +1 " 2 =142 Zur Erinnerung: Die Hessematrix der zweiten partiellen Ableitungen der quadratischen Fehlerfunktion hätte 2.16.4 Einträge; ihre Invertierung würde O(2.863.288.) Additionen und Multiplikationen verschlingen.