Codierung und Repräsentation - Biologie -
Codierung: Genotyp und Phänotypebene Vier Übergänge eines evolutionären Zyklus (nach Lewontin, 1974) T 1 : Die Verteilung der Genotypen G 1 wird auf die Verteilung der Phänotypen P 1 abgebildet T 2 : Prozesse wie Migration, Reproduktion und Selektion ergeben die Phänotypverteilung P 2 Phänotypraum T 3 : Zugehörig zur Phänotypverteilung P 2 ist die Genotypverteilung G 2 T 4 : Variationen auf dem Genotyplevel, wie Mutation ergeben die Genotypverteilung G 3 Genotypraum Fitnesswerte direkt mit dem Genotyplevel zu assoziieren (Populationsgenetik) oder die Transitionen T 1 and T 3 zu vernachlässigen (Räuber/Beute Modelle) schränkt die Aussagekraft der entsprechenden Modell stark ein
Der biologische Code: Die (eukaryotische) Zelle 1. Nukleolus 2. Zellkern (Nukleus) 3. Ribosomen 4. Vesikel 5. Raues Endoplasmatisches Reticulum 6. Golgi-Apparat 7. Mikrotubuli 8. Glattes ER 9. Mitochondrien (ATP - Zellenergie) 10. Lysosom 11. Zytoplasma 12. Mikrobodies 13. Zentriolen
Der biologische Code: Transkriptase 1. Schritt: DNA - Messenger RNA: Transkriptase Messenger RNAs werden mit Hilfe des Enzyms RNA-Polymerase gebildet, welche an die Promotersequenz bindet (TATAAT in Prokaryoten) Promoter und Terminator auf der DNA bestimmen Anfang und Ende des Ableseprozesses mrna ist einstrangig, es hat ein Ribose anstelle des Deoxyribose - Zuckers und Thymin wird durch Uracil ersetzt. Es ist deutlich instabiler als das DNA Molekül Drei Nukleotide in der mrna heissen ein Codon, sie kodieren eine Aminosäure (amino acid). Es gibt 20 Aminosäuren, d.h. der genetische Code ist redundant, denn 3 Positionen, Alphabet der Kardinalität 4 4 3 = 64 Kombinationen
Codon - Aminosäuren Abbildung Mittlere Anzahl genutzter Codons / pro 1000 codons in E.coli und S.typhimurium (basierend auf einer DNA-Sequenz von 450.000 Genen)
Der biologische Code: Translation 2. Schritt: Messenger RNA - Proteine: Translation (für Eukaryoten - Zellen mit Zellkern) trna Aminosäure Protein wird aufgebaut Trennung des Ortes der Transkription (Zellkern) vom Ort der Translation (Cytoplasma) in Eukaryoten (wahrscheinlich) entscheidend für die Evolution komplizierter Mehrzeller mit differenzierten Zellfunktionen Übersetzung der Codonsequenz der mrna in die Aminosäuresequenz geschieht am Ribosom (sie bestehen aus rrna und Proteinen) benötigt wird die trna, die mit spezifischen Aminosäuren beladen ist, GTP als Energielieferant und ein Enzym das trna Molekül besitzt ein Anti-codon mit dem es am Ribosom an die mrna bindet
Der biologische Code: Translation 2. Schritt: Messenger RNA - Proteine: Translation (für Eukaryoten - Zellen mit Zellkern) trna Aminosäure Protein wird aufgebaut das gebundene trna Molekül baut nun die richtige Aminosäue in die wachsende Peptidkette ein (für die vorherige Bindung der Aminosäuren an die trna ist ein eigenes Enzym verantwortlich beim Bildungsprozess der Aminosäurenkette unterscheidet man Initiation - Elongation - Termination DNA RNA-Polymerase Zelle Zellkern mrna trna - transfer Cytoplasma Protein
Splicen in Eukaryoten Prokaryoten Eukaryoten?
Splicen in Eukaryoten mit microrna als Kontrollelemente RNA Introns als zusätzliche, effiziente und genaue Kontrollstrukturen z.b. zur Zelldifferenzierung
Wobble Hypothese drei Codons sind Abbruchcodes für die Translation im Gegensatz zu den 61 Anticodons gibt es nur 50 (in E.coli nur 30-40) trna die meisten Codons für eine bestimmte Aminosäure unterscheiden sich nur in der dritten Base Wobble Hypothese: die dritte Base spielt bei der Erkennungsspezifizität eine geringere Rolle
Der biologische Code: Faltung 3. Schritt: Strukturbildung des Proteins Aminosäure Aminosäure Lineare Peptidkette die Aminosäurenkette (Ordnung 10-1000) faltet sich und bildet ein Protein, der Faltungsprozess ist spontan, d.h. die 3D Struktur ist durch die Aminosäuresequenz determiniert
Der biologische Code: Faltung (cont d) die Struktur des Proteins ist die Grundlage für biochemische Reaktionen in der Zelle Proteinfaltung dauert ca. 40 Nanosekunden In Zellen von Säugetieren gibt es bis zu 20.000 Proteine mit unterschiedlicher Struktur Faltung des Proteins ist spontan; jedoch muss die lineare Aminosäurekette vor und während des Faltungsprozesses gegenüber äusseren (d.h. innerhalb der Zelle) Einflüssen geschützt werden (instabil) Ø bestimmte Proteine - die Chaperons - übernehmen diese Aufgabe Krankheitbilder unkorrekter Faltung: Muskoviszidose, Alzheimer, etc
Ursprung des Codes Darwin sche Evolution Evolution des genetischen Codes der genetische Code ist nahezu universell nur nahezu - zwei Veränderungen (global - keine einzelne Mutation) Ø stop codon codiert Aminosäuren Ø Wechsel der codierten Aminosäuren der genetische Code ist variabel aber nur geringfügig und zumeist sind damit keine Variationen der codierten Proteine verbunden chemisch ähnliche Aminosäuren werden von ähnlichen (d.h. Abstand der Punktmutationen) Codons codiert der Effekt von Punktmutationen und von Translationsfehlern wird minimiert Codierung ist stabil Kriterium: strukturerhaltend funktionerhaltend Hypothese 1: zunächst werden Aminosäuregruppen durch Codon Gruppen codiert, d.h. der Ur-Code war sowohl redundant als auch mehrdeutig (Abbildung war weder injektiv noch surjektiv)
Ursprung des Codes (cont d) Hypothese 2: Codons benachbarter Aminosäuren können durch Anwendung der Wobble Regeln und durch GC AT Mutationen ausgetauscht werden. D.h. solches codon swapping könnte iterativ zu einem generellen Codonaustausch (codon shuffling) und so zu einem fine-tuning des Codes geführt haben. Warum ist der Code redundant? Erhöhung der Stabilität aber Häufigkeit der Codierung einer Aminosäure (d.h. Anzahl der Codons) korreliert nicht mit der Funktionalität/Wichtigkeit der Aminosäure, aber strukturerhaltend? Neutraler Mutationsdruck hat dazu geführt, dass Aminosäuren mit mehr Codons häufiger auftreten
Eigenschaften der Codierung - Neutrale Netze (Schuster et al.) Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung in der biologischen Evolution RNA Welt Genotyp: Basensequenzen (Sequenzraum, dim n) Phänotyp: RNA Sekundärstrukturen (Strukturraum) Protein Welt Genotyp: Aminosäuresequenzen (Sequenzraum) Phänotyp: Protein Sekundärstrukturen (Strukturraum) in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen Sequenzraum S(ψ) Shape (Sekundärstruktur) ψ eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab) der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu und erreicht 1 bei n die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im Sequenzraum verteilt
Eigenschaften der Codierung - Neutrale Netze (Schuster et al.) Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung in der biologischen Evolution RNA Welt Genotyp: Basensequenzen (Sequenzraum, dim n) Phänotyp: RNA Sekundärstrukturen (Strukturraum) Protein Welt Genotyp: Aminosäuresequenzen (Sequenzraum) Phänotyp: Protein Sekundärstrukturen (Strukturraum) in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen Sequenzraum S(ψ) Shape (Sekundärstruktur) ψ eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab) der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu und erreicht 1 bei n die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im Sequenzraum verteilt
Eigenschaften der Codierung - Neutrale Netze die neutralen Mengen S(ψ) der häufigen Strukturen bilden Netzwerke, die nahezu den gesamten Sequrenzraum durchdringen - Neutrale Netze shape space covering : in einer Kugel moderater Grösse um jeden beliebigen Punkt im Sequenzraum findet sich eine Sequenz, die auf eine beliebige vorgegebene Sekundärstruktur abbildet sind häufige Strukturen häufig weil sie einen selektiven Vorteil haben? Fitness lokale Optima Zufallsdrift auf neutralen Netzen Fitness Sequenzen Sequenzen Kombination von selektionsgetriebenem hill-climbing und Zufallsdrift durch neutrale Netze kann dazu dienen lokale Optima in der Fitnesslandschaft zu überwinden
Codierung und Repräsentation - Evolutionäre Algorithmen -
Repräsentation In evolutionären Algorithmen genutzte Repräsentationen: Reelwertige Repräsentation Lösungsvektor: x mit x i R Ist der phänotypische Suchraum reelwertig spricht man auch von der natürlichen Repräsentation Diskrete Repräsentation Lösung wird durch einen String über dem Alphabet der Kardinalität k codiert Ist der phänotypische Suchraum reelwertig so führt die diskrete Repräsentation zu limitierter Genauigkeit, zu zusätzlicher Nichtlinearität und zu künstlichen Problemen (wie Hamming Cliffs) Genauigkeit: [b, a]: #Schemata b - a k n - 1 Ø in GA wird häufig Binärcodierung genutzt (Hintergrund ist die Maximierung der intrinsischen Parallelität) l=4 l=3 k
Repräsentation (cont d) In evolutionären Algorithmen genutzte Repräsentationen: Diskrete Repräsentation Hamming Cliffs (1. Ordnung) werden durch Gray Code aufgelöst Gray Code: Benachbarte ganze Zahlen unterscheiden sich nur in einer Bit Position Aufgrund des unklaren Zusammenhanges zwischen Schematheorem und Optimierungsfortschritt ist die natürliche Repräsentation zu bevorzugen Ausnahme: Pathologische Fitnessfunktionen Ist der phänotypische Suchraum nicht reelwertig kann eine diskrete Repräsentation die natürliche Repräsentation darstellen, z.b. Binarcodierung bei Boolschen Problemen Oftmals ist die natürliche Representation gemischt ganzzahlig und reellwertig, sie ist immer von der Problemstruktur abhängig: Strukturoptimierungsprobleme Matrizen Baumstrukturen rekursive Codierungen Grammatiken
Wahl der Repräsentation die optimale Repräsentation hängt primär vom Problem (den Eigenschaften der Qualitätsfunktion) und von den Variationsoperatoren ab Eigenschaften: Vollständigkeit durch die Repräsentation sollten keine Lösungen apriori ausgeschlossen werden, die zur Menge der gültigen Lösungen gehören Gleichmässigkeit falls dies nicht möglich ist, ist eine hierarchische Repräsentation mit wachsender Genauigkeit empfelenswert Es sollten keine Lösungen bzw. Mengen von Lösungen allein durch die Repräsentation bevorzugt werden (Gegenbeispiel: genetische Code) Menge der Elemente die die Lösungsmenge A codieren Lösungsmenge A Menge C Menge C Menge B Menge D Repräsentation mit Bias Menge B Menge D
Wahl der Repräsentation/Operatoren: Kausalität Starke Kausalität Kleine Variationen auf dem Genotypraum durch Mutation führen zu kleinen Variationen auf dem Phänotypraum konsistente Abbildung zwischen Distanzen auf dem Genotyp- und dem Phänotypraum Stabilität gegen Mutationen
Starke Kausalität Eine Repräsentation, die nicht stark kausal ist, wird im Allgemeinen nicht die folgenden Eigenschaften haben: Selbstadaptation Selbstadaptation von Strategieparametern benötigt einen konsistente Abbildung zwischen Distanzen auf dem Genotyp und dem Phänotypraum Graduelle Akkumulation Die Akkumulation von kleinen Veränderungen benötigt eine konsistente Definition von klein im Genotyp und Phänotypraum Stabile Population um den Besten (Quasi-Spezies) das Herausbilden einer stabilen Population um das beste Individuum ist nur möglich, wenn eine konsistente Kontrolle der Mutationsweiten möglich ist Eigenschaften sind problematisch die eine selektionsgetriebene Kontrolle der Mutationsweiten benötigen
Distanzen auf dem Genotypraum Distanzen auf dem Genotypraum sollten durch die genetischen Operatoren, die die Veränderungen der Genotypen verursachen, definiert werden Mutation ist im allgemeinen von der Population unabhängig: Crossover ist von der Zusammensetzung der Population und damit von der Zeit/Generation abhängig, Defintion ist schwieriger metrischen Eigenschaften von d(g i, g j ) sind zu überprüfen
Prinzip der adaptiven Codierung Für die meisten Struktur- und Designoptimierungsaufgaben ist es effizient die Codierung bzw. Repräsentation während der evolutionären Suche anzupassen Mutation der Codierung x i i = 1,.., 6 x i i = 1,.., 9 hierarchische Optimierung Optimierung der Strategie (siehe Selbstadaptation) Dynamische Optimierung Prinzip: Selbst-organisation des Suchprozesses auf Unterräume Beachte: Optimierung auf unterschiedlichen Zeitskalen Erweiterung kann zunächst zu Nachteilen führen Ansatz: Neutrale Mutation der Codierung
Anwendung der adaptiven Codierung Optimierung des Repräsentation des Designs höhere Flexibilität - unabhängig von der initialen Paramerisierung schrittweise Optimierung - vermeiden lokaler Optima alle Phenotypen sind darstellbar (theo.) effizientere Nutzung der Rechenzeit Hierarchie der Optimierung define parameter optimisation optimisation of the of the human representation representation parameter parameter computer optimisation optimisation pressure loss generations
Zusammenfassung in einem evolutionären Zyklus sind ca. vier Transitionen auf und zwischen der Genotyp- und Phänotypebene zu unterscheiden biologische Code: Transkriptase (DNA mrna), drei Nukleotide (Codon) kodieren eine Aminosäure, Translation (mrna Protein-linear), Faltung der Proteine (spontan aber geschützt) genetische Code ist redundant und nahezu universell Urspungshypothesen: (1) Code wird während er Evolution immer spezifischer; (2) Code swapping und shuffling können ein fine-tuning des Codes ermöglichen Abbildungen vom Sequenz- in den Strukturraum (RNA und Proteine) offenbaren interessante Eigenschaften, z.b. eine Menge an Sequenzen bilden auf eine Struktur ab, diese Menge bildet neutrale Netzwerke, die durch den Sequenzraum perkolieren. die gängigsten Repräsentationen in EAs sind reelwertig bzw. diskret über einem Alphabet im allgmeinen sollten Repräsentationen vollständig, gleichmässig und stark kausal sein adaptive Codierungen in EAs ermöglichen eine schrittweise Optimierung (zunächst in Unterräumen) und somit in vielen Fällen eine effiziente Suche
Weiterführende Literatur [1] H.-P. Schwefel, Evolution and Optimum Seeking. [2] Z. Michalewicz and D.B. Fogel, How to Solve It: Modern Heuristics. [3] T. Bäck and D.B. Fogel, Evolutionary Computation I and II. (Cook Book) [4] J. Maynard Smith and E. Szathmary, The Major Transitions in Evolution [5] S. Kauffman, The Origins of Order. [6] D.J. Futuyama, Evolutionary Biologie.