Struktur in der Bioinformatik

Struktur in der Bioinformatik Rolf Backofen Lehrstuhl für Bioinformatik Institut für Informatik FS Jena Überblick Einführung nwendungsbeispiel: Selenoproteine Proteinfaltung Protein Docking c R. Backofen 1

Funktion und Programm Fakultätsfunktion f(0) := 1 f(i + 1) := f(i) (i + 1) Programm: int n,f,i; main (i/nt argc, char argv[]) { n = atoi(argv[1]); f=1; for (i=0;i<n;i++) f = f(i+1); printf("%i\n",f); } c R. Backofen 2-a

457f464c010100010000000000000000000200030001000083600804003400002320000000000000 0034002000060028001d001a0006000000340000803408048034080400c0000000c0000000050000 000400000003000000f4000080f4080480f408040013000000130000000400000001000000010000 00000000800008048000080405080000050800000005000010000000000100000508000095080804 9508080400e4000001080000000600001000000000020000054c0000954c0804954c080400a00000 00a00000000600000004000000040000010800008108080481080804002000000020000000040000 000400006c2f62696c2f2d64696c756e2e786f73322e00000004000000100000000100004e470055 00000000000200000000000000000000000300000008000000010000000600000005000000000000 00040000000000000007000000000000000200000003000000000000000000000000000000000000 0000000000010000000000000000000000200000001a000083340804002d00000012000000210000 8314080400ba00000022000000390000834408040026000000120000003e00008500080400040000 0011000e004d0000832408040109000000120000005f00008304080400760000002200005f00675f 6f6d5f6e747372615f74005f696c6362732e2e6f003672706e6966745f00645f7265676573696574 5f7272666d615f656e696f6661006f740069495f5f4f747369645f6e737564655f006c5f62695f63 747372615f74616d6e695f00725f6765736965745f7272666d615f656e696f664700494c4342325f 302e0000000000000002000200020001000200020001000100100000001000000000000069100d69 000000020075000000000000954808040106000095340804070700009538080403070000953c0804 060700009540080402070000954408040407000000000000895553e500e800005b00c381125f0000 bb83002000007400e8057d22f7fbf6890be80001e80001b600005d8b89fc5dec00c3000035ff952c 080425ff953008040000000025ff9534080400680000e900ffe0ffff25ff9538080408680000e900 ffd0ffff25ff953c080410680000e900ffc0ffff25ff9540080418680000e900ffb0ffff25ff9544 080420680000e900ffa0ffff000000000000000000000000ed31895e83e1f8e45450685284e00804 c06804825108685684200804a3e8fffff4ff9090909090909090909090909090895583e5103d0495 000838750febf689508d89040c1504958b08ff00a1d0950c080438837500b8e983140804c0850a74 14680495e808ff4affff05c79510080400010000ec89c35d8d9026b400000000895589e55dec89c3 8df627bc000000008955b8e583040... c R. Backofen 2-b

Vergleich: menschl. hromosom 22 (33.4 Mio Basenpaare) GTTGTGTGGTTGGGTGTGGTTGGGTTTTTTGGTTGGTGGG TGTGTTTGGGTGGTTGGGGGGTTGTTGGTTTTTGTTTTTGTT TTTGTGTGGTGGGTTGTGGTGGGTGGGGGTTTTGTTTTTTTTT GGTTTTTTTTTTTTTTGGGGGGGTTTTTTTTTTTGGTGTTTGTGT TGTTTTTTTTTTGTTTGGGGTTTTTTTTTTGTTGGTTTGG TTTGTTTTGGTTGTGGTTTTGTGTTTTTTTTTTTGGTGTG TGTTTTGTGGTGGGGGGTTTTGTTTTTTTTTTGGGT TTTTTTTTTTTTGGGTGTGTGGGTTTTGTGTGGGTGTGGTTGTG GTGGTTGTTTTTGGTTTTTGTTGTGTTTTTGGGTTTTTTG GGGTTGGTGTTTTTTTGTGTTTTGGTGGTTTTTTTTTTTTGTTGGG TTTTTGGGTGGTTGGGGGTGTTTGGTTGTGGGGTT TGTTTTGTTGTTGGGTGTTGTGTTGTGGGGGGGTTGTTTGGGGTG GGTTTGGTGGTGTGGTGTGGTGTGTTTTTTGTTGGTGTGTTGT TTTTTGTGGGGTGGGGGTGTGTTTGGGTTTTTGTGTT TTGTTTGGGGTTTTTGTGTTGGTGTGGTTTTTGTT TTTTTGGGTTTTTTTTTTTGGTTGTGTGTTGTGTGGTGGTTGGGT GTTTGGTTTTGTTGTTTTTGGTTTTGGTGTTGG TTGTGTTGGGGGGGGTGGTTTTTTTTGTTTGT TTTTGGTGTTGTTTGTGGTTTTGGGGGTTGTTTGTTG GTTTGGGTGTGGGGGGGGTTTGGTTGTTTTGTTTTTTGTTGGG GTTTGTTTTGTTTGGTTTTTTGTTTTTTTGTGTTGGGGTT TTGTTTTTGTTTTTTTGTTTTTTTTGTTTTTT TTGTGGGTTGTTTTTTTGTGGGTTTGTGGTGTG TTTTTGTTTGTTTGTTGGTGGTGGGTGGTTGTGTTG TTTGGGGGTGGGGGGTGTTGGGTGGGTTGGTGGTGGTGGTT TTTTGGTTGGTGGTGGG... c R. Backofen 2-c

Funktion Funktion wird verstanden aus 3-dimensionaler Struktur Sekundärstruktur Organisationsstruktur c R. Backofen 2-d

Bioinformatik: Essentiell für Biologische Forschung Beispiel Genom Genom Sequenz GTTGTGTGGTTGGGTGTGGTTGGGTTTTTTGGTT GGTGGGTGTGTTTGGGTGGTTGGGGGGTTGTTGGTTTTT GTTTTTGTTTTTGTGTGGTGGGTTGTGGTGGGTGGGGGT TTTGTTTTTTTTTGGTTTTTTTTTTTTTTGGGGGGGTTT TTTTTTTTGGTGTTTGTGTTGTTTTTTTTTTGTTTGGGGT TTTTTTTTTGTTGGTTTGGTTTGTTTTGGTTGTGGT TTTGTGTTTTTTTTTTTGGTGTGTGTTTTG TGGTGGGGGGTTTTGTTTTTTTTTTGGGTTTTTTTTTTT TTGGGTGTGTGGGTTTTGTGTGGGTGTGGTTGTGGTGG TTGTTTTTGGTTTTTGTTGTGTTTTTGGGTTTTTTG GGGTTGGTGTTTTTTTGTGTTTTGGTGGTTTTTTTTTTTTG TTGGGTTTTTGGGTGGTTGGGGGTGTTTGGTTGT GGGGTTTGTTTTGTTGTTGGGTGTTGTGTTGTGGGG GGGTTGTTTGGGGTGGGTTTGGTGGTGTGGTGTGGTGTGTT TTTTGTTGGTGTGTTGTTTTTTGTGGGGTGGGGG TGTGTTTGGGTTTTTGTGTTTTGTTTGGGGTT TTTGTGTTGGTGTGGTTTTTGTTTTTTTGGGTTTTTT Zerschneiden TTTTTGGTTGTGTGTTGTGTGGTGGTTGGGTGTTTGG TTTTGTTGTTTTTGGTTTTGGTGTTGGTT GTGTTGGGGGGGGTGGTTTTTTTTGTTTGT TTTTGGTGTTGTTTGTGGTTTTGGGGGTTGTTT GTTGGTTTGGGTGTGGGGGGGGTTTGGTTGTTTTGTTTTTTGT TGGGGTTTGTTTTGTTTGGTTTTTTGTTTTTT TGTGTTGGGGTTTTGTTTTTGTTTTTTT GTTTTTTTTGTTTTTTTTGTGGGTTGTTTTTTTG TGGGTTTGTGGTGTGTTTTTGTTTGTTTGTTG GTGGTGGGTGGTTGTGTTGTTTGGGGGTGGGGGGTGT TGGGTGGGTTGGTGGTGGTGGTTTTT Whole Shotgun Sequencing GT... G... TG... GG... Sequenzierung der Fragmente Überlagerung...GT G G TG... ber: lgorithmus biologische Wirklichkeit (Bsp. Repeats)... GGG GGGG... GGGG GGGG... c R. Backofen 3

Zentrales Dogma DNS: lineare Kette von Nukleotiden {,,G,T} RNS: lineare Kette von Nukleotiden {,,G,} Proteine: lineare Kette von minosäuren (20 versch.) Informationsfluß in der Biologie: DN RN Protein c R. Backofen 4

3 Hauptbereiche der Bioinformatik auf zentrales Dogma bezogen: Sequenz, Struktur und Funktion von Proteinen Datenbezogen Speicherung (Repräsentation) und Suche Datenanalyse, Data mining exponentielles Wachstum der Daten Simulation von biologischen Prozessen Proteinfaltung, Metabolische Pfade E-ell c R. Backofen 5

Weiterer Inhalt nwendungsbeispiel: Selenoproteine seltene, aber wichtige minosäure Selenocystein Translation strukturabhängig relevante Bioinformatikprobleme Proteinfaltung Problemdefinition und Lösungansätze Proteinfaltung im Kontext Proteindocking c R. Backofen 6

Translation von Proteinen DN mrn Protein n His genetischer ode: 20 minosäuren alle odons belegt odon G Phe Ser Tyr ys Phe Ser Tyr ys Leu Ser Stop Stop Leu Ser Stop Trp G Leu Pro His rg............ STOP-odon: mrn Ribosom G STOP c R. Backofen 7

Selenocystein (Sec) Selenocystein (Sec): zusätzliche, 21te minosäure! in allen Domänen kodiert durch STOP-codon G (Overloading!) Selenoproteine: Proteine mit Selenocystein (Sec) wichtige Funktion (auch beim Menschen) Schutz vor oxidativen Streß, Selendiät Translation: erfordert SEIS-Element (= Sec Insertion Sequence) SEIS = Sequenz mit hairpin-artiger Struktur SEIS G c R. Backofen 8

Problem 1: DN und Proteinsequenz Gegeben DN Welche Proteinsequenz? GGG GGGGG RN-Sekundärstruktur: welche Basenpaarungen (, G)? dynamisches Programmierverfahren O(n 3 ). Bsp.: Maximale nzahl von Basenpaarung für a = a 1... a n Rekursionsgleichung für Paarungen von a i... a j : #-Paare(i + 1, j 1) + 1 falls (a i, a j ) paart #-Paare(i + 1, j) #-Paare(i, j) = max #-Paare(i, j 1) { } #-Paare(i, k) + #-Paare(k + 1, j) ktuelles Forschungsproblem: Pseudoknoten max i<k<j 1 2 3 9 8 7 6 5 4 10 11 12 c R. Backofen 9

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Proteinfaltungsproblem Protein: lineare Sequenz von minosäuren GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY eindeutig = aber unbekannt native Konformation biochemische nsätze: aufwendig, schwierig Sequence/Structure Gap rotein Data Bank (PDB): Neueintragungen 0 0 0 0 Strukturvorhersage: 0 80 85 90 95 durch Faltungssimulation: nur kleine Moleküle als Suchproblem Vereinfachte Modelle 99 c R. Backofen 11

Beispiel: Hierarchische nsätze zur Strukturvorhersage GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY 10 000 100 Suche im Modell geringer uflösung Verfeinerung: biolog. Wissen, Faltungssimulation Modell geringer uflösung: Problem: bisher ad hoc Suchverfahren Bioinformatikmethoden c R. Backofen 12

Häufigste Modellklasse: Gittermodelle nur Backbone-Struktur, Position ˆ= Gitterpositionen kubisch: F: vereinfachte Energiefunktion: z.b. nur hydrophobe Kraft Komplexität: nzahl Konformation der Länge n: 4, 68 n native Konformation: NP-hart H c R. Backofen 13

Informatikansätze vollständige Enumeration: 4, 68 n Konformationen hauptsächlich: heuristische Methoden Monte arlo mit Simulated nnealing: local moves pivot moves : greedy: chain-growth Methode genetic algorithms klassische Optimierungsmethoden: branch-and-bound, ILP c R. Backofen 14

onstraint-basierte Strukturfaltung onstraint-programmierung: Branch-and-Bound + Propagierung Position i.te minos. p Position i.te minos. p Resultate: Threading auf 100er ore Seq. Länge Runtime S1 135 9 s S2 151 15 s S3 161 18 s S4 164 11 s c R. Backofen 15

Strukturvorhersage im Kontext Strukturvorhersage + homologie-basiertes Modellieren GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY, + PLEPEYPG DNTPEQM QYELRRY INMLTRPRY Proteindesign verwandtes Protein mit bekannter Struktur GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY Protein-Engineering: Modifikation bestehender Proteine c R. Backofen 16

Protein Docking 1:1-Docking Bestimme, ob und wie und B einen stabilen Komplex bilden B 1:n Docking Bestimme die Proteine in der Proteindatenbank PDB, die mit einen stabilen Komplex bilden? PDB = Probleme: komplexe Ähnlichkeit (Optimierierungsproblem, Branch-and-Bound) große Datenbanken Filterung der Einträge c R. Backofen 17

Similarity Ranking 3D Shape Histograms 1SER-B againts PDB c R. Backofen 18

Zusammenfassung Struktur in der Biologie: auf verschiedenen Ebenen 3-dimensionaler Struktur Sekundärstruktur Organisationsstruktur Sequence/Structure Gap Sequenz einfach, Strukturauflösung schwer entspr. Informatikproblem schwere Optimierungsprobleme ber: Funktion wird aus Struktur verstanden c R. Backofen 19