Struktur in der Bioinformatik

Ähnliche Dokumente
MOL.504 Analyse von DNA- und Proteinsequenzen

Was ist Bioinformatik?

MM Proteinmodelling. Michael Meyer. Vorlesung XVII

Informationsvisualisierung

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Algorithmische Bioinformatik

RNA Sekundärstruktur

BI BIL E GK?? 1 BI GK HT 2 Seite 1 von 5. Abiturprüfung Biologie, Grundkurs

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Aminosäuren. Seitenkette. -Kohlenstoffatom. Karboxilgruppe. Aminogruppe

Eine RNA-Menagerie: mirnas und andere kodierende und nichtkodierende RNAs

Genannotation bei Prokaryoten

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Biologie + Informatik = Bioinformatik??? Dr. Ursula Rost Bioinformatics and Computational Biochemistry European Media Laboratory Heidelberg

Algorithmische Bioinformatik

Threading - Algorithmen

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Vorlesung Evolutionäre Algorithmen

Statistische Verfahren:

Expression der genetischen Information Skript: Kapitel 5

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik

Nach Terpenen und Kohlenhydraten nun eine weitere große Klasse an Naturstoffen

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

From gene to 3D model

Einführung in die Biochemie Antworten zu den Übungsaufgaben

Vorlesung Bioinformatik Protein Threading

Bioinformatik. Methoden zur Vorhersage vo n RNA- und Proteinstrukture n. Gerhard Steger

Sequenz Alignment Teil 2

Einführung in die Bioinformatik

RNA Strukturvorhersage

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Datenspeicherung und Datenfluß in der Zelle - Grundlagen der Biochemie

Einführung in die Bioinformatik Algorithmen zur Sequenzanalyse

Vorlesung Biophysik I - Molekulare Biophysik Kalbitzer/Kremer/Ziegler

Python im Bioinformatiker-Alltag

Einführung in die Bioinformatik

Aminosäuren - Proteine

Vorlesung Einführung in die Bioinformatik

Abiturprüfung Biologie, Grundkurs

Aufbau, Struktur, Funktion von DNA, RNA und Proteinen

Algorithmische Bioinformatik

Bioinformatik I. Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002

Statistische Methoden in der Bioinformatik

8. Translation. Konzepte: Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation - Elongation - Termination

Wichtige Themen aus der Vorlesung Bioinformatik I WS 2013/2014

Algorithmen auf Sequenzen

Typische Speicherfehler in C

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz

Bioinformatik I (Einführung)

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

DNS-Modell Best.-Nr

Einführung in die Programmierung

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Bei Einbeziehung von neun Allelen in den Vergleich ergibt sich eine Mutation in 38 Generationen (350:9); das entspricht ca. 770 Jahren.

Algorithms and Hardness Results for DNA Physical Mapping, Protein Identification, and Related Combinatorial Problems

RNA- und DNA-Strukturen Strukturelle Bioinformatik WS15/16

Resistenz gegen HIV (Computer- und Internet-basierte Aufgabe)

Sequenzen-Alignierung in der Bioinformatik

Aminosäurenanalytik. Probenvorbereitung Eiweißfällung, Oxidation und Hydrolyse Karl-Heinz Jansen SYKAM CHROMATOGRAPHIE

Molekularbiologische Datenbanken

DATENQUALITÄT IN GENOMDATENBANKEN

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Algorithmische Bioinformatik 1

Construction of Protein Binding Sites in Scaffold Structures

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop März Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Vorlesung Einführung in die Bioinformatik

Vorlesung Molekulare Humangenetik

Molekularbiologische Grundlagen

Eine neue RNA-Welt. Uralte RNA-Welt Am Anfang der Entstehung des Lebens. Bekannte RNA-Welt Protein-Synthese. Neue RNA-Welt Regulatorische RNA-Moleküle

Gen Protein Aufgaben: Edel LK-Bio BI-3

Die wichtigsten Bioinformatikdatenbanken. SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Codierung und Repräsentation

Genomsequenzierung für Anfänger

5.2. Differenzierung und Quantifizierung von Rind und Schwein mittels Real-Time PCR

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY

Von der DNA zur Datenbank: Sequenzierung & Assemblierung

Bioinformatik an der FH Bingen

Epigenetik. J. Breckow

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

4. Genetische Mechanismen bei Bakterien

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Wichtige Themen aus der Vorlesung Bioinformatik II SS 2014

PCR basierte- Detektionstechniken

Read Mapping Projektmanagement im So3warebereich SeqAn

Kraftfeldmethoden von der Energieminimierung zur Moleküldynamik. Frank Cordes

1. Die Gene befinden sich im Zellkern. Zellleib. 2. Chromosomen bestehen aus DNA. 4. Ein Gen ist ein DNA-Abschnitt 7. Protein-Herstellung nach Bedarf

Programmiersprachen in der Bioinformatik

Mathematik und Naturwissenschaften, Biologie, Biochemie. Biochemie II - Tutorium

Das zentrale Dogma der Molekularbiologie:

Neue DNA Sequenzierungstechnologien im Überblick

Mathematik und Naturwissenschaften, Biologie, Biochemie. Biochemie II - Tutorium

Sequenz- und Kommunikationsdiagrammen. Systemmodellierung mit SysML von Michel Manthey

Sequenzanalysen in der Molekularpathologie: Grundlagen des Sequenzierens

Zusätzliche Behandlungs möglichkeiten für Ihre Patienten

Transkript:

Struktur in der Bioinformatik Rolf Backofen Lehrstuhl für Bioinformatik Institut für Informatik FS Jena Überblick Einführung nwendungsbeispiel: Selenoproteine Proteinfaltung Protein Docking c R. Backofen 1

Funktion und Programm Fakultätsfunktion f(0) := 1 f(i + 1) := f(i) (i + 1) Programm: int n,f,i; main (i/nt argc, char argv[]) { n = atoi(argv[1]); f=1; for (i=0;i<n;i++) f = f(i+1); printf("%i\n",f); } c R. Backofen 2-a

457f464c010100010000000000000000000200030001000083600804003400002320000000000000 0034002000060028001d001a0006000000340000803408048034080400c0000000c0000000050000 000400000003000000f4000080f4080480f408040013000000130000000400000001000000010000 00000000800008048000080405080000050800000005000010000000000100000508000095080804 9508080400e4000001080000000600001000000000020000054c0000954c0804954c080400a00000 00a00000000600000004000000040000010800008108080481080804002000000020000000040000 000400006c2f62696c2f2d64696c756e2e786f73322e00000004000000100000000100004e470055 00000000000200000000000000000000000300000008000000010000000600000005000000000000 00040000000000000007000000000000000200000003000000000000000000000000000000000000 0000000000010000000000000000000000200000001a000083340804002d00000012000000210000 8314080400ba00000022000000390000834408040026000000120000003e00008500080400040000 0011000e004d0000832408040109000000120000005f00008304080400760000002200005f00675f 6f6d5f6e747372615f74005f696c6362732e2e6f003672706e6966745f00645f7265676573696574 5f7272666d615f656e696f6661006f740069495f5f4f747369645f6e737564655f006c5f62695f63 747372615f74616d6e695f00725f6765736965745f7272666d615f656e696f664700494c4342325f 302e0000000000000002000200020001000200020001000100100000001000000000000069100d69 000000020075000000000000954808040106000095340804070700009538080403070000953c0804 060700009540080402070000954408040407000000000000895553e500e800005b00c381125f0000 bb83002000007400e8057d22f7fbf6890be80001e80001b600005d8b89fc5dec00c3000035ff952c 080425ff953008040000000025ff9534080400680000e900ffe0ffff25ff9538080408680000e900 ffd0ffff25ff953c080410680000e900ffc0ffff25ff9540080418680000e900ffb0ffff25ff9544 080420680000e900ffa0ffff000000000000000000000000ed31895e83e1f8e45450685284e00804 c06804825108685684200804a3e8fffff4ff9090909090909090909090909090895583e5103d0495 000838750febf689508d89040c1504958b08ff00a1d0950c080438837500b8e983140804c0850a74 14680495e808ff4affff05c79510080400010000ec89c35d8d9026b400000000895589e55dec89c3 8df627bc000000008955b8e583040... c R. Backofen 2-b

Vergleich: menschl. hromosom 22 (33.4 Mio Basenpaare) GTTGTGTGGTTGGGTGTGGTTGGGTTTTTTGGTTGGTGGG TGTGTTTGGGTGGTTGGGGGGTTGTTGGTTTTTGTTTTTGTT TTTGTGTGGTGGGTTGTGGTGGGTGGGGGTTTTGTTTTTTTTT GGTTTTTTTTTTTTTTGGGGGGGTTTTTTTTTTTGGTGTTTGTGT TGTTTTTTTTTTGTTTGGGGTTTTTTTTTTGTTGGTTTGG TTTGTTTTGGTTGTGGTTTTGTGTTTTTTTTTTTGGTGTG TGTTTTGTGGTGGGGGGTTTTGTTTTTTTTTTGGGT TTTTTTTTTTTTGGGTGTGTGGGTTTTGTGTGGGTGTGGTTGTG GTGGTTGTTTTTGGTTTTTGTTGTGTTTTTGGGTTTTTTG GGGTTGGTGTTTTTTTGTGTTTTGGTGGTTTTTTTTTTTTGTTGGG TTTTTGGGTGGTTGGGGGTGTTTGGTTGTGGGGTT TGTTTTGTTGTTGGGTGTTGTGTTGTGGGGGGGTTGTTTGGGGTG GGTTTGGTGGTGTGGTGTGGTGTGTTTTTTGTTGGTGTGTTGT TTTTTGTGGGGTGGGGGTGTGTTTGGGTTTTTGTGTT TTGTTTGGGGTTTTTGTGTTGGTGTGGTTTTTGTT TTTTTGGGTTTTTTTTTTTGGTTGTGTGTTGTGTGGTGGTTGGGT GTTTGGTTTTGTTGTTTTTGGTTTTGGTGTTGG TTGTGTTGGGGGGGGTGGTTTTTTTTGTTTGT TTTTGGTGTTGTTTGTGGTTTTGGGGGTTGTTTGTTG GTTTGGGTGTGGGGGGGGTTTGGTTGTTTTGTTTTTTGTTGGG GTTTGTTTTGTTTGGTTTTTTGTTTTTTTGTGTTGGGGTT TTGTTTTTGTTTTTTTGTTTTTTTTGTTTTTT TTGTGGGTTGTTTTTTTGTGGGTTTGTGGTGTG TTTTTGTTTGTTTGTTGGTGGTGGGTGGTTGTGTTG TTTGGGGGTGGGGGGTGTTGGGTGGGTTGGTGGTGGTGGTT TTTTGGTTGGTGGTGGG... c R. Backofen 2-c

Funktion Funktion wird verstanden aus 3-dimensionaler Struktur Sekundärstruktur Organisationsstruktur c R. Backofen 2-d

Bioinformatik: Essentiell für Biologische Forschung Beispiel Genom Genom Sequenz GTTGTGTGGTTGGGTGTGGTTGGGTTTTTTGGTT GGTGGGTGTGTTTGGGTGGTTGGGGGGTTGTTGGTTTTT GTTTTTGTTTTTGTGTGGTGGGTTGTGGTGGGTGGGGGT TTTGTTTTTTTTTGGTTTTTTTTTTTTTTGGGGGGGTTT TTTTTTTTGGTGTTTGTGTTGTTTTTTTTTTGTTTGGGGT TTTTTTTTTGTTGGTTTGGTTTGTTTTGGTTGTGGT TTTGTGTTTTTTTTTTTGGTGTGTGTTTTG TGGTGGGGGGTTTTGTTTTTTTTTTGGGTTTTTTTTTTT TTGGGTGTGTGGGTTTTGTGTGGGTGTGGTTGTGGTGG TTGTTTTTGGTTTTTGTTGTGTTTTTGGGTTTTTTG GGGTTGGTGTTTTTTTGTGTTTTGGTGGTTTTTTTTTTTTG TTGGGTTTTTGGGTGGTTGGGGGTGTTTGGTTGT GGGGTTTGTTTTGTTGTTGGGTGTTGTGTTGTGGGG GGGTTGTTTGGGGTGGGTTTGGTGGTGTGGTGTGGTGTGTT TTTTGTTGGTGTGTTGTTTTTTGTGGGGTGGGGG TGTGTTTGGGTTTTTGTGTTTTGTTTGGGGTT TTTGTGTTGGTGTGGTTTTTGTTTTTTTGGGTTTTTT Zerschneiden TTTTTGGTTGTGTGTTGTGTGGTGGTTGGGTGTTTGG TTTTGTTGTTTTTGGTTTTGGTGTTGGTT GTGTTGGGGGGGGTGGTTTTTTTTGTTTGT TTTTGGTGTTGTTTGTGGTTTTGGGGGTTGTTT GTTGGTTTGGGTGTGGGGGGGGTTTGGTTGTTTTGTTTTTTGT TGGGGTTTGTTTTGTTTGGTTTTTTGTTTTTT TGTGTTGGGGTTTTGTTTTTGTTTTTTT GTTTTTTTTGTTTTTTTTGTGGGTTGTTTTTTTG TGGGTTTGTGGTGTGTTTTTGTTTGTTTGTTG GTGGTGGGTGGTTGTGTTGTTTGGGGGTGGGGGGTGT TGGGTGGGTTGGTGGTGGTGGTTTTT Whole Shotgun Sequencing GT... G... TG... GG... Sequenzierung der Fragmente Überlagerung...GT G G TG... ber: lgorithmus biologische Wirklichkeit (Bsp. Repeats)... GGG GGGG... GGGG GGGG... c R. Backofen 3

Bioinformatik: Essentiell für Biologische Forschung Beispiel Genom Genom Sequenz GTTGTGTGGTTGGGTGTGGTTGGGTTTTTTGGTT GGTGGGTGTGTTTGGGTGGTTGGGGGGTTGTTGGTTTTT GTTTTTGTTTTTGTGTGGTGGGTTGTGGTGGGTGGGGGT TTTGTTTTTTTTTGGTTTTTTTTTTTTTTGGGGGGGTTT TTTTTTTTGGTGTTTGTGTTGTTTTTTTTTTGTTTGGGGT TTTTTTTTTGTTGGTTTGGTTTGTTTTGGTTGTGGT TTTGTGTTTTTTTTTTTGGTGTGTGTTTTG TGGTGGGGGGTTTTGTTTTTTTTTTGGGTTTTTTTTTTT TTGGGTGTGTGGGTTTTGTGTGGGTGTGGTTGTGGTGG TTGTTTTTGGTTTTTGTTGTGTTTTTGGGTTTTTTG GGGTTGGTGTTTTTTTGTGTTTTGGTGGTTTTTTTTTTTTG TTGGGTTTTTGGGTGGTTGGGGGTGTTTGGTTGT GGGGTTTGTTTTGTTGTTGGGTGTTGTGTTGTGGGG GGGTTGTTTGGGGTGGGTTTGGTGGTGTGGTGTGGTGTGTT TTTTGTTGGTGTGTTGTTTTTTGTGGGGTGGGGG TGTGTTTGGGTTTTTGTGTTTTGTTTGGGGTT TTTGTGTTGGTGTGGTTTTTGTTTTTTTGGGTTTTTT Zerschneiden TTTTTGGTTGTGTGTTGTGTGGTGGTTGGGTGTTTGG TTTTGTTGTTTTTGGTTTTGGTGTTGGTT GTGTTGGGGGGGGTGGTTTTTTTTGTTTGT TTTTGGTGTTGTTTGTGGTTTTGGGGGTTGTTT GTTGGTTTGGGTGTGGGGGGGGTTTGGTTGTTTTGTTTTTTGT TGGGGTTTGTTTTGTTTGGTTTTTTGTTTTTT TGTGTTGGGGTTTTGTTTTTGTTTTTTT GTTTTTTTTGTTTTTTTTGTGGGTTGTTTTTTTG TGGGTTTGTGGTGTGTTTTTGTTTGTTTGTTG GTGGTGGGTGGTTGTGTTGTTTGGGGGTGGGGGGTGT TGGGTGGGTTGGTGGTGGTGGTTTTT Whole Shotgun Sequencing GT... G... TG... GG... Sequenzierung der Fragmente Überlagerung...GT G G TG... ber: lgorithmus biologische Wirklichkeit (Bsp. Repeats)... GGG GGGG... GGGG GGGG... c R. Backofen 3

Zentrales Dogma DNS: lineare Kette von Nukleotiden {,,G,T} RNS: lineare Kette von Nukleotiden {,,G,} Proteine: lineare Kette von minosäuren (20 versch.) Informationsfluß in der Biologie: DN RN Protein c R. Backofen 4

3 Hauptbereiche der Bioinformatik auf zentrales Dogma bezogen: Sequenz, Struktur und Funktion von Proteinen Datenbezogen Speicherung (Repräsentation) und Suche Datenanalyse, Data mining exponentielles Wachstum der Daten Simulation von biologischen Prozessen Proteinfaltung, Metabolische Pfade E-ell c R. Backofen 5

Weiterer Inhalt nwendungsbeispiel: Selenoproteine seltene, aber wichtige minosäure Selenocystein Translation strukturabhängig relevante Bioinformatikprobleme Proteinfaltung Problemdefinition und Lösungansätze Proteinfaltung im Kontext Proteindocking c R. Backofen 6

Translation von Proteinen DN mrn Protein n His genetischer ode: 20 minosäuren alle odons belegt odon G Phe Ser Tyr ys Phe Ser Tyr ys Leu Ser Stop Stop Leu Ser Stop Trp G Leu Pro His rg............ STOP-odon: mrn Ribosom G STOP c R. Backofen 7

Selenocystein (Sec) Selenocystein (Sec): zusätzliche, 21te minosäure! in allen Domänen kodiert durch STOP-codon G (Overloading!) Selenoproteine: Proteine mit Selenocystein (Sec) wichtige Funktion (auch beim Menschen) Schutz vor oxidativen Streß, Selendiät Translation: erfordert SEIS-Element (= Sec Insertion Sequence) SEIS = Sequenz mit hairpin-artiger Struktur SEIS G c R. Backofen 8

Problem 1: DN und Proteinsequenz Gegeben DN Welche Proteinsequenz? GGG GGGGG RN-Sekundärstruktur: welche Basenpaarungen (, G)? dynamisches Programmierverfahren O(n 3 ). Bsp.: Maximale nzahl von Basenpaarung für a = a 1... a n Rekursionsgleichung für Paarungen von a i... a j : #-Paare(i + 1, j 1) + 1 falls (a i, a j ) paart #-Paare(i + 1, j) #-Paare(i, j) = max #-Paare(i, j 1) { } #-Paare(i, k) + #-Paare(k + 1, j) ktuelles Forschungsproblem: Pseudoknoten max i<k<j 1 2 3 9 8 7 6 5 4 10 11 12 c R. Backofen 9

Problem 1: DN und Proteinsequenz Gegeben DN Welche Proteinsequenz? GGG GGGGG RN-Sekundärstruktur: welche Basenpaarungen (, G)? dynamisches Programmierverfahren O(n 3 ). Bsp.: Maximale nzahl von Basenpaarung für a = a 1... a n Rekursionsgleichung für Paarungen von a i... a j : #-Paare(i + 1, j 1) + 1 falls (a i, a j ) paart #-Paare(i + 1, j) #-Paare(i, j) = max #-Paare(i, j 1) { } #-Paare(i, k) + #-Paare(k + 1, j) ktuelles Forschungsproblem: Pseudoknoten max i<k<j 1 2 3 9 8 7 6 5 4 10 11 12 c R. Backofen 9

Problem 1: DN und Proteinsequenz Gegeben DN Welche Proteinsequenz? GGG GGGGG RN-Sekundärstruktur: welche Basenpaarungen (, G)? dynamisches Programmierverfahren O(n 3 ). Bsp.: Maximale nzahl von Basenpaarung für a = a 1... a n Rekursionsgleichung für Paarungen von a i... a j : #-Paare(i + 1, j 1) + 1 falls (a i, a j ) paart #-Paare(i + 1, j) #-Paare(i, j) = max #-Paare(i, j 1) { } #-Paare(i, k) + #-Paare(k + 1, j) ktuelles Forschungsproblem: Pseudoknoten max i<k<j 1 2 3 9 8 7 6 5 4 10 11 12 c R. Backofen 9

Problem 1: DN und Proteinsequenz Gegeben DN Welche Proteinsequenz? GGG GGGGG RN-Sekundärstruktur: welche Basenpaarungen (, G)? dynamisches Programmierverfahren O(n 3 ). Bsp.: Maximale nzahl von Basenpaarung für a = a 1... a n Rekursionsgleichung für Paarungen von a i... a j : #-Paare(i + 1, j 1) + 1 falls (a i, a j ) paart #-Paare(i + 1, j) #-Paare(i, j) = max #-Paare(i, j 1) { } #-Paare(i, k) + #-Paare(k + 1, j) ktuelles Forschungsproblem: Pseudoknoten max i<k<j 1 2 3 9 8 7 6 5 4 10 11 12 c R. Backofen 9

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Problem 2: harakterisierung von SEIS-Elementen SEIS-Element erlaubt Variation, Suche nach Sequenz/Strukturmuster notwendig, um Mechanismus aufzuklären. ber: nur Sequenzen bekannt, Struktur vermutet nsatz: Strukturen aus Strukturvorhersage Bestimmung der Konsensus-Struktur Sequenzalignment aus Konsensus-Struktur Sequenzalignment und Konsensus-Struktur consensus structure s 1 G G s 2 /G s 3 s 4 G G c R. Backofen 10

Proteinfaltungsproblem Protein: lineare Sequenz von minosäuren GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY eindeutig = aber unbekannt native Konformation biochemische nsätze: aufwendig, schwierig Sequence/Structure Gap rotein Data Bank (PDB): Neueintragungen 0 0 0 0 Strukturvorhersage: 0 80 85 90 95 durch Faltungssimulation: nur kleine Moleküle als Suchproblem Vereinfachte Modelle 99 c R. Backofen 11

Proteinfaltungsproblem Protein: lineare Sequenz von minosäuren GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY eindeutig = aber unbekannt native Konformation biochemische nsätze: aufwendig, schwierig Sequence/Structure Gap rotein Data Bank (PDB): Neueintragungen 0 0 0 0 Strukturvorhersage: 0 80 85 90 95 durch Faltungssimulation: nur kleine Moleküle als Suchproblem Vereinfachte Modelle 99 c R. Backofen 11

Beispiel: Hierarchische nsätze zur Strukturvorhersage GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY 10 000 100 Suche im Modell geringer uflösung Verfeinerung: biolog. Wissen, Faltungssimulation Modell geringer uflösung: Problem: bisher ad hoc Suchverfahren Bioinformatikmethoden c R. Backofen 12

Häufigste Modellklasse: Gittermodelle nur Backbone-Struktur, Position ˆ= Gitterpositionen kubisch: F: vereinfachte Energiefunktion: z.b. nur hydrophobe Kraft Komplexität: nzahl Konformation der Länge n: 4, 68 n native Konformation: NP-hart H c R. Backofen 13

Informatikansätze vollständige Enumeration: 4, 68 n Konformationen hauptsächlich: heuristische Methoden Monte arlo mit Simulated nnealing: local moves pivot moves : greedy: chain-growth Methode genetic algorithms klassische Optimierungsmethoden: branch-and-bound, ILP c R. Backofen 14

onstraint-basierte Strukturfaltung onstraint-programmierung: Branch-and-Bound + Propagierung Position i.te minos. p Position i.te minos. p Resultate: Threading auf 100er ore Seq. Länge Runtime S1 135 9 s S2 151 15 s S3 161 18 s S4 164 11 s c R. Backofen 15

onstraint-basierte Strukturfaltung onstraint-programmierung: Branch-and-Bound + Propagierung Position i.te minos. p Position i.te minos. p Resultate: Threading auf 100er ore Seq. Länge Runtime S1 135 9 s S2 151 15 s S3 161 18 s S4 164 11 s c R. Backofen 15

onstraint-basierte Strukturfaltung onstraint-programmierung: Branch-and-Bound + Propagierung Position i.te minos. p Position i.te minos. p Resultate: Threading auf 100er ore Seq. Länge Runtime S1 135 9 s S2 151 15 s S3 161 18 s S4 164 11 s c R. Backofen 15

Strukturvorhersage im Kontext Strukturvorhersage + homologie-basiertes Modellieren GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY, + PLEPEYPG DNTPEQM QYELRRY INMLTRPRY Proteindesign verwandtes Protein mit bekannter Struktur GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY Protein-Engineering: Modifikation bestehender Proteine c R. Backofen 16

Strukturvorhersage im Kontext Strukturvorhersage + homologie-basiertes Modellieren GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY, + PLEPEYPG DNTPEQM QYELRRY INMLTRPRY Proteindesign verwandtes Protein mit bekannter Struktur GPSQPTYPG DDPVEDLI RFYDNLQQY LNVVTRHRY Protein-Engineering: Modifikation bestehender Proteine c R. Backofen 16

Protein Docking 1:1-Docking Bestimme, ob und wie und B einen stabilen Komplex bilden B 1:n Docking Bestimme die Proteine in der Proteindatenbank PDB, die mit einen stabilen Komplex bilden? PDB = Probleme: komplexe Ähnlichkeit (Optimierierungsproblem, Branch-and-Bound) große Datenbanken Filterung der Einträge c R. Backofen 17

Similarity Ranking 3D Shape Histograms 1SER-B againts PDB c R. Backofen 18

Zusammenfassung Struktur in der Biologie: auf verschiedenen Ebenen 3-dimensionaler Struktur Sekundärstruktur Organisationsstruktur Sequence/Structure Gap Sequenz einfach, Strukturauflösung schwer entspr. Informatikproblem schwere Optimierungsprobleme ber: Funktion wird aus Struktur verstanden c R. Backofen 19