Alignment von DNA- und Proteinsequenzen



Ähnliche Dokumente
Alignment von DNA- und Proteinsequenzen

Quantifizierung evolutionärer Veränderungen

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Was meinen die Leute eigentlich mit: Grexit?

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Zeichen bei Zahlen entschlüsseln

Professionelle Seminare im Bereich MS-Office

Primzahlen und RSA-Verschlüsselung

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Kulturelle Evolution 12

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Reporting Services und SharePoint 2010 Teil 1

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Erstellen von x-y-diagrammen in OpenOffice.calc

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Geld Verdienen im Internet leicht gemacht

Internet online Update (Internet Explorer)

EINFACHES HAUSHALT- KASSABUCH

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Fotos verkleinern mit Paint

Die Post hat eine Umfrage gemacht

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Repetitionsaufgaben Wurzelgleichungen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Statuten in leichter Sprache

Wasserzeichen mit Paint-Shop-Pro 9 (geht auch mit den anderen Versionen. Allerdings könnten die Bezeichnungen und Ansichten etwas anders sein)

WAS finde ich WO im Beipackzettel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Informationsblatt Induktionsbeweis

! " # $ " % & Nicki Wruck worldwidewruck

Advanced Rendering Interior Szene

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

Konzepte der Informatik

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Bioinformatik: Hype oder Hoffnung?

Leit-Bild. Elbe-Werkstätten GmbH und. PIER Service & Consulting GmbH. Mit Menschen erfolgreich

Eigene gestalten Internet- . In meinem heutigen Beitrag möchte ich mich speziell mit Outlook 2007 befassen.

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Anleitung über den Umgang mit Schildern

Leichte-Sprache-Bilder

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

GeoPilot (Android) die App

Ebenenmasken Grundlagen

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Bioinformatische Suche nach pre-mirnas

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Lineare Gleichungssysteme

Lehrer: Einschreibemethoden

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Catherina Lange, Heimbeiräte und Werkstatträte-Tagung, November

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Was ich als Bürgermeister für Lübbecke tun möchte

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Warum Sie jetzt kein Onlinemarketing brauchen! Ab wann ist Onlinemarketing. So finden Sie heraus, wann Ihre Website bereit ist optimiert zu werden

Anwendungsbeispiele Buchhaltung

Informatik-Sommercamp Mastermind mit dem Android SDK

Erklärung zu den Internet-Seiten von

AW: AW: AW: AW: Kooperationsanfrage anwalt.de

10.1 Auflösung, Drucken und Scannen

SolBenefit. Photovoltaik- Anlagen- Betrachtung und -Auswertung

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Digitale Magazine ohne eigenen Speicher

S/W mit PhotoLine. Inhaltsverzeichnis. PhotoLine

Dazu gilt Folgendes: : Hier kannst du bis zum 6. Stich problemlos abwerfen und

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

Kaufkräftige Zielgruppen gewinnen

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Fitswork Kometenbilder aufaddieren Oliver Schneider,

Anleitung für den Zugriff auf Mitgliederdateien der AG-KiM

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Versetzungsgefahr als ultimative Chance. ein vortrag für versetzungsgefährdete

Step by Step Webserver unter Windows Server von Christian Bartl

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Festplatte defragmentieren Internetspuren und temporäre Dateien löschen

Internet Explorer Version 6

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Anleitung zur Nutzung des SharePort Utility

Bewertung des Blattes

Antrag auf Pauschal-Förderung Aus dem Hamburger Selbsthilfe-Gruppen-Topf

Satzhilfen Publisher Seite Einrichten

Animationen erstellen

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

DAVID: und David vom Deutschlandlabor. Wir beantworten Fragen zu Deutschland und den Deutschen.

ALEMÃO. Text 1. Lernen, lernen, lernen

Durchführung der Datenübernahme nach Reisekosten 2011

Transkript:

WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1

Biologie ist eine komparative Wissenschaft!? nicht jedes Sprichwort stimmt! 2

...Bioinformatik & Genomforschung sind es auch! Nt-Substitution As-Austausch/ replacement Gap bzw. InDel ähnliche As identische As 3

Wozu Alignment? sind zwei Gene/Proteine miteinander verwandt? > Phylogenie & Evolution Finde ich ähnliche/verwandte Sequenzen (z. B. aus einem anderen Organismus) in den Datenbanken? > gene discovery besitzt mein Protein funktionelle Abschnitte (Domänen), die man bereits von anderen Proteinen her kennt? > Funktion 4

twilight zone Hb b Hb a Hb b Hb a Mücken-Globin Glutathion- S-Transferase Hb a Die interessantesten Erkenntnisse sind oft dort zu finden, wo die Alignments schwierig und zweideutig sind 5

Sequenzen vs. Proteinstruktur Myoglobin Mücken Globin Trotz großer Veränderungen der Aminosäuresequenz kann die 3D- Struktur konserviert sein! Aber: 6 Glutathion-S-Transferase

Nothing in Biology Makes Sense Except in the Light of Evolution! Theodosius Dobzhansky (1900-1975) 7

Alignments reflektieren die Veränderungen in Nukleotidseqenzen während der Evolution Evolution Vorläufersequenz SeqA SeqB (Spezies A) (Spezies B) Divergenz Mio. Jahre Sind die zu alignierenden Sequenzen aus einer gemeinsamen Vorläufersequenz hervorgegangen? Ziel: Beim Berechnung Erstellen der und Austauschrate Bewerten von zur Alignments Rekonstruktion konstruieren der wir Phylogenie evolutionäre Hypothesen! 8

Homologie Homologie Homoplasie Merkmal Schwarz von gemeinsamem Vorläufer geerbt Merkmal Schwarz konvergent aus weißen Vorläufern entstanden 9

Bei Genen: Paralog vs. Ortholog 10

Homologie, Identität, Ähnlichkeit Beim Vergleich zwischen DNA-Sequenzen oder Proteinsequenzen sprechen wir zunächst immer von Sequenzübereinstimmung (identity) oder Sequenzähnlichkeit (similarity) Erst aus diesem Vergleich heraus können wir überlegen, ob die gefundenen Übereinstimmungen wirklich homolog sind! 11

Protein-Sequenzen: Identität & Ähnlichkeit Score = 91.3 bits (223), Expect = 4e-18! Identities = 59/156 (37%), Positives = 88/156 (55%), Gaps = 14/156 (8%)! Query: 4 MYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLN 63! +YKKI+ PTD S+ + A KH EV ++V+D S +G+! Sbjct: 25 LYKKIVIPTDGSDVSLEAAKHAINIAKEFDAEVYAIYVVD---------VSPFVGLPA-- 73! Query: 64 KSVEEFENELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDI 123! + E +EL L EE + ++ +KK E+ G K+ ++ G+P EIV+ AE + D+! Sbjct: 74 EGSWELISEL---LKEEGQEALKKVKKMAEEWGVKIHTEMLEGVPANEIVEFAEKKKADL 130! Query: 124 IIMGSHGKTNLKEILLGSVTENVIKKSNKPVLVVKR 159! I+MG+ GKT L+ ILLGSV E VIK ++ PVLVVK+! Sbjct: 131 IVMGTTGKTGLERILLGSVAERVIKNAHCPVLVVKK 166! Bei Proteinsequenz-Alignments unterscheidet man Sequenzidentität und Sequenzähnlichkeit (= Identität plus iso-funktionelle As) 12

Funktionelle Ähnlichkeit von Aminosäuren 13

Alignment: Wann DNA? Wann Protein? Eng verwandte SARS-Varianten in der Population Corona-Virus-Gruppen aus verschiedenen Spezies 14

Wann DNA? Wann Protein? GCT GAC TCT! Ala Asp Ser! Evolutionszeit GCG GAT AGC! Ala Asp Ser! Während der Evolution wird die DNA durch stille Mutationen stark verändert, während die Selektion die Veränderung auf Aminosäureebene weitgehend verhindert: Suche auf DNA-Ebene funktioniert nur zwischen nahe verwandten Taxa/ Genen Suche auf Aminosäureebene kann noch Ähnlichkeiten von entfernt verwandten Sequenzen detektieren 15

Warum ist ein richtiges Alignment so problematisch? seqa TCAGACGATTG (11) seqb TCGGAGCTG (9) I.!!TCAG-ACG-ATTG!!!TC-GGA-GC-T-G! II.!!TCAGACGATTG!!!TCGGAGCTG--! III. TCAG-ACGATTG! TC-GGA--GCTG! Keine mismatches Keine internen Lücken Von beidem Etwas Was ist richtig? Wir treffen Annahme über den Ablauf der Evolution!!!! 16

Warum ist ein richtiges Alignment so problematisch? Zwei beliebige Sequenzen lassen sich prinzipiell immer alignen! Es gibt viele mögliche Alignments Sequenz-Alignments müssen also in ihrer Güte bewertet werden, um das optimale Alignment zu finden Häufig wird es mehrere gleich gute Lösungen geben ACGTACGTACGTACGTACGTACGTACGT GATCGATCGATCGATCGATCGATCGATC ACGTACGTACGTACGTACGTACGTACGT GATCGATCGATCGATCGATCGATCGATC 17

(manchmal) etwas einfacher geht s mit dem 20 As-Alphabet von Proteinen Finde das optimale Alignment: THIS IS A RATHER LONGER SENTENCE THAN THE NEXT THIS IS A SHORT SENTENCE THIS IS A RATHER LONGER - SENTENCE THAN THE NEXT --* -- - --- - ---- --- ---- THIS IS A --SH-- -O---R T SENTENCE ---- --- ---- or THIS IS A RATHER LONGER SENTENCE THAN THE NEXT ------ ------ ---- --- ---- THIS IS A SHORT- ------ SENTENCE ---- --- ---- 18

Wie erstellt man ein möglichst richtiges Alignment? Wir brauchen evolutionäre Modelle, um die beobachteten Sequenzveränderungen richtig zu bewerten: wie häufig mutiert ein A nach G bzw. nach C od. T (Transitionen : Transversionen)? wie häufig entstehen In/Dels relativ zu Substitutionen? wie häufig wird während der Proteinevolution eine Aminosäure durch irgendeine andere Aminosäure ersetzt? 19

...zunächst zur Behandlung von Lücken! 20

Ein einfacher Score-Wert zur Bewertung eines Alignments S = Y - W k S = Similarity-Score Y = Anzahl an Matches W k = gap penalty für gaps der Länge k Das Setzen einer Lücke wird durch einen negativen Score (gap penalty) bestraft! 21

Gap-Penalty Mit Setzen der gap penalty trifft man Annahmen über die relative Häufigkeit von indel-mutationen während der Evolution! gap opening penalty Kosten für das Setzen einer Lücke gap extension penalty Kosten für die Verlängerung einer Lücke 22

Gap-Penalty lineare gap penalty: W = (d g) mit g = gap-länge und d = gap opening penalty > nimmt an, daß gaps umso unwahrscheinlicher sind, je länger sie erscheinen (macht lange gaps unnötig teuer ) affine gap penalty: W = (d + g e) mit e = gap extension penalty (e < d) > lange Indels werden weniger bestraft als bei linearer Gap penalty. Man nimmt dann an, daß z. B. gaps von der Länge 1 oder der Länge 10 nicht drastisch unterschiedlich häufig während der Evol. entstehen 23

Auswirkungen der gap penalty Penalty = 0 Penalty w k =1+0.1k Anzeigen der biochemisch verwandten As macht deutlich, daß das Alignment (b) Sinn macht 24

und jetzt zu den Austauschen! in sog. Substitutionsmatrizen wird die relative Häufigkeit erfasst, mit der Nukleotide oder Aminosäuren während der Evolution ausgetauscht werden. 25

Eine einfache Identitätsmatrix bei Nukleotidsequenzen... A C G T A C G T 1 0 0 0 1 0 0 1 0 1 alle Richtungen von Nt-Austauschen sind gleich wahrscheinlich bei jedem match beider Sequenzen gibt es 1 Punkt für den Übereinstimmungs-Score 26

DNA-Alignment-Bewertung seqa TCAGACGATTG (11) seqb TCGGAGCTG (9) I.!!TCAG-ACG-ATTG!!!TC-GGA-GC-T-G! II.!!TCAGACGATTG!!!TCGGAGCTG--! III. TCAG-ACGATTG! TC-GGA--GCTG! D = 7 6(3+1x0.1) = - 11.6 D = 4 (3+2x0.1) = + 0.8 D = 6 2(3+1x0.1) (3+2x0.1) = - 3.4 Match = +1 Gap-Parameter: d = 3 (gap opening) e = 0.1 (gap extension) Bei hoher gap opening penalty! 27

DNA-Alignment-Bewertung seqa TCAGACGATTG (11) seqb TCGGAGCTG (9) I.!!TCAG-ACG-ATTG!!!TC-GGA-GC-T-G! II.!!TCAGACGATTG!!!TCGGAGCTG--!? III. TCAG-ACGATTG! TC-GGA--GCTG! Match = +1 Gap-Parameter: d = 1 (gap opening) e = 0.1 (gap extension) Bei niedriger gap opening penalty! 28

Substitutions-Matrizen für Proteine chemisch-funktionelle Ähnlichkeit der As bestimmt Wahrscheinlichkeit eines Austauschs während der Evolution. Daher......sind die Kosten bzw. die Belohnung für bestimmte Austausche unterschiedlich hoch! Definition der Kosten erfolgt über Matrizen: > PAM-Matrizen (Dayhoff 1978) > BLOSUM-Matrizen (Henikoff & Henikoff 1992) u. einige mehr 29

Margaret O. Dayhoff 1925-1983 30

PAM-Matrizen Percent Accepted Mutation ( accepted during evolution ) 1 PAM entspricht 1% As-Austausch positiver Wert = Aminosäuren, die sich häufig in Alignments gegenüberstehen und somit funktionell konserviert sind z. B. W-W 17 C -C 12 P P 6 aber W-V - 6 31

Bewertung eines As-Alignments Sequenz 1 Sequenz 2 PTHPLASKTQILPEDLASEDLTI PTHPLAGERAIGLARLAEEDFGM P:P! = +6! T:T! = +3!...! I:M = +2! Score!=!6+3+...+2 = XX! 32 Verändert nach Folie von Stefan Wiemann, DKFZ

Erstellung einer PAM -Matrix 1. Vergleich problemlos zu alignender, nahe verwandter Proteinsequenzen (>1572 Austausche in 71 Sequenzgruppen mit > 85% Sim.) 2. Kalkuliere die Austauschwahrscheinlichkeit jeder As relativ zu ihrer Häufigkeit in den Sequenzen und zur allgemeinen Mutabilität der Sequenzen 3. Berechne Score-Wert für As als log odds -Wert, d.h. als Logarithmus der Wahrscheinlichkeiten: S (a,b) = log p ab q a q b joint probab. Background frequency 4. Log odds -Scores können bei der Bewertung des Alignments anhand der Matrix einfach addiert werden 33

Erstellung einer PAM -Matrix Achtung: PAM 60/80/120/250 -Matrizen wurden durch Multiplikation der PAM 1 mit sich selbst extrapoliert! PAM 250 bedeutet, dass man durch multiple Austausche an derselben Position durchaus 250% As-Austausche erwarten kann. Dennoch haben diese entfernt verwandten Sequenzen noch bis 20% As-Ähnlichkeit: 34

PAM - Matrizen in der Kritik 1. zu kleiner Proteindatensatz bei Dayhoff: die Original-PAMs basieren auf wenigen Proteinfamilien! > besser: JTT-Matrizen nehmen 1991er-Datenbank 2. Extrapolationsverfahren: die gebräuchlichen PAM100 oder PAM250 Matrizen sind bedingt durch die Extrapolation nur Vorhersagen 3. Weitere unzulässige Annahmen: Alle As-Positionen evolvieren unabhängig ; Alle Positionen mutieren mit gleicher Wahrscheinlichkeit 35

BLOSUM - Matrizen Blocks Substitution Matrix Henikoff & Henikoff 1992 Scores errechnet nach beobachteten Austauschfrequenzen in Blöcken aus lokalen Alignments auch z.t. entfernt sequenzverwandter, jedoch klar biochemisch verwandter Proteine (> 500 versch. Familien!) z. B. BLOSUM 62 : Scores abgeleitet von Sequenzen mit höchstens 62% As-Identität BLOSUM-Matrizen-Werte sind nicht extrapoliert u. nicht abhängig von einem evolutionären Modell. besonders geeignet für Alignment entfernt verwandter Proteinsequenzen 36

BLOSUM vs. PAM PAM 60 für 60% ähnliche Proteine 80 50% 120 40% Achtung: die meisten Matrizen in Vergleichsprogrammen haben assoziierte (und oft auch optimierte) Gap penalty-scores! Vorsicht bei drastischen Änderungen der gap penalty-werte relativ zu den Substitutions-Scores. 37

Bisher nur Regeln für Alignment besprochen. Nun endlich... Alignment-Methoden Dot-Matrix-Vergleich algorithmischer Vergleich dynamic programming word/k-tuple -Methoden 38

Vergleich von DNA per Dot-Plot Gibbs, McIntyre 1970 Dot plot Programm: http://bioweb.pasteur.fr/ seqanal/interfaces/ dottup.html 39

Dot-Plot mit sliding window Problem: Diagonale ist versteckt Lösung: sliding window als Filter 3 nt window size, 2/3 müssen passen 40

Dot-Plot mit sliding window Je kleiner das Fenster, desto größer die Auswirkung zufälliger Matches. Große Fenster sind nicht gut geeignet für Entdeckung kurzer Matches. Stringenz bestimmt sichtbares Ergebnis in hohem Maße. 41

Window: 1 Stringenz: 1 Dot-Plot zeigt Repetitionen LDL-Rezeptorgen mit sich selbst verglichen Window: 23 Stringenz: 7 kurze Diagonalen abseits der Hauptdiagonalen zeigen repetitive Sequenzregionen an! bei Erhöhung der Stringenz auf 15/23 verschwinden die zusätzlichendiagonalen: > die Repetitionen sind nur bis zu einem gewissen Grad ähnlich 42

Dot-Plot zeigt Domänen Dot-Plots ermöglichen Entdeckung repetitiver Domänen in Proteinen 43

Dotplot zeigt syntäne Genombereiche Mensch-Maus- Genomvergleich über ca. 150 kb 44

Warum ist ein richtiges Alignment so problematisch? 2 x 300 Bp = 10 88 mögliche Alignments!!! Computer-Algorithmen erforderlich, die ohne ausführliche Suche auskommen. 45

Alignment-Algorithmen: Globales vs. Lokales Alignment globales Alignment: z. B. Needleman-Wunsch Nachteil: sehr aufwendig und langsam, aber komplettes alignment bis zu den Enden ATTGTCCATGCAGCCTGAA! TATCGGGATGC--CTTATT! lokales Alignment: z. B. Smith-Waterman schnell, aber nur die lokal passenden Teile werden alignt, Lücken v. a. an den Enden sind nicht dargestellt -------ATGC--------! -------ATGC--------! 46

Needleman-Wunsch (N-W) 1970 GLOBALES ALIGNMENT! Bei Erstellung des Alignments werden zunächst kleine Problem-Schritte gelöst. Dann wird aus den Teillösungen das Gesamtalignment rekonstruiert Algorithmus: dynamic programming Speicherbedarf: m x n Bsp: Seq 1 (1kb) x Seq 2 (10kb) > 10 Mb Speicher 47

Needleman-Wunsch wie beim Dotplot wird zunächst eine zweidimensionale Matrix mit den beiden zu vergleichenden Sequenzen erstellt in die Zellen der Matrix wird der Alignment-Score für die jeweils verglichenen Sequenzpositionen hineingeschrieben. Die Berechnung des Score-Werts erfolgt natürlich anhand einer Substitutionsmatrize. das Alignment ergibt sich als Pfad durch die Matrix. Der Pfad mit der höchsten Endsumme gewinnt... 48

Needleman-Wunsch auch die Möglichkeit eines gaps muss bei Weg durch die Matrix berücksichtigt werden: > Verlassen der Diagonalen Seq 1 Match Gap in Seq 1 Seq 2 Gap in Seq 2 49

Needleman-Wunsch Substitutions- Matrix: Gap penalty -8? Aus: Rauhut, Bioinformatik 50

d = - 8 Needleman-Wunsch - 2 3 Möglichkeiten! Welche hat höchsten Score? H P H - - P S = 0 + (-2) = - 2 S = - 8 + d = - 16! - H P - S = - 8 + d = - 16 51

Und so geht s weiter... Needleman-Wunsch (N-W) 1970 Aus: Rauhut, Bioinformatik 52

Needleman-Wunsch Trace-Back der Pfeile zeigt den Weg des optimalen Alignments Aus: Rauhut, Bioinformatik 53

Aber das globale N-W Alignment funktioniert nur gut bei relativ nahe verwandten Sequenzen!!! das globale Alignment findet nicht......homologe Domänen, wenn diese an unterschiedlichen Stellen in den Sequenzen liegen...kleinere konservierte Bereiche in ansonsten divergenten Sequenzen 54

Global vs. Lokal Seq 1 Seq 2 Globales Alignment Seq 1 Seq 2 Lokales Alignment Seq 1 Seq 2 homologe Domänen Seq 1 Seq 2 55

Global vs. Lokal 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG... 67 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70 14 TCAGAAGCAGCTAAAGCGT 42 TCAGAAGCA.CTAAAGCGT 1 AGGATTGGAATGCT 1 AGGATTGGAATGCT 39 AGGATTGGAAT 1 AGGATTGGAAT 62 AGACCG 66 AGACCG 56

Smith-Waterman (S -W) 1981 finde den längsten gemeinsamen Bereich zweier Sequenzen mit der größten Ähnlichkeit liefert nur EIN lokales Alignment (das mit höchstem Score)!!! Berechnung ähnlich wie bei N-W, aber......wenn alle 3 Alignmentmöglichkeiten an einer Position negative Scores haben, wird Score-Wert auf 0 gesetzt > Pfade starten und enden innerhalb der Matrix 57

Smith-Waterman Aus: Rauhut, Bioinformatik 58

Zusammenfassung N-W maximiert matches und minimiert gap-anzahl > optimales Alignment mit höchstem Score N-W nur tauglich für relative ähnliche Sequenzen ohne Änderungen in ihrer Domänen-Architektur N-W- Programme: GAP in GCG-Programmpaket Needle http://bioweb.pasteur.fr/seqanal/interfaces/needle.html ALION http://fold.stanford.edu/alion 59

Zusammenfassung S-W maximiert matches durch Einführung von gaps > ein optimales lokales Alignment S-W sehr sensitiv für Domänensuche S-W liefert immer Ergebnis! Anwender muss beurteilen! S-W- Programme: BESTFIT in GCG-Programmpaket WATER http://bioweb.pasteur.fr/seqanal/interfaces/water.html ALION http://fold.stanford.edu/alion 60

GCG- Programme GAP (global) BESTFIT (lokal) 61

Proteine enthalten oft wiederholte Domänen! Die Programme LALIGN (fasta.bioch.virginia.edu/fasta_www/lalign.htm ) und SIM (http://www.expasy.ch/tools/sim.html) können mehrere lokale Alignments in absteigender Qualität anzeigen! Die Programme FASTA und BLAST2 (eigentlich für Datenbank- Suchen gemacht; kein dyn. Program.-Algorithmus) können auch lokale Alignments machen. http://www.ncbi.nlm.nih.gov/blast/bl2seq/bl2.html http://fasta.bioch.virginia.edu/ 62

GLOBAL 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG... 67 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70 14 TCAGAAGCAGCTAAAGCGT 42 TCAGAAGCA.CTAAAGCGT LOKAL 14 TCAGAAGCAGCTAAAGCGT 42 TCAGAAGCA.CTAAAGCGT 1 AGGATTGGAATGCT 1 AGGATTGGAATGCT 39 AGGATTGGAAT 1 AGGATTGGAAT 62 AGACCG 66 AGACCG Algorithm: Bestfit (Smith & Waterman) Algorithmus: SIM (Huang & Miller) identifiziert Region mit bester lokaler Ähnlichkeit identifiert alle Regionen mit lokaler Ähnlichkeit 63