Paarweises Sequenzalignment
|
|
- Ernst Kneller
- vor 7 Jahren
- Abrufe
Transkript
1 Methoden des Sequenzalignments Paarweises Sequenzalignment Áustauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe Diese Vorlesung lehnt sich eng an das BLAST Tutorial- Buch (links) an, Kapitel 3-9 siehe auch Vorlesung Bioinformatik I von Prof. Lenhof, Wochen 3 und 5 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 1
2 Sequenz-Alignment Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal - ihre Ähnlichkeiten quantitativ erfassen - Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen - Gesetzmässigkeiten der Konservierung und Variabilität beobachten - Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen Wichtiges Ziel: Annotation, z.b. Zuordnung von Struktur und Funktion 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 2
3 Identifiziere Ähnlichkeiten zwischen Suche in Datenbanken einer neuen Testsequenz, deren Struktur und Funktion unbekannt und nicht charakterisiert ist und Sequenzen in (öffentlichen) Datenbanken deren Strukturen und Funktionen bekannt sind. N.B. Die ähnlichen Regionen können die ganze Sequenz, oder Teile von ihr umfassen! Lokales Alignment globales Alignment 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 3
4 Informationstheorie Wenn ein Kind auf jede Frage nein antwortet, enthalten die Antworten praktisch keine Information. Wenn die Antworten ja oder nein sind, enthalten Sie mehr Information. Definition der Information: p ist die Wahrscheinlichkeit einer Antwort. H ( p) = log 2 = log 1 p 2 p Logarithmitsierte Werte zur Basis 2 heissen bits, aus binary und digit. Wenn die Wahrscheinlichkeit, daß ein Kind kein Eis mag.25 ist, hat die Antwort 2 bits an Information. Die gegenteilige Information (es mag Eis) hat nur.41 bits an Information. Bezüglich der Basis e, heisst die entsprechende Einheit nats. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 4
5 Information Theory Tossing a coin is a source of head and tail symbols. A message might be: tththtt The letters A C G T are emitted from a DNA source. If the probability of any particular symbol is simply 1/n the information of any symbol is log 2 (n). This value is also the average. The formal name for the average information per symbol is entropy. If the symbols are not equally probable one has to weigh the information of each symbol by its probability of occurring. Shannon s entropy: H ( p) = A random DNA source has an entropy of: -{ (.25)(-2) + (.25)(-2) + (.25)(-2) + (.25)(-2) } = 2 bits A DNA source with 9 % A or T and 1% C or G has an entropy of: - { 2 (.45)(-1.15) + 2 (.5)(-4.32) } = 1.47 bits n i= 1 p i log 2 p i 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 5
6 Amino Acid Similarity Dayhoff represented the similarity (observed exchange frequences between related sequences) between amino acids as a log 2 odds ratio, or lod score. Lod score of an amino acid: take the log 2 of the ratio of a pairing s observed frequency divided by the pairing s randomly expected frequency. Lod score = P observed and expected frequencies are equal > P a pair of letters is common < P unlikely pairing General formula for the score s ij of two amino acids i and j. s ij ij = log With: individual properties p i and p j, p q i p j pairing frequency q jj, 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 6
7 Ähnlichkeit der Aminosäuren Beispiel: die relative Häufigkeit von Methionin und Leucin seien.1 und.1. Durch zufällige Paarung erwartet man 1/1 Austauschpaare Met Leu. Wenn die beobachtete Paarungshäufigkeit 1/5 ist, ist das Verhältnis der Häufigkeiten 2/1. Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit. If the frequency of Arginine is.1 and its frequency of pairing with Leu is 1/5, the lod score of an Arg Leu pair is bits. Usually one uses nats, multiplies the values by a scaling factor and rounds them to integer values P scoring matrices PAM and BLOSUM. These integer values are called raw scores. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 7
8 Towards Karlin-Altschul statistical theory Raw scores can be misleading because scaling factors are arbitrary. More useful measure: normalized scores. Converting a raw score to a normalized score requires a matrix-specific constant, called lambda. Lambda is approximately the inverse of the original scaling factor. The observed frequencies for all pairs sum up to 1: Write n i i= 1 j= 1 sij = log2 q ij p q i = 1 ij p j as S ij = log e p q i ij p j where S ij are now the raw scores (integer values). 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 8
9 Towards Karlin-Altschul statistical theory S ij = log e p q i ij p j q ij = p i p j e S ij Thus, a pairwise frequency (q ij ) is implied from individual amino acid frequencies (p i und p j ) and a normalized score (S ij ). Need to find so that: n i i= 1 j= 1 q ij = n i i= 1 j= 1 Once is estimated, it is used to calculate the E-value of every BLAST hit. p i p j e S ij = 1 The expected score of a scoring matrix is the sum of its raw scores weighted by their frequencies of occurrence. E = 2 i i= 1 j= 1 p i p j s ij 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 9
10 Karlin-Altschul Statistik Karlin und Altschul leiteten daraus nun die Bewertung der Signifikanz eines Alignments ab (hier ohne Herleitung): Fünf zentrale Annahmen: - eine positive Bewertung muß möglich sein - die erwartete Bewertung muß negativ sein - die Buchstaben einer Sequenz sind voneinander unabhängig und gleichverteilt - die Sequenzen sind unendlich lang sequences - Alignments enthalten keine gaps E = kmne S Die Anzahl an Alignments (E), die man während einer Suche in einer Sequenzdatenbank zufällig erhält, ist eine Funktion der Größe des Suchraums (m*n), der normalisierten Austauschbewertungen (S), und einer Konstanten (k). 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 1
11 Bewertungs- oder Austausch-Matrizen dienen um die Qualität eines Alignments zu bewerten Für Protein/Protein Vergleiche: eine 2 x 2 Matrix für die Wahrscheinlichkeit mit der eine bestimmte Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht werden kann. Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist wahrscheinlicher (hat einen höheren Score) als der von Aminosäuren unterschiedlichen Charkters (e.g. Ile, Asp). Matrizen werden als symmetrisch angenommen, besitzen also Form einer Dreiecksmatrix. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 11
12 Substitutions-Matrizen Nicht alle Aminosäuren sind gleich Einige werden leichter ausgetauscht als andere Bestimmte Mutationen geschehen leichter als andere Einige Austausche bleiben länger erhalten als andere Mutationen bevorzugen bestimmte Austausche Einige Aminosäuren besitzen ähnliche Codons Diese werden eher durch Mutation der DNA mutiert Selektion bevorzugt bestimmte Austausche Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 12
13 PAM25 Matrix 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 13
14 log (A B) = log A + log B Beispiel für eine Bewertung Die Bewertung (Score) eines Alignments ist die Summe aller Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments: Sequenz 1: TCCPSIVARSN Sequenz 2: SCCPSISARNT => Alignment Score = Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 14
15 Dayhoff Matrix (1) wurde von M.O. Dayhoff aufgestellt, die statistische Daten über die Austauschhäufigkeit von Aminosäuren sammelte Datensatz von eng verwandten Proteinsequenzen (> 85% Identität). Diese können zweifelsfrei aligniert werden. Aus der Frequenz, mit der Austausche auftreten, wurde die 2 x 2 Matrix für die Wahrscheinlichkeiten aufgestellt, mit der Mutationen eintreten. Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point accepted mutation) bedeutet, dass es 1 Punktmutation pro 1 Residuen gibt, bzw. Dass die beiden Sequenzen zu 99% identisch sind. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 15
16 Log odds Matrix: enthält den Logarithmus der Elemente der PAM Matrizen. Score der Mutation i j Dayhoff Matrix (2) beobachtete Mutationsrate i j = log( ) aufgrund der Aminosäurefrequenz erwartete Mutationsrate Die Wkt zweier unabhängiger Mutationsereignisse ist das Produkt der Einzelwahrscheinlichkeiten. Bei Verwendung einer log odds Matrix (d.h. bei Verwendung der logarithmisierten Werte) erhält man den gesamten Score des Alignments als Summe der Scores für jedes Residuenpaar. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 16
17 Dayhoff Matrix (3) Aus PAM 1 kann man Matrizen für grössere evolutionäre Entfernungen herstellen indem man die Matrix mehrfach mit sich selbst multipliziert. PAM25: 2,5 Mutationen pro Residue entspricht 2% Treffern zwischen zwei Sequenzen, d.h. man beobachtet Änderungen in 8% der Aminosäurepositionen. Dies ist die Default-Matrize in vielen Sequenzanalysepaketen. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 17
18 BLOSUM Matrix Einschränkung der Dayhoff-Matrix: Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen, welche lokale multiple Alignments von entfernter verwandten Sequenzen verwendeten. Ihre Vorteile: - grössere Datenmengen - multiple Alignments sind robuster 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 18
19 BLOSUM Matrix (2) Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS Datenbank. Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind. Aus den beobacheten Mutationen innerhalb dieser Blöcke wurden Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und für eine log odds BLOSUM matrix benutzt. Man erhält unterschiedliche Matrizen indem man die untere Schranke des verlangten Grads an Identität variiert. z.b. wurde die BLOSUM8 Matrix aus Blöcken mit > 8% Identität abgeleitet. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 19
20 Welche Matrix soll man benutzen? Enge Verwandtschaft (Niedrige PAM, hohe Blosum) Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum) Vernünftige Default-Werte: PAM25, BLOSUM62 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 2
21 Gewichtung von Lücken (Gaps) Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung von Lücken. Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu Substitutionen? Unterscheide Einführung von Lücken: aaagaaa aaa-aaa von der Erweiterung von Lücken: aaaggggaaa aaa----aaa Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 21
22 Needleman-Wunsch Algorithmus - allgemeiner Algorithmus für Sequenzvergleiche - maximiert einen Ähnlichkeitsscore - bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen einer anderen Sequenz passen, wobei Deletionen erlaubt sind. - Der Algorithmus findet durch dynamische Programmierung das bestmögliche GLOBALE Alignment zweier beliebiger Sequenzen - NW beinhaltet eine iterative Matrizendarstellung alle möglichen Residuenpaare (Basen oder Aminosäuren) je eine von jeder Sequenz werden in einem zwei-dimensionalen Gitter dargestellt. alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt. - Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 22
23 Needleman-Wunsch Algorithm: Initialisierung Aufgabe: aligniere die Wörter COELACANTH und PELICAN der Länge m =1 und n =7. Konstruiere (m+1) (n+1) Matrix. Ordne den Elementen der ersten Zeile und Reihe die Werte m gap und n gap zu. Die Pointer dieser Felder zeigen zurück zum Ursprung. C O E L A C A N T H P E L I C A N Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 23
24 Needleman-Wunsch Algorithm: Auffüllen Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen, die die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen. Berechne match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1) horizontal gap score: Wert der linken Zelle + gap score (-1) vertical gap score: Wert der oberen Zelle + gap score (-1) ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des maximalen Scores. C O E L A C A N T H max(-1, -2, -2) = -1 P max(-2, -2, -3) = -2 (Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.b. entlang der Diagonalen. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 24
25 Needleman-Wunsch Algorithmus: Trace-back Trace-back ergibt das Alignment aus der Matrix. Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben. COELACANTH C O E L A C A N T H -PELICAN P E L I C A N Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 25
26 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 26 Smith-Waterman-Algorithmus Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen: die Matrixränder werden auf statt auf ansteigende Gap-Penalties gesetzt. der maximale Wert sinkt nie unter. Pointer werden nur für Werte grösser als eingezeichnet. Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert. ELACAN ELICAN N A 2 1 C 1 1 I 1 2 L 1 E P H T N A C A L E O C
27 FASTA Algorithmus Schritt 1 FASTA ist eine heuristische Methode zum Vergleich zweier Zeichenfolgen. Der Algorithmus wurde 1985 von Lipman und Pearson entwickelt und 1988 verbessert. FASTA vergleicht einen Eingabestring gegen eine einzelne Buchstabenfolge. Wenn man eine ganze Datenbank nach Treffern zu einer Eingabesequenz absucht, vergleicht FASTA die Eingabesequenz mit jedem Eintrag der Datenbank. Der Algorithmus nimmt an, daß ein Alignment zweier Sequenzen einen Abschnitt mit absoluter Übereinstimmung enthält und konzentriert sich auf identische Regionen. Dies sind die einzelnen Schritte des FASTA-Algorithmus 1. Wir geben einen ganzzahligen Parameter ktup vor (für k respective tuples), and suchen nach identischen Substrings der Länge ktup in beiden Sequenzen. Die empfohlenen Werte für ktup sind 6 für DNA- und 2 für Proteinsequenzvergleiche. Die passenden Substrings der Länge ktup bezeichnet man als hot spots. Aufeinander folgende hot spots werden entlang der Diagonale der dynamischen Programmierung gefunden Dieser Schritt läßt sich effizient mit einer lookup- oder hash-tabelle durchführen: 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 27
28 Position Sequenz 1 n c s p t a... Sequenz 2 a c s p r k Lookup-Methode Position in Aminosäure Protein A Protein B pos A pos B a 6 6 c k - 11 n 1 - p r - 1 s t 5 Aminosäuren c, s, und p haben den gleichen Offset. So erhält man schnell das mögliche Alignment. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 28
29 FASTA Algorithmus Schritt 2 Finde nun die 1 besten Diagonalläufe der Hot spots in der Matrix. Eine Diagonale ist eine Reihe von benachbarten hot spots auf der gleichen Diagonale (müssen nicht unbedingt auf der Diagonale benachbart sein, d.h. Zwischenräume zwischen den hot spots sind erlaubt). In einem Duchlauf müssen nicht alle hot spots auf der Diagonale liegen und die Diagonale kann mehr als einer der 1 besten Durchläufe enthalten. Um die Diagonalen-Durchläufe zu bewerten gibt FASTA jedem hot spot eine positive Bewertung und den Zwischenräumen zwischen aufeinanderfolgenden hot spots eines Runs eine negative Bewertung, die mit zunehmender Entfernung abnimmt. Dann wird die Summe gebildet. Mit diesem Bewertungsschema findet FASTA die 1 Diagonalläufe mit der höchsten Bewertung. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 29
30 FASTA Algorithmus Schritt 3 Ein Diagonalenlauf bezeichnet ein Paar von alignierten Substrings. Das Alignment setzt sich aus Treffern (hot spots) und Nichttreffern (dazwischen) zusammen. Es enthält jedoch keine Indels, da es aus einer einzigen Diagonale besteht. Als nächstes bewerten wir die Läufe mit einer Aminosäure- (Nukleotid-) Austauschmatrix und wählen den besten Lauf. Das beste einzelne Teilalignment in diesem Schritt heisst init1. Weiterhin wird eine Filterung durchgefühhrt und alle Diagonalläufe mit relativen geringen Bewertungen gelöscht. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 3
31 FASTA Algorithmus Schritt 4 Bis jetzt wurden keine Indels in den Teilalignments erlaubt. Wir versuchen nun, gute Diagonalläufe aus eng benachbarten Diagonalen zu kombinieren, und erreichen dadurch ein Teilalignment mit Indels. Die gute Teilalignments stammen aus dem vorherigen Schritt (Bewertung > als ein cut-off Wert) und versuchen, sie zu einem einzigen großen Alignment mit hoher Bewertung zu kombinieren, das einige Gaps enthält. Dazu konstruieren wir einen gerichteten, gewichteten Graph, dessen Vertices die Teilalignments aus dem vorherigen Schritt sind. Das Gewicht jedes Vertix entspricht der Bewertung des entsprechenden Teilalignments. Dann verbinden wir Vertex u mit Vertex v falls das Teilalignment von v in einer tieferen Reihe beginnt als es endet. Wir geben dieser Verbindung ein negatives Gewicht, das der Anzahl an zwischen u und v einzufügenden Gaps entspricht. FASTA bestimmt dann in diesem Graphen einen Pfad mit maximalem Gewicht. Dieses ausgewählte Alignment entspricht einem einzelnen lokalen Alignment der beiden Strings. Das beste Alignment in diesem Schritt wird mit initn bezeichnet. Wie im vorherigen Schritt werden Alignments mit relativ geringer Bewertung gelöscht. Dann kommen noch 2 weitere Schritte Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 31
32 FASTA Algorithmus graphisch 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 32
33 BLAST Basic Local Alignment Search Tool Findet das am besten bewertete lokale optimale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. Sehr schneller Algorithmus, 5 mal schneller als dynamische Programmierung. Kann verwendet werden um sehr grosse Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt Ist ausreichend sensititv und selektiv für die meisten Zwecke Ist robust man kann üblicherweise die Default-Parameter verwenden 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 33
34 BLAST Algorithmus, Schritt 1 Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und eine gegebene Score-Matrix Erzeuge eine Liste aller Worte (w-mers), die einen Score > T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht Test Sequenz L N K C K T P Q G Q R L V N Q P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 Wort benachbarte Wörter unterhalb Schranke (T=13) P Q A 12 P Q N 12 etc. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 34
35 BLAST Algorithmus, Schritt 2 jedes benachbarte Wort ergibt alle Positionen in der Datenbank, in denen es gefunden wird (hit list). P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 PMG Database 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 35
36 Traditional BLAST programs Search Space Sequence 2 Alignments Gapped alignments Sequence 1 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 36
37 Seeding Sequence 2 Word hits Sequence 1 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 37
38 Neighboorhood for 3-letter words BLOSUM62 PAM2 Word Score Word Score RGD 17 RGD 18 KGD 14 RGE 17 QGD 13 RGN 16 RGE 13 KGD 15 EGD 12 RGQ 15 HGD 12 KGE 14 NGD 12 HGD 13 RGN 12 KGN 13 AGD 11 RAD 13 MGD 11 RGA 13 RAD 11 RGG 13 RGQ 11 RGH 13 RGS 11 RGK 13 RND 11 RGS 13 RSD 11 RGT 13 SGD 11 RSD 13 TGD 11 WGD 13 Choice of cut-off T will affect seeding 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 38
39 Seeding Sequence 2 Isolated words Sequence 1 Word clusters 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 39
40 BLAST Algorithm: Extension Program tries to extend seeds in both directions by adding residue pairs until the added score is smaller than a cut-off. After terminating the extension, the alignment is trimmed back to that with the maximal score. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 4
41 PSI-BLAST Position-Specific Iterated BLAST Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil- Suchen entdecken als durch paarweise Vergleiche PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch. Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren, die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank- Suche verwendet wird. PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten Alignments mehr gefunden werden. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 41
42 BLAST Input Notwendige Schritte um BLAST einzusetzen (im Zeitalter des Internets!): Wähle einen Webserver (EBI = European Bioinformatics Institute, NCBI = National Center for Biotechnology Information ) gib Testsequenz ein (cut-and-paste) wähle die Nukleotid bzw. Aminosäure-Sequenzdatenbank, die durchsucht werden soll wähle Parameter um Output zu steuern (Zahl der Sequenzen ) wähle Parameter für das Alignment (z.b. Austauschmatrix, Filter,.) Testsequenz = MAFIWLLSCYALLGTTFGCGVNAIHPVLTGLSKIVNGEEAVPGTWPWQVTLQDRSGFHF CGGSLISEDWVVTAAHCGVRTSEILIAGEFDQGSDEDNIQVLRIAKVFKQPKYSILTVNND ITLLKLASPARYSQTISAVCLPSVDDDAGSLCATTGWGRTKYNANKSPDKLERAALPLLT NAECKRSWGRRLTDVMICGAASGVSSCMGDSGGPLVCQKDGAYTLVAIVSWASDTCS ASS GGVYAKVTKIIPWVQKILSSN 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 42
43 BLAST Output (1) 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 43
44 BLAST Output (2) Kleine Wahrscheinlichkeit deutet an, dass der Treffer wohl nicht zufällig zustande kam. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 44
45 BLAST Output (3) Niedrige Scores mit hohen Wahrscheinlickeiten deuten an, dass dies wohl keine guten Treffer sind. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 45
46 Bedeutung des Alignments in BLAST P-Wert (Wahrscheinlichkeit) Gibt die Wahrscheinlichkeit an, mit der der Score eines Alignments zufällig zustande kommen kann. Je näher P bei Null liegt, desto grösser die Sicherheit, dass ein gefundener Treffer ein richtiger Treffer (homologe Sequenz) ist. E-Wert (Erwartungswert) E = P * Anzahl der Sequenzen in Datenbank E entspricht der Anzahl an Alignments eines bestimmten Scores, die man zufällig in einer Sequenz-Datenbank dieser Grösse erwartet (wird z.b. für ein Sequenzalignment E=1 angegeben, erwartet man 1 zufällige Treffer mit dem gleichen Score). Dieses Alignment ist also nicht signifikant. Treffer werden in BLAST nur ausgegeben, wenn der E-Wert unterhalb einer Schranke liegt. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 46
47 Grobe Anhaltspunkte P-Wert (Wahrscheinlichkeit) A. M. Lesk P 1-1 genaue Übereinstimmung P zwischen 1-1 und 1-5 nahezu identische Sequenzen, zum Beispiel Allele oder SNPs P zwischen 1-5 und 1-1 eng verwandte Sequenzen, Homologie gesichert P zwischen 1-1 und 1-1 in der Regel entfernte Verwandte P > 1-1 Ähnlichkeit vermutlich nicht signifikant E-Wert (Erwartungswert) E,2 E zwischen,2 und 1 E 1 Sequenzen vermutlich homolog Homologie ist nicht auszuschliessen man muss damit rechnen, dass diese gute Übereinstimmung Zufall ist. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 47
48 Traditional BLAST programs Program Database Query Typical uses BLASTN Nucleotide Nucleotide Mapping oligonucleotides, cdnas and PCR products to a genome, screening repetitive elements; cross-species sequence exploration; annotating genomic DNA; clustering sequencing reads BLASTP Protein Protein Identifying common regions between proteins; collecting related proteins for phylogenetic analyses BLASTX Protein Nucleotide Finding protein-coding genes in genomic DNA; determining translated into if a cdna corresponds to a known protein protein TBLASTN Nucleotide Protein Identifying transcripts, potentially from multiple organisms, translated similar to a given protein; mapping a protein to genomic DNA into protein TBLAST Nucleotide Nucleotide Cross-species gene prediction at the genome or transcript translated into translated into level; searching for genes missed by traditional methods protein protein or not yet in protein databases 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 48
49 BLAST Output (4) 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 49
50 BLAST Output (5) 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 5
51 BLAST Output (6) Although good content of identical and positive positions, both hits have high E-values due to their short length. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 51
52 Tips für den Einsatz von BLAST Verwende nicht stur die Standardparameter You get what you look for. Führe Kontrollen durch, besonders in der twilight zone. z.b. Schüttle die Sequenz durcheinander und wiederhole die Suche. Falls die variierte Sequenz ähnliche Ergebnisse liefert, beruht das Alignment auf einer systematischen Verfälschung, oder die Parameter sind nicht empfindlich genug gewählt Setze Komplexitätsfilter ein wenn erforderlich. Maskiere Repeats in genomischer DNA. Teile große Genomsequenzen in Stücke auf um die Suche zu beschleunigen. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 52
53 Tips für den Einsatz von BLAST Sei skeptisch gegenüber hypothetischen Proteinen. Erwarte Verunreinigungen in EST Datenbanken. In der Theorie sind ESTs Sequenzierungs-reads von cdna, cdna wird von mrna erhalten und die mrnas stammen direkt von den Genen. Allerdings entsprechen ESTs oft keinen Genen, sondern gehöhren zu Exons bzw. UTRs, dem Überlappteil eines Repeats Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 53
54 Zusammenfassung Paarweises Sequenzalignment ist heute Routine, aber nicht trivial. Mit dynamischer Programmierung (z.b. Smith-Waterman) findet man garantiert das Alignment mit optimaler Bewertung. Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution. FASTA ist erheblich schneller als dynamische Programmierung. Am schnellsten ist BLAST und seine Derivate. Beide geben sehr robuste und brauchbare Ergebnisse für Proteinsequenzen. FASTA ist für Nukleotidsequenzen zuverlässiger. Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen und ihren Beziehungen Kommt nächste Woche dran. 2. Vorlesung WS 24/5 Softwarewerkzeuge der Bioinformatik 54
Paarweises Sequenzalignment
Methoden des Sequenzalignments Paarweises Sequenzalignment Áustauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an
MehrPaarweises Sequenzalignment
Methoden des Sequenzalignments Paarweises Sequenzalignment Austauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an
MehrPrimärstruktur. Wintersemester 2011/12. Peter Güntert
Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie
MehrSoftwarewerkzeuge der Bioinformatik
Bioinformatik Wintersemester 2006/2007 Tutorial 2: paarweise Sequenzaligments BLAST Tutorial 2: BLAST 1/22 Alignment Ausrichten zweier oder mehrerer Sequenzen, um: ihre Ähnlichkeit quantitativ zu erfassen
MehrGleichheit, Ähnlichkeit, Homologie
Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren
MehrÜbungsaufgaben zur Einführung in die Bioinformatik - Lösungen
18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was
MehrBioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche
MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank
MehrBioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:
MehrAlgorithmische Anwendungen WS 2005/2006
Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................
MehrMBI: Sequenz-Vergleich mit Alignment
MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik
MehrZentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)
Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul
MehrAufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution
MehrGrundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger
Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS 2017 Yvonne Lichtblau/Johannes Starlinger Presentations Assignment 2 Yvonne Lichtblau Übungen Grundlagen der Bioinformatik SS 2017
MehrMultiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
MehrProseminar Bioinformatik
Proseminar Bioinformatik Thema Algorithmic Concepsts for Searching in Biological Databases von Uwe Altermann 30.05.2009 1 Einführung Im Folgenden soll ein Überblick über die verschiedenen algorithmischen
MehrBioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search
MehrVorlesung Einführung in die Bioinformatik
Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen
MehrStudiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 06. Paarweises Alignment Teil II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
MehrDot-Matrix Methode. (Java) (Javascript) 80
Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet
MehrAlignments & Datenbanksuchen
WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...
MehrAlgorithmen für paarweise Sequenz-Alignments. Katharina Hembach
Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.
MehrBLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02
BLAST Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST (Basic Local Alignment Search Tool) hat seit seiner Veröffentlichung, von Altschul et al. im Jahre 1990, an großer Relevanz
MehrWas ist Bioinformatik?
9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die
MehrSequenz Alignment Teil 2
Sequenz Alignment Teil 2 14.11.03 Vorlesung Bioinformatik 1 Molekulare Biotechnologie Dr. Rainer König Besonderen Dank an Mark van der Linden, Mechthilde Falkenhahn und der Husar Biocomputing Service Gruppe
MehrVL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag
VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag Tim Conrad AG Medical Bioinformatics Institut für Mathematik & Informatik, Freie Universität Berlin Vorlesungsthemen Part 1: Background
MehrAlgorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments
Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung Bisher: Berechnung
MehrBCDS Seminar. Protein Tools
BCDS Seminar Protein Tools Gliederung Nützliche Tools Three-/one-letter Amino Acids' Сodes RandSeq Random Protein Sequence Generator Protein Colourer ProtParam PeptideCutter ProtScale TMHMM Server 2.0
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik SS 2013 1. Was ist Bioinformatik? Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen Kay.Nieselt@uni-tuebingen.de Ablauf und Formales Ringvorlesung
MehrAlignments & Datenbanksuchen
WS2017/2018 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 10. Multiples Alignment II & PSI-BLAST Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen
MehrHomologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de
Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands
MehrAlignment von DNA- und Proteinsequenzen
WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1
MehrLokale Sequenzähnlichkeit. Genomische Datenanalyse 9. Kapitel
Lokale Sequenzähnlichkeit Genomische Datenanalyse 9. Kapitel Globale Sequenzähnlichkeit: Zwei Cytochrome C Sequenzen: Eine vom Menschen und eine aus der Maus. Die Sequenzen sind gleich lang, man kann sie
MehrAlignments & Datenbanksuchen
WS2016/2017 F1-Praktikum Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik Thomas Hankeln Alignments & Datenbanksuchen 1 Wiederholung Alignments Dynamic Programming Needleman-Wunsch:
MehrGrundlagen der Bioinformatik Assignment 2: Substring Search SS Yvonne Lichtblau
Grundlagen der Bioinformatik Assignment 2: Substring Search SS 2016 Yvonne Lichtblau Vorstellung Lösungen Übung 1 Yvonne Lichtblau Übungen Grundlagen der Bioinformatik SS 2016 2 Aufgetretene Probleme Sourcecode
MehrSequenzvergleich und Datenbanksuche
Sequenzvergleich und Datenbanksuche Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann
MehrMock Exam Behavioral Finance
Mock Exam Behavioral Finance For the following 4 questions you have 60 minutes. You may receive up to 60 points, i.e. on average you should spend about 1 minute per point. Please note: You may use a pocket
MehrIntroduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016
to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you
MehrSoftwarewerkzeuge der Bioinformatik
Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I II III Sequenzanalyse Analyse von Proteinstruktur und Ligandenbindung Zell- bzw. Netzwerksimulationen
Mehr8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick
Grundlagen der Künstlichen Intelligenz 5. April 0 8. Suchalgorithmen: Lokale Suche Grundlagen der Künstlichen Intelligenz 8. Suchalgorithmen: Lokale Suche 8.1 Einleitung Malte Helmert Universität Basel
MehrBioinformatik für Biochemiker
Bioinformatik für Biochemiker Oliver Kohlbacher W 2009/2010 7. Datenbanksuche Abt. imulation biologischer ysteme WI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Datenbanksuche statt Alignment Heuristiken:
MehrThreading - Algorithmen
Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität
MehrBiowissenschaftlich recherchieren
Biowissenschaftlich recherchieren Uber den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik Nicola Gaedeke Birkhauser Basel Boston Berlin Inhaltsverzeichnis Vorwort xi 1 Die Informationssucheim
MehrAlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico
AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017 Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung
MehrKlausur Bioinformatik für Biotechnologen
Name, Vorname: 1 Klausur Bioinformatik für Biotechnologen Studiengang Molekulare Biotechnologie TU Dresden WS 2011/2012 Prof. Michael Schroeder 15.02.2012 Die Dauer der Klausur beträgt 90 Minuten. Bitte
MehrDIBELS TM. German Translations of Administration Directions
DIBELS TM German Translations of Administration Directions Note: These translations can be used with students having limited English proficiency and who would be able to understand the DIBELS tasks better
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
MehrAbschlussklausur des Kurses Portfoliomanagement
Universität Hohenheim Wintersemester 2010/2011 Lehrstuhl für Bankwirtschaft und Finanzdienstleistungen Kurs Portfoliomanagement Seite 1 von 3 19.01.2011 Abschlussklausur des Kurses Portfoliomanagement
MehrBIOINFORMATIK I ÜBUNGEN.
BIOINFORMATIK I ÜBUNGEN http://icbi.at/bioinf Organisation 3 Übungen Kurze Einführung anschließend Labor Protokoll (je 2 Studierende, elektronisch doc, pdf..) Abgabe der Übungen bis spätestens 29. 05.
MehrEine Analyse des Effektes von Lernen auf Populationsfitness und Diversität in einer NK-Fitnesslandschaft. Lars Melchior
Eine Analyse des Effektes von Lernen auf Populationsfitness und Diversität in einer NK-Fitnesslandschaft Lars Melchior Theoretische Grundlagen Theoretische Grundlagen Genetik Genetische Algorithmen NK
MehrVorlesungsskript. Softwarewerkzeuge der Bioinformatik
Vorlesungsskript Softwarewerkzeuge der Bioinformatik Dozent: Prof. Dr. Volkhard Helms Übungen: PD Dr. Michael Hutter, Dr. Tihamér Geyer, Barbara Hutter Zentrum für Bioinformatik, Universität des Saarlandes
MehrFOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak
FOLDALIGN und sein Algorithmus Nadine Boley Silke Szymczak Gliederung 2 Einleitung Motivation des Ansatzes zu FOLDALIGN Sankoff-Algorithmus Globales Alignment Zuker-Algorithmus Kombination FOLDALIGN Algorithmus,
MehrRätsel 1: Buchstabensalat klassisch, 5 5, A C (10 Punkte) Puzzle 1: Standard As Easy As, 5 5, A C (10 points)
Rätsel 1: uchstabensalat klassisch, 5 5, (10 Punkte) Puzzle 1: Standard s Easy s, 5 5, (10 points) Rätsel 2: uchstabensalat klassisch, 5 5, (5 Punkte) Puzzle 2: Standard s Easy s, 5 5, (5 points) Rätsel
MehrAlgorithms for graph visualization
Algorithms for graph visualization Project - Orthogonal Grid Layout with Small Area W INTER SEMESTER 2013/2014 Martin No llenburg KIT Universita t des Landes Baden-Wu rttemberg und nationales Forschungszentrum
MehrVortrag 2: Proteinsequenzen und Substitutionsmatrizen
Vortrag 2: Proteinsequenzen und Substitutionsmatrizen Was sind Proteinsequenzen? Die DNA-Forschung hat sich auf spezielle Abschnitte auf den Strängen der DNA-Moleküle konzentriert, den sog. Protein-codierenden
MehrBioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAT QUASAR Ulf Leser Wissensmanagement in der Bioinformatik Exklusionsmethode BYP Alignment zweier Strings A,B dauert O(n*m) K-Band Algorithmus benötigt O(sn 2 -vn) für A = B Gutes Verfahren,
MehrPrinciples of heredity Mutations, substitutions and polymorphisms
Bioinformatics 1 Principles of heredity Mutations, substitutions and polymorphisms Claudia Acquisti Evolutionary Functional Genomics Institute for Evolution and Biodiversity, WWU Münster claudia.acquisti@uni-muenster.de
MehrIntroduction FEM, 1D-Example
Introduction FEM, D-Example /home/lehre/vl-mhs-/inhalt/cover_sheet.tex. p./22 Table of contents D Example - Finite Element Method. D Setup Geometry 2. Governing equation 3. General Derivation of Finite
MehrBioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90%
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrWie man heute die Liebe fürs Leben findet
Wie man heute die Liebe fürs Leben findet Sherrie Schneider Ellen Fein Click here if your download doesn"t start automatically Wie man heute die Liebe fürs Leben findet Sherrie Schneider Ellen Fein Wie
MehrGeometrie und Bedeutung: Kap 5
: Kap 5 21. November 2011 Übersicht Der Begriff des Vektors Ähnlichkeits Distanzfunktionen für Vektoren Skalarprodukt Eukidische Distanz im R n What are vectors I Domininic: Maryl: Dollar Po Euro Yen 6
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen Kay.Nieselt@uni-tuebingen.de SS 2011 1. Was ist Bioinformatik? Ablauf und Formales Ringvorlesung
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrBayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference
Syntax Semantics Parametrized Distributions Inference in Exact Inference Approximate Inference enumeration variable elimination stochastic simulation Markov Chain Monte Carlo (MCMC) 1 Includes many slides
MehrIhre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.
Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2016/2017: Bioinformatik - Übung 1 Erstellen Sie vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern kö nnen (z.b.
MehrProf. S. Krauter Kombinatorik. WS Blatt03.doc
Prof. S. Krauter Kombinatorik. WS 05-06 Blatt03.doc Zahlpartitionen: 1. Gegeben ist folgende Gleichung: x 1 + x 2 + x 3 + + x s = n. a) Wie viele verschiedene Lösungen besitzt diese Gleichung mit Werten
MehrAttached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie
Rheinisch-Westfälischen Technischen Hochschule Aachen Lehr- und Forschungsgebiet Theoretische Informatik Prof. Rossmanith Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie Deniz Özmen Emmanuel
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung
Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Erstes
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
MehrProtein-Protein Bindungsstellen. Lennart Heinzerling
Protein-Protein Bindungsstellen Lennart Heinzerling 1 Worum geht es in den nächsten 45 Minuten? Auffinden von Protein- Protein Komplexen aus einer großen Menge potentieller Komplexe z.b. für -Interaction
MehrDatenstrukturen & Algorithmen Lösungen zu Blatt 10 FS 16
Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik 11. Mai
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Center-Star Score Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Multiples Sequenzalignment Sum-Of-Pair
MehrFundamentals of Electrical Engineering 1 Grundlagen der Elektrotechnik 1
Fundamentals of Electrical Engineering 1 Grundlagen der Elektrotechnik 1 Chapter: Operational Amplifiers / Operationsverstärker Michael E. Auer Source of figures: Alexander/Sadiku: Fundamentals of Electric
MehrVorlesungsskript. Softwarewerkzeuge der Bioinformatik
Vorlesungsskript Softwarewerkzeuge der Bioinformatik Dozent: Prof. Dr. Volkhard Helms Übungen: PD Dr. Michael Hutter, Dr. Tihamér Geyer, Barbara Hutter Zentrum für Bioinformatik, Universität des Saarlandes
MehrEffiziente Algorithmen und Komplexitätstheorie
Fakultät für Informatik Lehrstuhl 2 Vorlesung Effiziente Algorithmen und Komplexitätstheorie Sommersemester 2008 Ingo Wegener Ingo Wegener 03. Juli 2008 1 Sequenzanalyse Hauptproblem der Bioinformatik
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrIm Fluss der Zeit: Gedanken beim Älterwerden (HERDER spektrum) (German Edition)
Im Fluss der Zeit: Gedanken beim Älterwerden (HERDER spektrum) (German Edition) Ulrich Schaffer Click here if your download doesn"t start automatically Im Fluss der Zeit: Gedanken beim Älterwerden (HERDER
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 5. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
MehrShock pulse measurement principle
Shock pulse measurement principle a [m/s²] 4.0 3.5 3.0 Roller bearing signals in 36 khz range Natural sensor frequency = 36 khz 2.5 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0-2.5-3.0-3.5-4.0 350 360 370 380 390
MehrFEM Isoparametric Concept
FEM Isoparametric Concept home/lehre/vl-mhs--e/folien/vorlesung/4_fem_isopara/cover_sheet.tex page of 25. p./25 Table of contents. Interpolation Functions for the Finite Elements 2. Finite Element Types
MehrIntroduction FEM, 1D-Example
Introduction FEM, 1D-Example home/lehre/vl-mhs-1-e/folien/vorlesung/3_fem_intro/cover_sheet.tex page 1 of 25. p.1/25 Table of contents 1D Example - Finite Element Method 1. 1D Setup Geometry 2. Governing
MehrMBI: Sequenzvergleich ohne Alignment
MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013 Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus,
MehrSequenzen-Alignierung in der Bioinformatik
Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS 2. VO 2.0.2006 Literatur für diese VO Volker Heun: Skriptum zur Vorlesung
MehrFinite Difference Method (FDM)
Finite Difference Method (FDM) home/lehre/vl-mhs-1-e/folien/vorlesung/2a_fdm/cover_sheet.tex page 1 of 15. p.1/15 Table of contents 1. Problem 2. Governing Equation 3. Finite Difference-Approximation 4.
MehrKapitel 7: Sequenzen- Alignierung in der Bioinformatik
Kapitel 7: Sequenzen- Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 19. VO 14. Juni 2007 1 Literatur für diese VO Volker
MehrQuantifizierung evolutionärer Veränderungen
Quantifizierung evolutionärer Veränderungen Begriff der Homologie/Homoplasie Methoden des Sequenzvergleichs/Alignments Verfahren und Modelle zur Berechnung von Austauschraten in DNA und Proteinen Thomas
MehrAccounting course program for master students. Institute of Accounting and Auditing http://www.wiwi.hu-berlin.de/rewe
Accounting course program for master students Institute of Accounting and Auditing http://www.wiwi.hu-berlin.de/rewe 2 Accounting requires institutional knowledge... 3...but it pays: Lehman Bros. Inc.,
MehrFEM Isoparametric Concept
FEM Isoparametric Concept home/lehre/vl-mhs--e/cover_sheet.tex. p./26 Table of contents. Interpolation Functions for the Finite Elements 2. Finite Element Types 3. Geometry 4. Interpolation Approach Function
Mehra) Name and draw three typical input signals used in control technique.
12 minutes Page 1 LAST NAME FIRST NAME MATRIKEL-NO. Problem 1 (2 points each) a) Name and draw three typical input signals used in control technique. b) What is a weight function? c) Define the eigen value
MehrThere are 10 weeks this summer vacation the weeks beginning: June 23, June 30, July 7, July 14, July 21, Jul 28, Aug 4, Aug 11, Aug 18, Aug 25
Name: AP Deutsch Sommerpaket 2014 The AP German exam is designed to test your language proficiency your ability to use the German language to speak, listen, read and write. All the grammar concepts and
MehrAlignment-Verfahren zum Vergleich biologischer Sequenzen
zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen
MehrEinführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken
Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken 14.05.2009 Prof. Dr. Sven Rahmann 1 3 Proteinsequenz-Datenbanksysteme NCBI Entrez Proteins EBI SRS Proteins UniProt (empfohlen) 2
MehrWillkommen zur Vorlesung Komplexitätstheorie
Willkommen zur Vorlesung Komplexitätstheorie WS 2011/2012 Friedhelm Meyer auf der Heide V11, 16.1.2012 1 Themen 1. Turingmaschinen Formalisierung der Begriffe berechenbar, entscheidbar, rekursiv aufzählbar
MehrInformationsgehalt von DNA
Informationsgehalt von DNA Topics Genes code, gene organisation, signals, gene detection Genomes genome organisation, nucleotide patterns, junk DNA DNA als Informationsträger DNA Building Blocks Desoxyribose
Mehr