Berechnung phylogenetischer Bäume mit Distanzmaßen

Größe: px
Ab Seite anzeigen:

Download "Berechnung phylogenetischer Bäume mit Distanzmaßen"

Transkript

1 Berechnung phylogenetischer Bäume mit Distanzmaßen Seminar: Verwandtschaft und Abstammung in Zeichenketten WS 2004/2005 Stephan Klinger Benjamin Großmann

2 Gliederung Einleitung...3 Geschichte der Evolutionsforschung...3 molekulare Stammbäume...4 Distanzbestimmung...5 Ultrametriken...6 Einleitung...6 Ultrametrische Daten...6 Ultrametrische Bäume...6 Konstruktion mit UPGMA...7 Probleme der Ultrametriken...8 Additive Bäume...9 Einleitung...9 Neighbor Joining...10 Der Neighbor Joining Algorithmus...10 Additive Bäume...12 Die Anwendung phylogenetischer Algorithmen...12 Probleme des evolutionären Modells...14 Praxistauglichkeit distanzbasierter Methoden

3 Einleitung Bei der Phylogenese geht es darum, die Stammesentwicklung der Lebewesen im Verlauf der Erdgeschichte zu untersuchen. Der Begriff ist aus dem lateinischen Wort Phylum abgeleitet, welches für Stamm steht. In der Stammesentwicklung geht man davon aus, dass alle existierenden Lebewesen aus einem gemeinsamen Urtyp hervorgegangen sind, der das Leben auf der Erde begründet hat. Durch den Prozess ständig wechselnder Umweltbedingungen (veränderte Atmosphäre, Temperaturschwankungen, tektonische Verschiebungen etc.) entwickelte sich dieser Urtyp über viele Generationen auf vielerlei Art und Weise fort. Ziel ist es nun, mögliche Wege der Entwicklung der Lebewesen zu erforschen. Die Methode zur Erforschung ist die Rekonstruktion von Evolutionsbäumen. Gegenstand dieser Ausarbeitung sind Verfahren, die durch Distanzmaße (Unterschiede) die Verwandtschaft zwischen Spezies berechnen. Durch die verwendeten Algorithmen werden große Mengen von Strings (DNA- bzw. Gensequenzen) ausgewertet und genetische Abstände von Arten bestimmt. Die Phylogenese hat ihre Hauptanwendung im Bereich der Biologie. In der Linguistik wurden Sprachverwandtschaften größtenteils in mühevoller Handarbeit rekonstruiert. Deshalb ist es eine interessante Frage, inwieweit die phylogenetischen Methoden auch zur Erforschung der Entstehung und Entwicklung von Sprachen benutzt werden können. Geschichte der Evolutionsforschung Erst im 18. Jahrhundert wurde erstmals der Versuch von dem Gelehrten Carl Linnaeus unternommen, Pflanzen und Tiere anhand von zahlreichen äußeren Merkmalen zu klassifizieren. Bei dieser äußerst lebensfüllenden Aufgabe beschränkte er sich allerdings nicht nur auf das Erkennen von Unterschieden einzelner Arten, er fand auch für ähnliche Gruppen wiederum Oberbegriffe und erschuf ein umfangreiches hierarchisch aufgebautes Klassifikationsschema, welches noch heute gebräuchlich ist. Er gliederte absteigend in Stamm, Klasse, Ordnung, Familie, Gattung und Art. Allerdings ging Linnaeus noch von der Konsistenz der Arten aus. Er nahm jeden Unterschied als gottgegeben an, Entwicklungen sah er in seinem Modell nicht vor. Doch schon kurze Zeit später verkündete der französische Gelehrte Lamarck hingegen in seinem Buch Philosophie Zoologique (1809) eine neue Theorie, die Veränderungen von Arten vorsieht. Nach seiner Ansicht können Lebewesen Merkmale entwickeln, wenn sie das entsprechende Organ verstärkt benutzen. Als Beispiel zog er die Giraffe heran, deren ständig gestreckter Hals durch Abgrasen höhergelegener Blätter im Laufe des Lebens länger wird. Hinzu kommt, dass Tiere diese erworbenen Merkmale an ihre Nachfahren weitervererben können. Diese Theorie sorgte für heftige Diskussionen. Experimente unter anderem mit Mäusen, die trotz abgeschnittenem Schwanz stets Nachkommen mit ausgebildetem Schwanz hervorbrachten, schienen diese These allerdings zu widerlegen. 3

4 Somit dauerte es nicht lange, bis der Engländer Charles Darwin 1858 die berühmte Evolutionstheorie verkündete. Diese beinhaltet im Wesentlichen zwei Annahmen, die bis heute ihre Gültigkeit behalten haben: 1.) Biologische Arten verändern sich durch zufällige Einflüsse (heutige Begriffe: Mutation und Variation) 2.) Bei gegebenen Umweltbedingungen (die auch Änderungen unterworfen sind) überleben Arten mit vorteilhaften Änderungen bevorzugt, es existiert also eine natürliche Auslese. molekulare Stammbäume In den 40er Jahren des 20. Jahrhunderts wurde der Begriff der Synthetischen Evolutionstheorie geprägt. Unter diesem Begriff versteht man die Verknüpfung aus dem Modell von Darwin mit den Erkenntnissen aus der Zellforschung und dem noch jungen Zweig Genetik. Bisher verglich man Lebewesen einzig anhand ihrer morphologische Eigenschaften. Die neue Erkenntnis war, dass Gene Träger dieser Merkmale sind, der Phänotyp ist infolgedessen die Ausprägung der gesamten genetischen Informationen eines Organismus. Zufällige erbliche Mutationen innerhalb der Gene können jederzeit auftreten und den Phänotyp verändern. Bei der sexuellen Fortpflanzung treten weiterhin Variationen durch Durchmischung der Gene auf, die wiederum Veränderungen im Phänotyp hervorrufen können. Mit diesen Erkenntnissen war es möglich, das Evolutionsmodell auf molekularer Ebene zu erklären, was den Weg für eine Vielzahl neuer Theorien und Experimente ebnete. Die hier vorgestellte Methode der Berechnung molekularer Stammbäume mit Distanzmaßen war eines dieser neuen Theorien und entstand in den 60er Jahren in Zusammenarbeit des österreichischen Mediziners Emil Zuckerkandl und des amerikanischen Chemikers Linus Pauling. Die Wissenschaftler nahmen an, dass die Evolution stetig und nur in kleinen Schritten voranschreitet. Sie entwickelten die Molecular Clock Theory mit folgender Aussage: In jedem Protein ist die Rate der gutwilligen Mutationen der Aminosäuresequenz konstant. Gutwillige Mutationen sind diejenigen, die überlebensfähig sind und somit vererbt werden und weitermutieren können. Somit sind die Veränderungen von Lebewesen laut dieser Theorie also proportional zur Zeitdauer. Da als Quelle für dieses Verfahren Teile von DNA-Sequenzen dienen sollten und man diese nur von lebenden Organismen messen konnte, bildeten diese Organismen die Blätter im entstehenden Baumes. Die inneren Knoten, die den ausgestorbenen Arten entsprechen, wurden dann anhand der Abstände berechnet. Damit erhält man mit dieser Methode nicht zwangsläufig den tatsächlichen Evolutionsbaum, sondern nur einen möglichen. Im Folgenden wird kurz auf die Bestimmung von Distanzen eingegangen, da sie die Voraussetzung für die hier vorgestellten Algorithmen bilden. 4

5 Distanzbestimmung Bei der Distanzbestimmung geht es darum, den geringsten Abstand zwischen zwei DNA- Sequenzen zu bestimmen. Dabei definiert sich der Abstand über die Anzahl der nötigen Änderungsoperationen, um aus eine Sequenz in die andere Sequenz umzuwandeln. Als Beispiel seien folgende Sequenzen gegeben: ATGCGGTGCAATG ATGGTGCAT Für diese Sequenzen gibt es viele mögliche Alignierungen. Für jede Alignierung kann dann der sogenannte Editabstand berechnet werden, der sich aus der Summe der Einfüge-, Lösch- und Ersetzungsoperationen berechnet. Im Folgenden sind Beispiele von Alignierungen mit ihren Editabständen aufgeführt: Alignierung ATGCGGTGCAATG ATGCGGTGCAATG AT GG TGCA_T ATG GTGCA_T_ ATGCGGTGCAATG ATGGTGCAT Editabstand Die Distanz zwischen zwei Sequenzen ist der kleinste Editabstand aus allen möglichen Alignierungen. Mit dem Verfahren der dynamischen Programmierung kann man mit quadratischem Aufwand und quadratischem Platzbedarf die Alignierung mit dem kleinsten Editabstand berechnen. Diese Distanzbestimmung muss man nun für alle Kombinationen aus den zu untersuchenden Sequenzen durchführen und kann eine Matrix erstellen, die alle Distanzen beinhaltet. Seien z.b. A, B, C, D und E die zu analysierenden Sequenzen mit folgender Distanzmatrix: A B C D E A B C D E Da die Matrix symmetrisch zur Diagonalen ist (Abstände zweier Sequenzen sind in beide Richtungen gleich), wird im Folgenden der Übersicht halber nur eine Hälfte geschrieben. 5

6 Ultrametriken Einleitung In diesem Abschnitt geht es um die Konstruktion eines Stammbaums, der die evolutionäre Geschichte von Taxa abbilden soll. Die Knoten innerhalb des Baumes repräsentieren dabei Punkte der Verzweigung, also die Zeitpunkte der Ereignisse, an denen sich innerhalb einer Art erstmals unterschiedliche Eigenschaften ausgeprägt haben. Besitzen die verwendeten Daten eine ausreichend hohe Güte, kann man anhand der Abstände der Knoten zueinander sogar die Zeiträume der Entwicklung ablesen. Ultrametrische Bäume besitzen folgende Gesetzmäßigkeiten: Sie haben eine Wurzel und sind binär. Dies bedeutet, dass jeder innere Knoten genau zwei Kindknoten besitzen, außerdem besitzen alle Knoten bis auf einen die Wurzel einen Vorgängerknoten. Die lebenden Spezies sind auf der untersten Ebene als Blätter abgebildet, die inneren Knoten bilden berechnete Werte. Ultrametrische Daten Um ultrametrische Bäume zu erzeugen, benötigt man ultrametrische Daten. Da es sich bei den Daten um Abstände handelt, gelten die 4 Axiome für Metriken: 1. d(x,y) 0 (Bedingung der positiven Abstände) 2. d(x,y) = 0 x = 0 (Punkt-Bedingung) 3. d(x,y) = d(y,x) (Symmetrie-Bedingung) 4. d(x,y) d(x,z) + d(z,y) (Dreiecksbedingung) Für Ultrametriken wird das 4. Axiom stärker eingeschränkt: 4. d(x,y) < d(x,z) + d(z,y) für alle x, y, z Damit muss also eine direkte Verbindung echt kürzer sein als die Verbindung über einen Zwischenpunkt. Anhand folgender Definition kann man prüfen, ob eine gegebene Matrix die ultrametrischen Eigenschaften erfüllt: Eine symmetrische Matrix D mit n Spalten und Zeilen ist ultrametrisch, wenn für beliebige Zeilen i, j, k immer gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) mindestens zweimal vorkommt. Ultrametrische Bäume Zu Beginn dieses Abschnitts wurden ultrametrische Bäume kurz vorgestellt, um einen Überblick über das Aussehen und die Benutzung zu geben. An dieser Stelle folgt eine genaue Definition eines ultrametrischen Baums: Sei D eine n x n Matrix mit reellen Zahlen. 6

7 Dann ist T ein Baum mit einer Wurzel und folgenden Eigenschaften: es gibt n Blätter, die jeweils durch eine Zeile von D bezeichnet werden die internen Knoten werden durch einen Eintrag aus D bezeichnet: D(i,j) bezeichnet den kleinsten gemeinsamen Vorfahren der Blätter i und j die internen Knotenwerte werden absteigend kleiner jeder interne Knoten hat zwei Kinder Mit dieser Definition kann man beweisen, dass für jede ultrametrische Matrix ein ultrametrischer Baum konstruieren werden kann und umgekehrt. Damit repräsentiert also ein ultrametrischer Baum eine Ultrametrik in kompakter Form. Konstruktion mit UPGMA In diesem Abschnitt geht es um die Konstruktion von ultrametrischen Bäumen mit dem UPGMA- Verfahren (unweighted pair group method with arithmetic mean) oder auch hierarchisches Clustern genannt. Dieses Verfahren, welches leicht mit dem Computer implementiert werden kann, erzeugt zu einer beliebigen symmetrischen Matrix einen Baum. Dieser ist vom Vertauschen zweier Kinder abgesehen eindeutig. Das Ergebnis ist allerdings nur brauchbar, wenn die Daten ultrametrisch sind. Der resultierende Baum ist wie gefordert binär und besitzt eine Wurzel. Das Verfahren besteht aus folgenden Schritten: 1. Erstelle für jede Zeile der Matrix ein Blatt mit der Bezeichnung der jeweiligen Zeile 2. Wähle einen kleinsten Wert D(i,j) aus den Matrix-Werten aus 3. Verbinde die Blätter i und j mit einem neuen Knoten, der die Bezeichnung D(i,j) erhält; die beiden Kantenlängen zu i und j betragen jeweils D(i,j)/2 4. Entferne die Spalten i und j und die Zeilen i und j, füge jeweils eine Zeile ij und eine Spalte ij hinzu und berechne die neuen Werte aus dem Durchschnitt der alten Werte Beispiel: D(ij,z) := ( D(i,z) + D(j,z) ) / 2 5. Wiederhole Schritte 2 4 solange, bis die Matrix nur noch einen Wert enthält. Beispiel: A B C D E A B C D 0 5 E 0 AE B C D AE B C 0 8 D 0 Schritt 2 Schritt 3 Schritt 4 Baum nach wiederh. Anwendung der Schritte 2-4 7

8 Probleme der Ultrametriken Die Bedingungen für ultrametrische Daten sind recht streng und schränken somit das Einsatzgebiet stark ein. Reale Daten sind nur selten ultrametrisch. Der Grund liegt im unterschiedlichen Selektionsdruck, der auf die verschiedenen Proteine wirkt, wodurch die Mutationen nur selten konstant sind. Die Annahme der Molecular Clock ist damit verletzt. Hinzu kommt, dass man nur lebende Organismen für die Berechnung berücksichtigen kann. Sämtliche inneren Knoten werden berechnet. Die Einbeziehung der DNA ausgestorbener Organismen ist somit unmöglich. In Bezug auf Sprachforschung dürfte diese Tatsache noch einschneidender sein, da oft alte Textauszüge vorhanden sind, die bei Einbeziehung die Qualität des Stammbaums deutlich verbessern könnten. 8

9 Additive Bäume Einleitung Die Annahme der Ultrametrik von Daten ist eine sehr starke Voraussetzung, der die Daten in der Realität oft nicht gerecht werden. Aus diesem Grund und weil man aber trotzdem mit den vorhandenen Daten arbeiten möchte, wird die Annahme über die Qualität der Daten abgeschwächt. Bei additiven Bäumen nimmt man an, dass die Daten lediglich additiv sind, d.h. die verwendeten Distanzmasse repräsentieren zwar den Abstand zwischen den untersuchten Einheiten, es ist jedoch nicht möglich auf den zeitlichen Umfang der Veränderungen zu bestimmen. Analog zu einer Distanzmatrix für ultrametrische Bäume muss eine Distanzmatrix bestimmte Bedingungen erfüllen, damit aus ihr ein additiver Baum generiert werden kann. Die Matrix muss symmetrisch sein, d.h. die Distanz AB muss gleich der Distanz BA sein. Die Matrix muss eine 0- Diagonale aufweisen. Alle anderen Felder in der Matrix müssen größer als 0 sein. Die Werte der Matrix müssen die 4-Punkt-Bedingung erfüllen. Siehe Abbildung Matrix 1 für ein Beispiel einer Matrix, welche die genannten Bedingungen erfüllt. A B C D A B C 0 6 D 0 Abbildung: Matrix 1 Während alle anderen Bedingungen recht einfach nachzuvollziehen sind, ist die 4-Punkt-Bedingung etwas komplizierter. Deswegen wird im Folgenden ausführlich auf sie eingegangen. Im ersten Schritt wird die 4-Punkt-Bedingung als Theorem vorgestellt. Eine Matrix D hat einen additiven Baum, gdw für alle Zeilen i, j, k, l ein Baum konstruiert werden kann, so dass die 4-Punkt-Bedingung gilt: D(i,k)+D(j,l) D(i,j)+D(k,l) = D(i,l)+D(k,j) Theorem: 4-Punkt-Bedingung Wendet man dieses abstrakte Theorem auf die Matrix in Abbildung Matrix I an, lautet die Formel der 4-Punkt-Bedingung: D(A,B)+D(D,C) D(A,D)+D(B,C) = D(A,C)+D(B,D). Durch Einsetzen der entsprechenden Werte erhält man = Damit ist belegt, dass für die Beispielmatrix die 4-Punkt-Bedingung erfüllt ist und somit diese Matrix einen additiven Baum hat. 9

10 Neighbor Joining Der Neighbor-Joining-Algorithmus dient der Generierung eines additiven Baumes aus einer gegebenen Matrix. Dieses Verfahren generiert immer einen Baum aus einer gegebenen Matrix, daher ist es wichtig, dass die Matrix die im vorherigen Abschnitt genannten Bedingungen erfüllt, damit das Ergebnis auch tatsächlich ein additiver Baum ist. Der Neighbor-Joining-Algorithmus ähnelt dem UPGMA-Algorithmus zur Generierung ultrametrischer Bäume. Beide Algorithmen sind hierarchische Clusterverfahren. Das Neighbor- Joining-Verfahren erzeugt einen binären Baum ohne Wurzel. Diese Bäume ohne Wurzel können dann in einem weiteren Schritt mit einer Wurzel versehen werden. Die Unterschiede zwischen Neighbor Joining und UPGMA liegen im Gruppieren der Objekte nach der Nähe zueinander. Während beim UPGMA einfach die gegebenen Distanzmasse verwendet werden, wird beim Neighbor Joining zusätzlich der Abstand der Objekte zu anderen Clustern einbezogen. Aus diesem Unterschied ergibt sich, dass beim UPGMA immer Bäume mit Wurzel entstehen und beim Neighbor Joining Bäume ohne Wurzel. Der Neighbor Joining Algorithmus 1. Berechne für jede Spezies u i = k i D( i, k) n 2 2. Wähle das i und j aus, für die D ij u i u j den kleinsten Wert ergibt. 3. Füge die Cluster i und j zu einem neuen Cluster zusammen (ij), und füge in den Baum T einen entsprechenden Knoten ein. Berechne die Kantenlängen von i und j zu diesem neuen Knoten wie folgt: d( i, ij) = D( i, j) + u i u j 2 d( j, ij) = D( i, j) + u j u i 2 4. Berechne die Distanzen zwischen dem neuen Cluster und allen anderen Clustern. D( i, k) + D( j, k) D( i, j) D( k, ij) = 2 5. Lösche die Cluster i und j aus der Tabelle und ersetze sich durch (ij). 6. Wiederhole das gesamte Verfahre solange mehr als ein Cluster existiert. Der Algorithmus soll nun anhand eines Beispiels nachvollzogen werden. Die Ausgangsmatrix ist in der Tabelle Ausgangsmatrix abgebildet. Der Abstand u i zu den anderen Clustern ist in der untersten 10

11 Zeile der Matrix angefügt. Für die Spalte A erhält man beim Einsetzen der Werte in die Formel des ersten Schrittes des Algorithmus diese Gleichung: ( )/(4-2) = 15. Analog wurden die Werte für die Spalten A-C berechnet. A B C D A B C D u i Tabelle: Matrix 2 B C D A B C -20 Tabelle: Neighbor-Joining- Abstände der Clusterpaare Die Tabelle Neighbor-Joining-Abstände der Clusterpaare enthält die Neighbor-Joining-Abstände der Clusterpaare der Ausgangsmatrix. Die Werte in dieser Tabelle wurden nach der Formel des zweiten Schritts des Algorithmus berechnet. Durch Einsetzen erhält man für A und B die Gleichung = -20. Nach der Berechnung findet man in den Zellen AB und CD die niedrigsten Werte. Für unser Beispiel wird die Zelle CD als das zusammenzuführende Cluster gewählt. Gemäß Schritt 3 werden jetzt die Abstände der Einzelpunkt zum neuen gemeinsamen Cluster berechnet. Der Abstand von C zu CD ist ( ) / 2 = 1. Der Abstand von D zu CD ist / 2 = 5. Mit diesen Kantenlängen kann jetzt das neu ermittelte Cluster in den Baum eingetragen werden. Die Abbildung additiver Baum stellt den kompletten additiven Baum dar, der sich aus diesem Beispiel ergibt. Im vierten Schritt werden die Abstände der alten Cluster zum neu gebildeten Cluster berechnet. Tabelle Matrix 2 zeigt die entsprechende Matrix. Die Distanz von A zu CD ergibt sich entsprechend der Formel aus der Gleichung / 2 = 9. A B CD A B CD u i Tabelle: Matrix 3 Der fünfte Schritt ist das Löschen der Cluster, die zu dem neuen Cluster zusammengefügt wurden, aus der Matrix. Dies ist in Tabelle Matrix 3 auch erfolgt. Von diesem Punkt an wird das Verfahren 11

12 wiederholt solange mehr als ein Cluster in der Matrix existiert. Der dabei entstehende additive Baum ist in der Abbildung additiver Baum unten dargestellt. Additive Bäume Additive Bäume haben, wie bereits oben erwähnt, nicht unbedingt eine Wurzel. Ein additiver Baum weist gewichtete Kanten sowie bezeichnete und unbezeichnete Knoten auf. (vgl. Abb. additiver Baum) Abbildung: additiver Baum Der Pfad zwischen den Knoten entspricht der Distanz, welche die entsprechenden Cluster in der Distanzmatrix aufweisen. Durch additive Bäume werden evolutionäre Zusammenhänge repräsentiert, jedoch ist aus ihnen keine Richtung der Evolution abzulesen. Bei additiven Bäumen ist es möglich Objekte der Abstandsmatrix als innere Objekte darzustellen. Diese Eigenschaft ist besonders hinsichtlich der Verwendung des Verfahrens für eine historischlinguistische Fragestellung interessant, wie Hochmuth (2004) feststellt: für Sprachen [stehen] alte Textfassungen zur Verfügung, wodurch es vorkommen kann, dass eine Textfassung in das Bauminnere gerückt werden muss. Da die genannte Arbeit eine Untersuchung ist, welche sich mit der Anwendung algorithmischer Verfahren aus der Bio-Informatik auf linguistische Fragestellungen befasst, wird sie im folgenden Abschnitt kurz unter dem Aspekt der Anwendung additiver Bäume dargestellt. Die Anwendung phylogenetischer Algorithmen In der Arbeit von M. Hochmuth wurden Methoden aus der Bioinformatik auf eine sprachwissenschaftliche Fragestellung angewandt. Der Bezug zu unserer Arbeit besteht darin, dass distanzbasierte Verfahren zur Berechnung der Verwandtschaft von Sprachen eingesetzt wurden und dass additive Bäume zur Repräsentation der Verwandtschaftsbeziehungen genutzt wurden. Der Levenshtein-Abstand ist eine in der Molekularbiologie verbreitete Methode zur Bestimmung des Abstands zwischen zwei Arten. In der Studienarbeit von M. Hochmuth wurde diese Methode auf historische Texte angewandt, wobei der Abstand zwischen gleichbedeutenden Wörtern berechnet wurde. Der Levenshtein-Abstand wird zwar schon längere Zeit auch im Bereich der Linguistik im weiteren 12

13 Sinne benutzt, zum Beispiel für automatische Rechtschreibkontrollen mit Korrekturvorschlägen, jedoch wurde das Verfahren bislang nicht zur Berechnung von Verwandtschaft zwischen Sprachen eingesetzt. Die Levenshtein-Methode produziert als Ergebnis Abstandsmatrizen. Die Werte in diesen Matrizen stellen die Abstände zwischen den untersuchten Sprachen dar. Die Matrizen können als Eingabedaten für phylogenetische Algorithmen zur Berechnung von Stammbäumen, wie die in dieser Arbeit vorgestellten, verwendet werden. Hochmuth verwendete für die Experimente unterschiedliche Fassungen des Vater unser aus verschiedenen historischen Sprachstufen und zeitgenössischen Dialekten als Datenbasis. Zusätzlich wurden eine lateinische, zwei englische, eine gotische und eine isländische Fassung dieses Textes in die Datenbasis aufgenommen. Bei den Experimenten zur Berechnung der Abstände zwischen den Sprachvarianten wurde untersucht, welchen Einfluss die Änderung verschiedener Parameter auf das Ergebnis hatte. Dies wurde getan, um zu ermitteln, welche Form der Aufbereitung der Daten die besten Ergebnisse liefert. Die Abbildung Hochmuth 2004 zeigt ein Ergebnis der Experimente. Es handelt sich um einen additiven Baum für die Texte aus dem Neuhochdeutschen (NHD), dem Frühmittelhochdeutschen (FNHD), dem Mittelhochdeutschen (MHD), dem Althochdeutschen (AHD) und dem Altsächsischen (AHD). Abbildung: Hochmuth 2004; Additiver Baum, für den einfachen Levenshtein-Abstand zwischen fünf Versionen des Vaterunser (Hochmuth 2004) Die Verteilung der betrachteten Sprachstufen entspricht dem, was in der Sprachwissenschaft über diese Sprachstufen bekannt ist. Die Experimentreihe ergab, dass die Ergebnisse mit erhöhtem Aufbereitungsaufwand bei den Eingabedaten verbessert werden konnten, aber schon der einfache Levenshtein-Abstand gute Ergebnisse lieferte. Angesichts der vergleichsweise geringen Datenmenge ließen sich allerdings keine robusten Ergebnisse erzielen. Neben diesem Problem kommen grundlegende Probleme distanzbasierter Methoden und evolutionärer Ansätze im Allgemeinen hinzu, die wir im folgenden Abschnitt diskutieren werden. 13

14 Probleme des evolutionären Modells Das vorgestellte evolutionäre Modell ist eine Abstraktion, die bestimmte Phänomene nicht beachtet. Unter Genfusion (Gene Fusion) versteht man die Verschmelzung von Genen in einem Genom. Dadurch kann es passieren, dass die genetischen Informationen von zwei Vorfahren in einem einzigen Genom kombiniert sind. Damit wird der Annahme des Modells widersprochen, dass nur ein eindeutiger Vorfahre möglich ist. Eine weitere Annahme des Modells ist, dass die Weitergabe von genetischen Informationen nur vertikal stattfindet. Dafür lassen sich aber in der Biologie Ausnahmen finden. Bei Viren und Bakterien tritt teilweise ein horizontaler Transfer genetischer Daten auf. Es werden komplette Fremdsequenzen in die vorhandene DNA eingeschleust. Im Bereich von Sprachen finden sich Phänomene, die analog zum horizontalen Transfer in der Biologie zu sehen sind. Im Verlauf des Seminars hat sich ziemlich stark herauskristallisiert, wie stark der Einfluss des Kontakts zwischen Sprachen auf die Entwicklung von Sprachen ist. Gerade an diesem Punkt scheint fragwürdig, welche Erfolge mit der Übertragung des Evolutionsmodells auf die Entwicklung von Sprachen zu erzielen sind. Weitere Probleme des Modells sind, dass Evolutionsereignisse nicht ausschließlich Mutationen sind. Ein Gegenbeispiel ist die geschlechtliche Fortpflanzung. Die Annahme, dass Ähnlichkeit gleich Verwandtschaft bedeutet, ist ebenfalls nicht uneingeschränkt richtig. Bei einer Homoplasie gibt es Sequenzen, die sich ähnlich sind aber nicht miteinander verwandt sind, zum Beispiel in Form von Konvergenzen. Praxistauglichkeit distanzbasierter Methoden Neben distanzbasierten Methoden, wie sie hier vorgestellt wurden, gibt es auch weitere Verfahren zur Erzeugung phylogenetischer Bäume. Alle Methoden weisen bestimmte grundsätzliche Probleme auf. Weil es sich um abstrakte Modelle handelt, hat man immer einen Informationsverlust bei der Verarbeitung der Eingabedaten. Bei den distanzbasierten Methoden ist der Informationsverlust durch die Abstraktion sehr hoch, weil sämtliche genetischen Informationen bei der Reduktion auf numerische Abstände verloren gehen. Zudem sind diese Methoden wenig robust, da sie auch geringe Fehler in den Quelldaten nicht tolerieren können und stattdessen unbrauchbare Bäume erzeugen. Trotzdem werden sie genutzt, weil die Verfahren sehr schnell und unkompliziert anwendbar sind. Aufgrund der beschriebenen Gefahren ist es notwendig die Plausibilität der Resultate genau zu prüfen. 14

15 Literatur - Gusfield, Dan: "Algorithms on Strings, Trees, and Sequences", Cambridge University Press, 1997, S Ewens, Grant: "Statistical Methods in Bioinformatics", Springer 2002, S Hochmuth, Mirko: Stringbasierte Algorithmen zur Rekonstruktion von Sprachverwandtschaften, Studienarbeit, Leser, Ulf: aus Vorlesung Algoritmische Bioinformatik WS2004/05, Foliensatz: Distanzbasierte phylogenetische Algorithmen 15

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Bioinformatik. Distanzbasierte phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Distanzbasierte phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Distanzbasierte phylogenetische Algorithmen Ulf Leser Wissensmanagement in der Bioinformatik Phylogenetische Bäume Stammbaum (Phylogenetic Tree) Ulf Leser: Algorithmische Bioinformatik, Wintersemester

Mehr

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014 Evolutionäre Bäume Madox Sesen 30. Juni 2014 1 Einleitung Phylogenetische Bäume sind ein wichtiges Darstellungsmittel der Evolutionsforschung. Durch sie werden Verwandtschaftsbeziehungen zwischen Spezies

Mehr

Evolutionary Trees: Distance Based

Evolutionary Trees: Distance Based Evolutionary Trees: Distance Based 1 Buftea Alexandru Laut der Evolutionstheorie findet in allen Organismen eine langsame Änderung statt (Evolution). Ein evolutionärer Baum, auch phylogenetischer Baum

Mehr

Venndiagramm, Grundmenge und leere Menge

Venndiagramm, Grundmenge und leere Menge Venndiagramm, Grundmenge und leere Menge In späteren Kapitel wird manchmal auf die Mengenlehre Bezug genommen. Deshalb sollen hier die wichtigsten Grundlagen und Definitionen dieser Disziplin kurz zusammengefasst

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen 5. Zwei spieltheoretische Aspekte Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2015/2016 1 / 36 Überblick

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Einführung in die Phylogenie (lat.: phylum = Stamm) Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Stammbäume Phylogenetische Bäume Evolutionsmodell

Mehr

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser / Silke Trißl Wissensmanagement in der. Bioinformatik

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser / Silke Trißl Wissensmanagement in der. Bioinformatik Bioinformatik Phylogenetische Algorithmen Ulf Leser / Silke Trißl Wissensmanagement in der Bioinformatik BLAT Szenario Vergleich einer Maus-cDNA Q mit einer humanen cdnas Hintergrundwissen über Menschen

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

Phylogenetische Rekonstrukion Sparsamkeits- und Abstandsmethoden 5. Juli 2012

Phylogenetische Rekonstrukion Sparsamkeits- und Abstandsmethoden 5. Juli 2012 Merle Erpenbeck Phylogenetische Rekonstrukion Sparsamkeits- und Abstandsmethoden 5. Juli 202 Seminarausarbeitung im Seminar Mathematische Biologie vorgelegt von Merle Erpenbeck Matrikelnummer: 5896 Betreuer:

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik FREIE UNIVERSITÄT BERLIN Fachbereich Mathematik und Informatik Institut für Informatik (WE 3) FU BERLIN Freie Universität Berlin FB Mathematik und Informatik, Institut für Informatik, Takustr. 9, D-14195

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Definition der Entropie unter Verwendung von supp(p XY )

Definition der Entropie unter Verwendung von supp(p XY ) Definition der Entropie unter Verwendung von supp(p XY ) Wir fassen die Ergebnisse des letzten Abschnitts nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße XY mit der Wahrscheinlichkeitsfunktion

Mehr

Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering. Ulf Leser Wissensmanagement in der Bioinformatik

Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering. Ulf Leser Wissensmanagement in der Bioinformatik Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering Ulf Leser Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen

Mehr

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen

Mehr

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Phylogenetische Algorithmen Ulf Leser Wissensmanagement in der Bioinformatik BLAT Szenario Vergleich einer Maus-cDNA Q mit einer humanen cdnas Hintergrundwissen über Menschen und Mäuse Wenn

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

27 Funktionelle Genomanalysen Sachverzeichnis

27 Funktionelle Genomanalysen Sachverzeichnis Inhaltsverzeichnis 27 Funktionelle Genomanalysen... 543 27.1 Einleitung... 543 27.2 RNA-Interferenz: sirna/shrna-screens 543 Gunter Meister 27.3 Knock-out-Technologie: homologe Rekombination im Genom der

Mehr

Elemente der Stochastik (SoSe 2016) 9. Übungsblatt

Elemente der Stochastik (SoSe 2016) 9. Übungsblatt Dr. M. Weimar 06.06.2016 Elemente der Stochastik (SoSe 2016) 9. Übungsblatt Aufgabe 1 (2+2+2+2+1=9 Punkte) In einer Urne befinden sich sieben Lose, darunter genau ein Gewinnlos. Diese Lose werden nacheinander

Mehr

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 9. Multiples Alignment II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht T-COFFEE Probleme bei

Mehr

Mathematische Funktionen

Mathematische Funktionen Mathematische Funktionen Viele Schüler können sich unter diesem Phänomen überhaupt nichts vorstellen, und da zusätzlich mit Buchstaben gerechnet wird, erzeugt es eher sogar Horror. Das ist jedoch gar nicht

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Rot-schwarz Bäume Eigenschaften Rotationen Einfügen (Löschen) 2 Einführung Binäre Suchbäume Höhe h O(h) für Operationen

Mehr

y x x y ( 2x 3y + z x + z

y x x y ( 2x 3y + z x + z Matrizen Aufgabe Sei f R R 3 definiert durch ( ) x 3y x f = x + y y x Berechnen Sie die Matrix Darstellung von f Aufgabe Eine lineare Funktion f hat die Matrix Darstellung A = 0 4 0 0 0 0 0 Berechnen Sie

Mehr

Wiederholungsblatt zur Gruppentheorie

Wiederholungsblatt zur Gruppentheorie Wiederholungsblatt zur Gruppentheorie von Christian Elsholtz, TU Clausthal, WS 1999/2000 Um Ihnen zu helfen, die Gruppentheorie zu wiederholen, stelle ich hier einige wichtige Beispiele und einige Lösungen

Mehr

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 9. Multiples Alignment II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht T-OFFEE Probleme bei

Mehr

Lineare Algebra II 5. Übungsblatt

Lineare Algebra II 5. Übungsblatt Lineare Algebra II Übungsblatt Fachbereich Mathematik SS Prof Dr Kollross / Mai Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G (Algebraisch abgeschlossener Körper) Ein Körper heißt algebraisch abgeschlossen,

Mehr

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 ETH Zürich Institut für Theoretische Informatik Prof. Dr. Angelika Steger Florian Meier, Ralph Keusch HS 2017 Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 Lösungsvorschlag zu Aufgabe 1

Mehr

Serie 8: Online-Test

Serie 8: Online-Test D-MAVT Lineare Algebra I HS 017 Prof Dr N Hungerbühler Serie 8: Online-Test Einsendeschluss: Freitag, der 4 November um 14:00 Uhr Diese Serie besteht nur aus Multiple-Choice-Aufgaben und wird nicht vorbesprochen

Mehr

Körper- und Galoistheorie

Körper- und Galoistheorie Prof. Dr. H. Brenner Osnabrück SS 2011 Körper- und Galoistheorie Vorlesung 23 Unter den drei klassischen Problemen der antiken Mathematik versteht man (1) die Quadratur des Kreises, (2) die Dreiteilung

Mehr

Verteilungsfunktionen (in Excel) (1)

Verteilungsfunktionen (in Excel) (1) Verteilungsfunktionen (in Excel) () F(x) Veranschaulichung der Sprungstellen: Erst ab x=4 ist F(x) = 0,75! Eine Minimal kleinere Zahl als 4, bspw. 3,9999999999 gehört noch zu F(x)=0,5! 0,75 0,5 0,25 0

Mehr

Musterlösungen Blatt Mathematischer Vorkurs. Sommersemester Dr. O. Zobay. Matrizen

Musterlösungen Blatt Mathematischer Vorkurs. Sommersemester Dr. O. Zobay. Matrizen Musterlösungen Blatt 8 34007 Mathematischer Vorkurs Sommersemester 007 Dr O Zobay Matrizen Welche Matrixprodukte können mit den folgenden Matrizen gebildet werden? ( 4 5 A, B ( 0 9 7, C 8 0 5 4 Wir können

Mehr

Fehlererkennung und Fehlerkorrektur in Codes

Fehlererkennung und Fehlerkorrektur in Codes Fehlererkennung und Fehlerkorrektur in Codes Blockcodes und Hamming Abstand Untersuchungen zu Codierungen von Informationen, die über einen Nachrichtenkanal übertragen werden sollen, konzentrieren sich

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme Universität Hamburg Fachbereich Mathematik Seminar: Proseminar Graphentheorie Dozentin: Haibo Ruan Sommersemester 2011 Ausarbeitung zum Modulabschluss Graphentheorie spannende Bäume, bewertete Graphen,

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Kapitel 1: Motivation / Grundlagen Gliederung

Kapitel 1: Motivation / Grundlagen Gliederung Gliederung 1. Motivation / Grundlagen 2. Sortier- und Selektionsverfahren 3. Paradigmen des Algorithmenentwurfs 4. Ausgewählte Datenstrukturen 5. Algorithmische Geometrie 6. Umgang mit algorithmisch schwierigen

Mehr

T (n) = max. g(x)=n t(n) S(n) = max. g(x)=n s(n)

T (n) = max. g(x)=n t(n) S(n) = max. g(x)=n s(n) Beim Logarithmischen Kostenmaß wird, im Gegensatz zum EKM, die Stelligkeit der Werte berücksichtigt und mit in die Laufzeit eingerechnet. Beispiel: R1 := R2 (R3), wobei R2 den Wert 5, R3 den Wert 10 und

Mehr

5 Kontinuierliches Wachstum

5 Kontinuierliches Wachstum 5 Kontinuierliches Wachstum Kontinuierlich meßbare Größe Wir betrachten nun eine Größe a, die man kontinuierlich messen kann. Den Wert von a zum Zeitpunkt t schreiben wir nun als a(t). Wir können jedem

Mehr

2.6 Stetigkeit und Grenzwerte

2.6 Stetigkeit und Grenzwerte 2.6 Stetigkeit und Grenzwerte Anschaulich gesprochen ist eine Funktion stetig, wenn ihr Graph sich zeichnen lässt, ohne den Stift abzusetzen. Das ist natürlich keine präzise mathematische Definition und

Mehr

1 Schulinterner Kernlehrplan Biologie Q2 Evolution

1 Schulinterner Kernlehrplan Biologie Q2 Evolution 1 Schulinterner Kernlehrplan Biologie Q2 Evolution 1 Inhaltsfelder Schwerpunkt Basiskonzept Konkretisierte Kompetenzen Evolution Evolutionstheorien LK Evolutionstheorie Biodiversität und Systematik Entwicklung

Mehr

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie 24.06.2010 Prof. Dr. Sven Rahmann 1 Phylogenetik: Berechnung phylogenetischer Bäume Phylogenetik (phylum = Stamm): Rekonstruktion

Mehr

Datenstrukturen und Algorithmen (SS 2013)

Datenstrukturen und Algorithmen (SS 2013) Datenstrukturen und Algorithmen (SS 2013) Übungsblatt 10 Abgabe: Montag, 08.07.2013, 14:00 Uhr Die Übungen sollen in Gruppen von zwei bis drei Personen bearbeitet werden. Schreiben Sie die Namen jedes

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Datenbankdesign - Normalisierung

Datenbankdesign - Normalisierung 1 Datenbankdesign - Normalisierung In einer Datenbank sollen Daten einer realen Welt abgebildet werden. Dazu ist es notwendig, die Struktur des zu bearbeitenden Teilausschnittes in einem möglichst getreuen

Mehr

8 Extremwerte reellwertiger Funktionen

8 Extremwerte reellwertiger Funktionen 8 Extremwerte reellwertiger Funktionen 34 8 Extremwerte reellwertiger Funktionen Wir wollen nun auch Extremwerte reellwertiger Funktionen untersuchen. Definition Es sei U R n eine offene Menge, f : U R

Mehr

5. Bäume und Minimalgerüste

5. Bäume und Minimalgerüste 5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 25. April 2016 Die Dimensionsformel Definition 3.9 Sei f : V W eine lineare Abbildung zwischen zwei K-Vektorräumen. Der Kern

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche

Mehr

2 Rationale und reelle Zahlen

2 Rationale und reelle Zahlen 2 reelle Es gibt Mathematik mit Grenzwert (Analysis) und Mathematik ohne Grenzwert (z.b Algebra). Grenzwerte existieren sicher nur dann, wenn der Zahlbereich vollständig ist, also keine Lücken aufweist

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Wann sind Codes eindeutig entschlüsselbar?

Wann sind Codes eindeutig entschlüsselbar? Wann sind Codes eindeutig entschlüsselbar? Definition Suffix Sei C ein Code. Ein Folge s {0, 1} heißt Suffix in C falls 1 c i, c j C : c i = c j s oder 2 c C und einen Suffix s in C: s = cs oder 3 c C

Mehr

4 Reihen und Finanzmathematik

4 Reihen und Finanzmathematik 4 Reihen und Finanzmathematik 4. Reihen Aus Folgen lassen sich durch Aufaddieren weitere Folgen konstruieren. Das sind die sogenannten Reihen, sie spielen in der Finanzmathematik eine wichtige Rolle. Sei

Mehr

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was

Mehr

Lineare Gleichungen mit 2 Variablen

Lineare Gleichungen mit 2 Variablen Lineare Gleichungen mit 2 Variablen Lineare Gleichungen mit 2 Variablen sind sehr eng verwandt mit linearen Funktionen. Die Funktionsgleichung einer linearen Funktion f(x) = m x+q m: Steigung, q: y Achsenabschnitt

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Serie 8: Fakultativer Online-Test

Serie 8: Fakultativer Online-Test Prof Norbert Hungerbühler Lineare Algebra I Serie 8: Fakultativer Online-Test ETH Zürich - D-MAVT HS 215 1 Diese Serie besteht nur aus Multiple-Choice-Aufgaben und wird nicht vorbesprochen Die Nachbesprechung

Mehr

9 Lineare Gleichungssysteme

9 Lineare Gleichungssysteme 9 Lineare Gleichungssysteme Eine der häufigsten mathematischen Aufgaben ist die Lösung linearer Gleichungssysteme In diesem Abschnitt beschäftigen wir uns zunächst mit Lösbarkeitsbedingungen und mit der

Mehr

Lösungen zum Aufgabenblatt Nr. 1: Konstruktion der reellen Zahlen

Lösungen zum Aufgabenblatt Nr. 1: Konstruktion der reellen Zahlen Lösungen zum Aufgabenblatt Nr. 1: Konstruktion der reellen Zahlen Aufgabe 1: Es sei D die Menge aller rationalen Dedekind-Mengen, also D := { M 2 Q M is Dedekind-Menge }. Auf der Menge D definieren wir

Mehr

} Symmetrieachse von A und B.

} Symmetrieachse von A und B. 5 Symmetrieachsen Seite 1 von 6 5 Symmetrieachsen Gleicher Abstand von zwei Punkten Betrachtet man zwei fest vorgegebene Punkte A und B, drängt sich im Zusammenhang mit dem Abstandsbegriff eine Frage auf,

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands

Mehr

6 Trigonometrische Funktionen

6 Trigonometrische Funktionen 6 Trigonometrische Funktionen 6. Definition Die Trigonometrischen Funktionen (oder Winkelfunktionen) Sinus-, Kosinusund Tangensfunktion stellen den Zusammenhang zwischen Winkel und Seitenverhältnis dar.

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Technische Universität München Christoph Niehoff Ferienkurs Lineare Algebra für Physiker Vorlesung Mittwoch WS 009/00 Die beiden Hauptthemen von diesem Teil des Ferienkurses sind Lineare Gleichungssysteme

Mehr

Statistik mit Tabellenkalkulation

Statistik mit Tabellenkalkulation Tabellenkalkulation 1. Grundlagen Wir werden statistische Daten am Computer mit einem Tabellenkalkulationsprogramm bearbeiten. Dazu sind einige grundlegende Kenntnisse nötig. Ein neues Dokument einer Tabellenkalkulation

Mehr

LANGFRISTIGE HAUSAUFGABE (STOCHASTIK)

LANGFRISTIGE HAUSAUFGABE (STOCHASTIK) LANGFRISTIGE HAUSAUFGABE (STOCHASTIK) Aufgabe 1: 6 und 7, gleichgeblieben? Anna sagt: Die Wahrscheinlichkeiten für das Auftreten der Augensumme 6 oder 7 beim Werfen zweier Würfel sind gleichgroß, da sie

Mehr

Evolution. Biologie. Zusammenfassungen. Semesterprüfung Freitag, 17. Juni Evolutionstheorien Lamarck/Darwin. Evolutionsfaktoren

Evolution. Biologie. Zusammenfassungen. Semesterprüfung Freitag, 17. Juni Evolutionstheorien Lamarck/Darwin. Evolutionsfaktoren Biologie Evolution Zusammenfassungen Semesterprüfung Freitag, 17. Juni 2016 Evolutionstheorien Lamarck/Darwin Evolutionsfaktoren Auswirkungen der Selektion Artbildung Phylogenie Steffi ENTHÄLT INHALTE

Mehr

Rekonstruktion von Evolutionärer Geschichte

Rekonstruktion von Evolutionärer Geschichte Rekonstruktion von Evolutionärer Geschichte Populations- und Evolutionsbiologie 21.1.04 Florian Schiestl Phylogenetische Systematik Phylogenie: (gr. Phylum=Stamm) die Verwandtschaftsbeziehungen der Organismen,

Mehr

Blatt 10 Lösungshinweise

Blatt 10 Lösungshinweise Lineare Algebra und Geometrie I SS 05 Akad. Rätin Dr. Cynthia Hog-Angeloni Dr. Anton Malevich Blatt 0 Lösungshinweise 0 0 Aufgabe 0. Es seien die Vektoren u =, v = und w = in R gegeben. a # Finden Sie

Mehr

Das Simplexverfahren

Das Simplexverfahren Byron Das Simplexverfahren. Worum es geht: Es ist eine lineare Gleichung f gegeben, sowie ein System von Ungleichungen, die nähere Aussagen über die Unbekannten von f geben. Durch das Simplexverfahren

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

Universität Mannheim NAME:... Deutsche Sprachprüfung für den Hochschulzugang ausländischer Studienbewerber (DSH) SS 2006

Universität Mannheim NAME:... Deutsche Sprachprüfung für den Hochschulzugang ausländischer Studienbewerber (DSH) SS 2006 Universität Mannheim NAME:... VORNAME:... Deutsche Sprachprüfung für den Hochschulzugang ausländischer Studienbewerber (DSH) SS 2006 I.Leseverstehen (Bearbeitungszeit: 60 Minuten) Die Gene der Kultur Nicht

Mehr

1 Elemente der Wahrscheinlichkeitstheorie

1 Elemente der Wahrscheinlichkeitstheorie H.-J. Starkloff Unendlichdimensionale Stochastik Kap. 01 11. Oktober 2010 1 1 Elemente der Wahrscheinlichkeitstheorie 1.1 Messbare Räume Gegeben seien eine nichtleere Menge Ω und eine Menge A von Teilmengen

Mehr

Terminplanungstool Foodle

Terminplanungstool Foodle VERSION: 1.0 STATUS: fertiggestellt VERTRAULICHKEIT: öffentlich STAND: 14.04.2015 INHALTSVERZEICHNIS 1 ALLGEMEINE INFORMATIONEN... 3 2 TERMINPLAN ERSTELLEN... 4 2.1 Terminplan beschreiben... 5 2.2 Termine

Mehr

Die Determinante eines Friesmuster

Die Determinante eines Friesmuster Die Determinante eines Friesmuster Die Determinante eines Friesmuster von Hannah Vogel,??? Einleitung Friesmuster (engl. Frieze Pattern ) gab es schon lange bevor sie in der Mathematik diskutiert wurden.

Mehr

6. Rechnen mit Matrizen.

6. Rechnen mit Matrizen. 6. Rechnen mit Matrizen. In dieser Vorlesung betrachten wir lineare Gleichungs System. Wir betrachten lineare Gleichungs Systeme wieder von zwei Gesichtspunkten her: dem angewandten Gesichtspunkt und dem

Mehr

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007 Graphentheorie Rainer Schrader Zentrum für Angewandte Informatik Köln 25. Oktober 2007 1 / 20 2 / 20 Wir werden Optimierungsprobleme vom folgenden Typ betrachten: gegeben eine Menge X und eine Funktion

Mehr

- 2 - Inzwischen ist anerkannt, dass sich der moderne Mensch aus einer Urform entwickelt hat.

- 2 - Inzwischen ist anerkannt, dass sich der moderne Mensch aus einer Urform entwickelt hat. Beispielaufgabe 3 - 2 - Der Neandertaler in uns 1856 entdeckten Arbeiter bei Steinbrucharbeiten in einer Höhle 10 km östlich von Düsseldorf, im sogenannten Neandertal, Knochen. Sie hielten diese Knochen

Mehr

Induktive Definitionen

Induktive Definitionen Priv.-Doz. Dr.rer.nat.habil. Karl-Heinz Niggl Technische Universität Ilmenau Fakultät IA, Institut für Theoretische Informatik Fachgebiet Komplexitätstheorie und Effiziente Algorithmen J Induktive Definitionen

Mehr

Vier-Farbenproblem. (c) Ein etwas schwereres Beispiel...

Vier-Farbenproblem. (c) Ein etwas schwereres Beispiel... Vier-Farbenproblem Kann man jede Landkarte mit vier Farben färben, sodass keine aneindander angrenzenden Länder die gleiche Farbe haben? Versuchen Sie die Karte Deutschlands oder eines der anderen Bilder

Mehr

Ü b u n g s b l a t t 15

Ü b u n g s b l a t t 15 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine

Mehr

Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann.

Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann. Expertengruppenarbeit Sonnenentfernung Das ist unsere Aufgabe: Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann. Konkret ist Folgendes zu tun: Lesen Sie

Mehr

Technische Universität München Zentrum Mathematik. Optimierung 2, WS 2008/09 Übungsblatt 12

Technische Universität München Zentrum Mathematik. Optimierung 2, WS 2008/09 Übungsblatt 12 Technische Universität München Zentrum Mathematik Prof. Dr. P. Gritzmann, Dipl.-Inf. Dipl.-Math. S. Borgwardt, Dr. M. Ritter Optimierung 2, WS 2008/09 Übungsblatt 12 Aufgabe 12.1 Betrachten Sie die folgenden

Mehr

Lineare Algebra 1. Roger Burkhardt

Lineare Algebra 1. Roger Burkhardt Lineare Algebra 1 Roger Burkhardt roger.burkhardt@fhnw.ch Fachhochschule Nordwestschweiz Hochschule für Technik Institut für Geistes- und Naturwissenschaft HS 2010/11 1 Einführung Lineare Gleichungen Definition

Mehr

Beispiele 1. Gegeben ist das lineare System. x+4y +3z = 1 2x+5y +9z = 14 x 3y 2z = 5. Die erweiterte Matrix ist

Beispiele 1. Gegeben ist das lineare System. x+4y +3z = 1 2x+5y +9z = 14 x 3y 2z = 5. Die erweiterte Matrix ist 127 Die Schritte des Gauß-Algorithmus sind nun die Folgenden: 1. Wir bestimmen die am weitesten links stehende Spalte, die Einträge 0 enthält. 2. Ist die oberste Zahl der in Schritt 1 gefundenen Spalte

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 4 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 24. April 2019 [Letzte Aktualisierung: 24/04/2019,

Mehr

37 Gauß-Algorithmus und lineare Gleichungssysteme

37 Gauß-Algorithmus und lineare Gleichungssysteme 37 Gauß-Algorithmus und lineare Gleichungssysteme 37 Motivation Lineare Gleichungssysteme treten in einer Vielzahl von Anwendungen auf und müssen gelöst werden In Abschnitt 355 haben wir gesehen, dass

Mehr

Teil I. Lineare Algebra I Vorlesung Sommersemester Olga Holtz. MA 378 Sprechstunde Fr und n.v.

Teil I. Lineare Algebra I Vorlesung Sommersemester Olga Holtz. MA 378 Sprechstunde Fr und n.v. Teil I Lineare Algebra I Vorlesung Sommersemester 2011 Olga Holtz MA 378 Sprechstunde Fr 14-16 und nv holtz@mathtu-berlinde Sadegh Jokar MA 373 Sprechstunde, Do 12-14 und nv jokar@mathtu-berlinde Kapitel

Mehr

Kapitel 4. Reihen 4.1. Definition und Beispiele

Kapitel 4. Reihen 4.1. Definition und Beispiele Kapitel 4. Reihen 4.1. Definition und Beispiele Ist (a n ) eine Folge von Zahlen, so heißt der formale Ausdruck a ν = a 0 + a 1 + a 2 +... eine Reihe; die einzelnen a ν sind die Glieder dieser Reihe. Um

Mehr

TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK

TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 11 Prof. Dr. Helmut Seidl, S. Pott,

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Approximierbarkeit David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 10.06.2016 Übersicht Das Problem des Handelsreisenden TSP EUCLIDEAN-TSP

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 6 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 16. Mai 2018 [Letzte Aktualisierung: 18/05/2018,

Mehr

- 2 - Inzwischen ist anerkannt, dass sich der moderne Mensch aus einer Urform entwickelt hat. Ich soll nun also herausfinden

- 2 - Inzwischen ist anerkannt, dass sich der moderne Mensch aus einer Urform entwickelt hat. Ich soll nun also herausfinden Beispielaufgabe 3 - 2 - Der Neandertaler in uns 1856 entdeckten Arbeiter bei Steinbrucharbeiten in einer Höhle 10 km östlich von Düsseldorf, im sogenannten Neandertal, Knochen. Sie hielten diese Knochen

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Dynamische Geometrie & Komplexitätstheorie. Céline Schöne und Gunther Kraut

Dynamische Geometrie & Komplexitätstheorie. Céline Schöne und Gunther Kraut Dynamische Geometrie & Komplexitätstheorie Céline Schöne und Gunther Kraut Wir haben gelernt... Es gibt freie und abhängige Punkte. Mit Snapshot ist eine bestimmte Position der freien Elemente bezeichnet.

Mehr