Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie

Ähnliche Dokumente
Networks, Dynamics, and the Small-World Phenomenon

Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst

Einführung in die Bioinformatik

Netzwerke. Marcus Kaiser International University Bremen

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

WS 2009/10. Diskrete Strukturen

Diskrete Strukturen Kapitel 1: Einleitung

27 Funktionelle Genomanalysen Sachverzeichnis

Minimal spannende Bäume

Bei Einbeziehung von neun Allelen in den Vergleich ergibt sich eine Mutation in 38 Generationen (350:9); das entspricht ca. 770 Jahren.

Theoretische Informatik 1

Ausarbeitung zum Seminarvortrag Skalenfreie Netze

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

MOL.504 Analyse von DNA- und Proteinsequenzen

Komplexe Netzwerke Gradverteilung der Knoten, Skalenfreiheit, Potenzgesetz

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme

Grundbegriffe der Informatik

Fortgeschrittene Netzwerk- und Graph-Algorithmen

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Routing Algorithmen. Begriffe, Definitionen

Lokalisierung von inneren und äußeren Grenzen in Sensornetzwerken

Definition Ein gerichteter Graph G = (V, E) ist ein Graph von geordneten Paaren (u, v) mit u V und v V.

Motivation Kenngrößen von Graphen Modelle. Small Worlds. in Vorlesung Semantische Suche in P2P-Netzwerken. Florian Holz

Komplexe Netzwerke Robustheit

Eulerweg, Eulerkreis. Das Königsberger Brückenproblem. Definition 3.1. Ein Weg, der jede Kante von G genau einmal

Very simple methods for all pairs network flow analysis

Survival of the Fittest Optimierung mittels Genetischer Algorithmen

Mathematik in der Biologie

Vier-Farben-Vermutung (1)

Proseminar Online Algorithmen, Prof. Dr. Rolf Klein

DATENQUALITÄT IN GENOMDATENBANKEN

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

AMTLICHE BEKANNTMACHUNG

Lernmodul 2 Graphen. Lernmodul 2: Geoobjekte und ihre Modellierung - Graphen

Massive Parallelität : Neuronale Netze

Algorithmen II Vorlesung am

Anwendungen von Netzwerkfluss. Wojciech Polcwiartek Institut für Informatik FU Berlin

Angewandte Informatik

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Vorlesung Diskrete Strukturen Eulersche und Hamiltonsche Graphen

Threading - Algorithmen

WS 2009/10. Diskrete Strukturen

Darwins Erben - Phylogenie und Bäume

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik

1. id. Rödelhart Heimprojekt. notizen

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Graphentheorie. Eulersche Graphen. Eulersche Graphen. Eulersche Graphen. Rainer Schrader. 14. November Gliederung.

Generierung von sozialen Netzwerken. Steffen Brauer WiSe 2011/12 HAW Hamburg

Gebäudeevakuierung als Beispiel einer Mikroskopischen Analyse

4. Kreis- und Wegeprobleme Abstände in Graphen

Organisation und Evolution des Genoms

Schnelle und genaue Routenplanung

Neuronale Netze (I) Biologisches Neuronales Netz

Technische Universität München Zentrum Mathematik Propädeutikum Diskrete Mathematik. Weihnachtsblatt

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche

echtzeitfähige Ethernet-Netzwerke

Informationen zum Studiengang Master Biologie

Computerviren, Waldbrände und Seuchen - ein stochastisches Modell für die Reichweite einer Epidemie

Informationsvisualisierung

Susanne Franssen, SS 04 1

Algorithmische Bioinformatik

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Netzwerkmodelle. Seminar Netzwerkanalyse. Sommersemester 2005 Jasmine Metzler

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik

Graphentheorie 1. Diskrete Strukturen. Sommersemester Uta Priss ZeLL, Ostfalia. Hausaufgaben Graph-Äquivalenz SetlX

Westfählische Wilhelms-Universität. Eulersche Graphen. Autor: Jan-Hendrik Hoffeld

Grundbegriffe der Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 7, Henning Meyerhenke

Analyse des Normennetzwerks der Internet Requests for Comments

Algorithmen und Datenstrukturen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

R a i n e r N i e u w e n h u i z e n K a p e l l e n s t r G r e v e n T e l / F a x / e

Datenstrukturen & Algorithmen

Übungen Softwaretechnik I

Toleranzbasierte Algorithmen für das Travelling Salesman Problem. Gerold Jäger

TreeTOPS. Ein Phylogenetik-Icebreaker Spiel. Lehrer- Handbuch. ELLS Europäisches Lernlabor für die Lebenswissenschaften

allgemeine Informationen

Das Briefträgerproblem

Auswertung der Prüfungsdaten (FB 04) vom Sommersemester 2015 /Termin 01 und 02

Theory Austrian German (Austria) Lies, bitte, bevor du mit der Aufgabe beginnst die allgemeinen Anweisungen im separaten Briefumschlag.

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Bioinformatik: Hype oder Hoffnung?

Synthetische Biologie

Rekombinante Wirkstoffe. Prof. Dr. Theo Dingermann Institut für Pharmazeutische Biologie Goethe-Universität Frankfurt

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Datenstrukturen und Algorithmen SS07

Ausarbeitung über den Satz von Menger und den Satz von König

ADS: Algorithmen und Datenstrukturen 2

Einführungsphase. Unterrichtsvorhaben III: Thema/Kontext: Kein Leben ohne Zelle I Wie sind Zellen aufgebaut und organisiert?

Molekularbiologische Datenbanken

Transkript:

Rheinisch-Westfälischen Technischen Hochschule Aachen Lehr- und Forschungsgebiet Theoretische Informatik Prof. Rossmanith Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie Deniz Özmen Emmanuel Müller 0. Motivation Welche Arten der Forschung stehen der Biologie zur Verfügung? In vivo: am lebenden Organismus In vitro: im Reagenzglas In silico: durch Modellierung am Rechner Welche biologischen Netzwerke wurden schon vorgestellt? Food-Network (Ökologie) C.elegans (Neurobiologie)

0. Motivation C. elegans: (Caenorhabditis elegans) Fadenwurm mit einer Art Gehirn, einem Nervenring um den Schlund. Komplettes neuronales Netzwerk ist bekannt! n = 282 Neuronen L = 2,65 C = 0,28 Zufälliges Netzwerk: L = 2,25 C = 0,05 0. Motivation Ziel des Vortrages: Analyse des Domänen-Netzwerkes von Proteinen durch Betrachtung verschiedener Graphen die aus bestehenden Protein-Datenbanken erstellt wurden. Der Weg zum Ziel: 1. Einführung in die Biologie (Proteine) 2. Vorstellung der meßbaren Größen 3. Und daraufhin der theoretischen Modelle 4. Protein-Datenbanken 5. Analyse des biologischen Netzwerkes 6. Grenzen der Modelle 7. Diskussion

1. Einführung in die Biologie (Proteine) Was sind Proteine? Riesenmoleküle (Sequenzen) Bausteine: rund 20 Arten von Aminosäuren Der Name Protein wurde 1839 von Geradus Johannes Mulder vom griechischen Wort protos ('erstes, wichtigstes') abgeleitet, um dadurch die Bedeutung der Proteine für das Leben zu unterstreichen.

1. Einführung in die Biologie (Proteine) Was sind Domänen? Teilebereiche von Proteinen Sequenzen die unabhängig von den benachbarten Sequenzen eine bestimmte Struktur einnehmen. Funktion = Struktur Eine Domäne ist für eine bestimmte Funktion verantwortlich. Durch Kombination verschiedener Domänen ist die Entwicklung neuer Proteine möglich

2. Meßbare Größen Was für Eigenschaften haben Graphen? Mittlere Pfadlänge L Betrachte das Mittel der kürzesten Wege zwischen allen Knotenpaaren Mittlerer Clustering-Koeffizient C - Betrachte alle Nachbarn eines Knotens - Errechne den Anteil der in diesem induzierten Untergraphen auftretenden Kanten - Mittle über alle Knoten Mittlere Transitivität T - Betrachte alle Nachbarn eines Knotens - Errechne den Anteil der vorkommenden transitiven Kantenbeziehungen - Mittle über alle Knoten 2. Meßbare Größen C und T klingen nun doch recht ähnlich... Die Existenz einer Kante a-c erhöht auch gleichzeitig das C des betrachteten Knotens. Allerdings ist der Zusammenhang nicht so stark wie man vermuten könnte.

2. Theoretische Modelle Was ist das Small-World-Modell? 3. Theoretische Modelle Algorithmus zur Erzeugung von small-world:

3. Theoretische Modelle Auswirkungen auf C und L bei small-world: 3. Theoretische Modelle Somit ergeben sich die charakteristischen small-world-eigenschaften:

3. Theoretische Modelle Scale-Free-Modell: Aussehen Wachstum durch kontinuierliches Einfügen neuer Knoten Neue Knoten hängen sich bevorzugt an Knoten mit hohem Grad an 3. Theoretische Modelle Scale-Free-Modell: Eigenschaften Typische Scale-Free- Eigenschaften: Kleines L Geringe Knotenabstände Erhöhtes C Meßbares Clustering

4. Protein-Datenbanken PROSITE http://www.expasy.org/prosite/ Enthält Proteinfamilien und Domänen Einteilung von Proteinen (ähnliche Sequenzen) in Gruppen (Familien) gleiche funktionelle Eigenschaften, gemeinsamen Vorfahren. charakteristischer Regionen (Indikatoren) Momentan enthält die Datenbank 1710 verschiedene solcher Muster, welche mit Hilfe von Suchanfragen mit einer Sequenz abgeglichen werden können.

4. Protein-Datenbanken Swiss-Prot http://www.expasy.org/sprot/ Wurde 1986 vom Swiss Institute of Bioinformatics erstellt. Proteindatenbanken besteht jeder Eintrag aus zwei Teilen: Kernteil enthält die eigentliche Sequenz und taxonomische Information Anmerkungsteil beschreibt Funktion des Proteins Sekundär-Struktur Domänen Ähnlichkeiten zu anderen Proteinen Momentan enthält die Datenbank 149.914 Sequenzeinträge

4. Protein-Datenbanken TrEMBL Computerkommentierte Datenbank Ergänzung zu Swiss-Prot Enthält alle translatierten Sequenzen aus einer DNA- Datenbank, die noch nicht in Swiss-Prot aufgenommen wurden. Sie enthält momentan 1.065.889 Einträge. 5. Analyse eines Beispiels Ein biochemisches Netzwerk: Definition des Graphen. Sind scale-free und small-world hier anwendbar? Eigenschaften der Graphen auf Biologie übertragen. Evolutionärer Zusammenhang Fehlerquellen und Modellschwächen Schlussfolgerung

5. Analyse eines Beispiels Betrachtung eines Domänengraphen G D =(V D,E D ) mit V D : Jeder Knoten repräsentiert eine Domäne E D : Eine Kante existiert genau dann, wenn beide Domänen im gleichen Protein auftreten Erstelle solche Graphen mit Hilfe der Proteindatenbanken und spezieller Software und erhalte... 5. Analyse eines Beispiels... ein Netzwerk, in dem eine deutliche Erhöhung von C, aber kaum ein Unterschied in L gegenüber zufälligen Graphen feststellbar ist. Viele Domänen treten in nur einem Protein auf viele isolierte Knoten

5. Analyse eines Beispiels Ein bereinigtes Netzwerk liefert die erwarteten Ergebnisse: hohes Clustering niedrige Abstände Scale-Freebzw. Small-World- Eigenschaften 5. Analyse eines Beispiels Die Scale-Free-Eigenschaften finden sich in allen drei verwendeten Datenbanken wieder

5. Analyse eines Beispiels Bisher: Allgemeine Betrachtung aller Domänen, unabhängig von ihrer Herkunft Daher: Gibt es Unterschiede, wenn man die Graphen nach Spezies trennt? Betrachte hierzu die Domänengraphen für Mensch, Fruchtfliege und C. elegans 5. Analyse eines Beispiels Auffällig: Fast identische Steigung für Mensch und Fruchtfliege Stärkerer Abfall bei C. elegans geringere Verbindungsdichte

5. Analyse eines Beispiels 5. Analyse eines Beispiels Andere, ähnliche Ergebnisse legen nahe: vielzellige Organismen benötigen effiziente Verwaltungsstrukturen Die Evolution neigt zu komplexen, hoch strukturierten Proteinen Sind die Graphen somit eine direkte Folge der Entwicklung von Domänen?

6. Grenzen der Modelle Offenbar nicht ausschließlich, denn: Die Domänen- Hubs in niederen Organismen (E. coli) sind andere als die in höheren Organismen Knoten können nicht aus Graphen gelöscht werden Somit können die beiden Modelle nur als grobe Approximation der Realität angesehen werden 6. Grenzen der Modelle Fehlerquellen bei der Anwendung: Ergebnisse sind verfälscht: Eukarionten und Säugetier-Proteine sind viel besser untersucht und in Datenbanken dokumentiert als Prokarionten. Woher stammen die Proteinsequenzen? Datenbanken verwenden in Proteine übersetzte Genome, die nicht so aussagekräftig sind, wie die in der realen Zelle vorkommenden Proteine. Spleißen wird nicht untersucht. Dadurch können in höheren Eukarionten noch höhere Grade auftreten als sie in den bisherigen Analysen errechnet wurden.

7. Ausblick und Diskussion Vorschläge: Ähnlichkeiten zwischen diesen biologischen Netzwerken und bereits bekannten? Auftreten besprochener Effekte (z. B. exponential cut-off) in biologischen Netzwerken? Möglichkeiten, die Modelle zu verbessern?