Rheinisch-Westfälischen Technischen Hochschule Aachen Lehr- und Forschungsgebiet Theoretische Informatik Prof. Rossmanith Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie Deniz Özmen Emmanuel Müller 0. Motivation Welche Arten der Forschung stehen der Biologie zur Verfügung? In vivo: am lebenden Organismus In vitro: im Reagenzglas In silico: durch Modellierung am Rechner Welche biologischen Netzwerke wurden schon vorgestellt? Food-Network (Ökologie) C.elegans (Neurobiologie)
0. Motivation C. elegans: (Caenorhabditis elegans) Fadenwurm mit einer Art Gehirn, einem Nervenring um den Schlund. Komplettes neuronales Netzwerk ist bekannt! n = 282 Neuronen L = 2,65 C = 0,28 Zufälliges Netzwerk: L = 2,25 C = 0,05 0. Motivation Ziel des Vortrages: Analyse des Domänen-Netzwerkes von Proteinen durch Betrachtung verschiedener Graphen die aus bestehenden Protein-Datenbanken erstellt wurden. Der Weg zum Ziel: 1. Einführung in die Biologie (Proteine) 2. Vorstellung der meßbaren Größen 3. Und daraufhin der theoretischen Modelle 4. Protein-Datenbanken 5. Analyse des biologischen Netzwerkes 6. Grenzen der Modelle 7. Diskussion
1. Einführung in die Biologie (Proteine) Was sind Proteine? Riesenmoleküle (Sequenzen) Bausteine: rund 20 Arten von Aminosäuren Der Name Protein wurde 1839 von Geradus Johannes Mulder vom griechischen Wort protos ('erstes, wichtigstes') abgeleitet, um dadurch die Bedeutung der Proteine für das Leben zu unterstreichen.
1. Einführung in die Biologie (Proteine) Was sind Domänen? Teilebereiche von Proteinen Sequenzen die unabhängig von den benachbarten Sequenzen eine bestimmte Struktur einnehmen. Funktion = Struktur Eine Domäne ist für eine bestimmte Funktion verantwortlich. Durch Kombination verschiedener Domänen ist die Entwicklung neuer Proteine möglich
2. Meßbare Größen Was für Eigenschaften haben Graphen? Mittlere Pfadlänge L Betrachte das Mittel der kürzesten Wege zwischen allen Knotenpaaren Mittlerer Clustering-Koeffizient C - Betrachte alle Nachbarn eines Knotens - Errechne den Anteil der in diesem induzierten Untergraphen auftretenden Kanten - Mittle über alle Knoten Mittlere Transitivität T - Betrachte alle Nachbarn eines Knotens - Errechne den Anteil der vorkommenden transitiven Kantenbeziehungen - Mittle über alle Knoten 2. Meßbare Größen C und T klingen nun doch recht ähnlich... Die Existenz einer Kante a-c erhöht auch gleichzeitig das C des betrachteten Knotens. Allerdings ist der Zusammenhang nicht so stark wie man vermuten könnte.
2. Theoretische Modelle Was ist das Small-World-Modell? 3. Theoretische Modelle Algorithmus zur Erzeugung von small-world:
3. Theoretische Modelle Auswirkungen auf C und L bei small-world: 3. Theoretische Modelle Somit ergeben sich die charakteristischen small-world-eigenschaften:
3. Theoretische Modelle Scale-Free-Modell: Aussehen Wachstum durch kontinuierliches Einfügen neuer Knoten Neue Knoten hängen sich bevorzugt an Knoten mit hohem Grad an 3. Theoretische Modelle Scale-Free-Modell: Eigenschaften Typische Scale-Free- Eigenschaften: Kleines L Geringe Knotenabstände Erhöhtes C Meßbares Clustering
4. Protein-Datenbanken PROSITE http://www.expasy.org/prosite/ Enthält Proteinfamilien und Domänen Einteilung von Proteinen (ähnliche Sequenzen) in Gruppen (Familien) gleiche funktionelle Eigenschaften, gemeinsamen Vorfahren. charakteristischer Regionen (Indikatoren) Momentan enthält die Datenbank 1710 verschiedene solcher Muster, welche mit Hilfe von Suchanfragen mit einer Sequenz abgeglichen werden können.
4. Protein-Datenbanken Swiss-Prot http://www.expasy.org/sprot/ Wurde 1986 vom Swiss Institute of Bioinformatics erstellt. Proteindatenbanken besteht jeder Eintrag aus zwei Teilen: Kernteil enthält die eigentliche Sequenz und taxonomische Information Anmerkungsteil beschreibt Funktion des Proteins Sekundär-Struktur Domänen Ähnlichkeiten zu anderen Proteinen Momentan enthält die Datenbank 149.914 Sequenzeinträge
4. Protein-Datenbanken TrEMBL Computerkommentierte Datenbank Ergänzung zu Swiss-Prot Enthält alle translatierten Sequenzen aus einer DNA- Datenbank, die noch nicht in Swiss-Prot aufgenommen wurden. Sie enthält momentan 1.065.889 Einträge. 5. Analyse eines Beispiels Ein biochemisches Netzwerk: Definition des Graphen. Sind scale-free und small-world hier anwendbar? Eigenschaften der Graphen auf Biologie übertragen. Evolutionärer Zusammenhang Fehlerquellen und Modellschwächen Schlussfolgerung
5. Analyse eines Beispiels Betrachtung eines Domänengraphen G D =(V D,E D ) mit V D : Jeder Knoten repräsentiert eine Domäne E D : Eine Kante existiert genau dann, wenn beide Domänen im gleichen Protein auftreten Erstelle solche Graphen mit Hilfe der Proteindatenbanken und spezieller Software und erhalte... 5. Analyse eines Beispiels... ein Netzwerk, in dem eine deutliche Erhöhung von C, aber kaum ein Unterschied in L gegenüber zufälligen Graphen feststellbar ist. Viele Domänen treten in nur einem Protein auf viele isolierte Knoten
5. Analyse eines Beispiels Ein bereinigtes Netzwerk liefert die erwarteten Ergebnisse: hohes Clustering niedrige Abstände Scale-Freebzw. Small-World- Eigenschaften 5. Analyse eines Beispiels Die Scale-Free-Eigenschaften finden sich in allen drei verwendeten Datenbanken wieder
5. Analyse eines Beispiels Bisher: Allgemeine Betrachtung aller Domänen, unabhängig von ihrer Herkunft Daher: Gibt es Unterschiede, wenn man die Graphen nach Spezies trennt? Betrachte hierzu die Domänengraphen für Mensch, Fruchtfliege und C. elegans 5. Analyse eines Beispiels Auffällig: Fast identische Steigung für Mensch und Fruchtfliege Stärkerer Abfall bei C. elegans geringere Verbindungsdichte
5. Analyse eines Beispiels 5. Analyse eines Beispiels Andere, ähnliche Ergebnisse legen nahe: vielzellige Organismen benötigen effiziente Verwaltungsstrukturen Die Evolution neigt zu komplexen, hoch strukturierten Proteinen Sind die Graphen somit eine direkte Folge der Entwicklung von Domänen?
6. Grenzen der Modelle Offenbar nicht ausschließlich, denn: Die Domänen- Hubs in niederen Organismen (E. coli) sind andere als die in höheren Organismen Knoten können nicht aus Graphen gelöscht werden Somit können die beiden Modelle nur als grobe Approximation der Realität angesehen werden 6. Grenzen der Modelle Fehlerquellen bei der Anwendung: Ergebnisse sind verfälscht: Eukarionten und Säugetier-Proteine sind viel besser untersucht und in Datenbanken dokumentiert als Prokarionten. Woher stammen die Proteinsequenzen? Datenbanken verwenden in Proteine übersetzte Genome, die nicht so aussagekräftig sind, wie die in der realen Zelle vorkommenden Proteine. Spleißen wird nicht untersucht. Dadurch können in höheren Eukarionten noch höhere Grade auftreten als sie in den bisherigen Analysen errechnet wurden.
7. Ausblick und Diskussion Vorschläge: Ähnlichkeiten zwischen diesen biologischen Netzwerken und bereits bekannten? Auftreten besprochener Effekte (z. B. exponential cut-off) in biologischen Netzwerken? Möglichkeiten, die Modelle zu verbessern?