JOURNAL-CLUB. Do. 30.03.1995. Wolfgang WYSKOVSKY

JOURNAL-CLUB Do. 30.03.1995 Wolfgang WYSKOVSKY

Anmerkung 2007: Das Referat scheint trotz der seinerzeitigen Skepsis - wieder aktuell zu sein auf Grund folgender Veröffentlichung: Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project The ENCODE Project Consortium Nature 447, 799-816 (14 June 2007) doi:10.1038/nature05874 http://www.nature.com/nature/journal/v447/n7146/abs/nature05874.html Einen Bericht über die Nature-Arbeit findet man unter http://science.orf.at/science/news/148370 Eine Abschätzung: Menschliches Genom 3 10 9 Basenpaare Anzahl der Gene 50000-100000 Annahme 1 Protein = 100 Aminosäuren 300 Basenpaare (BP) Daraus folgt, dass 300 100000 = 3 10 7 BP Proteine codieren, d.h. scheinbar wird nur 1% der möglichen Information genützt. Frage: Welchen biologischen Sinn hat die restliche 'Junk'-DNA? Anmerkung 2007: Nach den Erkenntnissen der Human Genom Projects ist die Anzahl der Gene noch kleiner, es sollen 200000-25000 Gene sein; damit wird die Frage nach dem 'Sinn' der restlichen noch drängender. Die Autoren haben den Versuch unternommen, das Genom auf eine sinnvolle Struktur hin zu untersuchen. Ein nahe liegender Ansatz ist die Verwendung linguistischer Methoden zur Untersuchung der 'Sprache der Gene'. Sollte die Junk-DNA biologisch sinnvolle Strukturen enthalten, kann man das auf Grund innerer Regelmäßigkeiten herausfinden, auch wenn es nicht möglich sein wird, die 'Sprache' zu entschlüsseln. Die Autoren versuchen mittels zweier Methoden eine Analyse der Junk-DNA: - Zipfsches Gesetz - Informationstheoretische Analyse Ich werde im Folgenden die beiden Methoden mit Beispielen besprechen und danach die Anwendung und Schlussfolgerungen der Autoren referieren.

ZIPFSCHES GESETZ Trägt man in einer beliebigen Sprache die Worthäufigkeit gegen den Wortrang auf, bekommt man in doppelt logarithmischer Darstellung eine fallende Gerade. Das bedeutet, dass zwischen Häufigkeit h und dem Rang r eine Beziehung der Form h 1 r ζ bestehen muss. Für natürliche Sprachen hat der Exponent einen Wert von ζ 1 Im Deutschen sieht der Rang-Häufigkeits-Tabelle so aus: Unter 10910777 Wörtern waren die häufigsten Wörter Rang Wort Häufigkeit Rang Wort Häufigkeit 1 die 358054 19 so 96873 2 der 354526 20 sich 92995 3 und 320885 21 daß 87969 4 zu 258584 22 er 87029 5 in 214308 23 es 86778 6 ein 153095 24 vor 83810 7 an 145968 25 ich 82213 8 den 141542 26 über 778081 9 auf 127349 27 da 75739 10 das 127137 28 nach 74500 11 von 118088 29 eine 69918 12 nicht 115342 30 auch 60750 13 mit 109958 31 durch 59999 14 dem 103691 32 als 59279 15 des 103171 33 um 56968 16 aus 102961 34 bei 55553 17 sie 102212 35 wie 54988 18 ist 96973 36 für 54406 Häufigkeitswörterbuch der deutschen Sprache (Kaeding 1897)

Trägt man jetzt die Worthäufigkeit gegen den Wortrang in doppelt logarithmischer Darstellung auf, ergibt sich folgendes Bild: Soweit heute bekannt ist, gilt dieses Gesetz für alle natürlichen Sprachen (mit leichter Variation in den Parametern). Als Beispiel für eine fremde Sprache soll Norwegisch dienen; zeigt einen gleichartigen Verlauf: Das Zipfsche Gesetz gilt nicht nur für Sprachen, sondern hat eine ziemlich allgemeine Bedeutung, z.b. lassen sich Städte nach Größe und Häufigkeit ordnen. Das Problem ist, dass es für das Zipfsche Gesetz keine theoretische Begründung gibt. Eine genauere Relation zwischen h und r liefert das kanonische Gesetz der Ranghäufigkeit (B. Mandelbrot) h = c ( r + ) ζ r 0

Das kanonische Gesetz gibt sogar den Kurvenverlauf für niedrige Ränge und große Häufigkeit richtig wieder. ζ wird als Kehrwert der Texttemperatur T bezeichnet: T = 1 ζ Der Grund ist, dass diese Beziehung eine verkappte Form der Boltzmann-Verteilung darstellt. Die Größe r 0 ist die effektive Anzahl von Zeichen (Buchstaben, lauten, Wörter...) des untersuchten Textes. Der effektive Zeichenvorrat ist immer kleiner als der tatsächliche, d.h. der Zeichenvorrat wird nicht voll ausgenützt. Für natürliche Sprachen ist r0 2 3 Das kanonische Gesetz ist - zumindest für Sprachen - aus drei Grundannahmen ableitbar: 1. Der Informationsgehalt eines Wortes ist umso kleiner, je häufiger es ist 2. Häufig gebrauchte Wörter sollen kürzer sein, als seltene 3. Die Information in einer Zeichenkette vorgegebener Länge soll maximal sein Hier wird 'Sprache' als eine Aneinanderreihung von Zeichenketten verstanden, die von einem bestimmten Empfänger sinnvoll interpretiert werden können. Dass der qualitative Kurvenverlauf nicht von der Art der Codierung abhängt, sieht man, wenn man den Text statt in Buchstabenschrift in Lautschrift untersucht. Auch hier genügt der Kurvenverlauf dem kanonischen Gesetz.

Untersuchung der DNA-Codierung auf die Gültigkeit des Zipfschen Gesetzes: Das Problem ist die Wortlänge. In codierenden Regionen ist die Wortlänge durch die Triplets gegeben. Nicht-codierende Regionen untersucht man, in dem man die Wortlänge n als freien Parameter verwendet. Man untersucht DNA-Strings unter der hypothetischen Voraussetzung, dass die Wortlängen im Bereich 3-8 liegen. Für die vier Basen bekommt man 4 n mögliche Worte der Länge n. In einem String der Länge L lassen sich L-n+1 mögliche Worte bilden, wenn jedes neue Wort durch Verschiebung um eine Base gebildet wird. Die Quelle der untersuchten Sequenzen stammen aus GenBank. Untersucht wurden Die folgende Graphik gibt bei 37 Eukaryotensequenzen davon 14 Säuger 11 Eukaryotenviren 7 Prokaryoten 3 Bakteriophagen gepoolten Daten der 14 Säuger-Sequenzen ergeben Gesamtlänge: 1.2 10 6 bp davon 4.7% codierend ζ = 0.283±0.002 für n = 6 eine Einzelanalyse mit nachfolgender Mittelung der inversen Texttemperatur gibt ζ = 0.32±0.04 für n = 6

Vergleicht man ein vorwiegend codierendes Genom (E. coli) mit einem nicht-codierenden (Mensch): Länge codierend ζ (n = 6) E. coli ECOVW89 176195 bp 82.1 % 0.206 Mensch HUMRETBLAS 180000 bp 1.5 % 0.326 Vergleich der codierenden und nicht-codierenden Regionen im Chromosom III von Caenorhabditis elegans mit 2.2 10 6 bp ergibt ζ (n = 6) codierend 0.244±0.004 nicht-codierend 0.537±0.003

Für das Hefechromosom III mit 315338 bp Länge ergibt sich: ζ (n = 6) codierend 0.225±0.005 nicht-codierend 0.391±0.005 Zum Vergleich: Um die Reabilität der Ergebnisse zu überprüfen, wurde mit drei Zeichen-Sequenzen bekannten Inhalts verglichen: - Artikelsammlung aus einer Enzyklopädie mit 500000 Zeichen bei Wortanalyse ζ 0.85 n-tupel-analyse ζ 0.57 (n = 3-5) - Binärfiles eines Unix-Systems mit 9 MBit ζ = 0.77±0.012 n = 12 - Binäre Zufalls-Sequenz ζ = 0 Der ζ-wert der Artikelsammlung belegt, dass selbst das krude n-tupel-verfahren noch den Sprachcharakter durchscheinen lässt. Die Binärfiles haben unzweifelhaft Sprachcharakter, da sie z.b. Anweisung an das Betriebsystem enthalten. Binäre Zufallssequenzen sind gleichverteilt, d.h. in der Zipf-Darstellung muss eine horizontale Gerade erscheinen, also ist die Steigung gleich Null. Vergleicht man jetzt einerseits Sprachartige Zeichenketten mit den untersuchten DNA- Sequenzen, erkennt man, dass nicht codierende Sequenzen einen größeren ζ-wert als codierende haben, sie sind also 'sprachähnlicher'. Dies ist umso bedeutsamer als die Analyse der Enzyklopädieartikel zeigt, dass selbst eine inadäquate Zipf-Analyse immer noch den Sprachcharakter durchscheinen lässt.

ζ Deutscher Lautschrifttext 1.1 Enzyklopädieartikel Wortanalyse 0.85 n-tupel 0.57 Binäre Zufalls-Sequenz 0 Binärfile eines Unix-Systems 0.77 ζ codierend nicht codierend Mensch HUMRETBLAS 0.326 E. coli ECOVW89 0.206 Caenorhabditis elegans Chromosom III 0.244 0.537 Hefechromosom III 0.225 0.391

INFORMATIONSTHEORETISCHE ANALYSE Die Informationstheorie versucht ein Maß für Information im Sinne von Zeicheninhalten zu finden und die Kosten der Informationsübertragung Die Informationstheorie definiert ein Maß für den Informationsgehalt einer Nachricht, das die Anzahl der ja/nein-entscheidungen zählt, die zur Rekonstruktion oder Erkennung einer Zeichenkette oder eines Wortes notwendig ist. Dass eine Rekonstruktion aus ja/nein-entscheidungen möglich ist, zeigen ja gewisse Gesellschaftsspiele oder Fernsehshows wo ein Begriff mit Fragen, auf die nur mit ja oder nein geantwortet wird, erraten wird (R.Lemkes 'Heiteres Beruferaten' wird ja noch manchem in Erinnerung sein.) Um aus einem Zeichen- oder Wortvorrat von N Exemplaren ein bestimmtes herauszufinden, benötigt man log 2 (N) Entscheidungen, der Informationsgehalt H ist daher durch H = log 2 ( N) gegeben, d.h. umgekehrt, mit H verschiedenen Alternativfragen lassen sich N Objekte identifizieren: H N = 2 wie das folgende Beispiel für das Lateinische Alphabet zeigt:

Man sieht, dass in der Regel für ganzzahlige Werte von H sogar noch einige Alternativen leer bleiben; deshalb kann das Informationsmaß auch nicht-ganzzahlige Werte Annehmen. Die Dimension des Informationsmaßes Bit genannt. Ein Bit entspricht einer ja/nein- Entscheidung. Um Nochmals auf das Lateinische Alphabet zurückzukommen: Der Informationsbedarf für 26 Zeichen (ohne Leerraum und Interpunktion) ist H = log 2 (26) =4.700 Bit man braucht also 5 Alternativen, was ja aus dem obigen Entscheidungsbaum sieht. Zur Identifikation eines Bestimmten RNA-Nukleotides benötigt man zwei Bit: Es gibt vier Basen A, G, C, U (bzw. T in DNA), also ist N = 4. Weil ist, erhält man N = 4 = 2 2 H = log 2 (4) = 2 Einen möglichen Entscheidungsbaum zeigt das nächste Bild: Zur Identifikation der 64 Codons benötigt man schließlich H = log 2 (64) = 6 Bit. Die obigen Überlegungen gelten allerdings nur so lange alle möglichen Alternativen gleichwahrscheinlich sind. Die Wahrscheinlichkeit p für das Zutreffen einer bestimmten Alternative ist dann p = 1 N also lässt sich der Informationsgehalt auch schreiben als H = log 2 ( p)

Nun wird aber nicht in jedem Fall jedes Zeichen mit gleicher Häufigkeit auftreten, z.b. ist 'e' der häufigste und 'x' der seltenste Buchstabe in deutschen Texten. Als Beispiel ist die Buchstabenhäufigkeit (inklusive Leerzeichen und Umlauten), d.h. die Wahrscheinlichkeit p i, im Deutschen sind in der folgenden Tabelle angegeben: Man kann sich in Fällen mit ungleicher Wahrscheinlichkeit der Alternativen oft eine Strategie zurechtlegen, um die häufiger vorkommenden Alternativen mit weniger, die selteneren mit mehr Entscheidungen zu finden.

Z.B. ist 'e' in fast allen Sprachen der häufigste Vokal, lässt man jemand die Vokale eines Textes erraten, ist es daher eine gute Strategie, gleich einmal nach 'e' zu fragen. Um dem Umstand der Verschiedenen Zeichenhäufigkeit Rechnung zu tragen, muss die Formel zur Berechnung der Entropie verallgemeinert werden. Wenn das i-te Zeichen/Wort einer Liste mit der Wahrscheinlichkeit p i auftritt, ist das Informationsmaß durch die Shannonsche Formel H = N i= 1 p i log ( p i 2 ) gegeben. Man kann zeigen, dass die Formel ein Maß für die optimale Codierung liefert. Man muss sich noch einmal vor Augen halten, dass das Informationsmaß H - das auch als Shannon-Entropie bezeichnet wird - in keinerlei Zusammenhang mit der Bedeutung einer Nachricht, eines Bildes, etc. steht. Das Informationsmaß H gibt nur die 'Kosten' des Erkennens oder Übertragens der Information an. Bedeutung dagegen ist nicht quantifizierbar. Eine genauere Betrachtung zeigt, dass natürliche Sprachen ihrer möglichen Codewörter nicht optimal ausnützen. Der Grund, ist dass Fehler leichter erkannt werden und die Rekonstruktion der Nachricht möglich wird. Ein Beispiel:.Dies Sutz enthelt geine Drechfeler Diesen Satz kann jeder dem Deutsch geläufig ist, leicht richtigstellen. Ein Gegenbeispiel: Ein Fehler bei der Angabe der dekadischen Ziffernfolge der Zahl π lässt sich nur durch den Vergleich Ziffer für Ziffer finden. Der Grund ist, dass die Ziffernverteilung von einer Gleichverteilung nicht zu unterscheiden ist. Der Informationsgehalt der unten angegebenen Tabelle für die ersten 2000 Kommastellen der Zahl π ergibt sich folgendermaßen: Für 2000 Ziffern gibt es N = 10 2000 mögliche Ziffernfolgen (dagegen gibt es im durch Beobachtung zugänglichen Universum 'nur' 10 80 Nukleonen). Das entspricht einem Informationsgehalt von H = log 2 (10 2000 ) = 2000 log 2 (10) = 6643.856 Bit Das ist aber der gleiche Informationsgehalt wie für eine rein zufällige Ziffernfolge. Damit kommt man zum konterintuitiven Ergebnis, dass besonders dicht gepackte Information von einer reinen Zufallsfolge nicht unterscheidbar ist!

Es bedarf also einer gewissen Weitschweifigkeit um gestörte Informationen rekonstruieren zu können. Als Maß für die Weitschweifigkeit wird die Redundanz R eingeführt: R = H H max H max H max ist der maximal mögliche, H der aktuelle Informationsgehalt des Textes/ der Zeichenkette. Sie ist gewissermaßen in Maß dafür, welcher Bruchteil der möglichen Information nicht genützt wird.

Die beiden Extremen möglichkeiten wären R= 0 die Zeichen sind gleichverteilt, es wird keine Informationsmöglichkeit verschwendet. R = 1 vollkommen geordneter Text, jedes Folgezeichen ist sicher Vorhersagbar Die Ziffern in der Ziffernfolge von π sind gleichverteilt, d.h. jede Ziffer kommt mit gleicher Häufigkeit vor, scheint also auf den ersten Blick sehr chaotisch, trotzdem handelt es sich um eine sinnvolle Zeichenkette. Hier ist die Information so komprimiert, dass der Fall R = 0 ideal vorgeführt wird. Das andere Extrem wäre eine konstante Zeichenkette, etwa aaaaaaaa... ad infinitum oder, wenn man abc als neues Superzeichen definiert abcabcabcabcabcabcabcabc... ad infinitum Wenn eine dieser Zeichenketten fehlerhaft übertragen werden, sind sie sofort ohne Aufwand rekonstruierbar. Ein Beispiel für einen Wert zwischen den Extremen gibt die Buchstabenhäufigkeit in Deutschen: Manche Zeichen kommen oft, andere Selten vor. Der maximale Informationsgehalt der 30 Zeichen (Lateinisches Alphabet inklusive Leerzeichen und deutscher Umlaute) wäre H max = log 2 (30) = 4.90689 Die mühsame Addition der von Zemanek bereits angegebenen Teilinformationen p i log 2 (1/p i ) ergibt H = 4.11461 Somit ist die Redundanz einer deutschsprachigen Buchstabenfolge R = (4.90689-4.11461)/ 4.90689 = 0.16146 d.h. die Deutsche Sprache 'verschenkt' 16% ihrer Information. Untersuchung der DNA-Codierung auf Redundanz: Man hat bei der Bestimmung der Redundanz der DNA-Sequenzen das gleiche Problem, wie bei der Zipfanalyse. Für codierende Bereiche sind die Worte die Codon-Triplets, die übrigens auch nicht in gleicher Häufigkeit vorkommen, im nicht-codierenden Bereich hat man keine Anhaltspunkte über die Art der Worte und ihrer Länge. Man bildet daher auch hier n-tupel von Basen und analysiert für n = 1-6 die Sequenzen. Die Analyse für n > 6 wäre zwar Wünschenswert, doch sind die zur Verfügung stehenden Sequenzen wegen der der langsamen Konvergenz nicht ausreichend.

Die Ergebnisse sind denen der Zipf-Analyse vergleichbar: Vergleich der Human-DNA mit E. coli-dna ergibt, dass das E. coli-genom eine niedrigere Redundanz hat. Dies ist eigentlich zu erwarten, da alle vier Aminobasen in der Coli-DNA in annähernd gleicher Häufigkeit vorkommen. Am Beispiel von C. elegans zeigt sich, dass codierende Regionen weniger Information verschwenden, als nicht codierende. Eine analoge Beobachtung lässt sich am Hefe-Genom machen:

Das allgemeine Ergebnis einer Redundanz-Analyse liefert daher das Ergebnis, dass die Redundanz codierender Sequenzen niedriger ist, als die nicht-codierender R cod < R nicht und dass die Information im codierenden Bereich so dicht gepackt ist, dass die Redundanz fast verschwindet R cod 0 Was das bedeutet, oder welche Funktion die nicht-codierenden Sequenzen haben, ist unbekannt. Jedenfalls müssen nicht-codierende Sequenzen sehr starken Restriktionen unterworfen sein, da ihre innere Ordnung sonst schon längst durch Mutationen zerstört worden wäre. ZUSAMMENFASSUNG ALLER DATEN: Eine Zusammenstellung aller untersuchten Genome enthält die folgende Tabelle: ζ die negative Steigung der Zipf-Geraden (inverse Texttemperatur) r der Regressionskoeffizienten der Geraden-Anpassung R(4) die prozentuelle Redundanz für n = 4