GenoProof Komplexe Verwandtschaftsanalyse Moritzburger Weg 67 01109 Dresden Phone +49 (0)351 8838 2800 Fax +49 (0)351 8838 2809 info@qualitype.de
Viktoria Decker, Cordula John Version 2012-09-19 Copyright 2012 Qualitype AG Dresden. Alle Rechte vorbehalten. Qualitype AG Moritzburger Weg 67 01109 Dresden Tel.: +49 (0)351-8838 2800 Dieses Dokument ist Eigentum der Qualitype AG und urheberrechtlich geschützt. Der Inhalt dieses Dokumentes darf nicht ohne vorherige schriftliche Genehmigung durch die Qualitype AG weder ganz noch in Auszügen für kommerzielle Zwecke vervielfältigt, übersetzt, übertragen, gespeichert oder an Dritte weitergegeben werden. Die Qualitype AG entwickelt seine Produkte ständig weiter. Die Informationen in diesem Dokument können daher ohne vorherige Ankündigung geändert werden, wenn dies aufgrund von Produktverbesserungen, zum Zweck der Standardisierung oder aus technischen Gründen erforderlich ist. Einige in der Dokumentation genannte Produktbezeichnungen sind Marken oder eingetragen Marken der Qualitype AG. Weitere in diesem Dokument erwähnte Produkt- oder Firmennamen können Marken, Handelsnamen und/oder eingetragene Marken der jeweiligen Eigentümer sein. Für weitere Informationen lesen Sie bitte die Allgemeinen Geschäftsbedingungen und die Software- Lizenzbedingungen der Qualitype AG.
Inhaltsverzeichnis 1 Einleitung... 4 2 Theoretische Grundlagen... 5 2.1 Kombinatorische Defizienzanalyse... 5 2.2 Kinship-Algorithmus... 7 3 Test zur Untersuchung komplexer Abstammungsfälle... 14 3.1 Durchführung von komplexen Abstammungstests... 14 3.2 Ergebnisse komplexer Abstammungsuntersuchungen einsehen... 19 4 Quellenverzeichnis... 23
1 Einleitung Neben den üblichen Vater- und Mutterschaftstest kann es in Verwandtschaftsuntersuchungen auch zu komplexeren Fragestellungen kommen. Dazu gehören vor allem Defizienzfälle, bei denen wichtige Probanden ohne Befund sind. In GenoProof 2.2 wurde die komplexe Verwandtschaftsanalyse implementiert und ermöglicht nun somit die Berechnung von Stammbaumwahrscheinlichkeiten jedes beliebigen Verwandtschaftsverhältnisses unter Einbeziehung beliebig vieler Personen für jegliche beliebige Personenkonstellationen. Im Folgenden ist sind die theoretischen Hintergründe (Kapitel 2) sowie die Durchführung von komplexen Verwandtschaftsanalysen in GenoProof (Kapitel 3) dargestellt.
2 Theoretische Grundlagen Abbildung 1 zeigt ein Beispiel einer komplexen Verwandtschaftsanalyse. Die durchgestrichenen Probanden sind ohne Befund. In diesem Beispiel soll anhand der Verwandten mit Befund ermittelt werden, ob Kind XX Geschwisterkind von Kind XY ist oder ob Kind XX nicht mit Kind XY verwandt ist. Abbildung 1: Komplexer Verwandtschaftsfall GenoProof bedient sich dabei dem Verfahren der kombinatorischen Defizienzanalyse zur Ermittlung möglicher Stammbaumkonstellationen und nutzt den Kinship-Algorithmus zur Ermittlung der Verwandtschaftswahrscheinlichkeit. Beide Verfahren werden nachfolgend vorgestellt. 2.1 Kombinatorische Defizienzanalyse Das Verfahren der Kombinatorischen Defizienzanalyse (CONRADT, 1983) soll das Defizienzproblem lösen und überprüfen, ob es überhaupt eine mögliche Lösung für den genotypischen Stammbaum gibt. Tritt eine Inkompatibilität der Genotypen in der Hypothese eines Verwandtschaftsverhältnisses auf, so kann von der Gegenhypothese ausgegangen werden. Sollte auch die Gegenhypothese Inkompatibilität liefern, so kann für den entsprechenden Marker keine Aussage zum Verwandtschaftsverhältnis gemacht werden, da mindestens eine weitere Person nicht in die Familie passt oder andere Effekte (z.b. Mutationen) auftreten, welche das Verfahren nicht berücksichtigen kann. Das Verfahren arbeitet so, dass schrittweise Lösungen für das kombinatorische Problem aufgebaut werden. Ziel sind Genotyp-Konstellationen, welche mit den gegebenen Befunden vereinbar sind. Dazu wird ein genotypischer Stammbaum von unten nach oben abgearbeitet und alle möglichen Genkombinationen der Probanden unter Berücksichtigung der Kompatibilität durchlaufen. Kompatibilitätstests sind dabei Überprüfungen der Vereinbarkeit des Genotyps des Probanden mit denen seiner Kinder. Gehen alle Kompatibilitätstests positiv aus, so wurde ein möglicher genotypischer Stammbaum gefunden. Beispiel
Gegeben seien Hypothese und Gegenhypothese eines komplexen Geschwisterschaftstest beispielhaft für den Marker D4S2366 mit den Allelen 11,12,13,14 und 15. H(X) K2 ist Geschwisterkind von K1. H(Y) K2 ist nicht mit K1 verwandt. Als Lösungen erhalten wir für H(X) einen möglichen genotypischen Stammbaum und für die Gegenhypothese 4 mögliche Stammbäume: H(X) K2 ist Geschwisterkind von K1. H(Y) K2 ist nicht mit K1 verwandt.
2.2 Kinship-Algorithmus Der Kinship-Algorithmus ist ein Verfahren zur Bestimmung von genotypischen Stammbaumwahrscheinlichkeiten. Er geht auf den Humanbiologen HUMMEL (1997) zurück. Die Berechnung von Stammbaumwahrscheinlichkeiten basiert auf den Genotypfrequenzen der beteiligten Personen im Stammbaum. Genotypwahrscheinlichkeit terminaler Eltern In einem genotypischen Stammbaum berechnet sich die Wahrscheinlichkeit terminaler Eltern und alleinstehender Probanden, welchen ein vollbestimmter Genotyp vorgeschrieben ist nach dem Hardy- Weinberg-Gleichgewicht:
{ ( ) ( ) ( ) ( ) (1) wobei p(a-b) die Wahrscheinlichkeit für das Auftreten eines Genotyps mit den Allelen a und b, p(a) p(a) die Allelfrequenz des Allels a und die Allelfrequenz des Allels b ist. Wird einem echten Elter ohne Befund durch das Back-Track-Verfahren der kombinatorischen Defizienzanalyse nur ein Allel vorgeschrieben, so ist dieser Elter halbbestimmt. Das bedeutet, dass nur ein Allel bekannt ist, während das zweite jedes mögliche weitere Allel darstellen kann. Die Genotypwahrscheinlichkeit eines halbbestimmten Elters ist dabei abhängig von der Anzahl seiner Kinder: ( ) ( ( )) (2) wobei p(a-x) die Wahrscheinlichkeit für das Auftreten eines Genotyps mit dem Allel a und eines weiteren unbekannten Allels x, p(a) k die Allelfrequenz des Allels a und die Anzahl der Kinder des halbbestimmten Probanden, ist. Allein stehenden Probanden ohne Befund sind oft Bestandteile eines Stammbaumes. Da hier jedoch keine Allelfrequenzen bekannt sind und damit nicht berücksichtigt werden können, wird der Wahrscheinlichkeit von Probanden ohne Befund 1 zugeordnet: (3) wobei p(x-x) die Wahrscheinlichkeit für das Auftreten eines unbestimmten Genotyps ist und immer 1 beträgt. Genotypwahrscheinlichkeit der Kinder Da der Genotyp eines Kindes von denen der Eltern abhängig ist, handelt es sich um eine bedingte Genotypwahrscheinlichkeit. Diese berechnet sich nach: (4)
wobei: { wobei p(a-b) die Wahrscheinlichkeit für das Auftreten eines Genotyps eines Kindes mit den Allelen a und b, p(a) p(b) die Allelfrequenz des Allels a und die Allelfrequenz des Allels a ist. Hierbei ist der Sonderfall ababab zu beachten. Wenn das Kind, der Vater und die Mutter denselben heterozygoten Genotyp a-b aufweisen, so ist nicht eindeutig, von welchem Elternteil welches Allel stammt. In diesem Fall beträgt die Wahrscheinlichkeit: (5) wobei p(a-b a-b,a-b) die Wahrscheinlichkeit für das Auftreten eines Genotyps eines Kindes a-b ist, wenn beide Eltern den Genotyp a-b besitzen. Die Berechnung der Stammbaumwahrscheinlichkeiten ermöglicht sich mit Hilfe der zuvor berechneten Genotypwahrscheinlichkeiten der beteiligten Personen. Genotypische Stammbaumwahrscheinlichkeiten Für n Personen in einem genotypischen Stammbaum einer Hypothese H(X) mit der zugehörigen Genotyp-Wahrscheinlichkeit p i gilt nach dem Multiplikationssatz für die Wahrscheinlichkeit X des genotypischen Stammbaumes: (6) wobei X n p i i die Wahrscheinlichkeit der Hypothese H(X), die Anzahl der Personen in einem genotypischen Stammbaum, die jeweilige Genotypwahrscheinlichkeit der n beteiligten Personen im Stammbaum ist und alle Werte von 1 bis m annimmt. Dabei wird bei der Wahrscheinlichkeit der Nullhypothese mit X und die Wahrscheinlichkeit der Gegenhypothese mit Y bezeichnet.
Damit sind die Formeln für alle möglichen Fälle in einem genotypischen Stammbaum definiert. Bleiben noch die Berechnungen, wenn ein Stammbaum aus mehreren abhängigen Teilstammbäumen besteht und wenn die kombinatorische Defizienzanalyse mehr als einen Stammbaum liefert. Wahrscheinlichkeit für mehrere genotypische Teilstammbäume Ein Stammbaum als Lösung der kombinatorischen Defizienzanalyse kann aus mehreren Teilstammbäumen bestehen, die unabhängig voneinander sind. Ein solcher Teilstammbaum kann auch aus einer einzelnen Person bestehen. Es wird der Multiplikationssatz zur Berechnung der genotypischen Stammbaumwahrscheinlichkeit verwendet: (7) wobei X itotal X ij die Wahrscheinlichkeit eines genotypischen Stammbaumes einer Hypothese H(X), die jeweilige Wahrscheinlichkeit der m unabhängigen, genotypischen Teilstammbäume einer Hypothese H(X), m i j die Anzahl der unabhängigen, genotypischen Teilstammbäume einer Hypothese H(X) ist, alle Werte von 1 bis n und alle Werte von 1 bis m annimmt. Unbestimmte genotypische Stammbaumwahrscheinlichkeit Wenn mehrere Stammbäume im Back-Track-Verfahren der kombinatorischen Defizienzanalyse für die Erfüllung einer Hypothese in Frage kommen, sind diese unvereinbar. Das Eintreffen mindestens eines dieser Stammbäume wird auf Basis des Additionssatzes nach Formel berechnet: (8) wobei X total die unbestimmte genotypische Stammbaumwahrscheinlichkeit für das Eintreffen mindestens eines der möglichen Stammbäume, n X i die Anzahl der unvereinbaren, genotypischen Stammbäume einer Hypothese H(X), die jeweilige Wahrscheinlichkeit der n unvereinbaren, genotypischen Stammbäume einer Hypothese H(X) ist und i alle Werte von 1 bis n annimmt. Beispiel
Gegeben seien die Lösungen der kombinatorischen Defizienzanalyse unseres Geschwisterschaftstests (Kapitel 2.1) sowie relevante Allelfrequenzen des Markers D4S2366: Um die Wahrscheinlichkeit der Geschwisterschaft im Verhältnis zur Nicht-Verwandtschaft zu berechnen, werden nun die Wahrscheinlichkeiten der Hypothesen durch den Kinship-Algorithmus bestimmt. zu Hypothese H(X): Genotyp-Wahrscheinlichkeiten für alle echten Eltern: Genotyp-Wahrscheinlichkeiten für alle Kinder:
Genotypische Stammbaumwahrscheinlichkeit: zu Gegenhypothese H(Y), Stammbaum 1: Teilstammbaum 1: Genotyp-Wahrscheinlichkeiten für alle echten Eltern: Teilstammbaum 1: Genotyp-Wahrscheinlichkeiten für alle Kinder: Teilstammbaum 2: Genotyp-Wahrscheinlichkeiten des alleinstehenden Probanden: Genotypische Stammbaumwahrscheinlichkeit:
Die anderen drei genotypischen Stammbäume werden analog berechnet (hier nicht aufgeführt) und ergeben auf Grund der Genotyp-Konstellationen zufällig dieselben genotypischen Stammbaumwahrscheinlichkeiten. Damit ergibt die Wahrscheinlichkeit der Gegenhypothese: Mit den Stammbaumwahrscheinlichkeiten der Hypothese und Gegenhypothese werden statistische Kenngrößen berechnet: Für diesen Marker ist die Hypothese der Geschwisterschaft fast viermal wahrscheinlicher als die Gegenhypothese der Nicht-Verwandtschaft. Angenommen, in 14 weiteren Markern wird ein ähnlicher Vaterschafts-Index erzielt dann könnte die Geschwisterschaft im Verhältnis zur Nicht-Verwandtschaft mit 99,99999972 % angenommen werden.
3 Test zur Untersuchung komplexer Abstammungsfälle Hier werden die Berechnungen und Ergebnisse für komplexe Abstammungsfälle erklärt. Eine Erläuterung der Formeln und der Theorie finden Sie im Kapitel 2. 3.1 Durchführung von komplexen Abstammungstests 1. Berechnung auswählen Klicken Sie mit der rechten Maustaste auf Auswertungen im Navigator. Wählen Sie Neue Auswertung > Erweiterte Defizienzanalyse. Hinweis: Diese Berechnung kann nicht über einen Stammbaum ausgeführt werden. 2. Hypothese eintragen Ein Dialogfenster öffnet sich. Hier wählen Sie die Personen für den Test aus und bestimmen, in welcher Beziehung diese zueinander stehen. Beim Hinzufügen neuer Personen wird zwischen Person hinzufügen Personen sind alle Personen mit Befund, d.h. mit definiertem Genotyp. Über den Button Person hinzufügen können alle Personen, die in der Personenliste zu dieser Untersuchung hinterlegt sind, hinzugefügt werden. Diese Personen werden mit dem zugehörigen Genotyp und dem Geschlecht in die Berechnung übernommen. Unbekannt hinzufügen Unbekannte sind Personen im Stammbaum, für die kein Genotyp vorliegt. Es handelt sich dabei um sogenannte defiziente Personen. Über den Button Unbekannt hinzufügen müssen nur die Personen als Unbekannte angegeben werden, die für die Verknüpfung und Vollständigkeit des Stammbaumes wichtig sind. Dazu gehören auch eventuelle unbekannte Personen der Gegenhypothese (z.b. bei Vaterschaftstests). unterschieden. Wie bereits erwähnt, werden die Angaben Name und Geschlecht bei Personen direkt übernommen. Bei Unbekannten müssen diese Angaben nachträglich in der Tabelle ergänzt werden. Klicken Sie hierfür direkt in das zugehörige Tabellenfeld. Die Beziehung der Personen zueinander wird durch die Angabe der zugehörigen Eltern (Vater und Mutter) zu einer Person definiert. Um die Eltern zu einer Person anzugeben, klicken Sie in das Tabellenfeld Mutter oder Vater. Es öffnet sich eine Auswahlliste mit allen weiblichen (Mutter) bzw. männlichen (Vater) Personen, die bereits in dem Dialogfenster hinzugefügt wurden. Dabei wird nicht zwischen Personen mit oder ohne Genotyp unterschieden. Bitte beachten Sie, dass Sie immer nur beide Eltern ge-
meinsam angeben können. Wenn für eine Person nur ein Elternteil typisiert wurde, muss der zweite Elternteil als Unbekannte Person ergänzt werden. Die Angabe der Population ist nicht notwendig, da diese erst später für die gesamte Berechnung festgelegt wird. Hinweis: Sie können nur Personen auswählen, die zur aktuellen Untersuchung gehören. Die Personen müssen außerdem das passendes Geschlecht aufweisen Was müssen Sie bei der Hypothesenbildung beachten? Alle Personen, die in der Hypothese angegeben wurden, müssen auch in der Gegenhypothese enthalten sein und umgekehrt. Außerdem müssen Elternpaare immer vollständig (Mutter und Vater) angegeben werden. Fehlende Elternteile können durch eine Unbekannte Person ersetzt werden. Drücken Sie Weiter. Abbildung 2: Hypothese eintragen 3. Gegenhypothese eintragen Das Dialogfenster Gegenhypothese öffnet sich. Die Personen aus der Hypothese und deren Beziehung zueinander werden automatisch übernommen. Sie können nun die Beziehung so verändern, wie Sie für die Gegenhypothese vorgesehen ist. Es können dabei keine Personen hinzugefügt oder entfernt werden. Voraussetzung für eine korrekte Berechnung ist, dass sowohl in der Hypothese als auch in der Gegenhypothese die gleiche Anzahl an Personen vorliegt. Was müssen Sie bei der Hypothesenbildung beachten? Alle Personen, die in der Hypothese angegeben wurden, müssen auch in der Gegenhypothese enthalten sein und umgekehrt. Außerdem müssen Elternpaare immer vollständig (Mutter und Vater) angegeben werden. Fehlende Elternteile können durch eine Unbekannte Person ersetzt werden. Drücken Sie Weiter.
Abbildung 3: Gegenhypothese eintragen 4. Eingangsgrößen bestimmen (Marker) Die Seite Eingangsgrößen erscheint. In der oberen Hälfe des Dialogfensters sehen Sie eine Tabelle. Diese zeigt die Allele aller ausgewählten Personen an. Eine Berechnung ist allerdings nur für die Marker möglich, die in den Genotypen aller ausgewählten Personen enthalten sind. Entfernen Sie das Häkchen in der Spalte Ausgewählt, wenn ein Marker nicht für die Berechnung verwendet werden soll. Abbildung 4: Eingangsgrößen für die Berechnung 5. Eingangsgrößen bestimmen (Population) Unter der Tabelle befindet sich die Gruppe Berechnungsparameter mit der Option:
Berechnung mit Population Aus der Liste der Populationen kann nun die Population für die Berechnung ausgewählt werden. Die Population legt fest, welchen Allelfrequenzen für die Berechnung eingesetzt werden. Drücken Sie Weiter. 6. Lösung (kombinatorische Defizienzanalyse) Die Seite Lösungen erscheint. Hier können Sie das Ergebnis der kombinatorischen Defizienzanalyse einsehen. Es werden für jeden Marker alle Kombinationsmöglichkeiten angezeigt, unterteilt in Hypothese und Gegenhypothese. Um sich die Ergebnisse anzeigen zu lassen, klappen Sie den Baum über das Plus-Symbol vor dem Markernamen auf. Alternativ können Sie auch die Schaltflächen Alle aufklappen bzw. Alle zuklappen verwenden. In der letzten Spalte (Wahrscheinlichkeit) wird die Stammbaumwahrscheinlichkeit für die vorliegende Konstellation angezeigt. Drücken Sie Weiter, wenn Sie mit der Berechnung fortfahren wollen. Abbildung 5: Lösungen der kombinatorischen Defizienzanalyse 7. Ergebnisse prüfen Die Seite Ergebnisse erscheint. Hier können Sie die Ergebnisse der Berechnungen einsehen und entscheiden, ob Sie diese speichern wollen. Wenn Sie Fertigstellen drücken, werden die Ergebnisse gespeichert. Sie erscheinen dann als Unterpunkt im Ordner Auswertungen im Navigator. Abbrechen verwirft die Ergebnisse und Zurück bringt Sie zurück zur Seite Lösungen.
Im oberen Teil des Dialogfensters befindet sich eine Tabelle. Diese zeigt Ihnen den X- und Y-Wert, den PI, den LR sowie W(X) und W(Y) für alle verglichenen Marker an. Die Werte sind wie folgt definiert: X Y PI Wahrscheinlichkeit der Nullhypothese Wahrscheinlichkeit der Gegenhypothese Vaterschafts-Index (Paternity Index PI): Dieser setzt Hypothese und Gegenhypothese des Verwandt-schaftsfalles ins Verhältnis. Er gibt an, um wie viel wahrscheinlicher die Hypothese gegenüber der Gegenhypothese ist. LR Likelihood-Quotient (Likelihood Ratio): Dieser ist das Reziprok des Paternity Index. Er gibt an, um wie viel wahrscheinlicher die Gegenhypothese gegenüber der Hypothese ist. W(X) W(Y) Wahrscheinlichkeit für die Annahme des Verwandtschaftsverhältnisses der Hypothese H(X) Wahrscheinlichkeit für die Annahme des Verwandtschaftsverhältnisses der Gegenhypothese H(Y) In der Gruppe Gesamtergebnis werden der CPI (kombinierter Paternity Index) und CLR (kombinierter Likelihood-Quotient) angegeben. Abbildung 6: Ergebnisse prüfen 8. Archivierung Wenn Sie Fertigstellen drücken und die Ergebnisse speichern, werden die Ergebnisse im Ordner Auswertungen abgelegt. Sie können dort jederzeit eingesehen werden.
3.2 Ergebnisse komplexer Abstammungsuntersuchungen einsehen Zugriff Markieren Sie das gewünschte Testergebnis im Ordner Auswertungen im Navigator und drücken Sie die Schaltfläche Öffnen in der Symbolleiste des Hauptfensters. Alternativ können Sie das Editorfenster mit einem Doppelklick auf das Testergebnis öffnen. Daten Im Titel des Editorfensters können Sie sehen, um was für einen Test es sich handelt und wann er durchgeführt worden ist. Das Editorfenster für die Ergebnisse einer erweiterten Defizienzanalyse besteht aus vier Registerkarten: 1. Allgemein Auf dieser Registerkarte werden Informationen zu den Personen angezeigt, mit denen der Test durchgeführt worden ist. In der Gruppe Allgemein oben sehen Sie, um was für einen Tests es sich handelt und über den Zeitstempel im Feld Ergebnisnummer wann der Test durchgeführt worden ist. Dieselbe Information wird auch im Titel des Editorfensters angezeigt. Im Feld Notizen können Sie Bemerkungen hinterlegen. Die Tabelle zeigt die Personen an, mit welchen die Berechnungen durchgeführt worden sind. Markieren Sie eine Person, um sich weitere Informationen in der Gruppe Person unter der Tabelle anzeigen zu lassen.
Abbildung 7: Ergebnis einsehen Allgemein 2. Ergebnis Auf dieser Registerkarte können Sie die eigentlichen Ergebnisse des Tests und die Eingangsgrößen einsehen. Alle hier angezeigten Informationen findet man auch auf der letzte Seite des Berechnungseditors. In der Gruppe Gesamtergebnisse werden der CPI, der CLR, die Werte W(X) und W(Y) sowie die verwendete Population angezeigt. Unten im Editorfenster befindet sich eine Tabelle. Diese zeigt Ihnen die Wahrscheinlichkeiten für X und Y, den PI und den LR sowie die Werte für die Wahrscheinlichkeit der Hypothese W(X) bzw. der Gegenhypothese W(Y) für alle verglichenen Marker an.
Abbildung 8: Ergebnis einsehen Ergebnis 3. Ergebnisse kombinatorische Defizienzanalyse Diese Registerkarte zeigt das Ergebnis der kombinatorischen Defizienzanalyse. Es werden für jeden Marker alle Kombinationsmöglichkeiten angezeigt unterteilt in Hypothese und Gegenhypothese. Um sich die Ergebnisse anzeigen zu lassen, klappen Sie den Baum über das Plus-Symbol für den Markernamen auf. Alternativ können Sie auch die Schaltflächen Alle aufklappen bzw. Alle zuklappen verwenden. In der letzten Spalte (Wahrscheinlichkeit) wird die Stammbaumwahrscheinlichkeit für die vorliegende Konstellation angezeigt. Abbildung 9: Ergebnis einsehen Kombinatorische Defizienzanalyse
4. Genotypen Diese Registerkarte zeigt die Genotypen der untersuchten Personen zum Zeitpunkt des Tests. Abbildung 10: Ergebnis einsehen Genotyp
4 Quellenverzeichnis Conradt J (1983): S c tammungsbegutachtung: Ein Algorithmus für Verwandtschaftsfälle und das Daten- S D fü c -biologische Statistik und Dokumentation der Philipps-Universtität Marburg/Lahn. 1983. Hummel K (1997): c -polymorphe Eigenschaften des Blutes zur Klärung strittiger Blutverwandtc f f c ä D. c.