Vorlesung MicroarrayDatenanalyse Kapitel1:Einführung,Normalisierung, DifferentielleGene,MultiplesTesten Kapitel2:ClusteringundKlassifikation
WassindDNA Microarrays? mrna Protein DNA
WassindDNA Microarrays? MicroarrayssindTechnologieplattformenzur MessungderAktivitäteinergroßenAnzahlvon Genen. DabeiwerdenihreProdukte(meistmRNA) quantifiziert. HierzuwerdenDNASequenzenverwendet,dieauf eineroberfläche(jenachplattformverschiedene) immobilisiertwerden. Vorlesung:MicroarrayDatenanalyse Kapitel1
WassindDNA Microarrays?...Microarrays...MessungderAktivitätvonGenen (...mrna). WelcheanderenMethodenkennenSie,die dieseszielverfolgen? Vorlesung:MicroarrayDatenanalyse Kapitel1
NorthernBlot RNA RNA RNA RNA Vorlesung:MicroarrayDatenanalyse Kapitel1
RT PCR 5 3 5 3 RNA cdna 5 RNA 3 cdna dsdna Vorlesung:MicroarrayDatenanalyse DaRNAdurchPCRnicht direktamplifiziertwerden kann,mußsiezunächstin cdnaumgeschrieben werden(revers transkribiert,rt) ZurQuantifizierungsind zweiansätzemöglich: 1Internerendogener Standard(zB Housekeepinggene) 2KompetitiveRTPCR: ZugabevonsogMimic Fragmenten,dieder Reaktionzugegeben werdenundzusammen mitdereigentlichen Zielsequenzamplifiziert werden Kapitel1
SAGE=SerialAnalysisofGeneExpression Zellenisolieren mrnaisolierenundcdnasynthetisieren TranskriptmitAnchorEnzymschneiden Taggen LigierenderTags Sequenzierung Quantifizierung Vorlesung:MicroarrayDatenanalyse Kapitel1
WOZU? klassischesbeispiel: krankgesund Tumor(Niere) NormaleNiere RNA Präparation MESSUNG?! wasunterscheidet Tumor von Normal? Vorlesung:MicroarrayDatenanalyse Kapitel1
WOMIT? Plattformen Filter Vorlesung:MicroarrayDatenanalyse Glas chips Affymetrix Kapitel1
Plattformen Filter 1991 Lennon&Lehrach,1991 Vorlesung:MicroarrayDatenanalyse Glas chips 1995 StanfordUniversity, Schenaetal,1995 Affymetrix 1996 Lockhardtetal,1996 Kapitel2
Plattformen NylonFilter eineprobe radioaktivessignal vielespotsmöglich großefläche/lokaleeffekte Überstrahlen nureineprobeprohybri disierungsvorgang Vorlesung:MicroarrayDatenanalyse GlasTräger roteundgrüneprobe FloureszenzSignal bis~20000spotsmöglich gleichzeitigeshybridisieren vonprobeundkontrolle (rot/grün) Chip eineprobebestehendaus 16 20Wdh.undzugehörigen Mismatches kommerziellerchip gutereproduzierbaredaten nureineprobeprohybri disierungsvorgang Kapitel1
Grundprinzip u q Se 1 z en e u q e S 2 z n q e S n z n e u RNA cdnas oder Oligos Vorlesung:MicroarrayDatenanalyse Probe1 Probe2 Kapitel1
Grundprinzip Filter Vorlesung:MicroarrayDatenanalyse Glas chips Affymetrix Kapitel2 Kapitel1
Grundannahme DasgemesseneSignalspiegelt(nachgeeigneter Aufreinigung )grundsätzlichdiemengernainder Probewider Vorlesung:MicroarrayDatenanalyse Kapitel2 Kapitel1
VerarbeitungvonMicroarrayDaten: Biologie Diagnostik Therapie...? Experiment Design Experiment (Microarray)! Bildverarbeitung Rohe Intensitätswerte Biologische Verifikation Normalisierung ExpressionsLevel Analyse:Clustering;ClassDiscovery;Klassifikation;DifferentielleGene;... Vorlesung:MicroarrayDatenanalyse Kapitel1
WelcheNormalisierungsMethodengibtes? BenutzerdefinierteSets GesamterDatensatz Housekeeping(?!) InterneKontrollenetc Nützlichbei MostGenesUnchanged Settings Nützlichbei MostGenesChanged Settings Skalierungs methoden Mean Median Shorth Zscore Vorlesung:MicroarrayDatenanalyse Regressions methoden Transformations methoden gesamt linear/polynomial local linear/polynomial qspline Varianz Stabilisierung AnalysisofVariance/ MLbasedmethods Verteilungs basiert ANOVA Quantil Normalisierung Kapitel1
Beobachtung VarianzdergemessenenIntensitäthängtvonder absolutenintensitätab FuerjedenSpotk, wurdedievarianz(rk Gk)²/2gegendasMittel (Rk+Gk)/2geplottet. DieroteLiniezeigtden movingaverage Vorlesung:MicroarrayDatenanalyse Kapitel1
FehlerModellNotation i=1,...,dproben i k k=1, ngene............... Vorlesung:MicroarrayDatenanalyse......... Kapitel1
FehlerModell Vorlesung:MicroarrayDatenanalyse Kapitel1
i
i Yik = (ai + ε ik ) + (bi bk exp(ηik )) xik Yik ai ε ik + bi bk exp(ηik ) xik = bi bi Yik ai = (ε ik / bi ) + (bk xik ) exp(ηik ) bi ν ik mik
Beispiel:Fehler Modell RockeandDurbin(J.Comput.Biol.2001): η Yk = α + β k e + ν Yk:GemesseneIntensitätdesGensk k:wahresexpressionslevelvongenk :offset η,ν:multiplikativer/additiverfehler, Unabhängig,normalverteilt BeigrossenExpressionswertenbkistdermultiplikative Fehlerbesondersdominant. Fuerkleineb kistderadditivefehlerdominant.
ηki : N (0, σ ) 2 η Yik ai = ν ki + mki exp(ηik ) bi ν ki : N (0, σ 2ν ) E (Yik ) = ai + bi mik E (exp(ηki )) Var (Yik ) = Var (ν ki bi ) + Var (bi mki exp(ηki )) = c' b m +b σ 2 η 2 i 2 ki 2 i c ' = Var (exp(ηki )) 2 η 2 ν = c ( E (Yki ) ai ) + b σ 2 η 2 cη2 = c 'η2 / E 2 (exp(ηik )) 2 i 2 ν
Darausergibtsich var( E (Yik )) = c ( E (Yik ) a ) + b 2 2 NuntransformieredieDaten,sodassman konstantevarianzerhält,dienichtvommittelwert abhängt 2
Varianz StabilisierendeTransformation SeiYudieFamilievonzufälligenVariablenmit: EYu=u,VarYu=v(u).DefinieredieTransformation x h (x ) = 1 v(u ) du Varh(Yu) unabhängigvonu
Varianz StabilisierendeTransformation ar sinh( x) = log( x + x 2 + 1)
Die verallgemeinertelog Transformation f(x)=log(x) hs(x)=arsinh(x/s) 200 0 200 400 600 800 1000 intensity ( arsinh(x ) = log x + x2 + 1 ) W.Huberetal., ISMB2002 D.Rocke&B. Durbin,ISMB2002
Variancestabilizingtransform ations x f (x ) = 1 v(u ) v (u ) u 2 f log u 1.)constantCV( m ultiplicative ) 2.)offset du v (u ) (u + u0 )2 3.)additiveandm ultiplicative f log(u + u0 ) u + u0 v (u ) (u + u0 ) + s f arsinh s 2 2
RobusteParam eterschätzung Yki ai arsinh = µ k + ε ki, bi ε ki : N (0,c 2 ) Robustem axim um likelihoodschätzung M= { { a }, { b }, c, { µ } } i i k
VerarbeitungvonMicroarrayDaten: Biologie Diagnostik Therapie...? Experiment Design Experiment (Microarray)! Bildverarbeitung Rohe Intensitätswerte Biologische Verifikation Normalisierung ExpressionsLevel Analyse:Clustering;ClassDiscovery;Klassifikation;DifferentielleGene;... Vorlesung:MicroarrayDatenanalyse Kapitel1
DifferentielleGenefinden Patients,Samples,Timepoints... Genes Twocell/tissue/diseasetypes: wild type/mutant control/treated diseasea/diseaseb responding/nonresponding etc.etc... Foreverysample(cellline/patient)wehavethe expressionlevelsofthousandsofgenesand theinformationwhetheritisaorb
Logratio Isathree foldinducedgenemoretrust worthythanatwo foldinducedgene? Productintensity(logscale)
A B Conclusion:Inadditiontothe differencesingeneexpressionyou alsohaveavitalinterestinits variability...thisinformationis neededtoobtainmeaningfullists ofgenes A B
StandardDeviationandStandard Error StandardDeviation(SD):Variabilityofthe measurement StandardError(SE):Variabilityofthemeanof severalmeasurements nreplications NormalDistributedData:
Questions: Whichgenesaredifferentiallyexpressed? >Ranking Aretheseresults significant? >StatisticalAnalysis Thatmeans:Istheprobabilitysufficiently smallthattheresultis bychance?
Ranking: Problem:Produceanorderedlistof differentiallyexpressedgenesstarting withthemostupregulatedgeneand endingwiththemostdownregulated gene Rankingmeansfindingtherightgenes drawingourattentiontothem Inmanyapplicationsitisthemost importantstep
RankingisnotTesting Ranking:Findingtherightgenes Testing:Decidingwhethergenesare significant Thereismorethenonewaytorank Thereismorethenonewaytotest Thecriteriaforwhichrankingisbestis differentfromthecriteriawhichtestis best powerisoftennoargument
Ranking:OrderGenesduetoamountoffold change/score >maybesomethatarenotdifferential inreality(falsepositive) Genecandidate1 Genecandidate2 Genecandidate3 Genecandidate4 Genecandidate5 Genecandidate6 Genecandidate7 Genecandidate8 Genecandidate9 Gene... Orderduetosomescore, Intuitively:Foldchange 1st:mostdifferential, 2nd:secondmostdiff...
Testing:FindGenesduetoamountoffold change/scorewhicharesignificants.t.thereareless than5%falsepositives >maybeyoumisssome (FalseNegatives) Genecandidate1 Genecandidate2 Genecandidate3 Genecandidate4 Genecandidate5 Genecandidate6 Genecandidate7 Genecandidate8 Genecandidate9 Gene... Orderduetosomescore, Intuitively:Foldchange 1st:mostdifferential, 2nd:secondmostdiff...
Whichgeneismoredifferentially expressed?
RankingisScoring Youneedtoscoredifferential geneexpression Differentscoresleadtodifferent rankings Whatscoresarethere?
T Score Idea:Takevariancesintoaccount Change:lowChange:highChange:high Variance:highVariance:lowVariance:high
Change: HIGH Variance: SMALL Change: SMALL Variance: HIGH Thuge T~0
Change: HIGH Variance: HIGH Change: SMALL Variance: SMALL T? T?
TScore Ttest Pvalue BerechneTScoresfürein zufälligesexperiment ErstelleeinHistogrammderTscores undmarkieredie5%höchstenund niedrigsten(rot) BerechneTScorefürGenxund zeichnediesenein(grün) WiegroßistdieWahrscheinlichkeit,mindestenssoextremwiedergrüne Pfeilzusein?
T TestPROBLEMS Therearemanygenes( >tests)butonly fewrepetitions isusing s asestimategood? ifmeasuredvarianceissmallt becomeseasilyverylarge Therefore:formicroarrayitisreasonable touseamodfiedversionofthettest
FudgeFactors: Youneedtoestimatethevariancefromdata Youmightunderestimateaalreadysmallvariance (constantlyexpressedgenes) ThedenominatorinTbecomesreallysmall Constantlyexpressedgenesshowupontopofthelist Correction:Addaconstantfudgefactors0 RegularizedT score >Limma >SAM >Twilight
SAM:SignificanceAnalysisforMicroarrays X1 X 2 d (i ) = s (i ) + s0 s (i ) = a( ( xm (i ) X 1 ) + ( xn (i ) X 2 ) 2 m n 1/ n1 + 1/ n2 a= n1 + n2 2 2
MoreScores: WilcoxonScore(robust) PAUcScore(separation) pairedt Score(pairedData) F Score(morethen2conditions) Correlationtoareferencegene etcetc
Differentscoresgivedifferent rankings Krankheit1vsKrankheit2 (Golubetal.)
WhichScoreisthebest one? Thatdependsonyour problem...
NextQuestion: Ok,Ichoseascoreandfoundasetof candidategenes CanItrusttheobservedexpression differences? StatisticalAnalysis
P Values Everyoneknowsthatthep valuemust bebelow0.05 0.05isaholynumberbothinmedicine andbiology...whatelseshouldyouknowaboutp values
Rumors Ifthegeneisnotdifferentially expressedthep valueishigh Ifthegeneisdifferentiallyexpressed thep valuesislow Boththesestatementsarewrong!
Reminder:TypeIandTypeIIERROR H1 Alternative Hypothesis: NOTH0 H0 NullHypothesis: GeneNOT differential Positive: Negative: rejectedh0(differentialgene) acceptedh0
Reminder:TypeIandTypeIIERROR H0H1
ThebasicIdeabehindp values: WeobserveascoreS=1.27 Canthisbejustarandomfluctuation? Assume:Itisarandomfluctuation =Thegeneisnotdifferentially expressed =Thenullhypothesisholds Theorygivesusthedistributionofthe scoreunderthisassumption P Value:Probabilitythatarandom scoreisequalorhighertos=1.27 inabsolutevalue(twosidedtest)
Permutationsandempiricalp values
Ifageneisnotdifferentiallyexpressed: Thep valueisarandomnumberbetween0and 1! Itisunlikelythatsuchanumberis below0.05(5%probability)
Ifageneisdifferentiallyexpressed: Thep valuehasnomeaning,sinceitwas computedundertheassumptionthatthegeneis notdifferentiallyexpressed. Wehopethatitissmallsincethescore ishigh,butthereisabsolutelyno theoreticalsupportforthis
Testingonlyonegene: Ifthegeneisnotdifferentially expressedasmallp valueisunlikely, henceweshouldbesurprisedbythis observation. Ifwemakeitarulethatwediscardthegeneif thep valuesisabove0.05,itisunlikelythata randomscorewillpassthisfilter
Multipletestingwithonlynon inducedgenes 1gene 10genes 30,000genes
TheMultipleTestingProblem P valuesarerandomnumbersbetween0and1.foronlyone suchnumberitisunlikelytofallinthissmallinterval,butifwe have30.000suchnumbersmanywillbeinthere.
Wetestmhypotheses truehypotheses rejectedhypotheses H0H1 TRUE FALSE Acctepted Rejected Error=falsepositive Error=falsenegative Error=falsepositive Error=falsenegative
FWER=Family wiseerrorrate: ProbabilityofatleastoneType1 error(falsepositive)among theaccepted(significant)genes H0H1 FALSE TRUE Accepted Rejected
FDR=FalseDiscoveryRate ExpectednumberofType1 errors(falsepositives)amongrejected hypotheses H0H1 FALSE TRUE Accepted Rejected with if if
Controllingthefamilywiseerrorrate (FWER) Ifwewanttoavoidrandomnumbersinthisinterval weneedtomakeitsmaller.themorenumbers,the smaller.for30.000numbersverysmall. Thisstrategyiscalled:Controllingthefamilywise errorrate
HowtocontroltheFWER? Note,thatadjustingtheintervalbordercanalsobe donebyadjustingthep valuesandleavingthecutoff at0.05. Therearemanywaystoadjustp valuesformultiple testing: Bonferroni: Better:WestfallandYoung
Inmicroarraystudiescontrollingthe FWERisnotagoodidea...Itistoo conservative. Adifferenttypeoferrormeasure becamemorepopular TheFalseDiscoveryRate Whatistheidea?
TheFDR Scoregenesandrankthem Chooseacutoff Looselyspeaking:TheFDRisthe bestguessforthenumberof falsepositivegenesthatscore abovethecutoff
Theconfusingliterature: Therearemanydifferentdefinitionsofthefalse discoveryrateintheliterature: Original:Benjamini Hochberg PositiveFDR ConditionalFDR LocalFDR Thereisalsoafundamentaldifferencebetween controllingandestimatingafdr
Inmicroarrayanalysisitbecame populartouseestimatedfdrs Differencestop values: TheFDRreferstoalistofgenes.Thep value referstoasinglegene. Thep valueisbasedontheassumptionthatthe geneisnotdifferentiallyexpressed,thefdr makesnosuchassumption. P valuesneedtobecorrectedformultiplicity, FDRsnot!
Anotherdifferenceinconcept: Ifa4xchangehasasmallp value,thismeansthat4xchange istoohightoberandomfluctuation Conclusion:4xchangeissignificant Ifalistof150geneswith4xchangeormorehasasmall estimatedfdrthismeansthatwehavemoregenesonthis levelthanwouldbeexpectedbychance. Conclusion:4xchangecanbenoise,but150genesonthat levelaretoomanytobeexplainedjustbyrandomfluctuation. InFWERAnalysisthefoldchange4xissignificant,inFDR Analysisitisthenumber150thatissignificant.
Histogramsofthep valuesofall genesonthearray
FWER:Verticalcutoff FDR:Horizontalcutoff