当前位置:易推广 > 上海恒远生物科技有限公司>公司新闻>序列比对和数据库搜索
企业档案
会员类型:体验版会员
已获得易推广信誉 等级评定
(0 -40)基础信誉积累,可浏览访问
(41-90)良好信誉积累,可接洽商谈
(91+ )优质信誉积累,可持续信赖
易推广体验版会员:14年
最后认证时间:
注册号:**** 【已认证】
法人代表: 【已认证】
企业类型:经销商 【已认证】
注册资金:人民币***万 【已认证】
产品数:14639
参观次数:7760935
手机网站:http://m.yituig.com/c58469/
旗舰版地址:http://www.hybiosh.com
ELISA试剂盒
- 人ELISA试剂盒
- 大鼠ELISA试剂盒
- 小鼠ELISA试剂盒
- 裸鼠ELISA试剂盒
- 仓鼠ELISA试剂盒
- 豚鼠ELISA试剂盒
- 猪ELISA试剂盒
- 鸡ELISA试剂盒
- 猴ELISA试剂盒
- 兔ELISA试剂盒
- 鱼ELISA试剂盒
- 牛ELISA试剂盒
- 犬ELISA试剂盒
酶联免疫试剂盒
人ELISA试剂盒
进口血清
抗体
标准品
Sigma试剂
Amresco试剂
食品检测试剂盒
Spectrum试剂
免疫化学产品
其他方法测试盒
金标试剂盒
放免试剂盒
- 化学发光免疫分析(CLIA)试剂盒
- 甲、丙、丁、戊、庚肝炎试剂盒
- 乙肝六项(定量法)试剂盒
- 乙肝七项(常规法)试剂盒
- 其它试剂盒
- 细胞因子试剂盒
- 性腺试剂盒
- 心血管试剂盒
- 糖尿病试剂盒
- 肿瘤试剂盒
- 甲状腺试剂盒
代理品牌
公司新闻
序列比对和数据库搜索
点击次数:3860发布时间:2012/9/21
上海恒远生物科技有限公司主要经营的产品有:elisa试剂盒,生物试剂,标准品,血清,抗体,培养基,细胞,欢迎前来咨询。
Gregory D.Schuler
National Center for Biotechnology Information
National Library of Medicine. National Institutes of Health
Bethesda. Maryland
引言
在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。*常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础
进行序列比对的目的是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的DNA,我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序
Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins Edited by A.D.Baxevanis and B.F.F.Ouellette ISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc.
列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。如图7.1,在序列比对中,发现了5个空位。
|------ S-S-------*|
Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI * Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ |---- S-S--------| Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE ◇ *|-------------S-S------------------| Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--
图7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶(Swiss-Prot P07146)和小龙虾的胰蛋白酶(Swiss-Prot P00765)作比对,相同的残基用下标线标出,在比对上方标出的是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性。
在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图7.1所示,处于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。
当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推断在成为结论之前必须经过实验的验证。例如,ζ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似性的基础,它在E.coli中的同源物是代谢酶苯醌氧化还原酶(如图7.2),不管二者的共同祖先如何,它们的功能在进化中已经改变了(Gonzalez et al.,1994)。这就好象火车变成了铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往往会得出有关其功能的错误结论。当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。
Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS Ecoli-QOR ------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP
. . ******. . . * …. . . * *.* ..****** *
Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA * ** *.. **.. ** . * **** . . * *. ** Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV . * * ** . * * * .. .* * * * *.***** *** *.* * *..** Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR
** . . *. ** .* * ** …. * * * . .. . . . . * * .
Human-ZCr GRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI * .. * * *.. . . . . . .*.** . . * . . * . Human-ZCr KPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLL Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP * . * *** *** *. . * .*.
图7.2、*佳全局比对:对人类ζ-晶状物(Swiss-Prot Q08257)和E.coli苯醌氧化还原酶(Swiss-Prot P28304)的氨基酸序列进行比对。这是一个由CLUSTAL W程序(Higgins et al., 1996)得到的*佳全局比对结果。在比对下方,星号表示残基相同,打点表示这个残基是保守的。
早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对就是对序列进行全程扫描,进行比较。以上讨论的胰蛋白酶和ζ-晶状物之间的比较就属于全序列比对。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序列尚未经过实质上的变化
蛋白质的模块性质
许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。图7.3描述了这样的一个例子,如图所示的是在血凝过程中的两种蛋白的组成结构,它们是凝血因子XII(F12)和组织型血纤蛋白溶酶原活化因子(PLAT),除了具有丝氨酸蛋白酶活性的催化结构域,这两种蛋白还具有不同数量的其它结构域单元,包括两种纤连蛋白重复,一个类似于上皮生长因子的结构域以及一个成为“kringle”域的单元。这些组分可以以不同顺序反复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的,因此,操作者应该明白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的mRNA和它的基因序列时,每个外显子都应该进行局部比对。
图7.3、血凝过程中的两中蛋白的模块结构:人类组织血纤蛋白溶酶原活化因子以及凝血因子XII的模块结构的示意图。标记为Catalytic的模块在若干种凝血蛋白中是常见的,F1和F2是较为常见的重复模块,首先在纤连蛋白中被发现。E模块同表皮生长因子极为类似。通常称为”Kringle domain”的模块被标记为K。
点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂关系,图7.4就是应用这种处理后的一个例子。图中F12和PLAT蛋白质序列使用DOTTER程序进行比较(软件可见本章结尾列表),其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中,序列相似性高于其它一些隔绝的区域(或者由DOTTER程序定义的隔绝区域,由不同的灰色阴影标记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置同图7.3中两个蛋白的已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结构域的出现方式。从PLAT的kringle结构域开始水平扫描,可以发现两条线段对应于F12序列中的两个kringle结构域,虽然现在我们已经拥有许多更复杂更精确的方法来寻求局部相似性(下面将会讨论),点阵描述方法仍然是一个很流行很有效的描述方法。
图7.4、点阵序列比较:对人类凝血因子XII(F12:Swiss-Prot P00748)和组织血纤蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)的氨基酸序列进行打点比较。这个图由DOTTER程序(Sonnhammer and durban,1996)产生。
在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息进行推理,另外一个图形描述方法即路径图提供了更直接明了的比较结果,图7.5描述了PLAT和PLAU中与EGF相似的结构域之间进行比较时的比对、点阵和路径图三种方法的关系。
c
PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP—SGPH-CLCPQHLTGNHCQKEK---CFE 137
PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72
图7.5、点阵、路径图和比对:所有这三种视图都表示人类尿激酶血纤蛋白溶酶原活化因子(PLAU:Swiss-Prot P00749)和组织血纤蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)中同EGF相似的模块的比对结果。a) .整个蛋白都由DOTTER程序进行比较:这里只显示了同EGF模块相似的较小区域的放大图;b)由BLASTP得到的比对的路径图;.c).用普通的字符形式显示的BLASTP空位比对。
要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点阵中表示残基本身相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空位,全图对应了所有可能的比对中必须审视的搜索空间,这个空间中每条可能的路径都对应于一种比对。 *佳比对方法 除了某些很不重要的问题,对于众多问题而言,比对方法多种多样,很有必要从中挑选出的一个或几个方法,这就是把一种比对描述成一个路径的概念所指。许多计算机科学的问题都可以简化为通过图表寻求*优路径(比如寻找从纽约打电话到旧金山的*有效的途径)。为了这一目的已经确立了许多行之有效的算法,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和。更精密的打分程序将在下文叙述,在这里我们只假定相同残基加正分,有插入或缺失的残基就加负分(扣分),根据这一定义,*合适的比对方法会得到分,也就是我们寻找的*佳路径。
今天我们所熟悉的Needleman-Wunsch算法就是针对寻求*佳序列比对这一问题所设计的动态规划寻优策略(Needleman and Wunsch,1970)。动态规划的思想是这样的,如果一条路径终止于*佳路径上的一点,那么这条路径本身就是起点到这个中间点的*佳路径,也就是说,任何一个终止于*佳路径上的一点的次级路径必然就是终止于这一点的*佳路径本身。这样,*佳路径就可以通过把各个*佳的次级路径连接而成。在基本的Needleman-Wunsch公式表达中,*佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。换句话说,它搜索全程比对。
然而,对这种基本策略稍作修改就可以实现*佳的局部比对。这种比对的路径不需要到达搜索图的尽头,只需要在内部开始和终结。如果某种比对的打分值不会因为增加或减少比对队的数量而增加时,这种比对就是*佳的。这个过程依赖于打分系统的性质,就是说某种路径的打分会在不匹配的序列段位置减少(以下叙述的打分系统合乎这个标准)。当分值降为零时,路径的延展将会终止,一个新的路径就会应运而生。这样,我们会得到许多独立的路径,它们以不匹配的序列段为界限而不是像在全程比对中以序列的结尾作为界限。在这些路径中,拥有分的一个就是*佳的局部比对。
应该意识到,寻优方法总是把*佳的比对方法表达出来,而不在意它是否具有生物学意义,另一方面,寻求局部比对时可能会发现若干个重要的比对,因此,不能仅仅注意*佳的一个。改良的Smith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)算法把寻找K种的但不相互交叉的比对方式*为目标,这些思想后来都在SIM算法(Huang et al.,1990)的发展中得以体现。一个名叫LALIGN(在FASTA程序包中)的程序提供了有用的SIM工具(Pearson,1996)。对于比对多模块的蛋白质而言,寻找次优比对尤为重要。正如图7.6所示,LALIGN程序被用来获得三个的局部比对(比对人类凝血因子IX和因子XII)。一个标准的Smith-waterman算法只会报告出的一个比对,改良的算法会报告出第二和第三的比对方式,从而显示出功能结构域。
Comparison of: using protein matrix ① 35.4% identity in 254 aa overlap; score: 358 220 230 240 250 260 270 F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE---TGVKI .:....:::::: : .:. :. ..: ..::.::... :..:::::.. . .. F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL 370 380 390 400 410 420 280 290 300 310 320 330 F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL-----VLNSY ::: :... ... .. :. .: . :...... .:.::.::: :.: .:..: F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV--SYQHDLALLRLQEDADGSCALLSPY 430 440 450 460 470 480 340 350 360 370 380 F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF- : :.:... . .. :.:::. :. . . : :: .::... . : ..
F12 VQPVCLPSGAARPSETTLCQ—VAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG
490 500 510 520 530 390 400 410 420 430 440 F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGIISWGEECAMKGKYGIY .: .:.:::: ::: :.:::::::: : : .... : ::::::..:. ..: :.: F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY 540 550 560 570 580 590 450 F9 TVVSRYVNWIKEKT :.:. :..::.:.: F12 TDVAYYLAWIREHT 600 610 ------------------------------------ ② 34.7% identity in 49 aa overlap; score: 120 100 110 120 130 140 F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR .....: .::::.::.: . . : :: :..: :..:.. . .:: F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR 180 190 200 210 220 ------------------------------------- ③ 33.3% identity in 36 aa overlap; score: 87 100 110 120 F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE :.:... :: .::.: . .. .: :: ..:..:. F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ 100 110 120 130 --------------------------------------
图7.6、*佳和次佳的局部比对:在使用LALIGN对人类凝血因子IX(F9;Swiss-Prot 900740)和凝血因子XII(F12;Swiss-Prot P00748)进行比对时发现了三个*佳的比对结果。
取代分和空位处罚
刚才描述的打分系统仅仅使用于简单的匹配/不匹配的情况,但是在比较蛋白质时,我们可以用取代矩阵来增强弱势比对的敏感性。很显然,在相关蛋白质之间,某些氨基酸可以很容易地相互取代而不用改变它们的生理生化性质,这些保守取代的例子包括异亮氨酸(isoleucine)和颉氨酸(valin)(体积小,疏水),丝氨酸(serine)和苏氨酸(threonin)(极性)。在计算比对分之时,相同的氨基酸打分会高于取代的氨基酸,而保守的取代打分高于非保守变化,换句话说,设计了一系列的分值,而且,在比对非常相近的序列(mouse和rat的同源基因)以及差异极大的序列(mouse和 yeast的基因)时会设计出不同系统的分值,考虑到这些因素,使用取代矩阵会极为有利,在这个矩阵中,任何氨基酸配对的分值会一目了然。
个广泛使用的*优矩阵建立在进化的点突变模型上(PAM)(Dayhoff et al.,1978)。一个PAM就是一个进化的变异单位即1%的氨基酸改变,这并不意味着经过100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸,因此另外一些氨基酸可能不发生改变。如果这些变化是随机的,那么每一种可能的取代频率仅仅取决于不同氨基酸的出现的频率(称为背景频率)。然而,在相关蛋白中,已经发现的取代频率(称为目标频率)大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突变已经被进化所接受。Dayhoff同合作者们次使用了log-odd处理,在这种处理中,矩阵中的取代分值同目标频率于背景频率的比值的自然对数成比例。为了评估目标频率,人们用非常相近的序列(比对时不需要取代矩阵)来收集对应于一个PAM的突变频率,然后将数据外推至250个PAM,PAM250矩阵结果如图7.7。虽然Dayhoff等人只发表了PAM250,但潜在的突变数据可以外推至其它PAM值,产生一组矩阵,在比较差异极大的序列时,通常在较高的PAM值处得到*佳结果,比如在PAM200到250之间,较低值的PAM矩阵一般使用于高度相似的序列(Altschul,1991)。
图7.7、PAM250分值矩阵。
用同样方式建立了BLOSUM取代矩阵,但在评估目标频率时,应用了不同的策略,基本数据来源于BLOCKS数据库,其中包括了局部多重比对(包含较远的相关序列,同在PAM中使用较近的相关序列相反)。虽然在这种情况下,没有进化模型,但它的优点在于可以通过直接观察获得数据而不是通过外推获得。同PAM模型一样,也有许多编号的BLOSUM矩阵,这里的编号指的是序列可能相同的水平,并且同模型保持独立性。举例来说,如图7.8所示的BLOSUM的矩阵,至少有62%的相同比例的序列被组合成一个序列,因此取代频率更加受到那些比空位变化还大的序列的极大影响,取代矩阵在处理高度相似序列时使用高的阈值(直至BLOSUM90),处理差异大的序列时使用低的阈值(直至BLOSUM30)。
图7.8、BLOSUM62分值矩阵。
为了补偿那些插入或缺失,可以在比对中引入一些空位,但不能太多,否则会使分子变得面目全非。每引入一个断裂,比对的分值都会有所扣除,对于这些断裂有许多罚分的规则。*常用的一个就是用一个附加的罚分比例去乘空位的长度,其中有两个参数:G(有时称为断裂开放惩罚)和L(断裂延伸惩罚),对于一个长度为n的空位,扣分总数为G+Ln,但在选择空位参数时,在很大程度上是唯经验的,所选的分值很少会有理论上的支持。通常来说,对于G会选择一个高分(在BLOSUM62中约为10-15),对于L会选择一个相对的低分(大约1-2),选择这个范围是因为插入和变异是很罕见的,但当它们一旦发生,就会影响到一系列附近的残基。
比对的统计学显著性 对任何一个比队,我们都可以计算一个分值,但重要的是需要判定这个分值是否足够高,是否能够提供进化同源性的证据。在解决这一问题时,对于偶然出现的分,有些思想很有帮助,但是,没有一个数学理论能够描述全程比对的分值分布,其中一个能评估其重要性的方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较。
但是,对于局部比对而言,情况要好得多。正如问题总是从简单开始,人们首先注意到那些没有多少空位得局部比对,这种比对被称为高分片段配对(HSP)。HSP通常用改进得Smith-waterman算法或简单地使用大的空位罚分方法获得。Karlin-Altschul统计学为描述随机的HSP分值的分布提供了数学理论,概率密度函数形式被称为极值分布,这很值得注意,因为,更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值S同预期的分布相关联可能会计算出P值,从而给出这个分值的比对显著性的可能性。通常,P值越趋近于零,分值越有意义。
相关的变量E表示分值不低于S得可能的比对数量,而极值分布由两个参数表示,即K和λ,可以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索空间的大小由序列长度计算出来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效应(Altschul and Gish,1996),需要进行这种校正还因为在搜索空间边缘开始的比对在达到一个有效分值之前就会超出序列的范围。
把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况。实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之间仍然可以获得高分值区域,有代表性的是可能会获得紧密相邻的HSP,在这种情况下,从总体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时出现就不太像是偶然事件了。Karlin-Altschul加和统计学可以计算N个HSP的统计值,这个方法的实质是把N个*佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与HSP分值值有差异,仍然可以得到解析解。
*后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传统的Smith-waterman比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循极值分布,但是,分布参数K和λ的值不能通过计算获得,当然,通过模型获得这些值的方法已经被大大地发展了。
数据库中的相似性搜索
上述讨论主要集中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种策略获得成功的个例子是人们因此发现病毒肿瘤基因v-sis是细胞中编码血小板派生生长因子的基因的一个变体形式(Doolittle et al., 1983; Waterfield et al., 1983)。那个时候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母saccharomyces cerevisiae的基因组全序列已经被测定出来。在脊椎动物中,大量的部分基因诸如人类和老鼠的基因都已经被测定并存入基因库(genebank)中,这也导致了表达序列标签(EST)工程。EST片段的主要用途是在数据库搜索中,用EST片段进行cDNA克隆可以分离出感兴趣的基因,包括其它模型生物中的同源基因。*近报导的多重内分泌腺肿瘤(MENI)基因就和人与老鼠的多个EST片段相匹配,其中在MENI发表前一年就已经入库保存了(Chandrasekharappa et al., 1997)。
在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列好的hit list,后面是一系列的单独的比对情况,以及不同的分值和统计值(如图7.9)。下文将会详细介绍选择不同的搜索程序、序列数据库和不同的参数都会对搜索产生影响,而且还有不同的界面,比如操作台命令、WWW形式和E-mail等。图7.10给出了一个使用Web界面进行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对,全部注解和文献应用都可以通过超文本简单方便地联接至原始的序列条目和相关的在线文献。
a
The best score are: initn initl opt z-sc E(59248)
gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0
gi|1703339|sp|P49776|APH1_SCHPO BIS(5’-NUCLEOSYL) 431 395 395 536.2 2.8e-23
gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17 gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07 gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05 gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028 gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012 à gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072 gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01 gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014 gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02 gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02 gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023 gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027 gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04 gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048 gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05 gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064 gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42
gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47
b >>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa) initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072 Smith-Waterman score: 128; 30.8% identity in 107 aa overlap 10 20 30 FHIT MSFRFG-QHLIKPSVVFLKTELSFALVNRKPV ...: X.:.. . : .: ..:: : GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV 190 200 210 220 230 240 40 50 60 70 80
FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSM—QDGP---
: ..:. : : :.:. .: : : :: .: ... : .. X. ::. .:: . .: GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKLLTKYDNLFE-TSFPYSMGWHGAPMGL 250 260 270 280 290 300 90 100 110 120 130 140 FHIT EAGQTVKH--VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV ..: : : .:.: : GAL7 KTGATCDHWQLHAHYYPPLLRSATVRKFMVGYEMLAQAQRDLTPEQAAERLRVLPEVHYC 310 320 330 340 350 360
图7.9:进行FASTA搜索的输出:(a)用人类组氨酸三联体蛋白作为(Swiss-Prot P.49789)查询序列,以Swissprot数据库为基础,进行FASTA搜索所得到的命中结果,在这个操作中,参数ktup=1;(b).以数据库中的一个条款(在命中列表中以箭头标出)为查询序列(其中包含老鼠的1-磷酸-半乳糖尿苷酸转移酶序列)所得到的*佳局部比对结果。虽然在这里,序列的相似性不太好,但是这些蛋白在结构上都显示了很好的相似性。
7.10:在WWW上进行数据库相似性搜索:NCBI数据库搜索的高级BLAST形式,在Web网页上容易实现。查询序列应该由剪切板中粘贴到的文本框中,(在本图中,框中显示的是U43746序列)。搜索中另外一些基本的元素包括搜索程序的名字以及数据库的名字,这两个元素都可以通过下拉框选择。如果需要的话,可以设定附加的选项参数。这里还有一个基本的BLAST形式,当然高级的选项参数被隐藏起来了。*后,简单地点击一下“Submit”键,提交请求后就可以开始搜索了。 如今的序列数据库非常之大,并且正以爆炸式的速度不断增长,在这种条件下,利用动态程序的方法直接进行数据库搜索已经变得不切实际。一个解决方法就是使用大型计算机和相关的特殊硬件,但是我们要讨论的目的是普通计算机能干些什么。当*佳方法不可行时,我们必须求助于那些启发式方法,这些方法充分利用了近似值以加快序列比较,但同时会在错过正确比对这一方面冒一点险。
有一种启发式方法建立在这样的策略之上,它将序列分解成由连续字母组成的短串(称为字串)。基于字的方法,在八十年代早期由Wilbur和Lipman提出,并且广泛使用于今天的搜索程序之中。其基本思想是这样的,一个能够揭示出正确的序列关系的比对至少包含一个两个序列都拥有的字串,把查询序列中的所有字串编成索引,并且在数据库扫描中查询这些索引,这些击中的字串就会很快被鉴定出来。
FASTA
FASTA程序是个广泛使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得*佳搜索。但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的*佳搜索之前,程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于ktup参数,它决定了字串的大小。增大ktup参数就会减少字串命中的数目,也就会减少所需要的*佳搜索的数目,提高搜索速度。缺省的ktup值在进行蛋白比较时选择2,但是在间距较大的情况下,将ktup值降为1较为理想。
FASTA程序并不会研究每一个遇到的字串命中,但在一开始会寻找包含若干个附近的命中的片段。使用启发式方法,这些片段会被赋予分值,的一个在输出时会显示为init1分值,这若干个片段会被组合起来,一个新的initn分值会从中计算出来。然后在的初始片段中局限于其对角线带上,会进行一次包含空位的局部比对以评估*可能的匹配。这个*佳比对的分值会在输出时显示为opt分值。对*后报导的比对来说,还要进行一次全程的Smith-Waterman比对。图7.9b显示了一个例子。对数据库中的每一个序列都只会由一个*佳的比对,但是,如果蛋白质中包含若干个模块,一些很有意义的比对就会被错过,匹配序列还必须由LALIGN程序作进一步分析。
从2.0版本开始,FASTA对每一个检索到的比对都提供一个统计学显著性的评估。程序为随机分值假定了一个极值分布,但是改写了概率密度函数的形式,其中预期的分值与数据库中的序列长度的自然对数呈线形关系,这样,可以使用简单的线形回归函数计算常规的比对的z值。*后,计算出预期的E值,从而给出那些z值不小于已知值的随机比对的预期数目。
BLAST
BLAST程序对数据库搜索进行了大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础之上。但是,为了达到这一目的,仍然需要权衡选择,也就是说,局部比对的限制条件可能不包括空位。这个限制条件对应用Karlin-Altschul统计学极为有利,另一方面,既然空位没有明确地放在模型中,结果就不会象人们期望的那样接近于预期的比对。这并不是说插入和确实会妨碍匹配,在大多数情况下,比对仅仅会被分解为若干个明显的HSPs。无论如何,老版本的BLAST程序(1.4以前)的局限性在新版本中已经被消除了,新版本在对待空位问题上有着明确的作法(在下面讨论)。
对于一个即将被BLAST程序报告的比对,其中必然包含一个HSP,其分值不小于终止值S。这个终止值因人而异,但是使用时是很难知道其合适值的。因为程序基于Karlin-Altschul统计学,人们可以指明一个预期的终止E值,然后软件会在考虑搜索背景的性质的基础上(比如数据库的大小,取代矩阵的性质)计算出正确的S值。BLAST的一项创新就是邻近字串的思想。这个协定不需要字串确切地匹配,在引入取代矩阵的情况下,当主题序列中的字串有一个分值T时,BLAST就宣布找到了一个命中的字串。这个策略允许较长字串长度(W)(为了提高速度),而忽略了敏感度。于是,T值称为制衡速度和敏感度的临界参数,而W是很少会变化的。如果T值增大,可能的命中字串的数目就会下降,程序执行就会加快,减小T值会发现较远的关系。
发生一个字串命中后,程序会进行没有空位的局部寻优,比对的分值是S。将比对同时向左方和右方延伸并将分值加和就会得到结果。当遭遇一系列的分值时,加和的分值就会下降,这时,分值就不再可能反弹回S值。这个发现为附加的启发式知识提供了依据,因此,当分值的降低(与遭遇的值相比)超过分值下降阈值X时,命中的延伸就会终止。于是,系统回减少毫无指望的命中延伸,继续进行其它操作。
使用BLAST
可以通过e-Mail、WWW或控制台命令操作BLAST程序,无论如何,一次数据库搜索包括四种基本元素:BLAST程序的名称,数据库名称,查询序列和大量的合适的参数,很显然,当以上元素发生变化时,搜索的细节就会随之改变。为了避免混淆,我们把BLAST功能性描述为普通名词,避免提及专有工具。读者可能会要参考使用到的专有工具的有关内容。要得到关于用e-Mail执行BLAST搜索的介绍,给blast@ncbi.nlm.nih.gov发一封含有“HELP”的邮件;在WWW工具中,帮助是在线的;如果使用Unix系统,使用man blast可以获得详细的帮助信息。
表7.1、BLAST程序:
程序 | 数据库 | 查询 | 内容 |
Blastp | 蛋白质 | 蛋白质 | 使用取代矩阵寻找较远的关系:可以进行SEG过滤。 |
Blastn | 核苷酸 | 核苷酸 | 寻找较高分值的匹配,对较远关系不太适用。 |
Blastx | 核苷酸(翻译) | 蛋白质 | 对于新的DNA序列和ESTs的分析极为有用。 |
Tblastn | 蛋白质 | 核苷酸(翻译) | 对于寻找数据库中没有标注的编码区极为有用。 |
tblastx | 核苷酸(翻译) | 核苷酸(翻译) | 对于分析EST极为有用。 |
几种不同的BLAST可以通过查询序列和数据库序列的类型来加以区分:blastp比较的是查询蛋白同蛋白质数据库;相应于核酸序列的程序是blastn;如果序列类型不同,DNA序列可以被翻译成蛋白序列(所有六种阅读框架)后同蛋白序列进行比较,blastx比较一个DNA的查询序列同一个蛋白质序列库,其结果对分析新序列和ESTs很有用;对于一个基于核酸序列库的蛋白质查询,tblastn程序对于寻找数据库中序列的新的编码区很有用;*后一个只在特殊情况下使用(在这里介绍只是出于完整的考虑),tblastx将DNA查询序列和核酸序列库中的序列全部翻译成蛋白质序列,然后进行蛋白质序列比较,这个程序主要应用于ESTs比较,尤其是当人们怀疑到其中有可能的编码区,即使并没有确切地发现这一区域。
所有这些程序使用服务器上的序列数据库,从而不需要本地的数据库,表7.2和7.3陈列了一些BLAST使用的蛋白质和核酸的序列数据库。对于常规的搜索,nr数据库拥有大量的氨基酸和核酸序列,同时合并相同的序列以减少冗余度。为了检测在过去30天里提出或更新的序列,提供了一个称为“month”的数据库。不管是nr还是month,都是日日更新。表7.2和7.3中列出的其它一些数据库在一些特别的环境里十分有用,比如在比较模型物种(酵母和大肠杆菌)的全序列时,搜索特别类型的序列(dbest或dbsts),或检测是否存在污染或问题序列(vector,alu或mito)。
表7.2、使用BLAST的蛋白序列数据库:
数据库 | 描述 |
Nr | 融合了Swiss-Prot,PIR,PRF以及从GenBank序列编码区中得到的蛋白质和PDB中拥有原子坐标的蛋白质,绝非多余。 |
Month | Nr的字集,每月(30天)更新,搜集了过去30天中的*新序列。 |
Swissprot | Swiss-Prot数据库。 |
Pdb | 拥有三维空间结构的原子坐标的氨基酸序列库。 |
Yeast | 由酵母基因组中基因编码的全套蛋白质。 |
ecoli | 有大肠杆菌基因组中基因编码的全套蛋白质。 |
表7.3、使用BLAST的核苷酸序列数据库:
数据库 | 描述 |
Nr | 极有价值的GenBank,排除了EST,STS和GSS部分。 |
Month | Nr的字集,每月(30天)更新,搜集了过去30天中的*新序列。 |
Est | Genbank中的EST部分(expressed sequence tags, 表达序列标签)。 |
Sts | Genbank中的STS部分 (sequence tagged sites, 序列标签位点)。 |
Htgs | Genbank中的HTG部分 (high throughput genomic sequences, 高容量基因组序列)。 |
Gss | GenbankGSS(genome survey sequences,基因组测定序列)。 |
Yeast | 酵母的全基因组序列。 |
Ecoli | 大肠杆菌的全基因组序列。 |
Mito | 脊椎动物线粒体的全基因组序列。 |
Alu | 搜集了灵长类动物的Alu重复序列。 |
vector | 搜集了流行的带菌体的克隆。 |
一个BLAST搜索的例子会介绍搜索输出的不同元素。如图7.11所示的例子,一种Alzheimer疾病感受性蛋白质的氨基酸序列(由GenBank中L43964翻译)作为查询序列同dbest数据库用tblastn进行搜索。进行这么一次搜索的目的是要鉴定模型生物中可能的同源物的cDNA克隆,从而为在人类中无法进行的实验打开方便之门(相应于EST序列的克隆是已经实现的)。数据库中的每一个EST序列在同alzheimer蛋白质序列比较以前,都已经按照所有的阅读框架得到翻译。图7.11a显示了此次搜索得到部分命中的列表,前两列给出了每一个显著性匹配的序列的标识和描述。尽管浏览时定义被缩短了,我们仍然可以看到老鼠和果蝇的序列都被包含进来了。下一列给出了得到*佳HSP(即使其它阅读框架翻译结果也会达到命中)的阅读框架。后面三列给出了*佳HSP的分值、p值总和及p值计算时使用到的HSP数目。
包含一种果蝇EST(由箭头标出)的比对在图7.11b中得以显示。其中包含了两个HSP,并且显示了每一个的分值,EST的概念性翻译同查询序列并排显示。相同的氨基酸残基在两个序列之间回显,+表示两个不同残基匹配的分值是正数(比如保守取代)。从不同阅读框架得到的两个HSP是显著的并且彼此相邻,这一点从序列坐标就可以看出来。这种形式表示EST序列的一种阅读框架是错误的,并且对于用相对容错性的工具进行序列单向通行数据分析时极为有效。
a
sum
Reading High Probability Y
sequence producing High-scoring Segment Pairs: Frame Score P(N) N
gb|AA056325|AA056325 zf53a03.sl Soarea retina N2b4HR H... +3 724 3.4e-102 2
gb|T03796|T03796 IBIB913 Infant brain,Bento Soares...+3 567 2.6e-78 2
gb|AA260597|AA260597 mx76g09.r1 Soares mouse NML Mus m...+2 239 4.9e-53 4
gb|H86456|H86456 yt01b06.s1 Homo sapiens cDNA clon...+2 323 4.3e-52 4
gb|N24576|N24576 yx72a04.s1 Homo sapiens cDNA clon...+1 365 5.5e-47 2
gb|AA265273|AA265273 mx91c12.r1 Soares mouse NML Mus m...+2 239 6.4e-41 2
gb|AA237206|AA237206 mx18e01.r1 Soares mouse NML Mus m...+3 159 1.5e-40 3
gb|R146001|R146001 yf34b10.r1 Homo sapiens cDNA clon...+1 278 1.5e-40 2
gb|AA200706|AA200706 mu03f12.r1 Soares mouse 3NbMs Mus...+1 343 1.9e-40 1
gb|AA045064|AA045064 zk77f12.s1 Soares pregnant ulerus...-3 269 2.3e-37 2
gb|AA087434|AA087434 mm28a04.r1 Stratagene mouse skin....+3 322 3.6e-37 1
gb|R05907|R05907 ye93h02.r1 Homo sapiens cDNA clon...+3 252 7.7e-37 2
gb|AA268820|AA268820 vb01c10.r1 Soares mouse NML Mus m...+2 234 7.7e-35 2
gb|AA162310|AA162310 mn44a07.r1 Beddington mouse embry...+1 134 8.3e-34 3
gb|N27820|N27820 yx54h10.r1 Homo sapiens cDNA clon...+3 154 7.8e-29 2
gb|AA234907|AA234907 zs38f03.r1 Soares NhHMPu S1 Homo... +2 155 1.8e-28 2
gb|AA231081|AA231081 mw11d11.r1 Soares mouse 3NME12 5... +3 134 8.8e-23 2
gb|H91652|H91652 ys80c04.s1 Homo sapiens cDNA clon... -3 215 3.7e-22 1
gb|H50532|H50532 yo30h08.s1 Homo sapiens cDNA clon... -2 211 1.2e-21 1
gb|AA150236|AA150236 zl03c01.r1 Soares pregnant uterus...+1 159 5.0e-21 2
gb|AA144382|AA144382 mr15d12.r1 Soares mouse 3NbMS Mus...+3 159 7.6e-21 2
à gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embr...+3 130 1.6e-20 2
gb|AA210480|AA210480 mo86b03.r1 Beddington mouse embry...+2 128 2.0e-20 3
gb|H19021|H19021 ym44b02.r1 Homo sapeins cDNA clon...+2 134 5.9e-20 2
gb|AA283084|AA283084 zt14g09.s1 Soares NbHTGBC Homo sa...-3 175 2.3e-19 2
gb|H25759|H25795 y149d01.s1 Homo sapiens cDNA clon...-2 185 5.0e-18 1
gb|H33787|H33787 EST110123 Rattus sp.cDNA 5’ end..... +1 137 6.7e-17 2
gb|AA201988|AA201988 LD05058.5prime LD Drosophila Embr...+3 175 5.5e-15 1
gb|AA263526|AA263526 LD06652.5prime LD Drosophila Embr...+1 167 7.0e-14 1
gb|R46340|R46340 yj52c04.sl Homo sapiens cDNA clon...-1 151 5.6e-13 1
gb|AA246675|AA246675 LD05588.5prime LD Drosophila Embr...+2 117 2.8e-10 2
gb|AA282899|AA282899 zt14g09.r1 Soares NbHTGBC Homo sa...+3 118 6.1e-07 1
gb|AA247705|AA247705 csh0941.seq.F Human fetal heart,....+3 56 0.0039 2
b
gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embryo Drosophila
melanogaster cDNA clone LD09473 5’
Length – 659
Score – 130 (60.4 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20
Identities – 25/60 (41%), Positives – 40/60 (66%), Frame - +3
Query: 105 TIKSVRFYTEKNGQLIYTTFTEDTPSVGQRLLNSVLNTLIMISVIVVMTIFLVVLYKYRC 164
+I S+ FY + L+YT F E +P + +++ ++LI++SV+VVMT L+VLYK RC
sbjct: 480 SINSISFYNSTDVYLLYTPFHEQSPEPSVKFWSALGSSLILMSVVVVMTFLLIVLYKKRC 659
Score – 117 (54.3 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20
Identities –23/30 (76%), Positives – 27/30 (90%), Frame - +1
Query: 75 LEEELTLKYGAKHVIMLFVPVTLCMIVVVA 104
+EEE LKYGA+HVI LFVPV+LCM+VVVA
sbjct: 391 MEEEQGLKYGAQHVIKLFVPVSLCMLVVVA 480
图7.11、一次TBLASTN搜索的输出:在这次TBLASTN搜索中,以dbest数据库为基础,以阿尔茨海默氏病(即进行性老年性痴呆)基因(Genbank 检索号码L43964)的蛋白质产物为查询序列,目的是为了从其它那些可能同人类基因有同源性的物种中鉴定出一些cDNA克隆。(a).命中列表的一部分显示了其中的25个命中。每个检索出来的序列都由它们的GenBank检索号码以及一部分定义行组成。其中包括了它们的阅读框架和*佳HSP分值,同时显示的还有一个偶然命中的可能性的加和。*后一列中的数据给出了在计算加和的可能性时所涉及到的HSP的数量。在这个命中列表中可以见到至少10条从老鼠中得到的序列和一条从果蝇中得到的序列; (b).同果蝇的EST序列(GenBank AA390557)理论上的翻译序列匹配的结果。找到了两个HSPs,每一个使用不同的阅读框架。相同的残基在两行序列中间的相应位置回显,而“+”符号标记着那些不相同但是其取代分值是正分的残基。
BLAST的*新改进
*近发布的BLAST程序的修订版提高了搜索速度、敏感度和实用性。这个完全重新写过的软件包指定为2.0版本(避免同WU-BLUST混淆,这个软件是由华盛顿大学设计的,有时称为BLAST2)。应该注意到,在发布的2.0版本中,命令行的参数有很大改变,其中一些常用的参数列在表7.4中。
一个改进来自于引发一个字串命中的延伸的标准。现在,在一个需要考虑的残基的窗口里必须找到两个字串命中。使用这种策略提高了搜索速度,因为大量随机的字串命中将会被忽略,并且很有可能得到一个显著性良好的比对。第二个改进是能够明确地而不是含蓄地处理空位。除了帮助使用者更加容易地理解产生的比对,新版本还提高了较远关系的敏感性,其中可能会包含许多插入和缺失。比较从寻找无空位的HSP这一标准策略开始,然后,这一比对中获得分区域的中心一列被鉴定出来,接着,从这一点向前和向后延伸,通过赋值的路径进行无空位局部比对的搜索。如同*初的HSP搜索,一个分值下降的阈值X将会促使放弃那些遭遇大量负的取代分值的路径。对剩余的HSP进行反复的这种操作,将会揭示另外的含空位的比对,并保证它们同已经报告的部分不会相交。这个系统不同于FASTA所采取的策略,FASTA只会产生一个*佳的比对。
表7.4、一些对于BLAST很有用的参数值:
参数名称 | BLAST 1.4 | BLAST 2.0 |
数据库 (database) | 参数 | -d database |
查询序列文件 (query sequence file) | 第二参数 | -I filename |
期望阈值E (expectation cutoff) | E = number | -e number |
HSP分值阈值S (HSP score cutoff) | S = number | -s number |
字串分值阈值T (word score cutoff) | T = number | -f number |
多命中窗口A (multihit window) | n/a | -A number |
打分矩阵 (score matrix) | -matrix matrix | -M matrix |
低复杂度过滤 (low-complexity filtering) | -filter seg | -F |
空位开放罚分 (gap opening penalty) | n/a | -G number |
空位拓展罚分 (gap extension penalty) | n/a | -E number |
PSI-BLAST反复 (PSI-BLAST iterations) | n/a | -j number |
对于那些弱势的但是显著性较强的比对,进行较高敏感性的数据库搜索的一个方法就是使用诸如profile(表头轮廓)的数据结构(Gonzalez et al., 1994)。这个策略可能曾经被认为是个进行数据库搜索的比较的课题,但是BLAST的一个新特性简化了基于profile的搜索工作。一个profile可能会被理解为一个列表,其中列出了在一个保守的蛋白质结构域中每一个位点发现每一种氨基酸残基的频率。建立一个profile可能是很乏味的,其信息是从那些拥有我们感兴趣的蛋白质结构域的多序列比对中得到的,这些比对必须预先准备好,而且,在这里有许多技术上的问题还没有解决。
位点特性反复BLAST(PSI-BLAST)是指BLAST2.0的一个特性,其中一个profile被不断组织并且不断精练。这个过程开始于使用一个简单查询序列的一个标准的数据库搜索。在这个初始的搜索结果中,一个profile从高度显著的比对中获得,然后这个profile在第二轮的数据库搜索中使用。如果需要的话,这个过程会反复进行,并且在操作中为了精练profile,会在每一轮中加入新的序列。
为了演示PSI-BLAST方法的高敏感性,旦氨酸三联体蛋白(HIT)序列被用来作为数据库搜索中的查询序列。HIT和1-磷酸乳糖尿苷酸转移酶(GalT)基于位点重叠的三位结构相似性*近得到描述(Holm and Sander, 1997)。经过一次标准的(一轮)BLASTP搜索,没有发现一个对GalT序列有显著的命中。但是经过多次搜索,在每一次反复中都发现新的关系,正如图7.12所示。在第二次搜索中了发现老鼠的GalT蛋白质,并且在这一信息被加入profile之后,另外一些其它物种的同源物也被检测出来。
Sequences producing significant alignments: Hign E
Score Value
Pass1:
sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE TRIAD PROTEIN 290 7e-79
sp|P49776|APH1_SCHPO BIS(5’ – NUCLEOSYL) – TETRAPHOSPHATASE (ASYMME... 117 8e-27
sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 KD HIT – LIKE PROTEIN 88.0 6e-18
sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 KD HIT – LIKE PROTEIN 52.7 3e-07
sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U) 45.3 4e-05
Pass2:
sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 KD HIT – LIKE PROTEIN 70.5 1e-12
sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 KD HIT – LIKE PROTEIN IN P... 59.0 3e-09
sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 KD HIT – LIKE PROTEIN IN H... 57.6 9e-09
sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 KD HIT – LIKE PROTEIN IN P... 55.7 3e-08
sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT – LIKE PROTEIN F21C3.3 54.3 9e-08
sp|P42856|ZB14_MAIZE 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 52.8 2e-07
sp|P42855|ZB14_BRAJU 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 50.2 1e-06
sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 KD PROTEIN HIT – LIKE PROT... 49.5 2e-06
sp|P49773|IPK1_HUMAN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) 49.1 3e-06
sp|P16436|IPK1_BOVIN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) (17 ... 48.7 4e-06
sp|P44956|YCFF_HAEIN HYPOTHETICAL HIT – LIKE PROTEIN HI0961 47.3 1e-05
sp|P43424|GAL7_RAT GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 41.0 8e-04
Pass3:
sp|Q03249|GAL7_MOUSE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 87.2 1e-17
sp|P07902|GAL7_HUMAN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 79.8 2e-15
sp|P31764|GAL7_HAEIN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 64.7 6e-11
sp|P09148|GAL7_ECOLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 62.5 3e-10
sp|P22714|GAL7_SALTY GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 58.1 6e-09
sp|P09580|GAL7_KLULA GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 48.5 4e-06
sp|P08431|GAL7_YEAST GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 40.8 0.001
Pass4:
sp|P40908|GAL7_CRYNE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 71.0 8e-13
sp|P13212|GAL7_STRLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 57.0 1e-08
图7.12、使用PSI-BLAST后,敏感性提高很大:在这次BLASTP搜索中,查询序列是人类组氨酸三联体(HIT)蛋白(Swiss-Prot P49789),搜索时开启了PSI-BLAST功能。在每一次重复搜索中,新检索出来的具有统计学显著性的匹配都会显示它们的定义行,打分值以及E 数值。
低复杂度区域
不管是蛋白还是核酸都包含一些偏颇的区域,在进行序列数据库搜索时这些区域可能会导致一些令人迷惑的结果。这些低复杂度区域(LCRs)在从明显的同性聚合顺串和短周期重复到更精细的情况(如其中某些或一些残基过多表现)的范围内变化。一个称为SEG的程序发展起来,目的是要把一个蛋白质序列分解为低复杂度和高复杂度组成的各个片段(Wootton and Federhen, 1993, 1996)。这个程序的结果表明数据库中的蛋白质有一半以上拥有至少一个LCR(Wootton and Federhen, 1993; Wootton, 1994)。LCRs的进化、功能和结构性质并没有被很好地了解。在DNA中,有许多种简单的重复,其中一些已经知道是高度多样性的,并且在作基因图谱时经常使用的。它们源起的机制可能是聚合酶滑动、偏颇核苷酸取代或者不等交换。LCRs更偏好于在结构上以非球形区域的形式存在,那些在物理化学上已经被定义为非球形的区域通常可以在使用SEG程序时获得较好的结果(Wootton, 1994)。
对于包含LCR的序列进行比对是成问题的,因为这些序列不符合残基-残基序列守恒的模型。有些时候,与功能相关的属性可能仅仅是周期性或组成结构,而不是任何特异的序列。而且,对比对作统计学显著性分析的方法是建立在一定的随机概念基础上的,LCR显然不符合这一条件,因此,对于一个包含LCR的查询序列,在进行数据库搜索的输出里会发现很多不正确的条目,因为这些匹配的显著性被过高评价了(Altschul et al., 1994)。这个问题大体上可以通过过滤(或者叫屏蔽)解决,操作是这样的,把有问题的子序列转化为不明确的字符(蛋白质用X,核酸序列用N),这样它们就不会对比对贡献正分了。
果蝇鳞甲基因产物的人类同源物就是包含LCR蛋白质的一个好例子,在用SEG分析的时候,两个低组成复杂度的序列区域被鉴定出来。图7.13a显示了缺省的树输出,其中低复杂度序列用小写字母表示在左边,高复杂度序列在右边用大写字母表示。个区域片段有61个残基,包含大量丙氨酸(alanine)和谷氨酸盐(glutamine)的多聚物;第二个区域片段有14个残基,偏向于精氨酸(arginine)。如果不进行过滤的话,许多包含这种偏向性序列的数据库序列都会被报告出来。使用命令行选项,SEG程序就会产生一个过滤后的查询序列版本。另外,过滤可以有BLAST程序自动完成,如果使用合适的参数。请注意在使用BLAST时,缺省情况下就可以实行过滤(比如在WWW版本)。这就解释了为什么查询序列中的不明确的字符串(在原序列中没有出现)会在比对中被偶然发现。
a
>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1
1-11 MESSAKMESGG
agqqpqpqpqqpflppaacffataaaaaaa 12-72
aaaaaaqsaqqqqqqqqqqqqqqapqlrpa
a
- DGQPSGGGHKSAPKQVKRQRSSSPELMRCK
RRLNFSGFGYSLPQQQP
aavarrnerernrv 120-133
- KLVNLGFATLREHVPNGAANKKMSKVETLR
SAVEYIRALQQLLDEHDAVSAAFQAGVLSP
TISPNYSNDLNSMAGSPVSSYSSDEGSYDP
LSPEEQELLDFTBWF
b
>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1
MESSAKMESGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXDGQPSGGGHKSAPKQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPX
XXXXXXXXXXXXXKLVNLGFATLREHVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHD
AVSAAFQAGVLSPTISPNYSNDLNSMAGSPVSSYSSDEGSYDPLSPEEQELLDFTBWF
c
>gi|540240 (U14590) achaete – scute homolog b [ Danio rerio ]
Length – 195
Score – 193 bits (512), Expect – 7e-49
Identities – 107/155 (69%), Positives – 118/155 (76%)
Gaps – 8/155 (5%)
QUERY 86 KQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPXXXXXXXXXXXXXXKLVNLGFATLRE 145
K +KRQRSSSPEL+RCKRRL F+G GY++PQQQP K VN+GF TLR+
540240 32 KVLKRQRSSSPELLRCKRRLTFNGLGYTIPQQQPMAVARRNERERNRVKQVNMGFQTLRQ 91
QUERY 146 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAAFQAGVLSPTISPNYSNDLNS 205
HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSA Q GV SP++S YS
540240 92 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAVLQCGVPSPSVSNAYS----- 146
QUERY 206 MAG—SPVSSYSSDEGSYDPLSPEEQELLDFTNWF 238
AG SP S+YSSDEGSY+ LS EEQELLDFT WF
540240 147 -AGPESPHSAYSSDEGSYEHLSSEEQELLDFTTWF 180
图7.13、使用SEG程序检索低复杂度区域:使用SEG程序对人类achaete-scute蛋白(Swiss-Prot P50553)进行分析,发现了两段低复杂度区域。(a).以缺省的“tree”格式执行程序得到的输出结果,左边用小写字母显示了低复杂度区域,右边用大写字母显示了高复杂度区域。 (b) .开启-x命令行开关,SEG程序将会产生把低复杂度区域屏蔽掉的序列结果。 (c).为了方便使用,操作者可以使用BLAST程序来进行低复杂度区域的屏蔽。当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据库进行检索时,在BLASTP输出结果的比对中可能也会包括一些被屏蔽的分段序列。
重复元件
如果查询中包括一个重复元件的序列-比如说一个Alu重复-可能会出现许多错误的和令人费解的结果。虽然在蛋白质-蛋白质搜索中,这一般不会成为什么大问题,但是在包含DNA序列任何比较中,都必须对此引起必要的重视。基因组序列可能会包含大量分散的重复序列,特别是一些多基因族(例如Alus, LINEs和人的序列中的MERs),甚至mRNA序列中也可能含有重复序列,几乎都是信息的非翻译区。因此,重复元件在数据库序列中非常普遍,如果查询序列中也有这些重复,就会在比对中出现大量不正确的正分。虽然重复元件显示了大量不同成分,仍然有足够的相似性使比对具有一定的高显著性。虽然比对会跨越这些重复而不是侧面的单一序列,但是直接从数据库搜索的输出结果观察,这并不是显而易见的。
GenBank和Swiss-Prot数据库中都包含一些“暖序列(warming sequence)”,这些数据向使用者指出查询中包含重复序列(Claverie and Makalowski, 1993)。在GenBank中,这些条目表示了人类Alu重复的不同亚科的一致序列;在Swiss-Prot中的类似条目是Alu序列的六种翻译框架(一个接着一个,中间由若干X分隔)。在两种情况下,单词“WARNING”在定义行中非常显著。暖序列不必出现在命中列表的上方,而且,可以有许多包含Alu重复的数据库序列同查询序列非常相似,甚至比查询序列同暖序列还相似。这在图7.14a中有所体现,它显示了对人类转录因子CBFB(在3’UTR包含一个Alu)基于nr数据库进行一次blastn搜索的一部分命中。暖序列(用箭头标出)位于命中列表的第31位。虽然列表顶部的一些匹配显示了真正的关系(个是一个自命中),绝大多数只是因为具有Alu重复才会出现错误的正分。
在查询中更直接地检测Alu重复是否存在的方法就是在查询前先对alu数据库做一次搜索。如图7.14b所示,做完这个以后,包含alu的暖序列作为分匹配被报告出来。如果查询序列被发现包含重复元件,接下来的行动就是要对这个序列进行编辑改动,把它剔除或者屏蔽掉。在这里一个有用的工具就是CENSOR,它能够自动检测并且消除重复元件。
a
Smallest
Sum
High Probability Y
Sequences producing High – scoring Segment Pairs: Score P(N) N
gb|L20298|HUMCBFB Homo sapiens transcription factor... 8691 0.0 2
dbj|D14571|MUSPEBP2B2 Mouse mRNA for PEBP2B2 protein, co.. 2574 0.0 25
gb|L032791|MUSP215CBF Mus musculus core – binding factor m 2574 0.0 25
dbj|D14572|MUSPEBP281 Mouse mRNA for PEBP2B1 protein, co.. 2130 0.0 26
dbj|d14570|muspebp283 Mouse mRNA for PEBP2B4 protein, co.. 1701 0.0 26
gb|L03305|MUSCBFAA Mus musculus core – binding factor m 942 0.0 27
gb|L03306|MUSCBFAB Mus musculus core – binding factor m 2130 1.6e-282 10
gb|U22177|DMU22177 Drosophila melanogaster Big brothe... 382 1.5e-37 2
emb|Y10196|HSPEX H.sapins PEX gene 400 4.4e-22 1
gb|L77570|HMUDGCRCEN Homo sapiens DiGeorge syndrome cri... 409 6.7e-22 2
gb|AD00067|1010603 Homo sapiens DNA from chromosome 1... 392 2.0e-21 1
emb|Z83822|HS306D1 Human DNA sequence from PAC 306D1 ... 392 2.0e-21 1
emb|Z82097|HSF77D12 Human DNA sequence from fosmid F77... 391 2.5e-21 1
dbj|D42052|HUMKIAA000 Human cosmid Q7A10 (D21S246) inser... 391 2.5e-21 1
gb|U83511|HSUB3511 Human Xp22 cosmids U177G4,U152H5, ... 386 6.5e-21 1
gb|U52112|HSU52112 Human Xq28 genomic DNA in the regi... 386 6.5e-21 1
gb|S83170|S83170 tissue – type plasminogen activator.. 382 1.1e-20 1
emb|X9642|HSCAMF3X1 H.sapiens Y chromosome cosmid CAMF... 383 1.1e-20 1
gb|U95739|HSU95739 Human chromosome 16p11.2 – p12 BAC c. 383 1.1e-20 1
gb|95743|HSU95743 Human chromosome 16p13.1 BAC clone... 383 1.1e-20 1
gb|U91322|HSU91322 Human chromosome 16p3 BAC clone C.... 383 1.1e-20 1
gb|U82609|HSU82609 Human centromere – specific histone.. 382 1.3e-20 1
gb|AC001061|HSAC001061 Homo sapiens (subclone 2_g6 fromP.... 382 1.3e-20 1
emb|Z46940|HSPRMTNP2 H.sapiens PRM1 gene, PRM2 gene and... 382 1.4e-20 1
gb|K03021|HUMTPA Human tissue plasminogen activator... 382 1.4e-20 1
gb|U15422|HSU15422 Human protamine 1 (PRM1), protamin... 382 1.4e-20 1
gb|U91323|HSU91323 Human chromosome 16p13 BAC clone C... 382 1.4e-20 1
emb|Z54147|HSLI29H7A Human DNA sequence from cosmid L12... 381 1.7e-20 1
emb|Z82194|HSJ272J12 Human DNA sequence fom clone J272J12 374 1.7e-20 2
dbj|D0035|HIV2CAM2 Human immunodeficiency virus type-... 380 2.0e-20 1
à gb|U14567|HSU14567 ***ALU WARNING: Human Alu_J subfam... 373 2.4e-20 1
gb|L81578|HSL81578 Homo sapiens (subclone 2_b2 from P... 386 3.0e-20 2
gb|L81854|HSL81854 Homo sapiens (subclone 2_b8 from P... 377 3.4e-20 1
b
Smallest
Sum
High Probability Y
Sequences producing High – scoring Segment Pairs: Score P(N) N
à lcl|HSU14567 ***ALU WARNING: Human Alu – J subfamil... 373 4.1e-24 1
lcl|unknown gb|M94643_HSAL001949 349 1.4e-22 1
lcl|HSU14574 ***ALU WARNING: Human Alu – Sx subfami... 347 7.0e-22 1
lcl|HSU14573 ***ALU WARNING: Human Alu – Sq subfami... 347 7.0e-22 1
lcl|unknown gb|Z15026_HSAL001005 (Alu – J) 324 1.4e-21 1
lcl|unknown gb|M15657_HSAL001254 (Alu – J) 337 6.3e-21 1
lcl|unknown gb|M61839_HSAL002304 (Alu – J) 314 6.6e-21 1
lcl|unknown gb|X17354_HSAL000525 (Alu – J) 329 6.6e-21 1
lcl|HSU14572 ***ALU WARNING: Human Alu – Sp subfami... 329 2.4e-20 1
lcl|unknown gb|J03619_HSAL001939 (Alu – Sx) 329 2.8e-20 1
lcl|unknown gb|L11910_HSAL002838 (Alu – J) 307 2.8e-20 1
lcl|unknown gb|M11228_HSAL002744 (Alu – Sp) 329 2.9e-20 1
lcl|unknown gb|L18035_HSAL004322 (Alu – J) 318 9.3e-20 1
lcl|unknown gb|L05367_HSAL002551 (Alu – J) 318 1.0e-19 1
lcl|unknown gb|M58600_HSAL002004 (Alu – J) 322 1.2e-19 1
lcl|unknown gb|Z23796_HSAL005276 (Alu – J) 306 1.7e-19 1
lcl|unknown gb|M90058_HSAL002955 (Alu – J) 294 2.5e-19 1
lcl|unknown gb|D14642_HSAL003786 (Alu – J) 315 4.0e-19 1
lcl|unknown gb|M29038_HSAL002942 (Alu – J) 314 5.5e-19 1
lcl|unknown gb|M92357_HSAL001387 (Alu – J) 310 9.8e-19 1
图7.14、反复元件可能会导致令人迷惑的结果:本次blastn查询使用的查询序列是人类转录因子CBFB(GenBank L20298)的cDNA序列。(a).如果使用nr数据库,*先的一些匹配同查询序列具有真正的关联,但是也会报告许多不正确的命中结果,这些命中分布于各个人类染色体的基因组区域。在这个命中列表中,打箭头处(位于第31行)的一致的Alu-J序列被列为警告序列。 (b).如果使用alu数据库,Alu-J警告序列就成了*佳匹配序列。
为了鉴定这些潜在的搜索成果,学会怎样评估搜索结果非常重要。上述的一些策略只应用于Alu反复,它是人类以及其它一些物种中出现频率的,但是其它一些反复仍然存在,虽然含量较低,而且,其它物种会显示出完全不同类型的反复元件。现在有一个数据库搜索输出的附加性质,它可以指示出反复元件。例如,注意比对中与DNA序列编码区域相关的位点是非常有益的。如果非编码区域匹配而编码区域不匹配,那么反复序列就很令人怀疑;如果查询序列同大量序列匹配,但是这些序列相互之间没有什么关系,但是比对的分值都很相近,这样的结果就极为可疑。例如图7.14a中,许多匹配的相似性分值都几乎一样,而且包括了从若干不同的人类染色体上来的质粒。虽然对这个发现有很多解释,但是一个明智的看法就是至少承认这个现象可能是出于外界因素(如反复元件的存在)的影响。
小结
在世界各地科学家们每天都要执行序列比对和数据库搜索成千上万此,并且所有的分子生物学都应该熟悉这些要紧的工具。这些方法注定要不断发展,并且接受不断增长的数据库容量的挑战。特别是当可利用的信息增长时,使用者更加难以解释其结果。数据库搜索工作台致力于事后处理搜索结果并且图形显示,从而解决这一问题。这些策略的例子包括PowerBLAST(Zhang and Madden, 1997),BLIXEM(Sonnhammer and Durban, 1994)和BEAUTY(Worley et al., 1995)。
这一章描述了数据比较的一些基本概念,但是使用大量不同的程序以获得更详尽的信息非常有用。研究人员应该了解程序工作的基本操作,并且选择相应的参数。此外,他们应该了解潜在的外部影响并且知道如何避免。*重要的是,应该结合实验方法的发现和评估事物的强大威力。
第七章中涉及到的可以在互联网上使用(获得)的软件:
CULSTAL.W | ftp://ftp.ebi.ac.uk/pub/software/ |
DOTTER | ftp://ftp.sanger.ac.uk/pub/dotter/ |
LALIGN.FASTA | ftp://ftp.virginia.edu/pub/fasta/ |
BLAST | ftp://ncbi.nlm.nih.gov/blast/ |
SEG | ftp://ncbi.nlm.nih.gov/pub/seg/ |
Altschul.S.I : (1991).Amino acid substitution matrices from an information theoretic perspective. J.Mol.Bio. 219. 555-565.
Altschul.S.E. and Erickson.B.W. (1985). Significance of nucleotide sequence alignments: A method for random sequence permutation that preserves dinucleotide and codon usage. Mol.Biol.Evol. 2. 526-538.
Altschul.S.E. and Erickson.B.W. (1986). Locally optimal subalignments using nonlinear similarity functions. Bull.Math.Biol. 48. 633-660.
Altschul.S.E and Gish.W. (1996). Local alignment statistics. Methods Enzymol. 266. 460-480.
Altschul.s.E., Gish.W., Miller.W., Myers.E.W., and Lipman.D.J. (1990). Basic local alignment search tool. J.Mol.Biol. 215. 403-410.
Altschul.S.E., Boguski.M.S., Gish.W., and Wootton.J.C. (1994). Issues in searching molecular sequence databases. Nature Genet. 6. 119-129.
Altschul.S.e., Madden.T.L., Schaffer. A.A., Zhang.J., Zhang.Z., Miller.W., and Lipman.D.J. (1997). Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucl.Acids.Res. 25. 3389-3402.
Baron.M., Norman.D.G., and Campbell.I.D. (1991). Protein modules. Trends Biochem.Sci. 16. 13-17.
Chandrasekharappa.S.C., Guru.S.C., Manickam.P., Olufemi.S.E., Collins.E.S., Emmert-Buck.M.R., Debelenko.I..V., Zhuang.Z.., Lubensky.I.A., Liotta.L.A., Crabtree.J.S., Wang.Y., Roe.B.A., Weisemann.J., Boguski.M.S., Agarwal.S.K., Kester.M.B., Kim.Y.S., Heppner.C., Dong.Q., Spiegel.A.M., Burns.A.L., and Marx.S.J. (1997). Positional cloning of the gene for multiple endocrine neoplasia- Type 1.Science 276. 404-407.
Clavrie.J.M., and Makalowski.W. (1993). Alu alert.Nature. 371. 752.
Dayhoff.M.O., Schwartz.R.M., and Orcutt.B.C. (1978). A model of evolutionary change in proteins . In Atlas of Protein Sequence and Structure. M. O. dabhoff. ed. (Washington.DC: National Biomedical Research lFoundation). pp. 345-352.
Doolittle.R.J., and Bork.P. (1993). Evolutionarity mobile modules in proteins. Sci Am. 269. 50-56.
Doolittle.R.F., Hunkapiller.M.W., Hood.L.E., Devare.S.G., Robbins.K.C., Aaronson.S.A., and Antoniades.H.N. (1983). Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science 221. 275-277.
Fitch.W.M. (1969). ocating gaps in amino acids sequences to otimize the homology between two proteins. Biochm.Genet.3. 99-108.
Fitch.W.M. (1983). Random sequences.J.Mol.Biol. 163. 171-176.
Gibbs.A.J., and Melntyre.G.A. (1970). The diagram: A method for comparing sequences. Its use with amino acid and nucleotide sequences. Eur.J.Biochem. 16. 1-11.
Gonzalez.P., Hemandez-Calzadilla.C., Rao.P.V., Rodriguez.I.R., Zigler.J.S., Jr., and Borras. T. (1994). Comparative analysis of the zeta-crystallin/quione reductase gene in guinea pig and mouse. Mol.Biol.Evol. 11. 305-315.
Henikoff.S., and Henikoff.J.G. (1991). Automated asscembly of protein blocks for database searching. Nucl.Acids.Res. 19. 6565-6572.
Henikoff.S., and Henikoff.J.G. (1992). Amino acid substitution matrix from protein blocks. Proc.Natl.Acad.Sci. U.S.A. 89. 10915-10919.
Higgins.D.G., Thompson.J.D., and Gibson.T.J. (1996). Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.
Holm.L.., and Sander.C. (1997). Enzyme HIT. Trends Biochem.Sci. 22. 16-117.
Huang.X., Hardison.R.C., and Miller.W. (1990). A space-efficient algorithm for local similarities. Comput.Appli.Biosci. 6. 373-381.
Jurka.J., Klonowski.P., Dagman.V., and Pelton.P. (1996). CENSOR: A program for identification and wlmination of repetitive elements from DNA sequences. Comput.Chem. 20. 119-122.
Karlin.S., and Altschul.S.F., (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc.Natl.Acad.Sci. U.S.A. 87. 2264-2268.
Karlin.S., and Altschul.S.E. (1993). Applications and statistics for multiple high-scoring segments in molecular sequences. Proc.Natl.Acad.Sci. U.S.A. 90. 5873-5877.
Lipman.D.J., and Pearson.W.R. (1985). Rapid and sensitive protein similarity searches. Science . 227. 1435-1441.
Needleman.S.B., and Wunsch.C (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. J.Mol.Biol. 48. 443-453.
Patthy.L., (1991). Modular exchange principles in proteins. Curr.Opin.Struct.Biol. 1., 351-361.
Pearson.W.R. (1996). Effective protein sequence comparison. Methods Enzymol. 266. 227-258.
Pearson.W.R., and Lipman.D.J. (1988). Improved tools for biological sequence comparison. Proc.Natl.Acad.Sci. U.S.A. 85. 2444-2448.
Smith.T.F., and Waterman.M.S. (1981). Identification of common molecular subsequences. J.Mol.Biol. 147. 195-197.
Smith.T.F. Waterman.M.S., and Burks.C. (1985). The statistical distribution of nucleic acid similarities. Nucl.Acids.Res. 13. 645-656.
Sonnhammer.E.L..L., and Durban.R. (1994). A workbench for large scale sequence homology analysis. Comput.Appl.Biosci. 10. 301-307.
Sonnhammer.E.L..L.., and Durban.R. (1996). A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis. Gene 167. GCI-10.
Waterfield.M.D.., Scrace.G.T.., Whittle.N.., Stroobant.P.., Johnsson.A.., Wasteson.A.., Westermark.B.., Heldin.C.H.., Huang.J.S.., and Deuel.T.F. (1983). Platelet-derived growth factor is structurally related to the putative transfoming protein p28sis of simian sarcoma virus. Nature. 304. 35-39.
Waterman.M.S.., and Eggert.M. (1987). A new algorithm for best subsequence alignments with applications to tRNA-rRNA comparisons. J.Mol.Biol. 197. 723-728.
Waterman.M.S.., and Vingron.M. (1994). Rapid and accurate estimates of statistical significance for sequence database searches. Proc.Natl.Acad.Sci. U.S.A. 91. 4625-4628.
Wilbur.W.J.., and Lipman.D.J. (1983). Rapid similarity researches of nucleic acid and protein data banks. Proc.Natl.Acad.Sci. U.S.A. 80. 726-730.
Wootton.J.C. (1994). Non-globular domains in protein sequences: Automated segmentation using complexity measures. Comput.Chem. 18. 269-285.
Wootton.jJ.C.., and Federhen.S. (1993). Statistics of local complexity in amino acid sequences and sequence databaseas. Comput.Chem. 17. 149-163.
Wootton.J.C.., and Federhen.S. (1996). Analysis of compositionally biased regions in sequence databases. Methods Enzymol. 266. 554-571.
Worley.K.C.., Wiese.B.A.., and Smith.R.F. (1995). BEARTY: an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results. Genome Res. 5. 173-184.
Zhang.J.., and Madden.T.L.. (1997). PowerBLAST: A new network BLAST application for interactive or automated sequence analysis and annotation. Genome.Res. 7. 649-656.
参考文献: