搜索
您的当前位置:首页正文

DNA序列比对数目的算法研究

来源:知库网
维普资讯 http://www.cqvip.com 第24卷第1期 2008年2月 大 学 数 学 C()I I EGE MATHEMATICS Vo1.24,№.1 Feb.2008 DNA序列比对数目的算法研究 徐琛梅 , 刘晓杰 (1.河南大学数学与信息科学学院,开封475001;2.南开大学组合数学中心,天津300071) [摘 要]生物序列比对是生物信息学中非常重要的内容.文[1]中作者用差分方程理论给出了求两 DNA序列间比对数目的一个计算公式,然而解法较为繁琐.本文将借助于组合数学中母函数这一计数_T具给 出另一简单、优美的算法,并在此基础上剔除非生物比对,得到进一步的计算公式,这一结果缩小了需要考查 的比对范围. [关键词]DNA序列;序列比对;母函数;非生物比对 [中图分类号]TP301 [文献标识码]A [文章编号]1672—1454(2008)01—0100—04 1 序列比对 生物信息学是由生物学、数学和计算机科学交叉形成的一个新兴学科.面对人类基因组计划产生的 庞大的分子生物学信息,生物信息学的重要性将越来越突出.由于数学和计算机科学的强大功能的合理 应用,这一学科的发展将为生命科学的研究带来革命性变革.DNA、RNA以及蛋白质序列比对 (Alignment)是生物信息学的重要研究内容之一.例如,可以通过对比不同物种序列的相似性判断它们 之间的同源性(Homologous),同源性较高的序列可能具有相似的三维结构和生物学功能,因此序列比 对的结果具有重要的生物学意义. 目前关于两DNA序列比对算法,较流行的有动态规划比对算法和数据库搜索算法.文[1]中作者 用差分方程方法给出了求两DNA序列比对数目的一个计算公式,然而算法较为繁琐.本文借助于组合 数学中的母函数方法,给出了一个简洁算法.并在此基础上,剔除非生物比对,得到了更简洁的计算公 式.这一结果缩小了需要考查的比对范围. 一个DNA序列的元素由A,C,G,T四种核苷酸组成.假定: X一(xl,z2,…, ),l,一(Yl,Yz,‘・‘, ) 分别表示长度为 和m的两个DNA序列,其中 , ,(i一1,2,…, ;J一1,2,…,m)均取四个核苷酸 A,C,G,T中的一个. 现在,我们要对比这两个序列的相似性,并确定它们残基间的对应.为了比较两序列对应位置上的 核苷酸,需要首先安排这些对应,任何一个保持序列中残基顺序的对应的安排就是一个序列比对,这种 安排允许 ’(gap)出现,但不允许一个序列中的‘。’直接与另一个序列中的 ’对应,这一规定保证了可 能出现的比对数目是有限的.例如:给定两个DNA序列z—TCGTACG和Y—TCACTGC,则下表是序 列z, 间的一个比对. 表1 序列z=TCGTACG和 =TCACTGC的一个比对 I T C G T A C G l T C A C T G C 表中l-’表示插入和删除. [收稿日期]2006—02—07 [基金项目]新世纪高等教育教学改革工程本科教育教学改革立项项目(编号1283B01071) 维普资讯 http://www.cqvip.com

第1期 徐琛梅,等:DNA序列比对数目的算法研究 1O1 两DNA序列X和y间可能出现的比对数目f(”, )满足如下的递推关系式[2]: 厂(”, )一厂(”一1, )+厂(”,m一1)+厂(”一1, 一1) (1) 及初始条件: -厂(0, )一厂(”,0)一1”, ∈{0,1,2,…}. 一∑一 厂 (2) 上述递推方程有唯一确定的解,文献[1]应用差分方程理论给出了它的精确表达式:m  一 2 ( ), l l㈦ 然而,其求解过程较为繁琐,且不易推广.那么我们自然要问:是否有更简便的算法?这种算法能推广到 ∑一 一般情况吗? 厂 一 2母函数解法 m 下面我们借助于母函数这一重要计数工具给出方程(1)和(2)的另一解法. + 定义 设(n。,a ,n ,…,a,,…)是一序列事件的符号表示或者是一个数列,称函数 一∑一 F( )一a0 o( )+al l( )+a2 2( )+…+Ⅱ ,(z)+… 厂 为序列(n。,a ,a ,…,a,,…)的普母函数,简称母函数l3]. 其中 。( ), ( ),…, ,(z),…是一序列 的函数,称为指标函数.指标函数的选择应保证任意两 m  —个不同的序列所生成的母函数亦不同,这里不妨取 的幂为指标函数(即:,ur( )一 ).由于 只是一个 卅 形式变量,故毋须考虑级数的收敛性. + 对每一”≥0,设序列(厂(”,0),厂(”,1),厂(”,2),…,厂(”, ),・・・)的普母函数为 F ( )一厂(”,0)+厂(”,1) +厂(”,2) +…+厂(”, ) +…, ∑一厂  (4) 由方程(1)中的递推关系式,有 聍 一 m H口 — F ( )一_,’(”,0)一F 一】( )一f(”一1,0)+xF, ( )+xF 一l( ). z 又由方程(2)中初始条件知:f(n,0)一厂(”~1,0)一1,从而上式可化为 F ( )一 F ( ). (5) 由此可得 ( )一( )” 1. 显然,f(n, )就是F ( )幂级数表达式中z 项的系数.由 胁 一、 l +xI 1 ”c …l一奎l=0 k =0( ) 知 一 ( .㈣ 这样就得到了f(n, )的另一精确表达式. 显然,与文[1]方法相比较,上述解法是简单和优美的,并且对于更一般的带双指标的常系数线性递 推关系式(如:f(n, )一af(n一1, )+bf(n, 一1)+cf(n一1, 一1)+ 其中Ⅱ,b,f,d为常数)的求 解也是适用的. 3进一步研究 由于递推方程(1)和(2)有唯一确定的解,因此首先说明f(n, )的表达式(6)和(3)是等价的.对 维普资讯 http://www.cqvip.com 102 大 学 数 学 第24卷 F, ( )进行重新考查,由于 一( l+x)” 1一( + ) 1一[k奎=O 2 ( )( ) ][ 『] 一[ +薹塞2 (n是,[、k+志一r- ) ][妻l=0 ], 从而 … i=l『- k=l( 二 )]=mi 2 ( ). 这样就得到了f(n,m)的精确表达式(3),也就是说,表达式(6)和(3)同是F ( )幂级数表达式中 项 的系数,因此两者等价,并且还可以看出:f(n,m)一f(m, ). 其次,上面的讨论中包含了序列问没有任何两个残基对准的比对,这样的比对是不具有生物意义 的,应当将其从比对数目中剔除,以便进一步缩小需要考查的比对数目的范围.以下将这类比对称之为 非牛物比对. 例如:给定两个DNA序列 —CGT和 —GACT,则下表就是这两个序列间的一个非生物比对. 表2 z—CGT和 —GACT的一个非生物比对  I— C G T  『G A C T 易见,两DNA序列X和y间的非生物比对数目g( ,m)满足如下递推关系式 g(n,m)一g(n。m一1)+g(n一1。m) (7) 及初始条件 g(O,m)一g(n,0)一1, ,m∈{0,1,2,…}, (8) 同样应用上述母函数解法可得 I +m、 g(n,m)一l 1. (9) 显然,g(n,m)一g(m, ).值得指出的是,这一结果亦可由排列组合方法获得. 最后,将非生物比对剔除,可以得到比对数目的进一步计算公式: … --g 一 ’( k). (10) 4 结 论 在本文中,我们用母函数方法重新求解方程(1)和(2),得到了与文I-1-1不同的表达结果,并在此基础 上排除了非生物比对,缩小了需要考查的比对范围,得到了DNA序列比对数目计算公式,更精确地描 述了随着序列长度 和m的增加,可能出现的比对数目厂( ,m)的增长情况. 我们希望还可以进一步减小要考查的比对数目,例如,根据生物信息学的研究实际,增加对序列比 对的限制性条件,进而得到更加有效的比对范围,从而为设计序列比对算法和进行相应的算法复杂性分 析提供可靠的依据.这种算法可以和搜索算法结合,以缩短搜索过程. [参 考 文 献] Eli Torres A,Cabada A,Nieto J J.An exact formula for the number of alignments between tWO DNA sequences[J] DNA Sequence,2003,14(6):427—430. [2]Lange K.Mathematical and Statistical Methods for Genetic Analysis[M].New York:Springer-Verlag,2002. [3]Liu C I .Introduction tO Combinatorial Mathematics[M].魏万迪译.成都:四川大学出版社,1987. 维普资讯 http://www.cqvip.com 第1期 徐琛梅,等:DNA序列比对数目的算法研究 1O3 Further Study about the Exact Formula for the Number of Alignments between Two DNA Sequences XU Chen—mei , L U Xiao-jie。 (1.Math,Dep,Henan University,Kaifeng 475001,China; 2.Center for Combinatorics and LPMC,Nankai University,Tianjin 30007 1,China) Abstract:Alignment is an improtant part of Bioinformatics.In the paper[1],the authors give an exact formu1a for the number of possible alignments using the theory of difference equations,However,its solution is complicated.In this short communication,we give another simple and graceful deduced means using a counting tool called generating function in combinatorial mathematics, and attain a farther exact formula for the number of alignments by weeding out the no—biological ones SO as to shorten the number, Key words:DNA sequence;Alignment;Generating function;No-biological alignment 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top