第1期 徐琛梅,等:DNA序列比对数目的算法研究 1O1 两DNA序列X和y间可能出现的比对数目f(”, )满足如下的递推关系式[2]: 厂(”, )一厂(”一1, )+厂(”,m一1)+厂(”一1, 一1) (1) 及初始条件: -厂(0, )一厂(”,0)一1”, ∈{0,1,2,…}. 一∑一 厂 (2) 上述递推方程有唯一确定的解,文献[1]应用差分方程理论给出了它的精确表达式:m 一 2 ( ), l l㈦ 然而,其求解过程较为繁琐,且不易推广.那么我们自然要问:是否有更简便的算法?这种算法能推广到 ∑一 一般情况吗? 厂 一 2母函数解法 m 下面我们借助于母函数这一重要计数工具给出方程(1)和(2)的另一解法. + 定义 设(n。,a ,n ,…,a,,…)是一序列事件的符号表示或者是一个数列,称函数 一∑一 F( )一a0 o( )+al l( )+a2 2( )+…+Ⅱ ,(z)+… 厂 为序列(n。,a ,a ,…,a,,…)的普母函数,简称母函数l3]. 其中 。( ), ( ),…, ,(z),…是一序列 的函数,称为指标函数.指标函数的选择应保证任意两 m —个不同的序列所生成的母函数亦不同,这里不妨取 的幂为指标函数(即:,ur( )一 ).由于 只是一个 卅 形式变量,故毋须考虑级数的收敛性. + 对每一”≥0,设序列(厂(”,0),厂(”,1),厂(”,2),…,厂(”, ),・・・)的普母函数为 F ( )一厂(”,0)+厂(”,1) +厂(”,2) +…+厂(”, ) +…, ∑一厂 (4) 由方程(1)中的递推关系式,有 聍 一 m H口 — F ( )一_,’(”,0)一F 一】( )一f(”一1,0)+xF, ( )+xF 一l( ). z 又由方程(2)中初始条件知:f(n,0)一厂(”~1,0)一1,从而上式可化为 F ( )一 F ( ). (5) 由此可得 ( )一( )” 1. 显然,f(n, )就是F ( )幂级数表达式中z 项的系数.由 胁 一、 l +xI 1 ”c …l一奎l=0 k =0( ) 知 一 ( .㈣ 这样就得到了f(n, )的另一精确表达式. 显然,与文[1]方法相比较,上述解法是简单和优美的,并且对于更一般的带双指标的常系数线性递 推关系式(如:f(n, )一af(n一1, )+bf(n, 一1)+cf(n一1, 一1)+ 其中Ⅱ,b,f,d为常数)的求 解也是适用的. 3进一步研究 由于递推方程(1)和(2)有唯一确定的解,因此首先说明f(n, )的表达式(6)和(3)是等价的.对 维普资讯 http://www.cqvip.com 102 大 学 数 学 第24卷 F, ( )进行重新考查,由于 一( l+x)” 1一( + ) 1一[k奎=O 2 ( )( ) ][ 『] 一[ +薹塞2 (n是,[、k+志一r- ) ][妻l=0 ], 从而 … i=l『- k=l( 二 )]=mi 2 ( ). 这样就得到了f(n,m)的精确表达式(3),也就是说,表达式(6)和(3)同是F ( )幂级数表达式中 项 的系数,因此两者等价,并且还可以看出:f(n,m)一f(m, ). 其次,上面的讨论中包含了序列问没有任何两个残基对准的比对,这样的比对是不具有生物意义 的,应当将其从比对数目中剔除,以便进一步缩小需要考查的比对数目的范围.以下将这类比对称之为 非牛物比对. 例如:给定两个DNA序列 —CGT和 —GACT,则下表就是这两个序列间的一个非生物比对. 表2 z—CGT和 —GACT的一个非生物比对 I— C G T 『G A C T 易见,两DNA序列X和y间的非生物比对数目g( ,m)满足如下递推关系式 g(n,m)一g(n。m一1)+g(n一1。m) (7) 及初始条件 g(O,m)一g(n,0)一1, ,m∈{0,1,2,…}, (8) 同样应用上述母函数解法可得 I +m、 g(n,m)一l 1. (9) 显然,g(n,m)一g(m, ).值得指出的是,这一结果亦可由排列组合方法获得. 最后,将非生物比对剔除,可以得到比对数目的进一步计算公式: … --g 一 ’( k). (10) 4 结 论 在本文中,我们用母函数方法重新求解方程(1)和(2),得到了与文I-1-1不同的表达结果,并在此基础 上排除了非生物比对,缩小了需要考查的比对范围,得到了DNA序列比对数目计算公式,更精确地描 述了随着序列长度 和m的增加,可能出现的比对数目厂( ,m)的增长情况. 我们希望还可以进一步减小要考查的比对数目,例如,根据生物信息学的研究实际,增加对序列比 对的限制性条件,进而得到更加有效的比对范围,从而为设计序列比对算法和进行相应的算法复杂性分 析提供可靠的依据.这种算法可以和搜索算法结合,以缩短搜索过程. [参 考 文 献] Eli Torres A,Cabada A,Nieto J J.An exact formula for the number of alignments between tWO DNA sequences[J] DNA Sequence,2003,14(6):427—430. [2]Lange K.Mathematical and Statistical Methods for Genetic Analysis[M].New York:Springer-Verlag,2002. [3]Liu C I .Introduction tO Combinatorial Mathematics[M].魏万迪译.成都:四川大学出版社,1987. 维普资讯 http://www.cqvip.com 第1期 徐琛梅,等:DNA序列比对数目的算法研究 1O3 Further Study about the Exact Formula for the Number of Alignments between Two DNA Sequences XU Chen—mei , L U Xiao-jie。 (1.Math,Dep,Henan University,Kaifeng 475001,China; 2.Center for Combinatorics and LPMC,Nankai University,Tianjin 30007 1,China) Abstract:Alignment is an improtant part of Bioinformatics.In the paper[1],the authors give an exact formu1a for the number of possible alignments using the theory of difference equations,However,its solution is complicated.In this short communication,we give another simple and graceful deduced means using a counting tool called generating function in combinatorial mathematics, and attain a farther exact formula for the number of alignments by weeding out the no—biological ones SO as to shorten the number, Key words:DNA sequence;Alignment;Generating function;No-biological alignment
因篇幅问题不能全部显示,请点此查看更多更全内容