最近投文章,审稿人问了一个关于系统进化树的问题。
Reviewer: 1
I still don't understand, why authors sequence 486 isolates but only use a tiny fraction (20) for the phylogenetic tree. Clearly 20 strains out of 486 is not a representative group. Why haven't all isolates been used? Also, I am missing an appropriate substitution model. If authors are unfamiliar with phylogenetic analyses: jmodel test, would for instance be an option.
大致过程如下
1. 待建序列:NCBI上下载的63个16s参比序列和486个分离株的序列,共549个。
2. 使用jmodel进行了模型选择,88种模型可供选择。在i7 6700,8G的台式机上跑了7个多小时,计算完后统计AIC和BIC的时候卡死了,跑了两遍都这样,不知道怎么回事,最后放弃使用这个软件了。
3. 使用IQ-TREE进行模型选择和ML建树,288种模型可供选择。在i5 2450M,8G笔记本的VMware虚拟机(2个线程,4G内存)上执行。
#使用MUSCLE对549个序列对齐
conda install muscle
muscle -in 16s.fas -out 16s_muscle.fas
#使用BMGE对序列剪齐
conda install bmge
java -jar BMGE.jar -i 16s_muscle.fas' -t DNA -of 16s_muscle_trim.fas -m DNAPAM250:4 –g 0.5
#使用ModelFinder寻找最优模型
conda install iqtree
iqtree -s 16s_muscle_trim.fas -m MF -nt 2
得到最佳模型TIM3+F+R4
#使用UFBoot2建树
iqtree -s 16s_muscle_trim.fas -m TIM3+F+R4 -bb 1000 -nt AUTO
4. Figtree可视化树文件16s_muscle_trim.contree
16s_muscle_trim.contree: the consensus tree with assigned branch supports where
branch lengths are optimized on the original alignment.