vesperlight的个人博客分享 http://blog.sciencenet.cn/u/vesperlight

博文

基因预测工具:Glimmer

已有 12538 次阅读 2017-8-9 13:05 |个人分类:生信|系统分类:科研笔记| 基因组, orf, 基因预测, Glimmer

glimmer(Gene Locator and Interpolated Markov ModelER)

1.1简介

Glimmer是用于寻找微生物DNA,特别是细菌、古菌和病毒中的基因。其采用的方法为内插马尔科夫模型(interpolted Markov model,IMM)来识别编码区域和非编码区域。已经经历了1.0,2.0版本,现在为3.0版本。

1.2官网、下载地址和安装方法

http://ccb.jhu.edu/software/glimmer

下载的tar.gz压缩包解压后进入rsc子文件夹,使用make编译即可。

1.3使用方法

1、将一个fasta格式文件中的多条序列合并成一条

sed -e '/>/d' [input_file] |tr -d 'n' |awk 'BEGIN {print ">[seq_id]"}{print $0}' > [output_file]

方括号及其中参数需要自行添加

2、创建训练模型

Glimmer一般使用三种方法创建训练模型:a.用亲缘关系很近的物种的基因;b.用自身序列创建的orf数据;c.用基因组本身的已知信息。这里我们采用自身数据作为训练数据。

(1)产生长orf数据

long-orfs -n -t 1.15 genom.seq run1.longorfs

-n 输出文件去除首行,只包含orf

-t 熵距离得分阈值,小于阈值才被保留

输入genom.seq 输出run1.longorfs


(2)提取数据集

extract -t genom.seq run1.longorfs > run1.train


(3)生成预测模型

build-icm -r run1.icm < run1.train

3、基因预测

glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1

-o 最大重叠片段长度阈值,小于阈值保留

-g 基因片段长度阈值,大于阈值保留

-t orf得分阈值,大于阈值保留


4、根据预测结果提取序列

extract -t genomseq run1.predict > predict.fasta




https://blog.sciencenet.cn/blog-2379401-1070303.html

上一篇:CheckM评估基因组完整度
下一篇:序列多重比对工具:MUSCLE
收藏 IP: 223.85.248.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 08:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部