vesperlight的个人博客分享 http://blog.sciencenet.cn/u/vesperlight

博文

CheckM评估基因组完整度

已有 19094 次阅读 2017-8-1 10:30 |个人分类:生信|系统分类:科研笔记| 基因组, 评估, 完整度, checkm

CheckM

1、简介

checkM是用于评估分离出的微生物、单细胞和宏基因组的质量工具。其使用有谱系世系关系的特有和独有基因数据集来大致估计基因组的完整度和污染程度。

2、下载与安装

2.1 官网、下载地址说明文档

checkm的代码全部托管在github上。

官方主页:https://ecogenomics.github.io/CheckM/

下载地址:https://github.com/Ecogenomics/CheckM

说明文档:https://github.com/Ecogenomics/CheckM/wiki


2.2 依赖环境

2.2.1 需要的软件(需要添加至系统路径)

HMMER(>=3.1b1)

prodigal(2.60 or >=2.6.1)

pplacer(>=1.1)


2.2.2 依赖的python模块

python >= 2.7 and < 3.0

numpy >= 1.8.0

scipy >= 0.9.0

matplotlib >= 1.3.1

pysam >= 0.8.3

dendropy >= 4.0.0

ScreamingBackpack >= 0.2.3


2.2.3 数据库

checkm data setRoot <data_directory>设置数据库路径,运行sudo checkm data update或https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_v1.0.7.tar.gz直接下载、解压到数据库文件夹下。


2.3 安装

安装相关依赖环境与python模块,(1)运行下载包里的setup.py(python setup.py install),或(2)作者推荐的使用pip安装的方法(pip install checkm-genome),需要root权限。


2.4 更新

checkm更新:sudo pip install checkm-genome --upgrade --no-deps

数据库更新:sudo checkm data update


3、使用方法

CheckM使用Fasta作为输入文件格式,可以直接输入扩展名为fna的contigs或者scafords文件,或者通过-x参数可以输入其他扩展名的文件

eg:假设基因组在/home/donovan/bins目录下,fa是文件扩展名,输出文件夹为/home/donovan/checkm,可以使用如下命令:

checkm lineage_wf -t 8 -x fa /home/donovan/bins /home/donovan/checkm


checkm有三种工作流程

(1)lineage-specific(世系特异性)【推荐方法】

(M) > checkm tree <bin folder> <output folder> 将基因组加入到参考基因组树种

(R) > checkm tree_qa <output folder> (可选)检查树

(M) > checkm lineage_set <output folder> <marker file> 创建一个Marker文件,这个文件包含用于评估基因组的lingeage-sepecific标记位点

(M) > checkm analyze <marker file> <bin folder> <output folder> 鉴定marker基因和评估基因组完整度和污染

(M) > checkm qa <marker file> <output folder> 对基因组质量进行总结


上述过程可以简化为一条命令:checkm lineage_wf <bin folder> <output folder>


(2)taxonomic-specific(物种分类特异性)

在有些情况下,使用一样的标记位点分析全部的基因组会比较方便,如来源于同一个分类组的基因组。

(R) > checkm taxon_list 生成一个包含所能提供标记位点的物种列表

用--rank可以查看所提供的物种名 checkm taxon——list --rank phylum

(M) > checkm taxon_set <rank> <taxon> <marker file> 指定一个分类单元并生成marker文件

(M) > checkm analyze <marker file> <bin folder> <output folder> marker位点进行分析

(M) > checkm qa <marker file> <output folder> 对基因组质量进行总结


上述过程可以简化为一条命令:checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>


(3)custom marker genes(自行指定基因maker)

自行指定marker基因,使用HMMER提供的隐马尔科夫模型构建同源关系来进行分析。

> checkm analyze <custom HMM file> <bin folder> <output folder>

> checkm qa <custom HMM file> <output folder>


Reference

[1]Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW. 2015. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Research, 25: 1043–1055.

[2] https://github.com/Ecogenomics/CheckM/wiki




https://blog.sciencenet.cn/blog-2379401-1068993.html

上一篇:R汇总: 随机分布生成函数
下一篇:基因预测工具:Glimmer
收藏 IP: 223.85.248.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 08:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部