lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

taxonkit联合csvtk,生成Taxonomy(NCBI)

已有 1049 次阅读 2023-6-12 22:27 |系统分类:科研笔记

命令

cat taxid.list |

taxonkit lineage |

taxonkit reformat -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" -F -P |

csvtk cut -I -t -f -2 |

csvtk add-header -t -n taxid,kindom,phylum,class,order,family,genus,species > taxon.tsv

解释

taxid.list taxid文件,每行一个taxid

taxonkit lineage |

taxonkit reformat -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" -F -P |

解释:

-f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" 格式,也可在最后增加strain  "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}\t{t}"

-----------------------------------------------------

-F 用更高等级的血统信息填充缺失的等级

例如:k__Bacteria     p__unclassified Bacteria phylum c__unclassified Bacteria class

-----------------------------------------------------

-P 使用前缀(k__p__...

csvtk cut -I -t -f -2 |

解释:

-I(大写i) 忽略非法行(有时没有分类结果,会报错终止。该参数可以防止报错终止)

-t  tab分割

-f -2 只剔除第2列,其他列保留(如果是2,则表示只提取第2列。-表示剔除。)

csvtk add-header -t -n taxid,kindom,phylum,class,order,family,genus,species

解释:

-t  tab分割

-n 增加的列名,并且是CSV格式。(taxid,kindom,phylum,class,order,family,genus,species,strain株)


【参考】

1. shenwei356 (Wei Shen) (github.com)https://github.com/shenwei356

作者:Wei Shen 沈伟生信专家),已开发多个爆款生物信息学软件,并在业界被广泛使用。




https://blog.sciencenet.cn/blog-994715-1391558.html

上一篇:Singularity安装(Linux)
下一篇:pandas中阶实战
收藏 IP: 117.134.13.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 20:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部