科学网

 找回密码
  注册
搜索
热搜: 科学 论文
查看: 459|回复: 0

[分享] 开年联配新方法:DART

[复制链接]
发表于 2018-1-12 11:14:57 | 显示全部楼层 |阅读模式
今年一月份,老牌生信杂志《Bioinformatics》发表了一篇由台湾团队开发的RNA-seq mapping新软件的文章,针对RNA测序数据分析的效率和准确度问题做了进一步的改善,下面就让我们来了解下该软件。

文章名:《DART: a fast andaccurate RNA-seq mapper with a partitioning strategy

DART是一款用C/C ++开发的运行在Linux上的软件,良好的支持多线程运行。DART的运行需要BWT-based index fileFASTA/FASTQ作为输入数据,BWT-based index也就是BWA生成的index文件。BWA我们都知道,多年的二代测序软件,这次DART直接使用BWAindex可能是出于节省开发成本的考量。

目前大部分的序列联配软件采用的是seed-and-extendstrategy的方法来寻找最优解,但是在extend这一步消耗的时间却成为各软件最耗时的部分。DARTseed完成后并不是进入extend这一步,而是使用了partitioning mapping strategy的设计,作者说该设计相比于传统的extend可以减少运行耗时。那么具体的情况如何,我们来看看评测部分。

作者采用了针对模拟数据和真实数据进行分析的结果来横向对比DARTSTAR/ TopHat2/Subread/MapSplice2/HISAT2这些软件在Sensitivity/Accuracy/ SJ accuracy/Runtime等指标上的差异。

首先是模拟数据,作者用Flux simulator根绝人类转录本的数据模拟出了四个类似于illumina下机双端数据的不同长度数据集,四个长度信息分别是76bp,101bp,151bp251bp。每一个数据集包含40,000,000paired-end reads,每一个软件的运行环境都充分满足该软件所需要的运行资源,并且在16线程下运行以便真实的测试该软件的实际分析能力。从下表的结果中可以看出对于模拟数据,DART/STAR/ Subread/MapSplice2Sensitivity/Accuracy/ SJ accuracy/Recall/SeqIdy等指标上都是非常接近且足够优秀,而TopHat2/HISAT2则有点掉队;在Runtime这一部分,DART处于最快的第一梯队,STARHISAT2是次快的第二梯队;这两部分的信息说明DART在处理模拟数据时是非常优秀的。


接下来是对真实数据的测评。作者找了四个SRA数据SRR3351428,ERR1518881, SRR3439468SRR3439488进行真实数据的分析,发现DART的表现模式接近于STAR但是要优于STAR,有着最高的Sensitivity,但是SJ accuracy要低于HISAT2HISAT2采用的策略是减少发现的junction数量来保证精确度);在时间这一栏上,DART依旧是最好的,但是速度优势没有模拟数据时那么明显。总体来说DART在真实数据的表现上也是非常的优秀。

除了以上的评测,还有两个比较常见的性能参数:内存占用和多线程优化。针对这两点作者也给出了评测结果,在内存占用方面,DART16线程下处理模拟数据占用了12GB的内存,在这些评估软件里只好于STAR,低于其他任何一款,相比于常用的HISAT25.6GB内存高了一倍左右,处于可接受的范围。在多线程上,DART116线程的测试中表现非常完美,随着线程的增加,所需时间也是等比例的减少,说明作者对软件的多线程优化是非常的不错。

最后,附上
DART
的使用方法:
1.      建立index
软件包内自带的bwa_index
./bwa_indexref_file[ex.ecoli.fa] index_prefix[ex. Ecoli]
或者用BWA软件的index参数:
./bwa index -p index_prefix xxxx.fa
2.      序列联配
./dart  -i ecoli -t10 -f ReadFile1.fa -f2 ReadFile2.fa -o out.sam
-i 后面跟上index的名称
-t 线程数量
标准输出sam格式

总结下,DART表现还是不错的,特别是在保证敏感度和准确度前提下的速度优势很亮眼,但是这不能保证DART将来会被人们广泛使用,毕竟像HISAT2STAR的用户基础很广大,甚至依旧使用TOPHAT2/bowtie2的也大有人在。但是无论如何,该台湾团队又给我们提供了一个可供选择的RNA-seq联配软件,丰富了我们生信工作人员的武器库!



来自群组: 生命科学
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-5-26 10:00

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

快速回复 返回顶部 返回列表