JANEWANGJK55的个人博客分享 http://blog.sciencenet.cn/u/JANEWANGJK55

相册

« 返回图片列表 |当前第 28 张|共 191 张图片 
上一张下一张

IMG_20150716_223617_副本

上传于 2015-7-22 18:43 (107 KB)

发表评论 评论

IP: 5.179.69.*   JANEWANGJK55 发表了评论   2015-7-23 15:52
数据已全部收到,接到手软,最缺时间!
合理利用,认真分析! OVER!  :)
IP: 5.179.69.*   JANEWANGJK55 发表了评论   2015-7-23 15:53
14-07-2015  :P
IP: 5.179.69.*   JANEWANGJK55 发表了评论   2015-7-23 23:40
A contig is a contiguous length of genomic sequence.
A scaffold is composed of contigs and gaps. Gap length can be guessed by incorporating information from paired ends or mate pairs.
IP: 5.179.69.*   JANEWANGJK55 发表了评论   2015-7-23 23:42
1.       什么是Reads?
高通量测序平台产生的序列就称为reads。

2.       什么是Contig?
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

3.       什么是Scaffold?
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
IP: 5.179.69.*   JANEWANGJK55 发表了评论   2015-7-23 23:45
N50 length:
A measure of the contig length (or scaffold length) containing a 'typical' nucleotide. Specifically, it is the maximum length L such that 50% of all nucleotides lie in contigs (or scaffolds) of size at least L.
IP: 5.179.69.*   JANEWANGJK55 发表了评论   2015-7-23 23:49
基因组拼接中常见的名词解释
Read:高通量测序平台产生的序列就称为reads。  
Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。  Scaffold:基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。  

Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。  

Scaffold N50:Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

测序深度和覆盖度:    测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基 因大小为2M,测序深度为10X,那么获得的总数据量为20M。  

覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、 重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

http://wenku.baidu.com/view/e40659fe9e3143323968937a.html

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 04:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部