shenwl的个人博客分享 http://blog.sciencenet.cn/u/shenwl

博文

关于RPKM/FPKM和TPM

已有 7454 次阅读 2018-8-31 08:53 |系统分类:科研笔记

 

These three metrics attempt to normalize for sequencing depth and gene length.

测序数据的标准化/归一化是生物信息学分析的必要步骤,可根据生物问题或是技术手段的不同而采取不同的策略进行。对于RNA-seq,常见的标准化手段有RPKM (Reads Per Kilobase per Million mapped reads) / FPKM (Fragments Per Kilobase per Million mapped reads) 和TPM (Transcripts Per Kilobase per Million mapped reads)。

RPKM/FPKM

这两个指标最为常见,其计算公式基本相同,唯一区别在于:R是reads,F是fragments,即对于单端测序来说,二者相同;而对于双端测序,FPKM将两端的reads当作一个fragment,只计算比对到同一转录本的数量。具体公式如下:

RPKM/FPKM=nr/fN106L103=109×nr/fN×L

其中,nr/f表示比对至目的基因的reads/fragments数目,N是有效比对至基因组的reads/fragments总数,L是基因转录本长度。这种计算方式简单直观地解决了RNA-seq的两个偏性:测序深度越深,基因转录本长度越长,则测序得到的读数越多。

对一个样本内部来说,这个指标没有太大问题,但实际应用中,我们需要对比多个样本之间基因的表达差异,这时候就发现,RPKM/FPKM在样本之间无法通用计算,仔细看其公式就能知道,L一般是固定的,而nr/f和N并没有直接的相关性,比如我有两个样本,基因A的FPKM值在样本1中为3,在样本2中也为3,很明显地,由于原始测序量N不同,其转录本丰度所占比例应该是不同的。

TPM

为了设定一个更加合理的标准化方法来描述RNA转录本的丰度,B. Li和C. Dewey在2011年文章中提出了TPM,计算公式如下:

TPM=nr/fL103Gg=i(nr/fLi103)i÷106=106×nr/fLGg=i(nr/fL)i

由于L是固定的,TPM的值只与nr/f即转录读数相关,以前面例子中的两个样本,若基因A的TPM值在样本1中为3,在样本2中也为3,说明该基因表达丰度是一致的。

?!

RPKM/FPKM存在的问题归根结底在于其缺乏生物学意义,或者说是对科学问题缺乏分析,仅仅进行简单空洞的标准化处理显然是不符合科学逻辑的,然而大批研究者的思维惰性更是导致错误算法的泛滥(不愿深入思考探索,哪个简单就用哪个,用惯了就不愿换)。

当引以为戒。

原文链接https://wenlongshen.github.io/2018/01/27/RPKM/



https://blog.sciencenet.cn/blog-543513-1131979.html

上一篇:系统发生树
下一篇:生物信息分析流程(1) docker入门
收藏 IP: 218.241.202.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 05:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部