博文

混淆数据分析类型是导致不可靠结论的根源精选

已有 7867 次阅读 2015-3-27 09:09 |个人分类:一起读顶刊|系统分类:科研笔记| 癌症, 细胞分裂, 数据分析类型

今年年初，有关“癌症找上门三分之二是运气差”的报道席卷而来，几乎占据了各大报纸的头版头条。但很快遭到一些批评的声音，包括发表这篇文章的Science周刊自己。批评主要集中在对统计分析的报道，其中一些针对记者的，一些则是针对研究人员本身。我们还是先看看这篇文章的摘要是如何说的：

“不同组织类型引发人类癌症的差异可高达数百万倍。虽然这在最近一个多世纪以来已经得到公认，但谁也没有解释过这个问题。研究表明，不同类型癌症生命周期的风险，与正常自我更新细胞维持组织稳态所进行的分裂数目是密切相关的（0.81）。各组织间癌症风险的变化只有三分之一可归因于环境因素或遗传倾向，大多数（65%）是由于“运气不好”造成的，也就是说在DNA正常复制的非癌变干细胞中产生了随机突变。这不仅对于理解疾病有重要意义，也对设计减少疾病死亡率的策略有作用。”^[1]

接着，我们来简单分析一下这个说法。我们知道，当身体特定部位的细胞发生变异并开始失控进行繁殖时，癌症就发生了。癌细胞可以入侵和破坏周围组织。那么，有多少癌症是细胞分裂的随机误差所造成的呢？文章计算出“不同组织间癌症风险的差异”有三分之二（65%）是细胞分裂出了错，也就是 “运气不好”——这个词显然太过于刺眼，许多媒体在报道中仅仅认为三分之二的癌症病例是随机变异细胞分裂的结果，这种理解就不对了。从另外一个方面讲，许多统计学家和科学专家在博客中发表的反驳文章，其实也是误读了研究者的意思，并没有理解65%这个数字究竟是什么意思^[2]。

最可能的解释似乎是，研究人员指的是不同类型组织的细胞分裂之间的相关性，以及这些组织可能罹患癌症的倾向。如果我们想象着绘制这样一幅图，显示不同类型的癌症，两个轴分别是细胞分裂频率和癌症发生频率。如果图上的点散落四处，大家肯定会说，这些细胞分裂之间没有什么相关性，一旦得上癌症，就是研究人员所指的“运气不好”。如果所有的点都排列成一条整齐的线，那么细胞分裂与癌症之间的相关性就可能是100%。这些研究人员所找到的答案似乎介于二者之间：图上的点排列得还不错，细胞分裂的速度与癌症发生率约有65%的相关性。但如果这就是对该研究正确的理解，那么其研究方法显然有许多值得诟病的地方。作者没有回复这些评论，但说要写一篇技术论文澄清上述论文的方法^[2]。

那么，导致媒体报道中出现如此混乱的罪魁祸首是谁呢？英国布里斯托尔大学的临床流行病学家George Davey-Smith教授认为，这显然不是新闻记者、电视和网站的责任。Science周刊中这篇文章的大标题是the bad luck of cancer（癌症的厄运），副标题又补充道:“分析显示大多数情况下癌症是无法预防的”——这个结论并没有数据支持。作者说他们已经找到了一个量化这些随机或机会因子的方法，但在方法中并没有说明。如果杂志和科学报告中是这样说的，认为是记者们报道失实是不公平的，他们只不会是复制了这些科学报道的说法而已。

说腿和肺罹患癌症的风险不同，没有任何人会感兴趣，对于人群中罹患癌症的机会也没有贡献任何见解。就像两组数据，彼此间本来并无联系，只要进行计算也一定可以得到了一个数值，但如何解释这个数值，那就很值得考究了。

随着大数据时代的到来，大家越来越注重统计分析了，最近产生了一些大规模进行重现性研究的工具，以及对相应重现性分析的改善。如果只是简单进行这样的分析，结果完全可以重现，但最终仍然可能有问题，因为数据分析本身可能就是错误的。3月20日出版的Science撰文说，数据分析中最常见的错误是弄错了所考虑问题的类型。任何一个数据分析都可大致归为以下六种类型（见下图）[3]：

1）挑战性最小的是数据描述分析，只是汇总一个数据集中的测定值，并不需要进一步解释。比如，人口普查数据，只是描述有多少人生活在不同的地方。

2）数据探索分析建立在描述分析之上，通过搜索一些发现、趋势、相关性或测量值之间的关系产生想法或假设。比如，第一个四合星系统的行星叫KIC 4862625，是2013年由业余天文学家从开普勒望远镜天文公开的数据中发现的，这样的探索分析旨在发现和提出假设，是否能证实则需要后续的研究和额外数据支持。

3）数据推理分析可量化一个观察模式是否稳固，还可扩展到数据集之外，这也是正式科学论文中最常见的统计分析。比如，研究一个地区的空气污染是否与预期寿命相关。在非随机实验中，通常只可以确定两个测量值之间的关系，但不能解释底层机制及其原因。

4）数据预测分析要比推理分析更进一步，在量化人口关系中，可使用一个测量值的子集（特性）来预测另一个测量（结果）。比如有些网站使用轮询数据来预测人们在大选中的投票情况。预测分析只表明能从一个测量预测另一个，但不必解释为什么预测做出那种选择。

5）数据因果分析则试图找出：如果一个测量发生变化，相应会发生什么变化。这样的分析一般需要识别变量之间关系的强度和方向。例如，数十年的数据显示吸烟与癌症之间的明确因果关系，吸烟者患癌症的风险肯定是要大一些。虽然这个因果关系是真实存在的，但它只体现在平均风险上，对个案并不一定适用。

6）数据机理分析旨在寻找：改变一个测量是否总是导致另一个特定的确定行为。例如，可根据数据分析，说明机翼设计是如何改变机翼上方的气流并减少阻力的。在工艺之外，机理分析极具挑战性，也是很难的。

遗憾的是，在数据分析类型问题上经常会犯错误，并因此而得出不可靠的结论。比如，有一个探讨手机与脑癌之间关系的研究，这只是一个推理分析，如果解释成因果关系就是错误解释。再比如，著名的谷歌流感搜索词的探索分析被解读为预测分析，这也是一种错误。这些错误太普遍了，可总结成一个表：

当然，对于同一个研究内容，或对同一个数据集的探讨，也可能同时跨越多种数据分析类型，这个时候要确定回答什么问题是更加复杂的。其中，一个重要危险是因果蔓延（causal creep）——在初步分析中用一个随机试验来推理因果关系，在后续分析中的数据根据前面的结果赋予了同样的权重。为了避免这种情况发生，要准确进行一个数据分析，在分析的每一步都应该根据其初衷进行标注，以防止这种蔓延。

参考资料：

[1]C. Tomasetti and B. Vogelstein, 2015. Variation in cancer risk among tissuescan be explained by the number of stem cell divisions. Science (Jan. 2 2015),347(6217): 78-81.

[2]So is cancer mostly 'bad luck' or not?（http://www.bbc.com/news/magazine-30786970）

[3]What is the question? Science (Mar. 20, 2015), 347(6228): 1314-1315.

转载本文请联系原作者获取授权，同时请注明本文来自赵斌科学网博客。
链接地址：https://blog.sciencenet.cn/blog-502444-877613.html

上一篇：人类语言在进化中受到生态因子的影响
下一篇：如何将文章发表在高影响因子的期刊上

收藏 IP: 202.120.224.*| 热度|

当前推荐数：40 推荐人：陈楷翰 王荣林 李欣海 武夷山 陈浩 姬扬 彭真明 袁海涛 戎可 应行仁 黄永义 秦承志 陈冬生 蒋大和 朱豫才 王金良 张智才 曹俊 赵美娣 闵应骅 陈辉 李伟钢 庄世宇 蔡庆华 杨正瓴 余晓美 张彬 朱朝东 赵序茅 李杨 关琳琳 史祎琳 icgwang wgq3867 tuner shenlu fei763 loyalSciencefan chenhuansheng cloudyou

生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

混淆数据分析类型是导致不可靠结论的根源精选

该博文允许注册用户评论请点击登录评论 (37 个评论)

赵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

混淆数据分析类型是导致不可靠结论的根源 精选

该博文允许注册用户评论 请点击登录 评论 (37 个评论)

赵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

混淆数据分析类型是导致不可靠结论的根源精选

该博文允许注册用户评论请点击登录评论 (37 个评论)