zhang2sha的个人博客分享 http://blog.sciencenet.cn/u/zhang2sha

博文

混合效应模型 — 独步科研江湖数据分析工具

已有 15294 次阅读 2021-4-27 22:45 |系统分类:科研笔记

列位看官,现在是否觉得你在统计课上学的那些模型(one way anova, 线性回归,卡方检验 在实际研究中已很少用到呢?如果要问你当前应用范围最广、情景适用能力最强的通用性统计模型是哪个,答案会是什么呢?

别的领域我不敢讲,但至少在传统生态学领域,这个答案非常确定,这就是混合效应模型(也称多水平模型、层次模型、嵌套模型等)。鄙人大概十年前开始接触和使用混合效应模型,当时还是在SAS 下使用,但随着Rlme4nlme, 以及近年来的MCMCglmmbrms包和一些下游配套包如MuMIn等的开发,混合效应模型的应用已成星火燎原之势,迅速在生态学领域铺开。那么这个模型到底有多火,我们可以通过一组数据来展示。

2009年,生态学领域影响因子最高的神刊Trends in Ecology & Evolution发表了Generalized linear mixed models: a practical guide for ecology and evolution一文(Bolker et al. 2009),吹响了混合模型向生态学领域全面渗透的号角。截至目前,该文的引用量达到了惊人的6990次(谷歌学术)。

2013年,应用统计大佬Shinichi NakagawaMethods in Ecology and Evolution杂志上发表了A general and simple method for obtaining R2 from generalized linear mixed-effects models一文(Nakagawa and Schielzeth 2013),解决了混合效应模型的R2计算问题(即双R2法)。这一论文无疑对混合效应模型的应用起到了煽风点火、推波助澜的强大作用(很大原因是我们对于R2这一指标的偏爱和追求)。截至目前,改论文的引用次数,也达到了让人瞠目结舌的6396次(谷歌学术)。其方法也被整合到了RMuMIn包中。

基于生态学领域6万多篇文献的分析结果显示,在2400多个相关R包中使用最为频繁的前三名中,有两个都是专业的混合效应模型包(Lai et al. 2019)。其中lme4排名高居第一,nlme包排名第三。仔细观察这份榜单,MuMIn包与混合模型的模型选择, R2计算密切相关,排名第11位的MCMCglmm包也是混合模型(贝叶斯广义线性混合模型拟合),只不过该包相对较新,应用还不是太多,但从引用情况看也已颇具吸引力。

赖.png

生态学领域使用量最大的R包排名(引子Lai et al. 2019

最后,再说点当前的“严峻形势”!鄙人查阅了最新一期的生态学第一期刊(即2021年第5期)Ecology letters上的论文发现,该期杂志共发表研究型论文13篇,包括10篇原始研究,3篇综述。这13篇论文中,1篇为纯理论研究,即用到了特定的理论模型。在另外12篇实验性研究中,竟然有10篇采用了混合效应模型(表1),占比83%

什么叫高度的实用性,什么叫东方不败式的独领风骚,混合模型就是最好的答案!可以毫不夸张的说,混合效应模型已经接管了当前生态学领域的主流数据分析任务!

1 Ecology letters 2021年第5期中采用了混合效应模型的论文

表图.png

那么混合效应模型到底何德何能,能在应用统计领域如此独步江湖呢?

首先必须明确的是混合模型,并不是一个模型,而是一个庞大的模型集合。从原理上说,我们通常用到的很多模型,如anova, 线性模型,广义线性膜性能,additive model等,只不过是混合模型的特例而已。也就是说,混合效应模型,大大拓展了常用模型的应用范围。其次,混合效应模型提高了数据结构与模型本身的契合程度,当然这种契合程度并不是为了写论文时候装高深或者炫技,而是可以切实提高统计结果的可靠性。换句话说,采用混合模型得到的结果通常会更加可靠(结果可靠性不是统计模型的第一要务么),也会降低你的发现未来惨遭否决的概率。那么除了结果更可靠之外,混合效应模型还有哪些其他优势呢?我总结一下,至少有以下10条:

1) 在考虑xy的关系时,可以剥离其他噪音(如物种,地点,个体,单个参考文献之间的差异)对结果的影响,即解决数据的独立性问题,并可以对各种来源的噪音进行定量化分析。

2) 当自变量x在不同的抽样单位内,数据结构存在分层时,可以分析不同层次的x及其交互作用对y的影响(即既可以把一个因素当做随机效应,又可以拿与这个因素不同水平对应的某个指标当做固定效应),这是一般的统计模型所无法想象的。这是混合效应模型的一大优势。具体应用案例可见陈磊老师的Science大作(Chen et al. 2019)

3) 无以伦比的方差分解功能,这也是混合模型一大天然优势。什么让人头疼的拉丁方设计,区组设计,裂区区组设计等等统计课本中那些令人眼花缭乱的实验设计和方差来源分解,这在混合模型中根本就不算是个事儿。统计大师Andrew Gelman早在16年前已做专门论述(Gelman 2005) 具体应用案例参考(Soranno et al. 2019)

4) 可以非常方便的指定方差矩阵的结构,即处理方差异质性问题。

5) 可以把时间、空间自相关安排到模型之中,让挑剔的审稿人无话可说。

6) 可以把系统发育历史整合到模型之中(超越了系统发育最小二乘法PGLS一个物种只能有一个数据的局限),让你的结果经得起进化时间的考验。

7) 就算你的数据同时具有系统发育关系,空间自相关,时间自相关等各种复杂结构,一样妥妥滴给你安排好。

8) 适合因变量y的分布类型多得让你眼花缭乱(什么过度离散,零膨胀,hurdle model 伪这个,伪那个,全安排),广义线性混合模型让你如入无人之境,突破数据分布藩篱,让你集中精神,尽情enjoy 你的科研idea!

9) 预测功能多样,让你实现不同限制条件下对结果的预测。

10)最后一点,也是混合模型最为重要的功能之一,是可以对一个你从未采集到的某个情况下(如你从未采集到的物种,从未到达的地点,从未谋面的某个神秘人物,从未读到的一篇参考文献)的y值进行预测。这看似魔法,但混合模型确可以做到。

当然,越是功能强大的工具,其操作过程往往也越复杂,混合模型也不例外,其较为复杂的逻辑原理和各种与数据结构高度匹配的设置,往往让人无所适从。初学者可以尝试读下2018年发表的一篇混合模型入门型介绍论文(Harrison et al. 2018),该文实用性非常强。同时Trends in Ecology & Evolution杂志于2020年发表Mixed models offer no freedom from degrees of freedom一文(Arnqvist 2020),指出,对于混合模型的使用切不可在似懂不懂的情况下肆意而为,一定要理解其原理,才能使用得当。用户体验友好的R包降低了该模型使用的门槛,同时也提升模型结构错误以及误读结果的概率。

事实上,不管你是否喜欢,以混合效应为代表的一些新的强力统计模型日益为生态学家和相关学术期刊所青睐。快速掌握这些模型的原理和应用技巧已成为科研人员面临的一大紧迫任务。那么下面套路来了哈哈,如果你对混合效应模型充满期待,却又不知该从何学起,那么欢迎参加二傻哥将于5月初举办的混合效应模型培训班,从基本原理,到各种实战技巧,顶级期刊应用案例解读,集鄙人十年混合模型应用经验之精华,全都给您安排上!课程详细信息可扫描以下二维码。

二维码.jpg

 


 

参考文献:

Arnqvist, G. 2020. Mixed models offer no freedom from degrees of freedom. Trends in Ecology & Evolution 35:329-335.

Bolker, B. M., M. E. Brooks, C. J. Clark, S. W. Geange, J. R. Poulsen, M. H. H. Stevens, and J.-S. S. White. 2009. Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology & Evolution 24:127-135.

Chen, L., N. G. Swenson, N. Ji, X. Mi, H. Ren, L. Guo, and K. Ma. 2019. Differential soil fungus accumulation and density dependence of trees in a subtropical forest. Science 366:124-128.

Gelman, A. 2005. Analysis of Variance: Why It Is More Important than Ever. The Annals of Statistics 33:1-31.

Harrison, X. A., L. Donaldson, M. E. Correa-Cano, J. Evans, D. N. Fisher, C. E. D. Goodwin, B. S. Robinson, D. J. Hodgson, and R. Inger. 2018. A brief introduction to mixed effects modelling and multi-model inference in ecology. PeerJ 6:e4794.

Lai, J., C. J. Lortie, R. A. Muenchen, J. Yang, and K. Ma. 2019. Evaluating the popularity of R in ecology. Ecosphere 10:e02567.

Nakagawa, S. and H. Schielzeth. 2013. A general and simple method for obtaining R2 from generalized linear mixed-effects models. Methods in Ecology and Evolution 4:133-142.

Soranno, P. A., T. Wagner, S. M. Collins, J.-F. Lapierre, N. R. Lottig, and S. K. Oliver. 2019. Spatial and temporal variation of ecosystem properties at macroscales. Ecology Letters 22:1587-1598.

 


 

附:Ecology letters 2021年第5期使用了混合效应模型的论文目录:

Cunningham, C. X., S. Comte, H. McCallum, D. G. Hamilton, R. Hamede, A. Storfer, T. Hollings, M. Ruiz-Aravena, D. H. Kerlin, B. W. Brook, G. Hocking, and M. E. Jones. 2021. Quantifying 25 years of disease-caused declines in Tasmanian devil populations: host density drives spatial pathogen spread. Ecology Letters 24:958-969.

Cusser, S., J. Helms IV, C. A. Bahlai, and N. M. Haddad. 2021. How long do population level field experiments need to be? Utilising data from the 40-year-old LTER network. Ecology Letters 24:1103-1111.

Davies, T. J. 2021. Ecophylogenetics redux. Ecology Letters 24:1073-1088.

de Tombeur, F., E. Laliberté, H. Lambers, M.-P. Faucon, G. Zemunik, B. L. Turner, J.-T. Cornelis, and G. Mahy. 2021. A shift from phenol to silica-based leaf defences during long-term soil and ecosystem development. Ecology Letters 24:984-995.

Fourcade, Y., M. F. WallisDeVries, M. Kuussaari, C. A. M. van Swaay, J. Heliölä, and E. Öckinger. 2021. Habitat amount and distribution modify community dynamics under climate change. Ecology Letters 24:950-957.

Kelly, R., K. Healy, M. Anand, M. E. A. Baudraz, M. Bahn, B. E. L. Cerabolini, J. H. C. Cornelissen, J. M. Dwyer, A. L. Jackson, J. Kattge, Ü. Niinemets, J. Penuelas, S. Pierce, R. Salguero-Gómez, and Y. M. Buckley. 2021. Climatic and evolutionary contexts are required to infer plant life history strategies from functional traits at a global scale. Ecology Letters 24:970-983.

Milligan, P. D., T. A. Martin, G. P. John, C. Riginos, J. R. Goheen, S. M. Carpenter, and T. M. Palmer. 2021. Mutualism disruption by an invasive ant reduces carbon fixation for a foundational East African ant-plant. Ecology Letters 24:1052-1062.

Pellegrini, A. F. A., A. M. Hein, J. Cavender-Bares, R. A. Montgomery, A. C. Staver, F. Silla, S. E. Hobbie, and P. B. Reich. 2021. Disease and fire interact to influence transitions between savanna–forest ecosystems over a multi-decadal experiment. Ecology Letters 24:1007-1017.

Rios Moura, R., M. Oliveira Gonzaga, N. Silva Pinto, J. Vasconcellos-Neto, and G. S. Requena. 2021. Assortative mating in space and time: patterns and biases. Ecology Letters 24:1089-1102.

Williams, L. J., E. E. Butler, J. Cavender-Bares, A. Stefanski, K. E. Rice, C. Messier, A. Paquette, and P. B. Reich. 2021. Enhanced light interception and light use efficiency explain overyielding in young tree communities. Ecology Letters 24:996-1006.




https://blog.sciencenet.cn/blog-3442043-1284089.html

上一篇:正态性——数据分析中的第一误区
下一篇:混合模型的R2到底是如何计算的?
收藏 IP: 113.46.179.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 03:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部