博文

变量筛选后的模型只适用于预测而不完全适用于因果推断

已有 563 次阅读 2024-3-29 21:29 |个人分类:常规统计|系统分类:科研笔记

在生态学研究中，当面临解释变量众多的复杂情境时，研究者们往往会倾向于通过变量筛选来简化模型，进而进行因果关系的解读。然而，这种做法其实存在极大的风险。简而言之，尽管经过筛选的模型可能在预测效率上达到了理想状态，但这并不能保证所保留的变量就是对响应变量的影响是真实的。换句话说，那些被筛选掉的变量，其对y的影响可能并不亚于甚至超过被保留的变量，只是由于与被保留的变量高度共线性而模型不需要这些变量也一样达到同等的拟合度（比如校正R²或AIC）而被筛选掉。

我个人的观点是，若模型的目的是用于解释（即因果关系解读）而非预测，那么变量的筛选过程应当建立在专业知识之上，而非仅仅依赖于程序化的自动筛选方法。如果实在没法专业知识来选择，只能通过程序化做变量筛选，事后也得用专业的知识来解读模型的因果关系，而不能简单说通过程序化的“变量筛选”来作为因果关系的依据。这一看似浅显易懂的原则，实际上却令许多生态学的学子乃至资深科研人员感到困惑和迷茫。2022年7月加拿大达尔豪斯大学两名学者Arif 和MacNeil在“Ecology Letter”上发表的一篇观点文章“Predictive models aren't for causal inference”，以深入浅出的语言和并不复杂的模拟数据，对这一问题进行了深刻的剖析。文章不仅指出了当前变量筛选方法的局限性和误导性，还提出了一种基于专业知识的“后门准则”（Backdoor Criterion）来指导变量的筛选过程，从而更为准确地确定结构方程模型（SEM）的路径。这一创新性的方法，有望为生态学研究的模型构建带来更高的准确性和可靠性。此文篇幅不长，语言也很简单，但其所蕴含的深刻见解和实用方法，无疑值得每一位生态学者仔细研读。https://onlinelibrary.wiley.com/doi/full/10.1111/ele.14033

转载本文请联系原作者获取授权，同时请注明本文来自赖江山科学网博客。
链接地址：https://blog.sciencenet.cn/blog-267448-1427480.html

上一篇：gam.hp：一个用于分解广义可加模型GAM模型的explained deviance和adjusted R2的R包已发

收藏 IP: 223.2.112.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

赖江山

扫一扫，分享此博文

赖江山的博客分享 http://blog.sciencenet.cn/u/laijiangshan 生态、统计与R语言

博文

变量筛选后的模型只适用于预测而不完全适用于因果推断

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

赖江山

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

赖江山的博客分享 http://blog.sciencenet.cn/u/laijiangshan 生态、统计与R语言

博文

变量筛选后的模型只适用于预测而不完全适用于因果推断

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

赖江山

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)