博文

统计学二——检验统计推论

已有 6155 次阅读 2012-7-11 11:37 |个人分类:统计学|系统分类:科研笔记| 检验, 统计学

下面对推论统计部分做个系统性的总结。

1、显著性

显著性的含义是指两个群体的态度之间的人和差异是由于系统因素而不是偶然性因素的影响。

显著水平值得是你愿意承担的风险水平或者概论水平。显著水平是不能100%确信试验中观察到的结果是由于处理因素或需要检验的因素引起的。一般我们认为在显著水平在0.05和0.01之间时是可接受的。如果显著水平是0.01，意味着在任何一个零假设检验中，只有1%的可能性是零假设为真，而你拒绝了零假设，并且在群体之间实际上根本没有差异的情况下得出群体之间有差异的结论。即只有1%的可能性会出现下面的情况：零假设为真，但是你却认为零假设为假。

统计显著性是指零假设为真的情况下拒绝零假设所要承担的风险水平。可以理解为，对零假设判断错误的可能性或者概论。

2、不同分析目标对应不同的分析方法

针对不同的分析人群和目标，需要选择合适的检验分析方法。主要方法选择可以归结为如下树状结构图。每次选择方法时，只需要按照对应的情况进行选择即可。（详细过程见附件）

2.1 两个群体的t检验

当你需要进行两个群体在一个或者多个变量上的差异时，需要对这两个群体进行t检验分析。T检验的一个主要的假设时两个群体中每个群体的变异性的量时相等的。这是方差齐性假定。这种假定很少被破坏，虽然这种可能确实存在。

2.1.1 独立样本的t检验

这里的独立性可以理解为两个群体在任何方面都不相关。独立样本的t检验，指的是针对两个独立群体进行一次测试，研究中的每个参与者只接受一次测试。

步骤：

（1）零假设和研究假设的表述

零假设：

H0：μ1= μ2

研究假设：

H1：X1 ≠X2

（2）设置零假设的风险水平（或显著性水平）。一般设置为0.05或者0.01.这完全由你决定。

（3）独立样本的t检验公式

（公式见附件）

其中，

X1 和X2 表示群体1和群体2的均值；

n1和n2 表示群体1和群体2的参与者数量；

s12和s22表示群体1和群体2的方差。

将具体数值带入公式，计算得出t值。这一步可以依靠统计工具如SPSS来完成。

（4）使用特定的统计量的临界值分布表确定拒绝零假设需要的值。

这一步需要查表。这里有个名词需要解释：

自由度：对于两个独立群体的均值t检验分析，自由度df=n1+n2-2 .

不同统计检验，对应的自由度的计算方法可能不同。

（5）比较实际值和临界值

如果实际值大于临界值，就不能接受零假设。如果实际值没有超过临界值，则接受零假设。

（6）结果的解释

假设最后结果如下：

t58=-0.18，p>0.05.

T表示我们所用的检验统计量；

58是自由度数值；

-0.18是实际值，是使用公式计算得到的；

p>0.05 表示对零假设的任何检验来说，两个群体的差异是由于随机因素的可能性大于5%，结果是非显著的。即接受了零假设，两个群体之间的差异可以认为是由于群体间的随机因素引起的，不是由于某种特定因素引起的。

2.1.2 非独立样本的t检验

当需要对测试人群在两种不同的条件下进行相同的测试研究时，就需要用非独立样本的t检验分析来检验两个群体之间的差异性。注意，这里必须是两个相同人群，在不同条件下进行两次相同的测试。比如针对群体1和群体2，在对这两个群体进行阅读培训之前进行一次阅读能力测试，培训结束后进行一次相同的阅读能力测试。

检验过程与独立样本的t检验过程一样，只是公式略有不同。非独立样本的t检验公式为：

（公式见附件）

其中，

D表示两组数据间差异的总和；

D2表示两组数据间差异的平方和；

对于结果的解释：

例如
t24=2.45，p<0.05

24表示自由度数值；

2.45是实际值，是通过上面的公式计算得到的；

P<0.05 表示对零假设的任何检验来说，群体间的差异是由于随机因素影响的概率小于5%。也就是说有其他特定因素影响导致了群体间的差异。即拒绝了零假设，存在显著性差异。

2.2 两个以上群体的方差分析——F检验

任何分析如果只有一个维度或者一个处理变量，分组因素有两个以上的层级，而且关注不同的群体在平均成绩上的差异，就需要采用方差分析，也就是f检验。简单方差分析值分析一个因素或者一个处理变量（如群体身份），而有两个以上的群体收到这个因素的影响。当需要分析多个因素或者处理变量时，就需要用到析因分析。

方差分析公式：

F= MSbetween/MSwithin

其中，

MSbetween是组间差异平方和的平均值，MSbetween=dfbetween/（X2n –X 2N）;

dfbetween = k-1;

K是群体的数量；

dfwithin=N-k ；

N是总的样本规模；

MSwithin 是组内差异平方和的平均值，MSwithin=dfwithin/（X 2- X2n）；

从上面的过程可以看出，计算一次F值非常麻烦，SPSS可以完成这个计算过程，直接得到F值。

方差分析的整体过程与独立样本的t检验分析的过程类似，只是具体的临界值和计算公式不一样。这里不再赘述。

2.3 析因分析

析因分析是对简单方差分析的一种进一步的深入和补充。简单方差分析只能对一种因子或者维度进行分析，但是析因分析可以加入两个或以上，分别对每个因子的影响和因子相互作用产生的影响逐一进行分析，也就是研究者可以分析每一个因素的效应，同时可以通过交互效应分析两者共同的效应。

2.3.1 析因方差分析中的主效应

方差分析的最初目标是检验两个或两个以上群体之间的差异。如果数据分析表明某个因素的不同层级之间存在差异，我们认为存在主效应。

2.3.2 析因方差分析中的交互效应

如果数据分析表明，因素之间相互影响产生一定结果和影响时，我们认为存在交互效应。比如分析男性和女性分别在高强度和低强度训练下体重减轻程度时，不管是男性还是女性或者是在高强度或者低强度下都不重要，但是同时处于两种条件下就很重要，高强度项目中女性减少体重比男性减少的体重多，而在低强度项目中男性减少的体重比女性减少的体重多。这就是性别和项目强度交互影响产生的交互效应。

由于析因分析计算太过复杂，因此一般情况下不会手动计算，直接依靠统计工具得到最后结果。

注意，主效应和交互效应并不是每次都会存在，有可能在某次分析中不存在主效应，而存在交互效应。也可能只存在主效应，而不存在交互效应，或者是二者同时存在。

2.4 使用相关系数检验关系

当需要检验两个变量之间的关系时，需要使用相关系数显著性的t检验。相关系数检验只检验变量之间的关系而不是群体之间的差异。

自由度df = n-2；

由于一些统计学家已经计算了在不同显著水平下（0.01和0.05）不同样本规模的单侧检验和双侧检验临界r值，或者可以借助统计软件完成这个步骤，因此不在详述计算过程。

2.5 线性回归

可以通过线性回归来进行估计。估计就是使用已经收集的数据集计算变量如何相关，然后使用相关系数以及X的信息来估计Y。其实就是建立X和Y的函数关系，然后通过带入已知的X值，计算Y的近似估计值Y’。

方程为

Y’ = bX + a；

Y’ 表示一直X值的Y的估计值；

b表示直线的斜率或者方向;b = XY –(XY/n)X2-[X2/n];

a表示直线与y轴相交的点。a = Y-bXn ；

回归线又称为最优拟合线，并不是所有回归线都是直线，可能是曲线。

既然回归线是一条评估的拟合线，那么我们需要使用一定的方法来评估我们的估计有多么精确。如果我们考虑所有的偏差，计算每个数据点偏离与估计的数据点的平均数量，即标准估计误差。这个值告诉我们估计的不准确性程度。

线性回归可以对多个变量进行估计，即多元估计变量。那么需要遵守一个原则，即需要选择的独立变量X与被估计变量Y相关，并且尽量选择相互独立或者不相关的变量，但是都要跟Y相关。

哎，科学网的博客图片没办法直接复制，直接加附件上传吧。上面的公式都被错位了，大家如果需要还是直接下载附件哈。

转载本文请联系原作者获取授权，同时请注明本文来自张琳艳科学网博客。
链接地址：https://blog.sciencenet.cn/blog-477668-591063.html

上一篇：统计学笔记一
下一篇：做论文还是有很大风险的？

收藏 IP: 118.122.85.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (3 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

张琳艳

扫一扫，分享此博文

LindaChina的个人博客分享 http://blog.sciencenet.cn/u/LindaChina

博文

统计学二——检验统计推论

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (3 个评论)

张琳艳

全部作者的其他最新博文

全部精选博文导读

相关博文

LindaChina的个人博客分享 http://blog.sciencenet.cn/u/LindaChina

博文

统计学二——检验统计推论

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

张琳艳

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (3 个评论)