hhj91的个人博客分享 http://blog.sciencenet.cn/u/hhj91

博文

儿戏乎?统计乎?——游戏中的统计思维 精选

已有 7901 次阅读 2012-8-2 14:30 |个人分类:乱弹琴|系统分类:教学心得| 统计学, 平均数

儿戏乎?统计乎?——游戏中的统计思维


统计学,从方法特征上讲,是由平均数贯穿统计研究、实践始终的一门科学。平均数,从基础功能上讲,主要是统计描述。因此,又可以把平均数分化为由平均指标、变异指标和相关系数形成的定量描述体系。

统计方法由于复杂性令人生畏,但因其重要性令人无法敬而远之,众人只能望而兴叹。事实上,复杂,只是统计方法的表象,其本质上的逻辑却是平凡的,与生活中的思考方式并无二致。

在日常生活中,我们对一个物体的定量描述包括,①物体自身特征刻画:有多重?有多大? ②该物体与其他事物的关系:和周围的物体是远还是近?

事实上,统计学人对统计研究对象的看法,也不外乎这个逻辑:平均指标有类似于质点的特征(回答有多重);变异指标有类似于物体长短、大小的特征(回答有多大);而相关系数则描述了统计对象的相对位置(角度)关系(回答是远还是近)

为了便于对统计表述逻辑的理解,以便进一步系统理解统计方法,笔者并不追求概念表述的严谨性及物理规律严密性,就以儿时吹气球、玩木棍等生活经历,尝试对统计学的思维逻辑进行直观解释。

 

一、吹气球与平均指标、变异指标

我们儿时都有吹气球的经历。一个气球,不论吹多大,特征不会变(为了便于说明,按照儿时的认识,假定吹进去的“空气”是“空”的),本质上就是原先的气球皮——由于生产规格的不同,大号气球皮能吹很大,小号气球则不行。

这一“规格”决定了气球的本质特征,我们可以从吹起来的气球“中间”找到一点代表这个气球。这种物理抽象代表和统计描述中平均指标设置的逻辑如出一辙,即从一堆复杂的事物中整理出一个有代表性的点来。

什么是“中间”?这在统计学中还颇有讲究。可以按照直观认识,把“中间”认为是气球位置的中心,统计上称之为中位数(一种位置平均数);而按照中学物理的知识,“中间”可以是气球质量的中心(质点),统计上称之为算术平均数(一种数值平均数)。如果气球皮的生产质量过硬,质地均匀,上述两种“中间”设置应该一致或偏离不大;若气球皮粗制滥造,前重后轻,左厚右薄,则上述两种“中间”设置会存在差异。

按照上述认识,顺便指出,网上流传的“张家有个一千万,邻居九个穷光蛋,平均起来算一算,个个收入过百万”顺口溜,若认为穷光蛋的收入为0,该顺口溜表述的实际上是基尼系数等于1的情形。网友正是利用这种极端情况对统计数据提出质疑和误解。事实上,收入的情况一般不会这么极端。因此,对统计指标的概念及使用环境正确理解,也有利于消除不必要的误解。

在搞清楚平均指标的概念后,如何理解变异指标呢?假设我们已经拿到一个气球皮,正准备吹气球。这时,气球的“规格”虽已定了下来,但能吹多大,还是因人而异。力气大的小孩能吹得大,反之,则吹得小。这实际上就是统计上所说的变异性指标的表述逻辑了。

怎么描述统计变异性或气球的大小呢?统计学人也有不同的观察角度。最直观的是,气球的直径有多长,这便是统计上的极差(全距)的表述逻辑;也可以用不穿过球心的弦去描述气球大小,这便是分位数差(如四分位数差)的表述逻辑。当然,还可以作出类似于算术平均数的抽象描述来,用气球内的各个点到气球中心的距离来表述气球的大小,这便是方差(标准差)的表述逻辑。

既然用平均指标对事物做了总体概括,为什么还要变异指标呢?

我们知道,气球吹小了,不好看;吹大了,会爆。这就涉及到变异指标用以衡量系统承载能力的问题。例如,金融中的风险问题,风险小了,难以取得高收益;风险大了,可能导致不可承受的巨大损失。如何使得气球吹得恰到好处呢?这便是系统优化的问题了。

 

二、玩木棍与相关系数

描述完事物自身,还需要对事物之间的关系作出说明。如果是男性朋友,儿时一定还玩过木棍,而且往往会错过吃午饭。到了中午12点,玩法一般就是在太阳底下移动木棍并看影子的长短变化。这里面,实际上隐藏了相关分析和回归分析的逻辑(1)。我们还是把主要精力集中到相关系数(线性)中来,由于回归分析属于统计推断内容,我们仅由相关系数出发稍作解释。

1 木棍、影子与相关

1显示,正午12点的太阳照在斜放的木棍上,在地面上(虚线)形成木棍的影子。木棍与影子形成的夹角实际上体现了统计上线性相关的描述逻辑。事实上,木棍代表了我们研究的一个变量(应该来说是代表随机变量实现值形成的向量),影子代表另外一个,两个变量的相关系数正是这个夹角的余弦。

这样说明还不形象,为了对相关系数作出直观解释,利用中学三角函数知识,我们对相关系数r和余弦cosθ做一下对比:

由于cosθ的取值范围在-11之间,相关系数r也有相同的取值范围。从坐标系第一象限上说,θ越接近于0°r越接近于1,即木棍整体离地面越近,正相关程度越高;在坐标轴第二象限,θ越接近于180°r越接近于-1,此时,棍子也是离地面越近,和前面的情况相比,只是方向相反罢了,则说明负相关程度越高。换而言之,当θ越接近于90°r越接近于0,相关程度越低,特别地,当cosθ=0时,木棍垂直立在地面上,它与影子的相关性顶多为一个点,此时,可以认为棍子和影子不相关,即r等于0

事实上,图1还可以引申到回归分析中来,鉴于本文目的,在此粗略说之。上述木棍、影子的长度,就是前面分析变异指标中的方差(标准差)概念。而影子是太阳在地面上的投影,正是回归分析对木棍的预测值,木棍离地面角度越小,预测越好。因此,相关的概念在回归分析中起到关键作用。

进一步地,按照中午12点的太阳直射,木棍、影子以及它们连线形成的三角形必定是直角三角形。图1中看不到的三角形另一边就是回归分析中常说的残差。由此,代表拟合优度的可决系数、F检验都可以通过勾股定理以及三角函数作出形象解释。我们不再赘述。

 

计学的理论、方法对于初学者以及部分实践工作者来讲是十分头疼的事情。然而,正确认识统计的内涵、灵活运用统计思维和正确把握统计逻辑与日益丰富与复杂的人类改造自然的社会实践活动是不可分割的。统计乎?儿戏乎?笔者尝试着用最基本的生活经历以及平常的思维逻辑对统计描述及推断作出直观描述,便于大家理解。当然,本文以偏概全,请勿见笑。



https://blog.sciencenet.cn/blog-623486-598277.html


下一篇:Matlab、R向量与矩阵操作
收藏 IP: 118.181.225.*| 热度|

3 蔡庆华 杨会杰 刘凡丰

该博文允许实名用户评论 评论 (10 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 13:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部