方差的公式(方差的计算公式高中)

来源:对你有点帮助作者:小帮手在昨天的文章中,我们对方差分析的整体逻辑做了初步的介绍。今天我们就以单向方差分析为例,梳理一下方差分析的全过程。单向方差分析就是大

来源:对你有点帮助

方差的公式(方差的计算公式高中)插图

作者:小帮手

在昨天的文章中,我们对方差分析的整体逻辑做了初步的介绍。今天我们就以单向方差分析为例,梳理一下方差分析的全过程。

单向方差分析就是大家熟知的单向方差分析(教科书中的单向方差分析),一般也叫完全随机设计方差分析。是指通过完全随机化的方式将研究对象分配到不同的治疗组,比较不同组的疗效指标是否存在差异。

先看下面这个案例:

为了了解大骨节病与粮食中硒含量的关系,一个研究小组调查了两个大骨节病区A(威远县)和B(青州市)以及两个非大骨节病区C(泰山区)和D(长清区)。

每个病区随机抽取20户采集面粉,检测面粉中硒含量(μg/kg),试图分析这四个地区面粉中硒含量是否存在差异。具体数据如下表1所示。

表1四个地区面粉硒含量样本数据表

我们将上述数据绘制成图表(如下图,每个空小圆圈代表一个样本值)。可以直观的看到,这80个样本值(20*4)是不一样的,也就是不一样。

暂时忽略其他潜在的混淆因素。造成这种差异的原因可能是他们来自不同的地区,但由于四组内的值都是一一不同的,这种差异可能只是由于随机误差。总的来说,就是人们所说的运气。

但仔细观察,两个病房的数据似乎明显偏低,这说明地区差异可能确实造成了目前的差异。

为了验证我们的猜测,可以用方差分析来检验病区和非病区面粉中硒含量的差异是否具有统计学意义。

这里需要明确的是,我们的目标是比较这四个地区的面粉硒含量是否不同。实际上,我们比较了四个地区硒含量的总体平均值。所以,只要总体平均值不一样,我们就说四个地区的硒含量不一样。

进行方差分析,当然首先要做假设:这四组数据没有差异,注意没有差异!

在这个假设下,我们可以把这四组数据看成一个大组,也就是上面的80个数据作为一个整体。对于这一整体,我们可以计算平均值和标准差,即表1中的72.22和20.00。

但实际上这80个数据分属于四组,所以我们可以算出这四组的平均值,分别是57.11,55.58,85.62,90.55。

如果假设成立(即四组数据之间没有差异),那么四组的平均值应该会围绕整体平均值(即72.22)上下波动,它们之间的差异应该不会很大。

但是现在,我们实际得到的数据显示,组内平均最低57.11,最大90.55。直觉上,两者都离72.22不远,所以我们怀疑两者不能视为一个整体(更严格地说,不是来自同一人群),从而否定了两者相同的假设。

按照这种思路,我们得到下表(表2):

表2方差分析的一般结果

不需要细看上表所涉及的具体计算过程,只需要了解一下所谓的“偏离均方和(ss)”和“均方(MS)”计算方法。

那么对比一下我们前面讲的方差的概念和计算方法,你会不会发现,unknown so的“均方(MS)”其实可以算是一种特殊类型的“方差”!

对比下面方差的计算公式:左边是偏离平均值的平方和,右边是自由度。

首先,我们来看一下测量“组内变异”的均方(MS组内)。因为各组内部没有区域差异,所以MS组内部的大小只是反映了随机误差(也就是运气)。

但是,假设四组具有相同的总体均值,组间(MS组)的均方差只反映随机误差。

如何理解这里所说的“随机误差”?

对于同一总体的两个或多个样本之间的差异,我们可以简单地理解为随机误差。也就是说,虽然表面上看它们是不同的,但是这种不同是没有意义的,不会体现额外的信息,只是因为运气。

比如和别人掷骰子,虽然得到的点数不同,但这种不同完全是运气使然,不能说明任何其他问题。同时也不会出现一个人总赢一个人总输的情况。

但是,如果对方在骰子上不动声色地做了什么,并且知道如何掷出去获得大量的点数,这时,你的点数之差就不再仅仅是运气的问题,还有骰子的问题。

用统计学的语言来说,你的差异不仅包括随机误差,还包括其他因素。所以,下次如果你觉得自己总是输,你得看看骰子是不是有问题。

回到这个例子,由于MS组之间和MS组内都只反映随机误差的大小,所以它们携带的信息量应该没有差别(提示:方差的大小决定了数据信息量)。

所以MS组之间和MS组内在数值上差别不大,所以在MS组之间除以MS组内时,得到的F值原则上应该在1左右。

现在,如果根据我们得到的数据计算出的F值远大于1(对应的P值会很小),就说明MS群远大于MS群,也就是说MS群携带了冗余信息。因此,可以证明MS组间的差异不仅包含随机误差,还包含其他因素(如地区不同)。结合这个例子说明四个地区的面粉硒含量不一样!

以上数据用SPSS进行计算,结果见下表3。很明显,F的值大于46,远大于1(注意在正式情况下,F的值不与1相比较,这里只是为了方便理解),其对应的P值远小于0.05,从而拒绝了0的假设。差异具有统计学意义。可以认为,这四个地区硒含量的总体平均值并不都相等,也就是说,至少有两个地区的总体平均值是不同的。

表3四个地区硒含量的方差分析结果

单因素方差分析只告诉我们四个人口平均数并不都相等,但哪些不相等,哪些相等呢?这涉及到两两比较,这是我们明天的内容。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/120989.html

发表回复

登录后才能评论