第三章 数据分布特征的测度
第二节
离散和程度的测度
4. 标准化值( Standard score )
有了均值和标准差之后,我们可以计算一组数据中各个数值的标准化值,设标准化值为 Z ,其计算公式为:
, 式4-28
也就是我们常用的标准化公式。在对多个具有不同量纲的指标进行处理时,常常需要对各指标数值进行标准化处理。此外,标准化值也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准化值为 -1.5 ,我们就知道该数值低于均值 1.5 倍的标准差。对于一组数据,大约有 68 %的数据在加减 1 个标准差的范围之内,有 95 %在加减 2 个标准差的范围之内,有 99 %的数据在加减 3 个标准差的范围之内。一组数据中低于或高于均值 3 倍标准差之外的数值是很少的,也就是说,在均值加减 3 个标准差的范围内几乎包含了全部数据,而在 3 个标准差之外的数据,统计上称为离群点。
<四>相对离散程度:离散系数
上面介绍的极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的均值大小有关,变量值绝对水平高,离散程度的测度值自然也就大,绝对水平小的,离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用上述离散程度的测度值直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数( Coefficient of variation )通常是就标准差来计算的,因此也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算
,式4-29,式4-30
离散系数的作用主要是用于比较不同总体或样本数据的离散程度。离散系数大的,说明数据的离散程度大;离散系数小的,说明数据的离散程度小。