第三章 数据分布特征的测度
第一节
离散和程度的测度
数据分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度,因此也称为离中趋势。集中趋势的各测度值是对数据一般水平的一个概括性度量,它对一组数据的代表程度取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。而离中趋势的各测度值就是对数据离散程度所作的描述。
描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有异众比率、四分位差、方差和标准差。此外,还有极差、平均差以及测度相对离散程度的离散系数等。
<一>类数据:异众比率
异众比率( Variation ratio )又称离异比率或变差比,是指非众数组的频数占总频数的比率,计算公式为:
,式4-11
式中, Vr 为异众比率;∑ Fi 为变量值的总频数; Fm 众数组的频数。
异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数的频数组占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。异众比率主要用于测度定类数据的离散程度,当然定序数据以及定距数据和定比数据也可以计算异众比率。
<二>定序数据:四分位差
四分位差( Quartile deviation )也称为内距或四分间距( Inter-Quartile Range ),它是上四分位数与下四分位数之差,用 QD 表示,计算公式为
,式4-12
四分位差反映了中间 50 %数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。与极差(最大值与最小值之差)相比,四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。
四分位差主要用于测度定序数据的离散程度。当然,对于定距和定比数据也可以计算四分位差,但不适用于定类数据。