抽样的基本程序包括:界定总体、样本设计。
1、界定总体
界定总体包括明确总体的范围、内容和时间。实际调查的总体与理论上设定的总体会有所不同,总体越复杂,二者的差别越大。抽样总体有时不等于理论上的研究总体,样本所代表的也只是明确界定的抽样总体。
2、样本设计
样本设计包括确定样本规模和选择抽样的具体方式。抽样的目的是用样本来代表总体,自然样本数越大,其代表性越高。但样本数越大,调查研究的成本也越大。因此,确定合适的样本规模和抽样方式是抽样设计中的一项重要内容。
样本规模的确定:
确定样本量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。
(1)定性方面的考虑
其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本;探索性研究,样本量一般较小,而结论性研究如描述性的调查,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些。
(2)定量方面的考虑
有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于:
①研究对象的变化程度,即变异程度;
②要求和允许的误差大小,即精度要求;
③要求推断的置信度,一般情况下,置信度取为95%;
④总体的大小;
⑤抽样的方法。
在无放回简单随机抽样情况下,总体均值估计量的标准误差的表达式:
其中,σ是总体的标准差。如果误差界限设为e,那么:
这里Z是对应于某一置信水平的标准正态分布的分位点值。
为确定n,需要知道:期望的误差界限e;置信水平;对应的标准正态分布的分位点值 Z;总体规模 N;总体方差σ2;其中,总体方差σ2是最不容易得到的,通常需要根据过去对类似总体所做的研究作近似计算。
常用的z值:
对于90% 的置信度,对应的z值为1.64;
对于95% 的置信度,对应的z值为1.96;
对于99% 的置信度,对应的z值为2.56。
也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系。