统计调查
冯士雍《抽样调查理论与方法》:调查就是使用明确的概念、方法和程序,以有组织、有条理的方式,从总体的部分或所有单元中收集感兴趣的指标信息,并将这些信息综合编辑成有用的简要形式的所有活动。
基本原则
- 准确性
- 及时性
- 完整性
基本形式
按调查的对象包括的范围
按调查的对象包括的范围可分为:
- 全面调查
- 非全面调查
全面调查:对调查对象总体中的全部对象进行调查。如:
- 普查(census):为特定目的而专门组织的一次性全面调查,说明现象在一定时点上的全面情况
- 需要规定统一的标准时间
- 数据的规范化程度较高
- 应用范围狭窄
- 我国在计划经济时代采用全面报表制度获得统计资料
非全面调查:只对调查对象总体中的部分对象进行调查。包括:
- 抽样调查
- 经济性好、时效性强、适应面广、准确性高
- 典型调查:根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位
- 作用:补充全面调查的不足、在一定条件下可以验证全面调查数据的真实性
- 存在主观片面性
- ……
按登记时间是否连续
按登记时间是否连续可分为:
- 经常性调查
- 一次性调查
按调查组织方式
按调查组织方式可分为:
- 统计报表:自下而上提供基础统计资料,具有法律性质
- 以全面调查为主
- 专门调查
抽样调查
抽样技术:从统计调查总体中抽取样本进行调查,获取数据,然后对总体数量特征作出推断的技术。
- 是一种非全面统计调查的技术
- 运用抽样技术进行的调查称为抽样调查
抽样调查(survey sampling)/ 样本调查(sample survey):按一定程序从所研究对象的全体(总体)中抽取一部分(样本)进行调查或观测,获取数据,并以此对总体的一定目标量(未知参数)作出推断。
- 是非全面调查中最重要、应用最广泛的一种方法
- 与一般调查不同,不只停留于搜集资料和整理资料
分类
根据样本抽取方式,抽样调查可分为:
- 非概率抽样
- 概率抽样
根本区别:样本和抽样是否遵循随机原则。即,总体中的单位是否有非零的、事先已知或可以计算的概率被抽中。
- 随机原则:在抽选样本时完全排除主观地、有意识地抽选某些调查单元,使每个单元都有一定机会被抽中
- 随机 $\neq$ 等概率:等概率抽样是一种随机抽样,但随机抽样并不限定必须是等概率抽样
- 随机 VS 随意:
- 随机:可用概率来描述,有严格的科学含义
- 随意:带有人为的或主观的因素,不是一个科学的概念
概率抽样 / 随机抽样
概率抽样(probability sampling)/ 随机抽样(random sampling):严格地按照给定的概率来抽取样本
特点:
- 按一定概率以随机原则抽取样本
- 用概率抽样抽取样本单元,需要按照给定的入样概率并通过一定的随机化程序来实现
- 当用样本来估计总体目标量时,要考虑到该样本(或每个样本单元)被抽中的概率
优点:
- 能得到总体未知目标量的可靠估计,并能估计抽样误差(因而能对总体进行推断)
缺点:
- 比较复杂,更费时费力
- 通常费用也较高
非概率抽样 / 非随机抽样
相对概率抽样而言,非概率抽样的样本的抽选不是按科学的原则进行的,而是有很大的主观性和随意性。
- 能在调查的早期就提供非常有价值的信息,常用在探索性或诊断性研究中,或用在正式调查前的试调查阶段
优点:
- 快速、便利、节省费用
缺点:
- 不能从样本对总体进行推断
- 不能根据样本计算抽样误差,因此不能从概率意义上控制误差并以此来描述估计的准确性
随意抽样
随意抽样(haphazard sampling):无目的、无意识的或仅根据方便的原则进行的抽样
例子:
- “街头拦截”调查:在马路、商场、车站等公共场所对碰巧遇到的调查对象进行调查
目的抽样
目的抽样(purposive sampling):抽样者根据调查需要,有目的、有意识地挑选所需要的样本
判断抽样 / 经验抽样
判断抽样(judgement sampling)/经验抽样:抽样者根据自身的经验和判断,选择被认为对总体有代表性的样本
- 抽样效果的好坏在很大程度上依赖于抽样者的主观判断能力和经验
志愿者抽样
志愿者抽样(volunteer sampling):被调查者都是志愿者
- 一般会导致较大的抽选偏差
例子:
- 医疗实验
- 样本由广播、电视节目参与互动的受众,或将登在报刊上的意见表寄回的读者组成
作用
抽样调查的作用:
- 对不可能进行全面观测或普查而又需要了解全面情况的客观对象,只能采用抽样。可能的情况:
- 所研究的总体是无限的
- 观测(或测试)是破坏性的
- 抽样调查适用于大规模的社会经济调查和民意测验等
- 抽样调查能较大程度地节约调查的人力、物力和财力,从而大大降低调查的费用
- 抽样调查周期短、时效性强
- 抽样调查能提高调查的质量
应用
抽样调查的主要应用有:
- 人口调查
- 经济调查
- 社会调查
- 公众和民意调查
- 卫生调查:包括公共卫生情况、预防接种覆盖情况、流行病调查等
- 环境资源调查:
- 耕地、森林、草原、能源、动物与害虫的估计
- 对大气、水质、粮食与食品污染情况的监测与调查
抽样调查 vs 普查
- 抽样调查作为普查的补充
- 抽样调查可以用来评价和修正包括普查在内的全面统计资料
- 在普查基础上进行抽样以作深层次的分析或提前获得总体某些主要目标量的估计
- 抽样调查可以用来作为普查的试点以便及时发现问题,并在展开正式普查前进行修正和补充
- 普查或其他全面调查的资料可以为抽样调查提供反映总体全部单元的抽样框
基本概念
总体
总体(population):由研究或调查对象的全体所构成的集合
- 目标总体(target population):所感兴趣的所有调查对象的集合
- 抽样总体(sampling population):实际抽样调查所覆盖的总体
- 抽样总体可能与目标总体不完全一致
- 理想状态下,目标总体与抽样总体应该完全一致
- 依据调查的结果所得到的结论仅适用于抽样总体
- 有限总体:总体中所包含的个体数目是有限的
- 无限总体:总体中所包含的个体数目是无限的
抽样单元
- 总体是由个体(individual, item)组成的
抽样单元(sampling unit):可以将总体划分成互不重叠又穷尽的有限多个部分,每个这样的部分成为抽样单元
- 每个抽样单元由一个或多个个体组成
- 抽样单元是构成抽样框的基本要素
- 抽样单元常可以分级,最小的那级抽样单元称为基本抽样单元
- 总体先分为若干个较大规模的抽样单元,称为初级(抽样)单元或一级(抽样)单元(primary sampling unit)
- 每个初级单元又可包含若干个规模较小的单元,称为次级单元或二级单元(secondary sampling unit)
- 以此类推,可定义三级单元、四级单元等等
抽样框
抽样框(sampling frame):包含所有抽样单元的名录或地图
- 名录框:一份包含所有抽样单元的名单或清册
- 区域框/地域框:一份包含所有感兴趣的区域并对其组成部分有明确分界的地图
- 抽样框实际上是抽样总体的一种表现形式,是有关所有抽样单元的一组信息
好的抽样框的特征:
- 抽样单元没有重复或遗漏
- 有关单元的信息准确
- 使用方便
- 编制或更新的费用低
样本
样本(sample):总体的一部分,由从总体中按一定程序抽得的那部分个体或抽样单元组成
- 样本是一个集合
- 入样单元:每个被抽中进入样本的单元
- 样本量(sample size):样本中包含的抽样单元数
- 抽样比(sampling fraction):样本量$n$与总体总单元数$N$的比值