住户调查汇总数据是统计核算的结果,可以看作是宏观财务数据,与企业财务数据也具有相似之处,同样也可以采用Benford定律进行准确性评价。考虑到Benford定律在使用过程中对数据量规模有一定要求,当数据规模比较小或无法分层时,可以将不同时点、空间的数据合并进行Benford定律检验。在合并数据中,可以剔除某时点或空间的数据,根据剔除前后χ2统计量的变化来判断数据是否存在造假。当数据量比较大且可以进行分层时,也可以采用分层与Benford定律相结合的方法进行数据准确性评价,这样能够有效消除由于数据量非常大而掩盖少量问题数据的情况。由于论文发表Benford定律可以评估数据整体的准确性,但无法确定是否存在异常点数据,因此,还可以利用异常数据识别法、计量模型和统计诊断检验进行异常值评估。
对于确实存在准确性问题的汇总数据,需要找出具体原因,考虑到基础数据经过逐级审核,如果论文发表基础数据真实、可靠,汇总加权可能是造成准确性不高的主要原因,在这种情况下,需要根据实际情况进行权数的调整和控制。在抽样估计中,设定权数的功能是将样本还原到总体,具体表现在以下两个方面:一是样本单元权数之和应等于总体规模;另一个是由于抽样的随机性,可能出现样本结构与总体结构不一致的情况,出现高估或低估的情况。为了提高估计精度,此时需要通过权数调整使得样本结构与总体结构尽可能保持一致。根据抽样方案计算出来的权数称为设计权数,而仅采用设计权数很难实现上述两个功能,因此,需要对设定权数进行基于规模的调整、基于结构的调整,从而形成最终权数。在通常情况下,样本单位的设计权数就是一个样本单位代表的总体单位的数量,设计权数只是确定权数的开始,是由抽样设计所规定的每个样本单位所代表的研究总体单位数,也就是样本单位入样概率的倒数。基于规模调整的目的在于实现样本单位的权数之和等于总体规模,主要是针对特殊因素、无回答以及抽样框缺陷的调整;基于结构调整的目的是使样本结构与总体结构一致,主要包括非比例分配的调整、校准调整。最终权数w是对目标量进行估计所使用的权数,应该是设计权数wd、规模调整系数ws1、结构调整系数ws2的结合体,如式(1)所示。最终权数既能保证样本单元权数之和等于总体规模,又能使得样本结构和总体结构尽可能一致,进而提高估计的效果。
需要注意的是,尽管调整后的权数使得样本单元权数之和等于总体规模,并实现样本结构和总体结构相一致,提高了估计精度,但如果调整后的权数差异过大,则会增加估计量的方差。因此,为避免权数之间差异过大的情况出现,需要对权数进行调整和控制,对于简单抽样,保证权效应值在1.5以下;对于复杂抽样,应保证权效应值在2以下。
论文发表我国住户调查包括分省住户调查和分市县住户调查。分省住户调查样本的抽选是以省为总体,综合采用分层、多阶段、与人口规模大小成比例(PPS方法)和随机等距抽样相结合的方法抽选住宅,并对抽中住宅内的住户进行调查;分市县住户调查以市或县为抽样总体。在有分省调查样本的区县,从抽样框中剔除分省调查所抽中的调查小区,再使用相同的抽样方法补充抽取分市县调查所需要的调查小区、调查住宅和调查户。分省调查样本和分市县补充调查样本共同构成分市县调查样本。在没有分省调查样本的县,使用相同的抽样方法,直接抽取分市县调查所需要的全部调查小区、调查住宅和调查户。国家及分省层面收支数据加权估计汇总过程涉及的内容复杂,需要考虑的因素众多,按照式(1)进行相应的规模调整和结构调整,尽可能做到样本与总体结构、规模具有一致性。
住户调查数据主要包括基础数据和汇总数据,汇总数据又包括国家层面的季度、年度汇总数据,分省的季度、年度汇总数据以及分市县的年度汇总数据。由于城乡住户调查一体化实施的时间不长,可公开的基础数据非常滞后,汇总数据数量不多,所能采用的数据准确性评估方法有限。鉴于此,住户调查数据准确性的修正需要从基础数据的准确性修正和汇总数据的准确性修正两个层面着手,在数据审核过程中可以增加基础数据准确性评估环节,采用一系列合理的方法完成基础数据准确性评估,如可以采用Benford定律实现日记账数据的准确性评估等。针对问题数据,在时间允许的情况下,可以通过返单核实进行修正;另外,在技术层面和制度层面都允许的条件下着手建立住户,包括个人的行政记录,采用行政记录相关数据核验实现住户调查基础数据的修正。在此基础上合理设定权数,对于离散程度过高的权数,进行权数的控制和调整,尽可能提高估计精度。加强基础数据事前预防、事中监控、事后评估及建立在此基础上的返单核实;同时,积极依托先进的数据采集手段,减少手工录入等中间环节,可以有效提升住户调查基础数据的准确性。此外,要加强住户调查的摸底调查,及时更新调查小区住户情况,提升样本住户的代表性,科学设定汇总权数,可以有效控制数据汇总过程中的非抽样误差。
城乡住户调查一体化中数据准确性的控制和修正问题是一个难题,困难之处体现在两个方面:一是公开住户调查基础数据过于滞后,虽然有国家统计局微观数据实验室、国家统计局-清华大学数据开发中心以及国家统计局-中国人民大学数据开发中心可以获取住户调查微观数据,但目前提供的最新数据是2013年住户收支与生活状况调查微观调查数据,是一体化之初的数据,比较陈旧。二是城乡住户调查一体化实施时间不长,数据量不足。加之多数市县未公布上述年度数据,无法进行评估。关于基础数据中问题数据的处理,在通常情况下,无论是问卷调查结果和还是日记账结果,对于存在疑问的数据,如果无法返单核实就会出现问题数据,影响基础数据的准确性,最终会影响汇总数据。插补方法,特别是单一插补是实际操作过程中常用的方法,但学术界对插补方法有争议,部分学者认为插补方法有数据造假的嫌疑,因此,插补方法要审慎使用。