2017 中国工作环境研究

方法论

发布日期：2021-06-21信息来源：

当前位置：首页 | 方法论 | 2017

2017年中国工作环境研究调查的抽样与数据清理说明

字体大小选择：小中大

在“中国城镇居民工作环境调查（2017）”中，我们在国家统计局“六普”数据的基础上建立一级抽样单元（primary sampling unit，PSU）抽样框，然后，利用国家统计局所提供的已抽中的一级抽样单元的所有二级抽样单元（second sampling unit，SSU）和三级抽样单元（third sampling unit，TSU）的总人口数、16岁及以上人口和家庭户数等数据，抽取全国直辖市、地级市、县级市中居住在社区（居委会）辖区中的16岁及以上的就业人口为调查对象，并通过入户问卷调查获得的个体、家庭、组织和社区数据，以对中国城镇就业人口的工作环境进行测量、评估和分析。本抽样方案对全国城镇劳动就业人口具有代表性。

一、抽样设计

（一）目标总体

“中国城镇居民工作环境调查（2017）”的目标总体为中国大陆城镇16岁及以上的就业人口。同时，在家庭户抽样过程中，我们每户仅抽取1人，因此，本调查数据也可以通过恰当的加权处理，对中国城镇的就业家庭户具有代表性。此处，“城镇就业人口”的操作性定义为，2017年10月－2018年2月之间居住在中国大陆直辖市、地级市、县级市的社区（居委会）辖区中的16岁及以上就业人口。

（二）抽样设计

本调查采取复杂抽样设计。其中，县级行政区划（市辖区、县级市）为一级抽样单位（PSU），它是基于2010年六普数据，结合中国人民共和国民政部的最新区划信息，形成PSU抽样框数据（对于小于9个SSU单元的PSU，我们采用地理邻近的原则，合并两个PSU以让每一个主抽样单元中的SSU数大于9），按照PPS（Probability Proportional to Size, PPS，和规模等比例的概率抽样）抽取60个县市区（PSU）。

对每一个PSU，依据PPS原则，我们抽取9个社区（居委会）为二级抽样单位（SSU）。若出现无法进入、或因拆迁、区划变更等原因时，我们会重新从SSU样框中，依据相同原则补充新SSU。

对抽中的每一个SSU，我们的调查执行机构实地派出调查员制作街区地图，形成住户地址表，它是三级抽样框，我们从中按照简单无放回随机抽样（SRSWOR，Simple Random Sampling Without Replacement）原则，抽取15户作为三级抽样单位（TSU）。考虑到拒访率和非目标家庭户的存在，我们在抽样时，要求调查执行方提供每一个TSU的拒访率估值，按照：

抽中地址数=int(15/(1-拒访率)+0.5))

一次给出所有抽样地址。若成功调查数达到10户，则中止调查；若成功访问少于10户，则按照剩余应调查户数和新拒访率数据，按照上述公式，重新给出新抽中地址。

对抽中的TSU（家庭户），我们按照制订的随机数表（参见问卷），每个地址抽中一个个体作为最终抽样单元（ultimate sampling unit，USU）。若抽中个体无法接受访问，不允许户内替代，按照抽中地址表走访下一个地址。

（三）样本量

在简单随机抽样（无放回）的情形下，我们可以得到样本量估计的如下公式：

图片24.png

其中，p为样本中某一个类别在总体中出现的概率；uα为置信水平为α时所对应的分布临界值；d为样本估值和总体参数之间的差值。根据上述公式，如果我们设定估计区间置信水平α为0.05，绝对误差d为3%，那么，对于绝大多数分布的估计而言，我们仅需调查1000个左右的样本即可。

但本调查并非简单随机抽样，而是多阶段复杂抽样，所以我们还必须考虑设计效应（deff）问题。设计效应是指在同等样本规模下，采取复杂抽样所形成的样本方差和简单随机抽样所形成的样本方差之间的比值。设计效应的估计公式为：

图片25.png

其中，b为从单个抽样单元中抽取的样本数量；roh为抽样单元内的同质性。该公式表明，从单个抽样单元中抽取的样本数量越大，设计效应越大；抽样单元内的同质性越大，设计效应越大。本调查抽样方案已经尽可能增大抽样单元的数量，降低单个抽样单元内的样本数量。因此，根据本调查设计方案和以前的抽样经验，我们把本调查的设计效应设定6。因此，考虑设计效应的样本量就是1000×6＝6000。

为了获得无偏的参数估值，社会调查必须保证一定水平的应答率r:

图片26.png

从方法论上讲，是否应答把目标总体划分为两个潜在总体：调查可及和调查不可及，前者的规模是应答率*目标总体规模，后者的规模是（1-应答率）*目标总体规模。应答率越低，样本估值可推论的总体规模越小。只有在假定可及总体和不可及总体的所推论的参数上不存在统计上显著的差异时，我们才有可能在出现非应答的情形下，把调查结论推论到总体的全部成员之上。一个经验规则是，在抽样调查中，我们至少应保证50%以上的应答率（可及和不可及总体各占目标总体的一半）。考虑到调查中的无应答现象，我们需要适当放大抽取样本的规模。我们预设本调查的应答率为75%，这样，考虑到无应答现象，本调查的样本量应为6000/0.75=8000。再考虑到样本分配中的具体情况，最终确定的样本量为8100（=60*9*15），分别是60个PSU，每一个PSU下9个SSU，每一个SSU下15个TSU，每一个TSU下1个USU。

（四）抽样框与抽样流程

1. 第一阶抽样：PSU（市、区）的抽取

本调查的PSU抽样框来自2010年由国家统计局实施并发布的《第六次全国普查（分县）数据》。但考虑到2010距今已经有8年之久，为了校正人口变动的效应，我们根据六普数据中的分性别、分年龄的粗死亡率对2010年人口普查数据中的8岁及以上城镇人口进行死亡率校正，以校正后的数据作为PSU的抽样框（包括1226个PSU）， 8岁及以上城镇人口作为加权权重。根据抽样设计方案，我们从1226个PSU中，按照PPS的原则，抽取60个PSU（除新疆和西藏之外的城市中抽取）。60个PSU分布在24个省市自治区，样本数量最多的是湖北省（包含5个PSU），样本数量最少的是云南省（包含1个PSU）。

2. 第二阶抽样：SSU（社区居委会）的抽取

本调查的SSU抽样框来自2010年国家统计局《第六次全国普查数据》的原始数据，国家统计局相关部门提供了2010年SSU的户数和8岁及以上城镇人口数。我们根据抽样方案，在SSU抽样框中，按照PPS原则，在每个PSU中抽取9个社区居委会作为SSU，原则上共抽取540个社区居委会。在实际抽样过程中，由于有的社区居委会人口规模较大，我们进行了分割处理，因此，同一个社区居委会可能被重复抽中。最终的SSU抽样框中共包含529个社区居委会。

3. 第三阶抽样：TSU（家庭户）的抽取

在本调查中，家庭户包括户籍登记的家庭、集体户以及各类集体居住点。TSU样本框来自调查实施单位所绘制的地块示意图和地址表，依据地块现场制作“户样本框”。建立“户样本框”后，由课题组统一用计算机程序随机抽取出所需要调查的入户地址表。在接触调查地址的过程中，访问员不能在入户地址表之外进行调查。如果经三次接触，仍然无法进行访问的样本户，访问员需在《入户情况登记表》中的相应栏目中注明原因，然后，接触下一户。

为了能够把流动人口纳入到本调查的范围之内，本调查TSU的抽样采取“以户定人”的原则，即以居住地址为三级抽样单元，无论住户内的成员是户籍人口、常住人口还是流动人口，只要本户有就业人口，本户就是本调查的潜在访问对象。

4. 第四阶抽样：USU（被访者）的抽取

抽中的家庭户中，所有16岁及以上的家庭就业成员构成第四级样本框。在成功入户后，访问员需要借助问卷首页上的Kish表从户内成员中抽选出被访者。需要注意的是，对于集中居住点，若总人数小于等于10人，采用Kish表进行户内抽样；如果人数大于10人，按照取中原则，即在所有合适的被访者当中，抽取年龄位于中间的个体作为被访者。

如果抽中对象同意接受访问，则开始进行问卷访谈。如果抽中对象拒绝接受访问，访问员应如实在《入户情况登记表》中的“访问失败”——“受访者原因”的相应栏中标明抽中对象的性别，并记录下“失败原因”。如果抽中对象因不在家、出国、病重等原因无法接受调查时，可根据当时情况考虑是否应约访抽中对象。如不能约访，访问员也应如实在《入户情况登记表》中的相应栏中标明抽中对象的性别，并记录下“失败原因”。

无论何种原因造成访问失败，访问员都不得在户内替换抽中的被访者，而应在《入户情况登记表》中注明，然后开始下一个地址的入户工作。

二、调查的质量控制

调查质量控制的目标，是在“总体研究设计”的指导下，降低调查数据的系统误差（偏差）。基于《中国城镇居民工作环境调查（2017）》的研究设计，调查的系统误差主要可能出现在以下三个环节当中：

1) “居内抽户”环节：例如，社区地块抽样图不完整，社区抽样表填写不准确，访问员随意替换住户地址。

2) “户内抽人”环节：例如，访问员未按照Kish表程序进行户内抽样，或者Kish表填写不规范，导致样本性别、年龄等多方面出现偏误。

3) “实地访问”环节：例如，访问员在访谈时出现系统性漏问，利用跳答规则故意回避部分题组，将应“逐项提问”的问题合并提问等，引导或暗示被访者进行某种回答等。

本调查围绕以上三个环节，在调查过程中通过以下程序对数据质量进行控制。

（一）居内抽户环节

抽样员首先抵达抽中的社区或居委会，进行实地走访，考察社区居委会内的所有建筑情况，据此绘制或更新《社区地块抽样图》。在此基础上填写《地块抽样表》，列出每一幢建筑的层数、楼门数、每层每个楼门中住户数。上述建筑中的所有住户就构成了本次抽样的抽样框。抽样员必须确保图、表中住宅楼、房的编号一致。如果《地块抽样表》中显示的住户数量明显低于当地居委会的一般户数规模，应及时核对《地块抽样图》和《地块抽样表》是否完整。

在接收到《地块抽样表》资料后，甲方项目组将根据随机程序，为每个社区提供访问地址。同一住户访问3次无应答或拒访2次才可视为访问失败，并将情况如实填写在《入户情况登记表》中。对上门3次仍不能完成规定数量有效样本访问的社区，甲方项目组提供第2批访问地址。

访问员在访问过程中，必须认真填写《入户情况登记表》，不可随意更换访问地址。经核查，《地块抽样表》填写缺失超过100户者，该社区居委会的问卷将视为废卷。

访问员必须对完成访问的家庭户拍摄住址照片一套（居委会全称照、住宅楼/平房编号照、家门牌号照），照片中显示地址应与样本地址一致，缺失照片或地址错误的问卷将视为废卷。

依据上述原则和《入户情况登记表》的记录，经统计，本调查实际接触37115个住户地址。其中，成功访问的住户为8271户，占22.3%；无法接触的住户有4109，占11.1%，多为有门禁、门卫而无法进入，或者能够进入社区、但出现无人应答或合适的被访者不在家等情形；因各种原因而拒绝参加调查的住户有23044户，占62.0%；没有合适访问对象的住户占2.1%；其他各种情形（包括拆迁、审核为废卷等）为941户，占2.5%。平均而言，每个访问员走访5户，大约可以成功访问1户。

本调查的访问员总共到户58635次，每次访问在星期上的分布呈现一高一低的模式，即周末前后高、工作日中间较低，具体百分比如下：

表 1 入户访问的星期模式（单位：%）

	周一	周二	周三	周四	周五	周六	周日
入户比例	15.5	13.3	11.3	12.9	14.4	15.5	17.2

在一日之内，本调查的入户访问大多发生在白天（参见图 1），上下午各有一个高峰，上午在10点左右，下午在2-3点之间。两个住户地址之间的平均移动时间间隔为27分钟，众数是11分钟。

由调查的时点和星期特征，我们可以说，本调查访问基本上是专职访问员的灵活性工作角色行为，只是没有周末这个概念。

本调查入户的平均访问时长是40.7分钟，中位数是37分钟，最短10分钟，最长472分钟。

另外，我们还考察了拒访概率和入户时点之间的关系，并没有发现它们之间有统计上显著的相关关系。

图 1 本调查入户访问的时点特征频次图

图片27.png

（二）户内抽人环节

按照调查流程，访问员在成功入户之后首先要借助问卷首页上的Kish表从户内成员中抽取出被访者。“户内抽人”环节是保持样本随机性的重要环节，必须严格执行。调查机构在问卷完成的两天内进行一审、二审，检查问卷中Kish表抽样过程是否正确。如果有误，必须重新进行入户访问。

调查实施机构需要对调查数据分城市进行性别、年龄进行快速汇总。如果出现性别比失衡、年龄结构偏差的情况，必须进行情况核实，并向课题组上交情况说明。

访问员访问过程中，必须进行全程录音。录音中必须显示访问员正确地进行了“户内抽人”环节。录音中有造假行为的访问员，此访问员所做的所有问卷视为废卷。录音缺失“户内抽人”环节的问卷将视为废卷。

（三）入户访问环节

调查执行机构利用《访问员手册》和相应的视频材料对于访问员进行有效培训。针对“实地访问”环节，调查机构需要在问卷完成的两天内进行一审、二审，避免出现漏问、跳答误用等问题。如果出现上述错误，必须及时进行弥补。每个访问员在完成第一份样本访问后，必须及时把第一份访问的问卷电子版和录音传送给社科院督导，以便及时评估和纠正访问中存在的问题。

问卷完成后，录音审核必须覆盖每个访问员和每个居委会。如果录音显示访问时间过短，在15分钟之内完成，复核员需要对此问题进行重新复核，并对访问员进行及时指导。对于录音核查过程中发现的错误，及时反馈给调查执行机构，要求其进行弥补。

如果发现明显的录音造假行为，要求调查执行机构对该访问员负责的所有问卷重新入户。访问员必须记录被访者的电话信息，并记录于问卷首页，以便进行电话核查。

三、数据录入与数据清理

（一）数据录入

本调查采用两种调查方式，PAD模式或纸质问卷方式。最终数据中，有76.7％的数据来自PAD，这些数据在调查现场随访问进程同步录入并无线上网、上传到调查执行机构。除了调查执行机构的质量控制过程之外，我们还依据其录音文件，对记录数据进行了100％全覆盖的重听校对。同时，利用PAD的经纬度数据，对每一个调查的地理信息，和百度MAP的地理信息数据进行了比对，删除了其中明显不符的个案。

纸质问卷数据，也要求有伴随的录音和照片信息。其数据用软件EpiData Entry 3.1进行录入，所有纸质问卷数据均采取双录比对校验。此外，利用Epidata Entry中的数据录入质量控制功能，预先编制程序，令计算机系统自动检验和控制其中变量的值域错误与变量间的逻辑错误。单个变量如出现异常值，或者多个变量间逻辑关系有错误，需要查找原问卷，确认是否录入错误；如非录入错误，通过电话联系被访问者，进行核实和补救。

（二）数据清理

在数据录入之后，我们对数据进一步进行清理，主要的工作包括：

1. 数据结构核查

进行双录比对（即通过将同一份问卷交由两名不同的录入员进行录入，然后比对两份录入数据，对不一致的样本和变量查对原始问卷记录以进行错误修正，将录入中造成的数据错误降至最低）、核查个案的唯一性与完备性；问卷编号、居委会编码、地址核查：文字与编码比对；访问时间核查。另外，我们还将录入的职业名称进行统一编码，按照折晓叶、陈婴婴的研究成果，转换成职业声望，一并呈现在所发布的数据中(折晓叶 & 陈婴婴, 1995)。

2. 访问地址的GPS校验

在我们收到的8795份合格数据中，有5612份有GPS数据。我们利用百度地图的API接口，检索这些经纬度所对应的地址信息，并和数据中所记录的访问地址进行比对。结果发现，绝大多数地址在省份上相合，只有15份调查数据在省份信息不合，主要是河北、山西、重庆和河南、天津、四川相互不匹配，我们予以删除。

其余的个案在市区这个层次上均相合，但具体到小区，则出现较多的不合个案。因为本课题组是第一次使用这种方法来进行核验，并没有多少经验，我们并不清楚具体的原因，但可能出错的地方是：（1）入户后，GPS信息存在误差；（2）地址信息和GPS之间的匹配存在一些词汇上的差异，例如，四川达州，百度地图返回的信息是四川达县；（3）有些地方，入户是以纸质问卷进行，录入是以PAD进行，造成两者在社区层次上的不同。

3. Kish表的查验

根据检验程序来检查问卷是否正确使用了Kish表，若不符合，作废卷处理。在全部进行Kish表检查的8780份个案中，只有15份数据不符合Kish表的随机原则，我们把它们做无效问卷处理，予以删除。这说明，至少在记录层面上，本调查的入户选人是按照随机原则进行的。

4. 极值和分布检查

我们人工检查了每一个变量的分布，按照逆序原则（每一个变量的取值越趋向于极值，其概率也相应降低。若不符合这一趋势，即是逆序），将每一个变量逆序的极值作缺失值处理。例如，我们将100万元及以上的家庭总收入，1000套及以上的住房，1.3亿元及以上的住房价格，120个子女数，都作为缺失值处理。

5. 逻辑校验

我们考察了本问卷中65种可能的逻辑关系，逐一检查具有逻辑错误的地方，并针对每一种情形，采取恰当处理，包括废卷、合理化等。例如，没有兼职却出现兼职收入、需要照料的家庭成员数大于大家规模，家庭收入小于个人收入，全天用时超过24小时，没有子女使用幼儿园，没有子女使用哺乳室，男性使用哺乳室，男性享受女职工哺乳假，男性求职时要求生育经历，直接下属人数大于等于单位职工总人数，目前工作年份早于第一次参加工作年份，没有加班却有加班费，等等。

同时，我们还删除了入户时间在2017年10月之前试做、2018年3月之后补做的12个个案，让入户时点更集中一些。

6. 访问员作伪

本调查共使用访问员859人，其中，女性681人（占77.3%）平均年龄30.8岁，中位年龄29岁，最小年龄18岁，最大年龄68岁。从事访问员的职业年限平均为3.5年，中位数是3年，其中，专职访问员约占36.0%，学生约占17.5%。参与调查的访问员受教育程度较高，其中，初中占0.2%，高中占29.4%，大专占49.3%，本科及以上占21.1%。使用较多的访问员，一方面是入户调查的难度在最近几十年来越来越难以入户，另一方面是反映问卷内容的敏感和抽样程序的繁杂和严格。特别是，我们执行的是三重流程数据质量控制，即31家一线代理调查机构的检查、北京和重庆2家总代理的复核和课题组自己的三审，各自独立进行。

除了过程控制和访问行为的检查之外，我们还对收到的合格数据进行了数据质量实质性考察。我们采用本调查问卷中位于前、中、后三个量表，以每一个访问员为分析单元，检查了他们所完成调查数据的测量结构，以发现调查质量监控环节遗漏、但以随机填答或复制这两种已知的典型作伪方式的访问员数据。

如果这三个量表的测量结构出现下列三个特征之一，我们就将此访问员的数据列为“作伪”状态，并予以删除。这三个测量特征是：（1）三个量表之间的相关系数均不显著；（2）指标变量的方差有零值；（3）因子负荷有负号。通过这种方式，我们共删除1870份数据。

我们从调查执行机构最初获得8795份调查（包括调查机构已经标明为废卷的761份数据），经过核查和清理之后，最终保留的有效样本数为6895份。

四、权重与目标总体校准

在社会调查中，权重是确保样本和总体对应的关键，可分为两大类：抽样权重和校准权重。抽样权重是调查样本中的每一个个案入样概率的倒数，由抽样方案所决定。在方法上，计算抽样权重的思路主要有4个，即基于设计（随机化）、基于模型、模型辅助和贝叶斯(Valliant et al., 2018)。在本调查中，我们采用基于设计的抽样权重计算，以准确反映本抽样设计的特殊性；同时，我们还利用国家统计局所公布的统计数据进行校准，以弥补抽样框较为陈旧、被访者的拒访以及访问员作伪所带来的各种潜在偏差（包括构成偏差），降低样本估值的方差和偏误。这样，本调查数据共包含两个权重变量：抽样权重和校准权重。前者用来调整抽样设计当中的多阶段不等概率；后者在前者基础上，进一步进行结构性权重调整，以防止样本和总体之间的各种潜在偏差，特别是人口构成偏差。现就两者的生成过程作简要说明。

（一）抽样权重（sampling design weight）

本调查的基本抽样设计是多阶段复杂抽样。第一阶是以PPS方式抽取出60个市区；第二阶是市区内以PPS方式抽居委会；第三阶是居委会内以SRSWOR随机方式抽户；第四阶是户内用 Kish表等概率随机抽取1个被访者。

这样，在第一阶段的PPS方式抽取PSU的过程中，第i个PSU的入样概率pi等于：

图片28.png

其中，m表示个阶段的样本量，n表示各抽样单元的就业人口数或其替代变量。n.total是依据六普数据所推算出的居住在市区居委会中的16岁及以上人口数。根据抽样框可以计算出，它的取值为616432389人。m.psu是抽取的PSU数，即60个。ni.psu是第i个PSU的就业人口数，即第i个PSU的入样概率是其就业人口占总就业人口的比例，累加60次之和。

在第二阶段，我们从抽中的市区PSU当中以PPS的方式抽取9个社区SSU，在PSU抽中的前提下，第j个SSU的入样概率Pjssu|i等于：

图片29.png

其中，mj.ssu是每一个PSU应抽取的SSU数，设定为9。nj.ssu第j个SSU的劳动人口数，ni.psu是第i个PSU的劳动人口数。即每一个SSU的入样概率是以自己的劳动人口占PSU的老人口之比，累加9次之和。

在第三阶段，我们从抽中的社区SSU中随机选取家庭户TSU，但抽样框中并没有包含社区的家庭户数量，也不包含至少有一个属于劳动人口的家庭成员就业的家庭户总数，因此，在这个阶段上，我们采用无放回的简单随机抽样（SRSWOR），在SSU选中的前提下，第k个家庭户抽中的概率pktsu|j等于：

图片30.png

其中，mk.tsu是每一个社区TSU应抽取的家庭户数，设定为15；nk.tsu是该社区拥有至少一个就业人口的家庭总数。在本调查中，我们采用《地块登录表》，在访问员入户调查之前，登录该社区的所有可进入的住址，以此地址数，作为nk.tsu的替代变量。

在第四阶段，访问员将按照从《地块登录表》中玄随机抽取的地址进行走访，在接触住户的一开始，就进行遴选工作，即本地址中目前正处于就业状态的、16岁以上的家庭成员的人数。若就业人数不等于0，利用问卷卷首的随机数表，遴选合适的被访者，询问参与意向。若该被访者不愿意参与调查，则本户视为拒访户。访问员按照所列地址，走访下一户，直到征得被访者同意，可以进行访问为止。在入户地址选中的情形下，每一个个案的入样概率plusu|k:

图片31.png

其中是第k个社区中第l个住址中的就业人口数，由问卷中题器B1获得。

依据上述步骤，进入样本的每一个被访者的入样概率pmcase，就是上述四个概率的连乘，即：

图片32.png

其中，图片33.png 表示的是每一个个案的恒定入样概率，因为在第1、2阶段，我们都采用PPS抽样，因而它是自加权样本（epsem，等概率抽样和估计方法）(Kish, 1965)，第二项图片37.png 是每一个个案的变动入样概率，在第三抽样阶段，因为缺乏必要的信息，我们没有采用PPS的方式抽取住户，而是采用简单无放回抽样（SRSWOR），所以，每一个被访者的入样概率就变得不同。

另外，在抽样阶段，我们是以16岁及以上的劳动人口数作为PPS抽样的人口规模，劳动人口数和就业人口数两者高度相关，但并不相同，调节的因子是劳动就业率。换言之，在抽样阶段，我们假定了劳动就业率在各个抽样单元之间相同。

将上述公式代入相应的数值，我们得到：

图片34.png

因此，总体上，本调查数据不是一个自加权样本（epsem，等概率抽样和估计方法），每一个个案的入样概率并不相同(Kish, 1965)。即本次调查的平均入样概率约为10万分之1.3。

抽样权重wgtcase应为此入样概率pmcase的倒数，即：

图片35.png

其中，是第k个TSU中的第l个家庭的就业人口数，nk.tsu是第k个SSU（社区）中拥有至少一个就业人口的家庭总数，nj.ssu第j个SSU的劳动人口数。平均来说，本调查的每一个被访者大约代表总体中5.5万个城镇就业人口。

但在实际的调查中，由于存在各种误差（特别是拒访和作伪），本调查最后保留的有效数据并不是8100，而是6873个个案。如果校正拒访所带来的权重变化(Saerndal & Lundstrom, 2005)，上述公式的8100就必须用6873来代替，即校正拒访效应的权重wgtrsp是：

图片36.png

我们建议，当采用本调查数据进行描述性分析、回答经验性问题时，应采用此抽样权重。以它来看，本调查数据中的每一个被访者大约代表总体中的6.5个城镇就业人口。由这两个权重所带来的代表范围的变化，也正是拒访所带来的潜在效应，即降低样本对总体人口的覆盖面。拒访校正权重是在假定拒访人口和受访人口在所估计的参数上同质的基础上，将样本在人口上的覆盖面再次提高到100%。

（二）校准权重（raking weight）

在PSU和SSU的抽样过程中，我们采用了六普的推算数据作为本调查的抽样框。但本调查时点和六普普查时点已经过去了7年，期间，除了人口规模和结构发生变化之外，社会结构也发生了重大变化。

首先是城市化的步伐加快。从表2可见，村居类型中的主城区和城乡结合部分别从7.87%和3.77%，上升到10.23%和4.28%，两者合并差距为2.87%。换言之，有2.87%的行政村居从统计意义上的非城市变成城市标准，这从一个侧面反映了这8年间的中国城市化步伐。

其次是就业人口的年龄和性别变化。在城市化的过程中，农村剩余劳动力会将城市转移，但劳动力迁移的过程明显和性别和年龄关联，这已经为大量的经验研究所支持，是一个学术常识。

第三个变化是劳动力人口本身的老龄化，教育水平的不断提高、女性劳动力退出劳动力市场等结构性趋势，也对我们抽样框的构成偏差造成显著的影响。

第四个变化是中国经济的所有制属性和产业结构的变化，这会影响劳动力市场的岗位结构和人们的职业结构，因而，也会潜在地影响到我们的抽样框。

表2 全国村居统计类型的构成变化单位：%

村居类型	2010年	2018年
主城区	7.87	10.23
城乡结合区	3.77	4.28
镇中心区	5.25	7.50
镇乡结合区	9.02	9.11
特殊区域	0.94	0.91
乡中心区	3.22	2.32
村庄	69.93	65.65

数据来源：国家统计局官方网站，本课题组下载整理。

为了校正本调查数据和已知总体属性之间的构成偏差，我们依据国家统计局公布的最新统计数量，采用迭代比例法（rake）对本调查数据的权重进行了调整。在个体层次上，我们的目标总体是2017年42462万就业城镇人口，我们利用国家统计局的相关统计公报，校正了所有制、性别、教育程度、年龄组、就业身份（雇员、雇主、自营劳动者、家庭帮工）、省份6个变量。

由表3可见，在所有制类型上，本调查数据在所有制的“个体”类型上明显偏高近18%，在公司、国有企业、外资企业等类型上的比例明显偏低。拒访校正权重让比例向正确的方向变化，但效果并不大。

表3 所有制类型的样本构成、拒访校正构成和校准构成（单位：%，n=6873）

所有制类型	样本构成	拒访校正构成	校准构成	个案数
个体	39.9	36.0	22.0	2739
私营	32.7	34.7	31.4	2248
公司	9.4	10.6	19.6	647
国有	7.9	8.3	14.3	543
集体	2.8	2.7	1.0	190
外资	0.9	0.9	6.1	61
事业党政	6.5	6.8	5.7	445

注：校准数据来源，《中国人口和就业统计年鉴.2018》，表1-13就业基本情况。原表没有“事业单位、党政群团机构”，依据前面各项和总就业人口推算。

同时，在性别构成上，本调查数据也明显失衡。在没有校正的时候，本调查样本的男性被访者占比只有34.8%，拒访校正权重让这个比例更低。在国家统计局公布的数据中，男性就业者的比例明显高于女性，男性占56.1%（参见表4）。以此为参照点，在本调查中，男性被访者的参与率显著偏低。

表4 性别的样本构成、拒访校正构成和校准构成（单位：%，n=6873）

性别	样本构成	拒访校正构成	校准构成	个案数
男性	34.8	33.1	56.1	2393
女性	65.2	66.9	43.9	4480

注：校准数据来源，《中国人口和就业统计年鉴.2018》。

该年鉴并没有城镇就业人口的性别比例，我们利用表“1-20分登记注册类型城镇非私营单位就业人员年末人数”和“1-26 分登记注册类型城镇非私营单位女性就业人员年末人数”，取得非私营单位的性别比，并以此值作为私营部门的估值，这有可能高估私营部门的女性参与率。

相对于所有制和性别构成而言，本调查数据在年龄构成上的偏差相对较小。被访者的年龄在25-29岁间的被访者，高出国家统计局公布数据的11%以上。以校准数据为参照，初入职场的年轻人参与本调查的比例最高，45岁及以上的中老年被访者参与调查的概率明显偏低（参见表5）。拒访校正权重对年龄偏差的纠正几乎没有效果，这说明拒访行为没有年龄连锁效应。

表5 年龄的样本构成、拒访校正构成和校准构成（单位：%，n=6873）

年龄组	样本构成	拒访校正构成	校准构成	个案数
16-19	0.5	0.3	0.9	27
20-24	8.0	8.3	7.4	550
25-29	24.6	25.6	14.3	1692
30-34	20.2	20.2	16.4	1386
35-39	15.5	15.3	13.6	1066
40-44	12.0	11.1	15.0	822
45-49	11.2	11.1	13.7	770
50-54	5.1	4.8	10.2	348
55-59	2.0	2.3	4.2	138
60-64	0.8	0.6	2.4	53
65+	0.3	0.3	1.7	21

注：校准数据来源，《中国人口和就业统计年鉴.2018》表“3-22城镇按职业_性别分的就业人员年龄构成”。

在受教育程度上，偏差比较大的人群是初中学历，他们参与本调查的概率下降一倍多，造成他们在样本中的比例只有14.9%，远远低于国家统计局公布的比例33.7%（参见表6）；从高中学历的受访者开始，受教育水平越高，参与本调查的概率也越大。这显示出，本调查主题的公益性质，是影响人们参与调查的一个重要因素。但拒访权重对纠正受教育程度构成偏差没有多大效应，这说明，拒访权重不仅反映被访者行为，还反映访问员行为，是一个复合度量。

表6 受教育程度的样本构成、拒访校正构成和校准构成（单位：%，n=6873）

受教育程度	样本构成	拒访校正构成	校准构成	个案数
不识字	0.4	0.4	0.8	27
小学	3.0	2.7	7.9	207
初中	14.9	14.1	33.7	1022
高中、中专	29.8	29.6	26.3	2049
大专	26.9	27.1	15.7	1852
本科	22.3	23.4	14.1	1532
研究生及以上	2.7	2.5	1.5	184

注：校准数据来源，《中国人口和就业统计年鉴.2018》表“3-24城镇按职业_性别分的就业人员受教育程度构成”。原表的百分比加总为100.1%，多出的0.1%，我们在初中组扣除（该组比例最高），产生在差距在研究生及以上组找补。

有点出乎意料的是，“雇主”们对本调查的参与概率反而较高，他们在本调查数据中的比例占10.0%，在国家统计局公布的数据中，他们的比例只有3.9%。家庭帮工是国家统计局今年新增的就业身份，是指不付酬、但参加家庭企业工作的劳动者。这和我们在调查中所界定的工作（调查前两周内有付酬的劳动）不符，但前些年的就业身份当中的“其他”项，今年不见，因此表7中的“其他”项的差异，更多来自界定，而不是调查实施所带来的偏差。综合而言，在就业身份上，本调查的构成偏差较小。

表7 就业身份的样本构成、拒访校正构成和校准构成（单位：%，n=6873）

就业身份	样本构成	拒访校正构成	校准构成	个案数
雇员	72.7	75.4	73.1	4997
雇主	10.0	9.2	3.9	689
自营劳动者	17.3	15.2	20.2	1180
其他(家庭帮工)	0.1	0.1	2.8	7

注：校准数据来源，《中国人口和就业统计年鉴.2018》表“3-15城镇按受教育程度_性别分的就业人员就业身份构成”。

最后一个校准的构成是省份。需要注意的是，本调查的抽样设计仅支持对全国城镇就业人口的推论，并不支持分省以下的抽样推论。本调查数据仅含全国23个省市自治区的城市地区的被访者。但因为抽样框的原因，我们的样本并不能反映全国城市工作岗位的省份分布。但居住地和工作的地理分布并不一致。因此，我们还是有必要校准一个就业人口的分省构成。由表8可见，与国家统计局公布的数据相比，本调查在天津、辽宁、湖北、广西等省市自治区上的比例较高，在江苏、广东两个用工大省上的比例过低。拒访校正权重对省份构成的影响方向不确定，有些是反方向的，例如，河北的比例由样本的5.2%，到拒访校正后的9.3%，但在校准的数据中，河北的城镇就业人口只占全国城镇就业人口的3.0%。正方向的例子是上海，在样本中占比1.5%，拒访校正后，提升到2.4%，在校准数据中，占比3.6%。因为不同调查地点由不同调查机构实施，因此，拒访校正权重的纠偏效应和这些机构的实施质量存在关联，这是造成它在省份构成上效应方向不定的原因。

表8 省份的样本构成、拒访校正构成和校准构成（单位：%，n=6873）

省份	样本构成	拒访校正构成	校准构成	个案数
北京	3.5	4.8	4.2	241
天津	3.1	4.6	1.3	212
河北	5.2	9.3	3.0	360
山西	3.6	3.2	2.1	248
辽宁	4.9	5.3	2.9	335
吉林	1.3	1.3	2.0	87
黑龙江	2.9	3.6	2.1	198
上海	1.5	2.4	3.6	105
江苏	3.7	3.1	10.9	257
浙江	7.4	5.4	7.6	506
安徽	3.8	2.4	4.1	259
福建	1.6	1.5	4.3	110
江西	1.9	3.2	2.8	130
山东	7.6	6.1	5.8	525
河南	6.2	7.2	6.0	423
湖北	9.0	7.8	4.2	619
湖南	4.8	2.5	2.9	331
广东	4.8	4.2	14.9	332
广西	7.4	6.7	2.5	505
海南	2.0	0.7	0.7	135
重庆	5.3	7.8	3.6	362
四川	3.4	2.1	3.6	231
云南	1.3	1.5	2.2	88
陕西	4.0	3.2	2.7	274

注：校准数据来源，《中国统计年鉴2018》表“4-5按行业分城镇非私营单位就业人员数(年底数)”和表“4-7分地区按行业分工商登记注册的城镇私营企业和个体就业人数(2017年底)”。我们按照这两个表计算出分省的就业人数，然后，计算本调查所包含的23个省份的小计，然后，各省份依比例调整。

通过上述操作，在上述6个方面，本调查数据和2017年国家统计局所公布的城镇就业人口的构成一致。同时，我们希望通过校准这6个方面，能够降低本调查数据其它方面的构成偏差。下面，我们将从数据质量的视角来评估校准后的调查数据。

五、数据质量的总体评估

在总体误差的视野下，每一份调查数据都包含各种误差和偏差(Biemer et al., 2017)。尽管课题组已经花费很多的人力、财力和物力用于监控、评估和校正本调查中各种已知的偏差和误差，但不可避免的是，发布的数据中仍然有可能包含未被识别的误差和偏差。下面，我们将从内在信度、外在效度和可能的偏差三个方面来评估本调查数据的数量质量，即调查数据反映社会现实的程度度量(Biemer & Lyberg, 2003)。

（一）内在信度

一个数量的内在信度是指其每个测量的稳定性。在人口学和社会学中，我们常用迈尔斯混合指数来测量连续变量在个位上的测量信度(Shryock et al., 1976)。在这里，我们考察本调查数据中的被访者的年龄和被访者所提供的电话号码，前者是非敏感信息，后者是较敏感信息，以它们作为本调查数据的内在效度指标变量。

在本调查中，我们要求被访者留下电话或手机号，结果显示，有78.9%的被访者留下合乎格式的手机号或固话号码（极少数），它们的末位号分布如下（参见表9）：

表9 被访者手机号码的末位分布（单位：%，n=5421）

末位号	个案数	百分比
0	539	9.9
1	606	11.2
2	563	10.4
3	552	10.2
4	408	7.5
5	583	10.8
6	569	10.5
7	552	10.2
8	528	9.7
9	521	9.6

由此表可见，被访者只对一个末尾号码有明显的规避，即4，它的比例为7.5%，明显低于其他末尾号。电话号码的迈尔斯混合指数为3.0，说明，只有3.0%的电话号码需要移位，就可以让末位号服从统计学上的均匀分布。这不仅符合统计学原理，也符合我们的生活常识，从这个指标上看，调查数据基本靠谱。

在年龄的末位数上，由表10可见，0、5、8上存在一定程度的堆积。迈尔斯混合指数去估值是15.5，这说明，至少有15.5%的被访者的年龄末位数需要调整，才能让它们服从统计上的均匀分布。在课题组以往进行的调查中，年龄的迈尔斯混合指数大多在5%左右。从历史经验来看，本调查数据的记录精度相对较低，但以迈尔斯指数低于20为基准，本调查的数据质量仍然是在可以接纳的范围之内。

表10 被访者年龄的末位分布（单位：%，n=6869）

末位号	个案数	百分比
0	1201	17.5
1	330	4.8
2	672	9.8
3	485	7.1
4	474	6.9
5	1065	15.5
6	635	9.2
7	627	9.1
8	833	12.1
9	547	8.0

除此之外，我们还分析了访问员、调查方式和调查机构在量表结构、回归模型中的效应，结果发现，它们均具有统计上显著上的效应，但效应规模没有太多实质意义，特别是考虑到本调查数据具有较大的样本量。限于篇幅，我们就不报告具体结果，但提醒本调查数据的使用者，由于本调查的具体执行方式，访问员效应、调查方式效应和机构效应和地区效应混杂在一起，难以在一次截面数据中区分开来。

统而言之，在内部信度上，本调查数据质量中等偏上，基本上可用反映调查领域的基本概貌，但测量精度上还需要进一步加强。

（二）外部效度

一个调查数据的外部效度是指它的各种估值和其他权威统计数据的相合程度。在这里，我们选取的外部参照指标是中共党员人数。作为一个全世界最大的政党和中国的执政党，它的组织部门所公布的党员人数及其构成，是信度较高的外在指标，基本不会受到经济利益、政绩等行政因素的影响。更重要的是，入党的年龄标准基本上和就业的年龄相重合。除去离退休人员和从未参加工作的老年人，它基本涵盖成年就业人口。

经校准加权后，据本调查数据分析，城镇就业人口中的党员比例是11.0%。2017年，全国党员人数8944.7万人；本调查数据的估计，在城镇就业人口中，党员人数的95%置信区间是[3.07,6.30]千万人，点估计是4.69千万人，在合理的估值区间。如前所述，在校准调查数据时，我们没有使用党员这个变量，因此，它可以作为我们的外在效度指标。

在年龄上，全国30岁及以下的党员人数是1369.0万人。在城镇30岁及以下的就业人口中，我们估计的党员人数的95%置信区间是[0.95,2.41]千万人，点估计是1.68千万人，高于总体参数。考虑到农村的空心化和青年劳动力向城市的迁移，此估值区间涵盖目标总体的取值，也从一个侧面说明本调查数据基本靠谱。

在性别上，全国女性党员人数是2298.2万人。在城镇女性就业人口中，我们估计的党员人数的95%置信区间是[1.10,2.53]千万人，点估计是1.81千万人，接近总体参数。此估值区间也涵盖目标总体的取值，但上限低于总体参数，从另一个侧面说明本调查数据基本靠谱。

在受教育程度上，全国大专以上学历的党员人数是4103.1万人。在城镇大专以上学历的就业人口中，我们估计的党员人数的95%置信区间是[1.88,3.65]千万人，点估计是2.77千万人，接近总体参数。此估值区间没有涵盖目标总体的取值，但上限接近总体参数。

除了党员人数之外，我们还利用人力和社会保障部所发布的统计报告，估计了相关的指标。例如，截止到2017年11月，全国参加“城镇职工基本养老保险”人数是398474544人，本调查数据的估计，在城镇就业人口中，有2.02亿人参加了养老保险，95%置信区间是[1.53,2.51]。考虑到人社部的数据含离退休人员，而他们不在本调查的推论范围内，因此，本调查的估值基本靠谱。相似的情形也发生在医疗保险、失业保险、工伤保险、生育保险等指标上，恕不赘述。

从上述指标来看，本调查数据具有较高的外部效度。作为社会学领域、全国城镇就业环境的第一份专项调查数据，数量质量虽不完美，但还是可以作为理论研究、假设检验和政策分析的坚实基础。

（三）可能存在的偏差

如前所述，由于入户访问的困难、抽样框制作中存在的偏差、拒访、作伪等因素的共同影响，本调查数据明显向职业结构的底层倾斜，例如，女性被访者(65.2%)明显高于男性被访者(34.8%)，37.2％的被访者属于个体劳动者。

社会调查是一个在公共空间的信息收集和知识生产过程，它依赖于被访者敞开院门、楼门、房门和心门，也依赖于调查执行者的专业操守和勤勉程度。本调查数据不能覆盖社会调查无法接近的高端工作场所、保密场所、没有住址的劳动者或住址无法接近的劳动者。在一个低度信任的社会中，任何信息的披露都是一个高风险的行为。我们的调查数据是这种低度任何社会的产物，也是这种社会状态的反映，它不可避免地带着这个时代、这个社会的烙印。

参考文献：

Biemer, Paul P., & Lars Lyberg. 2003. Introduction to Survey Quality. Hoboken, NJ.: Wiley.

Biemer, Paul P., et al. 2017. Total Survey Error in Practice. Hoboken, New Jersey: Wiley.

Kish, Leslie. 1965. Survey Sampling. New York,: J. Wiley.

Saerndal, Carl-Erik, & Sixten Lundstrom. 2005. Estimation in Surveys with Nonresponse. Hoboken, NJ: Wiley.

Shryock, Henry S., Jacob S. Siegel, & Edward G. Stockwell. 1976. The Methods and Materials of Demography, Condensed. New York: Academic Press.

Valliant, Richard, Jill A. Dever, & Frauke Kreuter. 2018. Practical Tools for Designing and Weighting Survey Samples, 2nd. New York: Springer.

折晓叶, & 陈婴婴：《中国农村“职业—身分”声望研究》，《中国社会科学》1995年第6期。