2018 中国工作环境研究

方法论

发布日期：2021-06-21信息来源：

当前位置：首页 | 方法论 | 2018

2018年中国工作环境研究调查的抽样与数据清理说明

字体大小选择：小中大

在“中国城镇居民工作环境调查（2018）”中，我们在国家统计局“六普”数据的基础上建立一级抽样单元（primary sampling unit，PSU）抽样框，然后，利用国家统计局所提供的已抽中的一级抽样单元的所有二级抽样单元（second sampling unit，SSU）和三级抽样单元（third sampling unit，TSU）的总人口数、16岁及以上人口和家庭户数等数据，抽取全国直辖市、地级市、县级市中居住在社区（居委会）辖区中的16岁及以上的就业人口为调查对象，并通过入户问卷调查获得的个体、家庭、组织和社区数据，以对中国城镇就业人口的工作环境进行测量、评估和分析。本抽样方案对全国城镇劳动就业人口具有代表性。

一、抽样设计

（一）目标总体

“中国城镇居民工作环境调查（2018）”的目标总体为中国大陆城镇16岁及以上的就业人口。同时，在家庭户抽样过程中，我们每户仅抽取1人，因此，本调查数据也可以通过恰当的加权处理，对中国城镇的就业家庭户具有代表性。此处，“城镇就业人口”的操作性定义为，2018年10月－2019年2月之间居住在中国大陆直辖市、地级市、县级市的社区（居委会）辖区中的16岁及以上就业人口。

（二）抽样设计

本调查采取复杂抽样设计。其中，县级行政区划（市辖区、县级市）为一级抽样单位（PSU），它是基于2010年六普数据，结合中国人民共和国民政部的最新区划信息，形成PSU抽样框数据（对于小于9个SSU单元的PSU，我们采用地理邻近的原则，合并两个PSU以让每一个主抽样单元中的SSU数大于9），按照PPS（Probability Proportional to Size, PPS，和规模等比例的概率抽样）抽取60个县市区（PSU）。

对每一个PSU，依据PPS原则，我们抽取9个社区（居委会）为二级抽样单位（SSU）。若出现无法进入、或因拆迁、区划变更等原因时，我们会重新从SSU样框中，依据相同原则补充新SSU。

对抽中的每一个SSU，我们的调查执行机构实地派出调查员制作街区地图，形成住户地址表，它是三级抽样框，我们从中按照简单无放回随机抽样（SRSWOR，Simple Random Sampling Without Replacement）原则，抽取15户作为三级抽样单位（TSU）。考虑到拒访率和非目标家庭户的存在，我们在抽样时，要求调查执行方提供每一个TSU的拒访率估值，按照：

抽中地址数=int(15/(1-拒访率)+0.5))

一次给出所有抽样地址。若成功调查数达到10户，则中止调查；若成功访问少于10户，则按照剩余应调查户数和新拒访率数据，按照上述公式，重新给出新抽中地址。

对抽中的TSU（家庭户），我们按照制订的随机数表（参见问卷），每个地址抽中一个个体作为最终抽样单元（ultimate sampling unit，USU）。若抽中个体无法接受访问，不允许户内替代，按照抽中地址表走访下一个地址。

（三）样本量

在简单随机抽样（无放回）的情形下，我们可以得到样本量估计的如下公式：

Y0G0K~ZPP72(VBD6[AHIDO6.png

其中，p为样本中某一个类别在总体中出现的概率；uα为置信水平为α时所对应的分布临界值；d为样本估值和总体参数之间的差值。根据上述公式，如果我们设定估计区间置信水平α为0.05，绝对误差d为3%，那么，对于绝大多数分布的估计而言，我们仅需调查1000个左右的样本即可。

但本调查并非简单随机抽样，而是多阶段复杂抽样，所以我们还必须考虑设计效应（deff）问题。设计效应是指在同等样本规模下，采取复杂抽样所形成的样本方差和简单随机抽样所形成的样本方差之间的比值。设计效应的估计公式为：

VLA)U]6]@W)T_(U7_4JV_}D.png

其中，b为从单个抽样单元中抽取的样本数量；roh为抽样单元内的同质性。该公式表明，从单个抽样单元中抽取的样本数量越大，设计效应越大；抽样单元内的同质性越大，设计效应越大。本调查抽样方案已经尽可能增大抽样单元的数量，降低单个抽样单元内的样本数量。因此，根据本调查设计方案和以前的抽样经验，我们把本调查的设计效应设定6。因此，考虑设计效应的样本量就是1000×6＝6000。

为了获得无偏的参数估值，社会调查必须保证一定水平的应答率r:

`XV$(VT4VQJR$7Y~55}_81V.png

从方法论上讲，是否应答把目标总体划分为两个潜在总体：调查可及和调查不可及，前者的规模是应答率*目标总体规模，后者的规模是（1-应答率）*目标总体规模。应答率越低，样本估值可推论的总体规模越小。只有在假定可及总体和不可及总体的所推论的参数上不存在统计上显著的差异时，我们才有可能在出现非应答的情形下，把调查结论推论到总体的全部成员之上。一个经验规则是，在抽样调查中，我们至少应保证50%以上的应答率（可及和不可及总体各占目标总体的一半）。考虑到调查中的无应答现象，我们需要适当放大抽取样本的规模。我们预设本调查的应答率为75%，这样，考虑到无应答现象，本调查的样本量应为6000/0.75=8000。再考虑到样本分配中的具体情况，最终确定的样本量为8100（=60*9*15），分别是60个PSU，每一个PSU下9个SSU，每一个SSU下15个TSU，每一个TSU下1个USU。

（四）抽样框与抽样流程

1. 第一阶抽样：PSU（市、区）的抽取

本调查的PSU抽样框来自2010年由国家统计局实施并发布的《第六次全国普查（分县）数据》。但考虑到2010距今已经有8年之久，为了校正人口变动的效应，我们根据六普数据中的分性别、分年龄的粗死亡率对2010年人口普查数据中的8岁及以上城镇人口进行死亡率校正，以校正后的数据作为PSU的抽样框（包括1226个PSU），8岁及以上城镇人口作为加权权重。根据抽样设计方案，我们从1226个PSU中，按照PPS的原则，抽取60个PSU（除新疆和西藏之外的城市中抽取）。60个PSU分布在24个省市自治区，同一省市自治区内PSU数量最多有5个，分别为山东省、湖北省和广西省；最少有1个，包括上海市、云南省、吉林省、江西省、福建省和海南省。

2. 第二阶抽样：SSU（社区居委会）的抽取

本调查的SSU抽样框来自2010年国家统计局《第六次全国普查数据》的原始数据，国家统计局相关部门提供了2010年SSU的户数和18岁及以上城镇人口数。我们根据抽样方案，在SSU抽样框中，按照PPS原则，在每个PSU中抽取9个社区居委会作为SSU，原则上共抽取540个社区居委会。

3. 第三阶抽样：TSU（家庭户）的抽取

在本调查中，家庭户包括户籍登记的家庭、集体户以及各类集体居住点。TSU样本框来自调查实施单位所绘制的地块示意图和地址表，依据地块现场制作“户样本框”。建立“户样本框”后，由课题组统一用计算机程序随机抽取出所需要调查的入户地址表。在接触调查地址的过程中，访问员不能在入户地址表之外进行调查。如果经三次接触，仍然无法进行访问的样本户，访问员需在《入户情况登记表》中的相应栏目中注明原因，然后，接触下一户。

为了能够把流动人口纳入到本调查的范围之内，本调查TSU的抽样采取“以户定人”的原则，即以居住地址为三级抽样单元，无论住户内的成员是户籍人口、常住人口还是流动人口，只要本户有就业人口，本户就是本调查的潜在访问对象。

4. 第四阶抽样：USU（被访者）的抽取

抽中的家庭户中，所有16岁及以上的家庭就业成员构成第四级样本框。在成功入户后，访问员需要借助问卷首页上的Kish表从户内成员中抽选出被访者。需要注意的是，对于集中居住点，若总人数小于等于10人，采用Kish表进行户内抽样；如果人数大于10人，按照取中原则，即在所有合适的被访者当中，抽取年龄位于中间的个体作为被访者。

如果抽中对象同意接受访问，则开始进行问卷访谈。如果抽中对象拒绝接受访问，访问员应如实在《入户情况登记表》中的“访问失败”——“受访者原因”的相应栏中标明抽中对象的性别，并记录下“失败原因”。如果抽中对象因不在家、出国、病重等原因无法接受调查时，可根据当时情况考虑是否应约访抽中对象。如不能约访，访问员也应如实在《入户情况登记表》中的相应栏中标明抽中对象的性别，并记录下“失败原因”。

无论何种原因造成访问失败，访问员都不得在户内替换抽中的被访者，而应在《入户情况登记表》中注明，然后开始下一个地址的入户工作。

二、调查的质量控制

调查质量控制的目标，是在“总体研究设计”的指导下，降低调查数据的系统误差（偏差）。基于“中国城镇居民工作环境调查（2018）”的研究设计，调查的系统误差主要可能出现在以下三个环节当中：

1) “居内抽户”环节：例如，社区地块抽样图不完整，社区抽样表填写不准确，访问员随意替换住户地址。

2) “户内抽人”环节：例如，访问员未按照Kish表程序进行户内抽样，或者Kish表填写不规范，导致样本性别、年龄等多方面出现偏误。

3) “入户访问”环节：例如，访问员在访谈时出现系统性漏问，利用跳答规则故意回避部分题组，将应“逐项提问”的问题合并提问等，引导或暗示被访者进行某种回答等。

本调查围绕以上三个环节，在调查过程中通过以下程序对数据质量进行控制。

（一）居内抽户环节

抽样员首先抵达抽中的社区或居委会，进行实地走访，考察社区居委会内的所有建筑情况，据此绘制或更新《社区地块抽样图》。在此基础上填写《地块抽样表》，列出每一幢建筑的层数、楼门数、每层每个楼门中住户数。上述建筑中的所有住户就构成了本次抽样的抽样框。抽样员必须确保图、表中住宅楼、房的编号一致。如果《地块抽样表》中显示的住户数量明显低于当地居委会的一般户数规模，应及时核对《地块抽样图》和《地块抽样表》是否完整。

在接收到《地块抽样表》资料后，甲方项目组将根据随机程序，为每个社区提供访问地址。同一住户访问3次无应答或拒访2次才可视为访问失败，并将情况如实填写在《入户情况登记表》中。对上门3次仍不能完成规定数量有效样本访问的社区，甲方项目组提供第2批访问地址。

访问员在访问过程中，必须认真填写《入户情况登记表》，不可随意更换访问地址。经核查，《地块抽样表》填写缺失超过100户者，该社区居委会的问卷将视为废卷。

访问员必须对完成访问的家庭户拍摄住址照片一套（居委会全称照、住宅楼/平房编号照、家门牌号照），照片中显示地址应与样本地址一致，缺失照片或地址错误的问卷将视为废卷。

依据上述原则和《入户情况登记表》的记录，经统计，本调查实际接触27496个住户地址。其中，成功访问的住户为7218户，占26.3%；因各种原因而拒绝参加调查的住户有12531户，占45.6%；其他情形（包括家中无人、被选中者不在家、有门禁、地址有误等）为7747户，占28.2%。平均而言，每个访问员走访4户，可以成功访问1户。

（二）户内抽人环节

按照调查流程，访问员在成功入户之后首先要借助问卷首页上的Kish表从户内成员中抽取出被访者。“户内抽人”环节是保持样本随机性的重要环节，必须严格执行。调查机构在问卷完成的两天内进行一审、二审，检查问卷中Kish表抽样过程是否正确。如果有误，必须重新进行入户访问。从最终对回收样本的Kish表检测来看，只有4份数据不符合Kish表的随机原则，这说明，至少在记录层面上，本调查的入户选人是按照随机原则进行的。

调查实施机构需要对调查数据分城市进行性别、年龄进行快速汇总。如果出现性别比失衡、年龄结构偏差的情况，必须进行情况核实，并向课题组上交情况说明。

访问员访问过程中，必须进行全程录音。录音中必须显示访问员正确地进行了“户内抽人”环节。录音中有造假行为的访问员，此访问员所做的所有问卷视为废卷。录音缺失“户内抽人”环节的问卷将视为废卷。

（三）入户访问环节

调查执行机构利用《访问员手册》和相应的视频材料对于访问员进行有效培训。针对“实地访问”环节，调查机构需要在问卷完成的两天内进行一审、二审，避免出现漏问、跳答误用等问题。如果出现上述错误，必须及时进行弥补。每个访问员在完成第一份样本访问后，必须及时把第一份访问的问卷电子版和录音传送给社科院督导，以便及时评估和纠正访问中存在的问题。

问卷完成后，录音审核必须覆盖每个访问员和每个居委会。如果录音显示访问时间过短，在15分钟之内完成，复核员需要对此问题进行重新复核，并对访问员进行及时指导。对于录音核查过程中发现的错误，及时反馈给调查执行机构，要求其进行弥补。

如果发现明显的录音造假行为，要求调查执行机构对该访问员负责的所有问卷重新入户。访问员必须记录被访者的电话信息，并记录于问卷首页，以便进行电话核查。

三、数据录入与数据清理

（一）数据录入

本调查采用两种调查方式，PAD模式或纸质问卷方式。最终数据中，有88.13％的数据来自PAD，这些数据在调查现场随访问进程同步录入并无线上网、上传到调查执行机构。除了调查执行机构的质量控制过程之外，我们还依据其录音文件，对记录数据进行了100％全覆盖的重听校对，对录音中存在的受访者回答与访问员填写不一致的进行更改，共处理1094条错误。

纸质问卷数据，也要求有伴随的录音和照片信息。其数据用软件EpiData Entry 3.1进行录入，所有纸质问卷数据均采取双录比对校验。此外，利用Epidata Entry中的数据录入质量控制功能，预先编制程序，令计算机系统自动检验和控制其中变量的值域错误与变量间的逻辑错误。单个变量如出现异常值，或者多个变量间逻辑关系有错误，需要查找原问卷，确认是否录入错误；如非录入错误，通过电话联系被访问者，进行核实和补救。

（二）数据清理

在数据录入之后，我们对录入的8218条数据进一步进行清理。主要的工作包括：

1. 数据录入错误更正

我们依据录音文件，对记录数据进行了100％全覆盖的重听校对，对录音中存在的受访者回答与访问员填写不一致的进行更改，共处理1094条错误。

2. 受访者身份审核

我们根据受访者从事的职业（变量为c2a和c2b）对受访者受访者职业身份进行再次核查，剔除不符合要求的职业身份，包括家庭主妇、退休人员等，此过程共删除不合格样本17份，剩余样本8201份。另外，我们还将录入的职业名称进行统一编码，按照折晓叶、陈婴婴的研究成果，转换成职业声望，一并呈现在所发布的数据中(折晓叶 & 陈婴婴, 1995)。

3. 逻辑校验

我们考察了本问卷中50多种可能的逻辑关系，逐一检查具有逻辑错误的地方，并针对每一种情形，采取恰当处理，包括废卷、合理化等。例如，没有兼职却出现兼职收入、需要照料的家庭成员数大于大家规模，单位没有当时个人却享受的福利，单位没有当时个人却使用的沟通渠道，处于组织最底层但是有下属，家庭收入小于个人收入，单项活动超过20小时，直接下属人数大于等于单位职工总人数，目前工作年份早于第一次参加工作年份，没有加班却有加班费，等等。

4. 极值和分布检查

我们人工检查了每一个变量的分布，将每一个变量中明显偏离的数值作缺失值处理。例如，我们将在家打工人数超过20人、开始工作年份为1900年、实习期为885个月、都作为缺失值处理。

4. Kish表的查验

根据检验程序来检查问卷是否正确使用了Kish表，若不符合，作废卷处理。在全部进行Kish表检查的8201份个案中，只有4份数据不符合Kish表的随机原则，这说明，至少在记录层面上，本调查的入户选人是按照随机原则进行的。我们把不符合Kish检验的问卷做无效问卷处理，予以删除，剩余样本8197份。

5. 访问员作伪

本调查共使用访问员421人，其中，女性681人（占77.3%）平均年龄30.8岁，中位年龄29岁，最小年龄18岁，最大年龄68岁。从事访问员的职业年限平均为3.5年，中位数是3年，其中，专职访问员约占36.0%，学生约占17.5%。参与调查的访问员受教育程度较高，其中，初中占0.2%，高中占29.4%，大专占49.3%，本科及以上占21.1%。使用较多的访问员，一方面是入户调查的难度在最近几十年来越来越难以入户，另一方面是反映问卷内容的敏感和抽样程序的繁杂和严格。

为了保证数据质量，我们执行了三重流程数据质量控制，包括31家一线代理调查机构的检查、北京1家总代理的复核和课题组自己的三审，各自独立进行数据审核。审核评级后，对出现较高比例（大于90%）低质量数据的访问员的所有样本进行删除，共删除样本1038份。其次，我们还对所有样本施行电话复核，对复核结果显示为“不真实”的样本进行删除，此环节共删除340样本。

除了过程控制和电话复访外，我们还对收到的合格数据进行了数据质量实质性考察。随机填答是典型的访问员作伪方式，因此我们针对所有问卷的随机性和单份问卷题目之间的相关性分别编写了检测程序进行检测。通过这种方式，我们共删除82份数据。

总的来说，在访问员作伪的检测部分删除样本1460份，剩余有效样本数为6737份。

四、权重与目标总体校准

在社会调查中，权重是确保样本和总体对应的关键，可分为两大类：抽样权重和校准权重。抽样权重是调查样本中的每一个个案入样概率的倒数，由抽样方案所决定。在方法上，计算抽样权重的思路主要有4个，即基于设计（随机化）、基于模型、模型辅助和贝叶斯(Valliant et al., 2018)。在本调查中，我们采用基于设计的抽样权重计算，以准确反映本抽样设计的特殊性；同时，我们还利用国家统计局所公布的统计数据进行校准，以弥补抽样框较为陈旧、被访者的拒访以及访问员作伪所带来的各种潜在偏差（包括构成偏差），降低样本估值的方差和偏误。这样，本调查数据共包含两个权重变量：抽样权重和校准权重。前者用来调整抽样设计当中的多阶段不等概率；后者在前者基础上，进一步进行结构性权重调整，以防止样本和总体之间的各种潜在偏差，特别是人口构成偏差。现就两者的生成过程作简要说明。

（一）抽样权重（sampling design weight）

本调查的基本抽样设计是多阶段复杂抽样。第一阶是以PPS方式抽取出60个市区；第二阶是市区内以PPS方式抽居委会；第三阶是居委会内以SRSWOR随机方式抽户；第四阶是户内用 Kish表等概率随机抽取1个被访者。

这样，在第一阶段的PPS方式抽取PSU的过程中，第i个PSU的入样概率pi等于：

}(RX}0BVKZWX`~}B0GEM}6H.png

其中，m表示各阶段的样本量，n表示各抽样单元的就业人口数或其替代变量。n.total是依据六普数据所推算出的居住在市区居委会中的16岁及以上人口数。根据抽样框可以计算出，它的取值为616432389人。m.psu是抽取的PSU数，即60个。ni.psu是第i个PSU的就业人口数，即第i个PSU的入样概率是其就业人口占总就业人口的比例，累加60次之和。

在第二阶段，我们从抽中的市区PSU当中以PPS的方式抽取9个社区SSU，在PSU抽中的前提下，第j个SSU的入样概率Pjssu|i等于：

$7PF05[(XIM_4P0{PO7Q%Z$7.png$

其中，mj.ssu是每一个PSU应抽取的SSU数，设定为9。nj.ssu第j个SSU的劳动人口数，ni.psu是第i个PSU的劳动人口数。即每一个SSU的入样概率是以自己的劳动人口占PSU的老人口之比，累加9次之和。

在第三阶段，我们从抽中的社区SSU中随机选取家庭户TSU，但抽样框中并没有包含社区的家庭户数量，也不包含至少有一个属于劳动人口的家庭成员就业的家庭户总数，因此，在这个阶段上，我们采用无放回的简单随机抽样（SRSWOR），在SSU选中的前提下，第k个家庭户抽中的概率pktsu|j等于：

$M6%_$G{A21SEGUO{D~TZ082.png$

其中，mk.tsu是每一个社区TSU应抽取的家庭户数，设定为15；nk.tsu是该社区拥有至少一个就业人口的家庭总数。在本调查中，我们采用《地块登录表》，在访问员入户调查之前，登录该社区的所有可进入的住址，以此地址数，作为nk.tsu的替代变量。

在第四阶段，访问员将按照从《地块登录表》中玄随机抽取的地址进行走访，在接触住户的一开始，就进行遴选工作，即本地址中目前正处于就业状态的、16岁以上的家庭成员的人数。若就业人数不等于0，利用问卷卷首的随机数表，遴选合适的被访者，询问参与意向。若该被访者不愿意参与调查，则本户视为拒访户。访问员按照所列地址，走访下一户，直到征得被访者同意，可以进行访问为止。在入户地址选中的情形下，每一个个案的入样概率plusu|k:

$@GT_)%]_(~~6]{TOLMESOCO.png$

其中 Q}UGH`_1IP[3J6ZDBTH}[X4.png 是第k个社区中第l个住址中的就业人口数，由问卷中题器B1获得。

依据上述步骤，进入样本的每一个被访者的入样概率pmcase，就是上述四个概率的连乘，即：

图片1.png

其中， E8@3047H01VN]GSH$U)V3JE.png 表示的是每一个个案的恒定入样概率，因为在第1、2阶段，我们都采用PPS抽样，因而它是自加权样本（epsem，等概率抽样和估计方法）(Kish, 1965)，第二项 (5MH)SJD_0PF4Y3]$448SFS.png 是每一个个案的变动入样概率，在第三抽样阶段，因为缺乏必要的信息，我们没有采用PPS的方式抽取住户，而是采用简单无放回抽样（SRSWOR），所以，每一个被访者的入样概率就变得不同。

另外，在抽样阶段，我们是以16岁及以上的劳动人口数作为PPS抽样的人口规模，劳动人口数和就业人口数两者高度相关，但并不相同，调节的因子是劳动就业率。换言之，在抽样阶段，我们假定了劳动就业率在各个抽样单元之间相同。

将上述公式代入相应的数值，我们得到：

图片1.png

其中， Q}UGH`_1IP[3J6ZDBTH}[X4.png 是第k个TSU中的第l个家庭的就业人口数，nk.tsu是第k个SSU（社区）中拥有至少一个就业人口的家庭总数，nj.ssu第j个SSU的劳动人口数。平均来说，本调查的每一个被访者大约代表总体中7.6万个城镇就业人口。

但在实际的调查中，由于存在各种误差（特别是拒访和作伪），本调查最后保留的有效数据并不是8100，而是6702个个案。如果校正拒访所带来的权重变化(Saerndal & Lundstrom, 2005)，上述公式的8100就必须用6702来代替，即校正拒访效应的权重wgtrsp是：

图片3.png

我们建议，当采用本调查数据进行描述性分析、回答经验性问题时，应采用此抽样权重。以它来看，本调查数据中的每一个被访者大约代表总体中的9.2万个城镇就业人口。由这两个权重所带来的代表范围的变化，也正是拒访所带来的潜在效应，即降低样本对总体人口的覆盖面。拒访校正权重是在假定拒访人口和受访人口在所估计的参数上同质的基础上，将样本在人口上的覆盖面再次提高到100%。

（二）校准权重（raking weight）

在PSU和SSU的抽样过程中，我们采用了六普的推算数据作为本调查的抽样框。但本调查时点和六普普查时点已经过去了8年，期间，除了人口规模和结构发生变化之外，社会结构也发生了重大变化。

首先是城市化的步伐加快。从表2可见，村居类型中的主城区和城乡结合部分别从7.87%和3.77%，上升到10.23%和4.28%，两者合并差距为2.87%。换言之，有2.87%的行政村居从统计意义上的非城市变成城市标准，这从一个侧面反映了这8年间的中国城市化步伐。

其次是就业人口的年龄和性别变化。在城市化的过程中，农村剩余劳动力会将城市转移，但劳动力迁移的过程明显和性别和年龄关联，这已经为大量的经验研究所支持，是一个学术常识。

第三个变化是劳动力人口本身的老龄化，教育水平的不断提高、女性劳动力退出劳动力市场等结构性趋势，也对我们抽样框的构成偏差造成显著的影响。

第四个变化是中国经济的所有制属性和产业结构的变化，这会影响劳动力市场的岗位结构和人们的职业结构，因而，也会潜在地影响到我们的抽样框。

表2 全国村居统计类型的构成变化单位：%

村居类型	2010年	2018年
主城区	7.87	10.23
城乡结合区	3.77	4.28
镇中心区	5.25	7.50
镇乡结合区	9.02	9.11
特殊区域	0.94	0.91
乡中心区	3.22	2.32
村庄	69.93	65.65

数据来源：国家统计局官方网站，本课题组下载整理。

为了校正本调查数据和已知总体属性之间的构成偏差，我们依据国家统计局公布的最新统计数量，采用迭代比例法（rake）对本调查数据的权重进行了调整。在个体层次上，我们的目标总体是2018年43419万就业城镇人口，我们利用国家统计局的相关统计公报，校正了所有制、性别、教育程度、年龄组、省份5个变量。

由表3可见，在所有制类型上，占比较高的“个体”、“私营”和“国有”三类企业与校准构成的比例基本一致。本调查在“公私”和“外资”上比例明显偏低，在“集体”和“事业单位”上的比例明显偏高。拒访校正权重让比例整体向校准比例的方向变化，但效果并不大。

表3 所有制类型的样本构成、拒访校正构成和校准构成（单位：%，n=6697）

所有制类型	样本构成	拒访校正构成	校准构成	个案数
个体	28.8	29.2	24	1931
私营	36.6	35.8	32.1	2445
公私	5.1	6	19.6	344
国有	11.8	12.1	13.2	791
集体	2.7	2.5	0.8	183
外资	0.7	0.6	5.4	45
事业党政	14.3	13.8	4.8	958

注：校准数据来源，国家统计局官网。原表没有“事业单位、党政群团机构”，依据前面各项和总就业人口推算。http://data.stats.gov.cn/easyquery.htm?cn=C01。比例合计不等于100%的，通过最大比例一项进行调整。

在性别构成上（如表4所示），本调查数据与校准数据基本一致。在没有校正的时候，本调查样本的性别比例更接近校准比例。

表4 性别的样本构成、拒访校正构成和校准构成（单位：%，n=6697）

性别	样本构成	拒访校正构成	校准构成	个案数
男性	55.3	54.9	57.6	3700
女性	44.7	45.1	42.4	2997

注：校准数据来源，《中国人口和就业统计年鉴2018》。该年鉴并没有城镇就业人口的性别比例，我们利用表“1-20分登记注册类型城镇非私营单位就业人员年末人数”和“1-26 分登记注册类型城镇非私营单位女性就业人员年末人数”，取得非私营单位的性别比，并以此值作为私营部门的估值，这有可能高估私营部门的女性参与率。比例合计不等于100%的，通过最大比例一项进行调整。

本调查数据在年龄构成与校准构成的偏差总体上较小。如表5所示，被访者的年龄在25-29岁间的被访者的比例偏差最大，高出校准比例约6.8%；65岁以上的比例相对于校准数据偏差较大，但是由于该类在总体比例很低，因此该偏差的影响较小。拒访校正权重对年龄偏差的纠正总体上向校准比例靠近。

表5 年龄的样本构成、拒访校正构成和校准构成（单位：%，n=6697）

年龄组	样本构成	拒访校正构成	校准构成	个案数
16-19	0.3	0.3	0.9	17
20-24	7.2	7.5	7.4	483
25-29	21.1	20.7	14.3	1411
30-34	16.2	16.4	16.6	1087
35-39	16.6	15.6	13.6	1111
40-44	13.5	13.8	15	902
45-49	11.7	11.7	13.7	786
50-54	8.2	8.5	10.2	549
55-59	3.3	3.3	4.2	220
60-64	1.9	2.1	2.4	124
65+	0.1	0.1	1.7	7

注：校准数据来源，《中国人口和就业统计年鉴.2018》表“3-22城镇按职业_性别分的就业人员年龄构成”。比例合计不等于100%的，通过最大比例一项进行调整。

在受教育程度上，偏差比较大的人群是初中和大专学历。初中学历的人参与本调查的比例只有13.5%，远远低于国家统计局公布的比例33.7%（参见表6）；与之相反，大专学历的人参与调查的比例约是校准的比例的2倍，本科学历人数比例也相对较高。从受教育程度的比例结构可以看出，本调查的受访者的受教育程度明显偏高，受访者大部分具有高中及以上学历。

表6 受教育程度的样本构成、拒访校正构成和校准构成（单位：%，n=6697）

受教育程度	样本构成	拒访校正构成	校准构成	个案数
不识字	0.2	0.1	0.8	12
小学	1.7	1.7	7.9	111
初中	13.5	13.3	33.7	901
高中、中专	28.8	28.4	26.3	1929
大专	30.3	31.5	15.7	2031
本科	23.7	23.2	14.1	1586
研究生及以上	1.9	1.8	1.5	127

注：校准数据来源，《中国人口和就业统计年鉴.2018》表“3-24城镇按职业_性别分的就业人员受教育程度构成”。比例合计不等于100%的，通过最大比例一项进行调整。

最后一个校准的构成是省份。需要注意的是，本调查的抽样设计仅支持对全国城镇就业人口的推论，并不支持分省以下的抽样推论。本调查数据仅含全国23个省市自治区的城市地区的被访者。但因为抽样框的原因，我们的样本并不能反映全国城市工作岗位的省份分布。但居住地和工作的地理分布并不一致。因此，我们还是有必要校准一个就业人口的分省构成。由表7可见，与国家统计局公布的数据相比，本调查在广西、湖北、河北等省的比例较高，在江苏、广东两个用工大省上的比例过低。拒访校正权重对省份构成的影响方向不确定，有些是反方向的，例如，广东的比例由样本的6.2%，到拒访校正后的5.6%，但在校准的数据中，广东的城镇就业人口只占全国城镇就业人口的12.6%。正方向的例子是上海，在样本中占比1.9%，拒访校正后，提升到2.8%，在校准数据中，占比4%。因为不同调查地点由不同调查机构实施，因此，拒访校正权重的纠偏效应和这些机构的实施质量存在关联，这是造成它在省份构成上效应方向不定的原因。

表7 省份的样本构成、拒访校正构成和校准构成（单位：%，n=6697）

省份	样本构成	拒访校正构成	校准构成	个案数
上海	1.9	2.8	4	129
云南	1.3	1.5	2.7	89
北京	3.4	3.5	5.2	230
吉林	1.9	1.3	1.8	126
四川	3.9	2.2	4.9	262
天津	2.2	3.3	1.6	149
安徽	3.4	2.3	3.7	225
山东	8.0	6.6	7.1	534
山西	3.8	3.5	2.7	257
广东	6.2	5.6	12.6	412
广西	5.4	5.7	2.4	361
江苏	2.2	1.9	9.3	150
江西	1.9	3.1	2.7	125
河北	7.0	12.5	3.5	469
河南	7.8	9.3	6.1	520
浙江	7.7	5.1	6.4	516
湖北	8.0	6.5	4.1	536
湖南	3.6	1.1	3.4	240
福建	1.8	2.1	4.4	122
辽宁	5.0	5.3	3.2	333
重庆	4.5	5.9	2.5	300
陕西	4.9	3.8	3.1	331
黑龙江	4.2	5.1	2.5	281

注：校准数据来源，国家统计局。http://data.stats.gov.cn/easyquery.htm?cn=E0103我们按照这两个表计算出分省的就业人数，然后，计算本调查所包含的23个省份的小计，然后，各省份依比例调整。

通过上述操作，在上述5个方面，本调查数据和2018年国家统计局所公布的城镇就业人口的构成一致。同时，我们希望通过校准这5个方面，能够降低本调查数据其它方面的构成偏差。下面，我们将从数据质量的视角来评估校准后的调查数据。

五、数据质量的总体评估

在总体误差的视野下，每一份调查数据都包含各种误差和偏差(Biemer et al., 2017)。尽管课题组已经花费很多的人力、财力和物力用于监控、评估和校正本调查中各种已知的偏差和误差，但不可避免的是，发布的数据中仍然有可能包含未被识别的误差和偏差。下面，我们将从内在信度、外在效度和可能的偏差三个方面来评估本调查数据的数量质量，即调查数据反映社会现实的程度度量(Biemer & Lyberg, 2003)。

（一）内在信度

一个数量的内在信度是指其每个测量的稳定性。在人口学和社会学中，我们常用迈尔斯混合指数来测量连续变量在个位上的测量信度(Shryock et al., 1976)。在这里，我们考察本调查数据中的被访者的年龄和被访者所提供的电话号码，前者是非敏感信息，后者是较敏感信息，以它们作为本调查数据的内在效度指标变量。

在本调查中，我们要求被访者留下电话或手机号，有效样本中，有62.22%的被访者留下合乎格式的手机号，它们的末位号分布如下（参见表8）：

表9 被访者手机号码的末位分布（单位：%，n=4167）

末位号	个案数	百分比
0	394	9.46
1	422	10.13
2	445	10.68
3	420	10.08
4	320	7.68
5	415	9.96
6	470	11.28
7	441	10.58
8	424	10.18
9	416	9.98

由此表可见，被访者只对一个末尾号码有明显的规避，即4，它的比例为7.68%，明显低于其他末尾号。电话号码的迈尔斯混合指数为3.57，说明，只有3.57%的电话号码需要移位，就可以让末位号服从统计学上的均匀分布。这不仅符合统计学原理，也符合我们的生活常识，从这个指标上看，调查数据基本靠谱。

在年龄的末位数上，由表10可见，0、5、8上存在一定程度的堆积。迈尔斯混合指数去估值是34.31，这说明，至少有34.31%的被访者的年龄末位数需要调整，才能让它们服从统计上的均匀分布。在课题组以往进行的调查中，年龄的迈尔斯混合指数大多在5%左右。即使以迈尔斯指数低于20为基准，本调查的年龄倾向也超出了可接受范围。

表10 被访者年龄的末位分布（单位：%，n=6697）

末位号	个案数	百分比
0	1103	16.47
1	417	6.23
2	723	10.8
3	505	7.54
4	398	5.94
5	1009	15.07
6	618	9.23
7	478	7.14
8	920	13.74
9	526	7.85

总的来说，在内部信度上，本调查数据质量中等偏上，基本上可用反映调查领域的基本概貌，但测量精度上还需要进一步加强。

（二）外部效度

一个调查数据的外部效度是指它的各种估值和其他权威统计数据的相合程度。在这里，我们选取的外部参照指标是中共党员人数。作为一个全世界最大的政党和中国的执政党，它的组织部门所公布的党员人数及其构成，是信度较高的外在指标，基本不会受到经济利益、政绩等行政因素的影响。更重要的是，入党的年龄标准基本上和就业的年龄相重合。除去离退休人员和从未参加工作的老年人，它基本涵盖成年就业人口。

经校准加权后，本调查数据显示，城镇就业人口中的党员比例是8.7%，党员比例的95%置信区间是[6.94%,10.46%]，根据《2018年中国共产党党内统计公报》，除农牧渔民、学生和退休人员，城镇职工党员人数为4519.9万元，占全部城镇劳动者43419万人的10.4%，在调查所估计的党员比例的置信区间内。如前所述，在校准调查数据时，我们没有使用党员这个变量，因此，它可以作为我们的外在效度指标。

除了党员人数之外，我们还估计了“在职城镇职工基本养老保险年末参保人数”和“城镇职工基本医疗保险年末参保人数”。本调查数据估计，在城镇就业人口中，参加基本养老保人数的95%置信区间是[29308.53，34551.99]，根据国家统计局发布的数据，2018年年末，在职城镇职工基本养老保险年末参保人数为30104万人，处于置信区间内。

本调查数据估计，在城镇就业人口中，参加基本医疗保险人数的95%置信区间是[2637440, 31617.86]，根据国家统计局发布的数据，2018年末人数城镇职工基本医疗保险年末参保人数为31680.8万人，略高于执行区间上限，考虑到人社部的数据含离退休人员，而他们不在本调查的推论范围内，因此，本调查估计数基本合理。

从上述指标来看，本调查数据具有较高的外部效度。作为社会学领域、全国城镇就业环境的第一份专项调查数据，数量质量虽不完美，但还是可以作为理论研究、假设检验和政策分析的坚实基础。

（三）可能存在的偏差

社会调查是一个在公共空间的信息收集和知识生产过程，它依赖于被访者敞开院门、楼门、房门和心门，也依赖于调查执行者的专业操守和勤勉程度。本调查数据不能覆盖社会调查无法接近的高端工作场所、保密场所、没有住址的劳动者或住址无法接近的劳动者。在一个低度信任的社会中，任何信息的披露都是一个高风险的行为。我们的调查数据是这种低度任何社会的产物，也是这种社会状态的反映，它不可避免地带着这个时代、这个社会的烙印。

参考文献：

Biemer, Paul P., & Lars Lyberg. 2003. Introduction to Survey Quality. Hoboken, NJ.: Wiley.

Biemer, Paul P., et al. 2017. Total Survey Error in Practice. Hoboken, New Jersey: Wiley.

Kish, Leslie. 1965. Survey Sampling. New York,: J. Wiley.

Saerndal, Carl-Erik, & Sixten Lundstrom. 2005. Estimation in Surveys with Nonresponse. Hoboken, NJ: Wiley.

Shryock, Henry S., Jacob S. Siegel, & Edward G. Stockwell. 2004. The Methods and Materials of Demography, Condensed. New York: Academic Press.

Valliant, Richard, Jill A. Dever, & Frauke Kreuter. 2018. Practical Tools for Designing and Weighting Survey Samples, 2nd. New York: Springer.

折晓叶, & 陈婴婴：《中国农村“职业—身分”声望研究》，《中国社会科学》1995年第6期。