中国健康养老追踪调查 中老年人必查项目:45 岁以上中老年人高质量微观数据
你是不是还在为撰写论文而没能够寻觅到靠得住的数据而发愁呢,中国健康与养老追踪调查,即CHARLS,说不定是你距离高质量实证探究最近的一回机遇了。这个由北京大学主导的项目,耗费了十几年的时长,走遍了全国一百五十个县,是为了弄明白中国两亿多的中老年人究竟是以怎样的方式生活、怎样迈入老年阶段的。
一个跑了十多年的国家级项目
CHARLS这一项目自2011年开始启动,截至目前已然完成了五轮面向全国的追踪调查,进行调查的年份依次是2011年、2013年、2015年、2018年,在2020年也开展了一轮调查,只是相关数据仍在持续不断地进行释放,该项目所覆盖的范围涉及全国28个省份,150个县区以及450个村居。仅仅是2018年那次追访,便获取到了1.24万户家庭以及1.9万名受访者的数据,这样的样本规模在全国同类调查当中处于较为靠前的位置。
将调查对象限定于45岁以及45岁以上的中老年人,然而实际数据当中同样涵盖了他们的配偶,无论配偶年龄究竟处于何种状况。这就表明能够同时获取老年人以及他们家庭照护者的相关信息,对于进行代际分析而言格外适宜。项目组为了确保数据质量,在每一轮调查时都会针对访员展开严格培训,现场进行体格测量以及生物样本采集,并非仅仅依靠问卷询问得出结果。
你能拿到什么类型的数据
问卷的一部分覆盖范围极为全面,基本信息涵盖其中,家庭结构也包含在内,健康状况同样有涉及,认知功能方面也有体现,抑郁量表也被纳入,医疗保健部分也存在,工作退休情况也涵盖了,养老金方面也有所涉及。尤其值得提及的是认知和抑郁模块,其所采用的是国际通用量表,如此一来你能够直接与国外的研究进行对比。知情人问卷是专门针对认知功能减退的老人而设计的,并且是由家属来填写,这种情况在老年研究领域是极为珍贵的。
被视为CHARLS一大亮点的是体格测量,其包含有各类现场采集的与受访者自身申报无关的客观指标,诸如血压、肺功能、握力、平衡能力、步速、重复站立能力以及身体测量,血检数据里涵盖了血常规和血液生化,这在2011年和2015年两轮均有涉及,2013年特别进行登记处理的死亡数据,其中包含死亡证明、死因以及死亡前健康状况,这对于从事老年死亡率研究的人员而言极为关键。
公开数据和使用限制
CHARLS获取数据的门槛是很低的,你要直接在官网去注册账号,把个人信息以及联系方式填好,审核通过之后,就能够去下载所有公开的数据,公开数据已经覆盖了2011年,2013年,2015年,2018年这四轮,还有2014年的生命历程调查,网站上是有完整的Stata代码以及数据文件的,连数据清洗都帮你做好了,直接导入就可以用。
不过,存在一些数据是得单独去申请的,举例来说,详尽的社区问卷仅仅在2011年才公开 ,后续几轮的社区数据是属于保密性质的数据。2015年往后就不再公布城市信息了 ,这是出于保护受访者隐私的缘故。2015年的医保类型在数据当中无法进行准确识别 ,从事医保相关研究工作的人员要格外留意这个限制。体检数据只公开到2015年 ,2018年的体检数据目前尚未被放出来。
数据申请具体怎么操作
进入CHARLS官网,于首页右上角寻觅到“数据用户注册”,注册页面划分成三块,登录信息、个人信息、联系信息,登录信息乃是设置用户名与密码,个人信息需填写真实姓名以及单位,联系信息涵盖邮箱和电话,填完之后进行提交,系统会发送一封激活邮件至你所填的邮箱,点击链接激活账号即可。
激活账号后,返回官网的数据列表页面,每个数据集旁均设有一个“申请数据”按钮。点击该按钮后,会弹出一份使用协议,勾选同意协议,即可直接进行下载。下载到的是压缩包,其内部包含数据文件、问卷原文、技术报告以及代码。整个流程无需审批等待,皆是自动化的。倘若要开展更深入的研究,例如获取2018年的体检数据,需在网站上专门填写保密数据使用协议,审核周期大约为一至两周。
哪些学者在用这些数据
截止到二零二四年年末,依据CHARLS发表的中文和英文论文已然超过了五千篇,在经济学领域,有着大量研究,在社会学领域,有着不少研究,在公共卫生领域,有着诸多研究。在老年医学领域,同样有着一众研究,像北京大学国家发展研究院的雷晓燕团队,借助CHARLS做过关于农村养老金针对于老年人劳动供给的影响研究;中国疾病预防控制中心的研究人员通过体检数据分析过中国老年人高血压的患病率和控制状况。
在国际范畴内,CHARLS身为“全球老龄化与成人健康研究”网络里的关键成员,该网络还涵盖了美国的HRS、英国的ELSA、韩国的KLoSA等十几个国家的类似调查,鉴于问卷设计具备高度可比性,你能够直接借助CHARLS开展跨国比较研究,而这正是诸多国际顶级期刊所乐意看到的情形。
做研究时要注意的几个细节
进行的调查时间并非整齐划一地全然集中于调查年份,举例来说,针对2011年所做的调查当中,存在着一部分受访者,其访问时间实际上是处于2012年这一时间段。在数据里面供给了具体对应的调查年份以及月份,当去做面板数据之时要依照实际访问时间进行对齐操作,可不是能够简单地按照调查轮次来处理的。专属于2013年产生的死亡数据是那一轮次所具备的特色情况,然而死亡问卷的填写时间跟常规问卷是不一样的,这种情况下就需要单独去提取。
把数据进行整合之际,务必要留意变量命名所遵循的规则。CHARLS所给出的整合之后的数据集,已然开展了跨轮次的匹配工作,然而不同年份的变量名后缀并不相同。举例来说,“hb_sys”意味着收缩压,在2011年以及2015年的命名规则存在着些许的差别。官方给出的Stata代码当中有着详尽的rename以及merge步骤,建议干脆运行一回他们的do文件,这可比你自己动手去清洗要省事许多。
看过这些之后,你是否已然萌生去官网下载数据的想法了呢,不过此事我得问询一番,即你当下之手头的进行研究所需面对的问题,真的是必须要运用这般繁杂的面板数据的么,亦或是讲常规的横截面调查实际上已然足够了呢?



